WO2022129760A2 - Method for collecting data, method for using collected data, corresponding electronic device and computer program products and medium - Google Patents

Method for collecting data, method for using collected data, corresponding electronic device and computer program products and medium Download PDF

Info

Publication number
WO2022129760A2
WO2022129760A2 PCT/FR2021/052298 FR2021052298W WO2022129760A2 WO 2022129760 A2 WO2022129760 A2 WO 2022129760A2 FR 2021052298 W FR2021052298 W FR 2021052298W WO 2022129760 A2 WO2022129760 A2 WO 2022129760A2
Authority
WO
WIPO (PCT)
Prior art keywords
candidate
words
textual
electronic device
data
Prior art date
Application number
PCT/FR2021/052298
Other languages
French (fr)
Other versions
WO2022129760A3 (en
Inventor
Oumaima ALAOUI ISMAILI
Lucie AIMAR
Jean-Philippe LUCAS
Philippe Legay
Original Assignee
Orange
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orange filed Critical Orange
Publication of WO2022129760A2 publication Critical patent/WO2022129760A2/en
Publication of WO2022129760A3 publication Critical patent/WO2022129760A3/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/42Mailbox-related aspects, e.g. synchronisation of mailboxes

Definitions

  • This application relates to the field of the collection of data concerning at least one group of individuals, to constitute and/or enrich knowledge bases, as well as the exploitation of data concerning individuals in such knowledge bases. .
  • This may in particular be a large group of individuals.
  • It relates in particular to a method for collecting data and a method for exploiting collected data as well as electronic devices, computer program products and corresponding media.
  • Knowing the members of a group is an issue for the people in charge of managing this group, in particular when the size of the group grows.
  • a fine solution may consist in keeping a register of the members of the group (such as a customer file).
  • a register can for example take the form of a database gathering information on the members, such as user profiles.
  • Such registers can for example allow a statistical analysis of the group, or the implementation of collective actions on members of the group.
  • the object of the present application is to propose improvements to at least some of the disadvantages of the state of the art.
  • the present application aims to improve the situation, according to a first aspect, using a method implemented in a communication network, comprising:
  • the method comprises storing said characteristic obtained, in association with an identifier of said at least one transmitter and/or receiver.
  • the method comprises an anonymization of said contextual data.
  • said anonymization comprises a replacement in said at least one contextual datum of at least one of said identifiers of said sender and/or of said receiver of said message by an identifier of a group to which said sender and/or belongs. receiver.
  • the method comprises an association of said characteristic obtained with an identifier of said group.
  • the method includes obtaining said textual feature includes:
  • the present application relates for example to a method implemented by at least one device of a communication network, comprising: obtaining at least one descriptive wording of an electronic message; a detection of the languages of the words of said descriptive wording according to a membership of said words of said descriptive wording in at least one electronic dictionary of a plurality of candidate electronic dictionaries containing words in at least one candidate language; obtaining the canonical forms of words of said descriptive wording taking into account the languages of said words of said descriptive wording; storage in at least one memory of said device of said canonical forms obtained, in association with at least one identifier relating to a sender and/or to a receiver of said electronic message.
  • the method comprises a test for the presence, in the descriptive wording, of accent and/or lexical elements specific to one of said candidate languages.
  • the method comprises a calculation of a probability of belonging of said descriptive wording to one of said candidate languages.
  • said calculation is implemented when said presence test is unsuccessful.
  • the method includes filtering said descriptive labels.
  • the method includes anonymizing said descriptive labels.
  • the method comprises a deletion of non-informative words from said descriptive labels taking into account that said words of said labels belong to at least one dictionary of words to be deleted in at least one of said candidate languages.
  • said identifier relating to said sender and/or to said receiver of said message is an identifier of a group to which said sender and/or receiver belongs.
  • said method is implemented locally by said device.
  • the present application aims to improve the situation, according to a second aspect, using a method for exploiting data structures comprising at least one textual characteristic, said structures being stored on at least one computer storage medium accessible from an electronic device, said method comprising: • an at least partially automatic selection of at least a first of said textual characteristics taking into account an association of said first textual characteristic with a research topic on said data structures;
  • Said method can be implemented at least partially in an electronic device.
  • said sender and/or receiver is at least one user of at least one terminal of said communication network.
  • the method includes:
  • said selection comprises:
  • said selection comprises:
  • the present application relates for example to a method implemented by at least one electronic device of a communication network and comprising: obtaining data structures, said data of a structure comprising at least one textual characteristic, said data structures being stored on at least one computer storage medium accessible from said electronic device; automatic obtaining of at least a first candidate characteristic among said textual characteristics of said data structures taking into account a semantic proximity of said textual characteristics of said data structures with at least one textual characteristic sought; at least one automatic obtaining of at least one second candidate textual characteristic among said textual characteristics of said data structures taking into account a semantic proximity of said textual characteristics of said data structures with at least one of said first and/or second candidate characteristics already obtained; an automatic exploitation of said data structures, taking into account the presence in said data structures of at least a third of said first and second candidate characteristics obtained.
  • said method comprises: an automatic selection of said third candidate textual characteristic among said first and second candidate characteristics by taking into account the presence of at least one search word associated with said searched characteristic, in at least one definition obtained, from a knowledge base, for said first and/or second candidate textual characteristic.
  • said at least one textual characteristic sought is obtained from a user interface of said electronic device and/or a storage medium accessible from said electronic device.
  • said third candidate text feature is selected from among said first and second candidate features via a user interface of said electronic device.
  • said searched word is obtained from a user interface of said device and/or from a storage medium accessible from said electronic device.
  • the present application also relates to an electronic device adapted to implement at least one of the methods of the present application in any one of its embodiments.
  • the present application thus relates to an electronic device comprising at least one processor configured to:
  • the present application also relates, for example, to an electronic device comprising at least one processor configured for: obtaining at least one descriptive wording of an electronic message; a detection of the languages of the words of said descriptive wording according to a membership of said words of said descriptive wording in at least one electronic dictionary of a plurality of candidate electronic dictionaries containing words in at least one candidate language; obtaining the canonical forms of words of said descriptive wording taking into account the languages of said words of said descriptive wording;
  • the present application thus relates to an electronic device comprising at least one processor configured for an exploitation of data structures comprising at least one textual characteristic, said structures being stored on at least one computer storage medium accessible from said electronic device, said operation including:
  • the present application also relates, for example, to an electronic device comprising at least one processor configured to obtain data structures, said data of a structure comprising at least one textual characteristic, said data structures being stored on at least one medium computer storage accessible from said electronic device; automatic obtaining of at least a first candidate characteristic among said textual characteristics of said data structures taking into account a semantic proximity of said textual characteristics of said data structures with at least one textual characteristic sought; at least one automatic obtaining of at least one second candidate textual characteristic among said textual characteristics of said data structures taking into account a semantic proximity of said textual characteristics of said data structures with at least one of said first and/or second candidate characteristics already obtained; an automatic exploitation of said data structures, taking into account the presence in said data structures of at least a third of said first and second candidate characteristics obtained.
  • the present application thus relates to a computer program comprising instructions for the implementation, when the program is executed by a processor of an electronic device, of a method comprising:
  • the present application also relates, for example, to a computer program comprising instructions for the implementation, when the program is executed by a processor of an electronic device of a communication network, of a method comprising: a obtaining at least one descriptive label of an electronic message; a detection of the languages of the words of said descriptive wording according to a membership of said words of said descriptive wording in at least one electronic dictionary of a plurality of candidate electronic dictionaries containing words in at least one candidate language; obtaining the canonical forms of words of said descriptive wording taking into account the languages of said words of said descriptive wording; a storage in at least one memory of said device of said canonical forms obtained, in association with at least one identifier relating to a transmitter and/or to. a receiver of said electronic message.
  • the present application also relates to a computer program comprising instructions for the implementation, when the program is executed by a processor of an electronic device, of a method for exploiting data structures comprising at least a textual characteristic, said structures being stored on at least one computer storage medium accessible from an electronic device, the method comprising:
  • the present application relates for example to a recording medium readable by a processor of an electronic device and on which is recorded a computer program comprising instructions for the implementation, when the program is executed by the processor , of a method comprising:
  • the present application also relates, for example, to a recording medium readable by a processor of an electronic device of a communication network and on which is recorded a computer program comprising instructions for the implementation, when the program is executed by the processor, of a method comprising:
  • the present application also relates to a recording medium readable by a processor of an electronic device and on which is recorded a computer program comprising instructions for the implementation, when the program is executed by the processor, of a method for exploiting data structures comprising at least one textual characteristic, said structures being stored on at least one computer storage medium accessible from an electronic device, the method comprising:
  • the programs mentioned above may use any programming language, and be in the form of source code, object code, or intermediate code between source code and object code, such as in partially compiled form, or in n any other desirable shape.
  • the present application also relates, for example, to a recording medium readable by a processor of an electronic device and on which is recorded a computer program comprising instructions for the implementation, when the program is executed by the processor, of a method comprising: obtaining data structures, said data of a structure comprising at least one textual characteristic, said data structures being stored on at least one computer storage medium accessible from said electronic device; automatic obtaining of at least a first candidate characteristic among said textual characteristics of said data structures taking into account a semantic proximity of said textual characteristics of said data structures with at least one textual characteristic sought; at least one automatic obtaining of at least one second candidate textual characteristic among said textual characteristics of said data structures taking into account a semantic proximity of said textual characteristics of said data structures with at least one of said first and/or second candidate characteristics already obtained; an automatic exploitation of said data structures, taking into account the presence in said data structures of at least a third of said first and second candidate characteristics obtained.
  • a medium may comprise a storage means, such as a ROM, for example a CD ROM or a microelectronic circuit ROM, or even a magnetic recording means.
  • a storage means such as a ROM, for example a CD ROM or a microelectronic circuit ROM, or even a magnetic recording means.
  • Such a storage means can for example be a hard disk, a flash memory, etc.
  • an information medium can be a transmissible medium such as an electrical or optical signal, which can be conveyed via an electrical or optical cable, by radio or by other means.
  • a program according to the invention can in particular be downloaded from an Internet-type network.
  • an information medium may be an integrated circuit in which a program is incorporated, the circuit being adapted to execute or to be used in the execution of any one of the embodiments of the method which is the subject of the present application for patent.
  • FIG. 1 presents a simplified view of a system, cited by way of example, in which at least certain embodiments of the method of the present application can be implemented,
  • FIG 4 presents an overview of the data mining method of the present application, in some of its embodiments,
  • FIG 5 presents an example of a cloud of words associated with the theme
  • FIG 6 presents an example of thematic network obtained for certain embodiments of the data exploitation method of the present application
  • FIG 8 presents an example of technical skills resulting from an automatic selection for the “Bigdata” theme in certain embodiments of the data exploitation method of the present application.
  • FIG 9 presents an example of graphical restitution of an extraction in certain embodiments of the data exploitation method of the present application.
  • the present invention aims to collect data automatically (or at least partially automatically) concerning individuals of a group of individuals based on electronic exchanges by messages between and/or with these individuals.
  • This data can for example be used for example to constitute or enrich a knowledge base concerning these individuals.
  • These may be messages such as audio, video and/or textual electronic messages such as for example electronic mails (emails or “email” according to the English terminology) or instant messages (chat).
  • the digitization of exchanges between individuals indeed offers increased possibilities of at least partially automatic acquisition of information relating to these individuals, for example by means of automatic language processing techniques.
  • This information to be acquired is, for example, “properties” attached to individuals (such as information relating to the skills of these individuals).
  • the identified properties can be attributed to a single “fictitious” individual associated with the plurality of individuals or with each of the persons.
  • the group of individuals may in particular comprise a large number of individuals. It may be, for example, members of a sports federation, an association, a public or private company, and/or a community with a large number of employees, customers and/or suppliers ( or more generally interlocutors). They may also be members of an inter-project group, such as members of a collaborative communication platform such as “Slack ⁇ and/or a corporate social network.
  • the present invention is presented in more detail below in relation to embodiments, cited by way of non-limiting examples, which relate to a knowledge base of individuals of a company (for example a company considered as a Large Company (GE), with more than 5,000 employees).
  • the individuals are for example the collaborators of the company or part of a company and the properties to be acquired relate to the skills of these individuals, such as skills in a particular technical field (such as a particular programming language, networks of neurons in artificial intelligence, etc.).
  • the identification of skills within a large company is a key factor for its organization and for its challenges.
  • FIG. 1 depicts a telecommunications system 100 in which certain embodiments of the invention may be implemented.
  • the system 100 comprises one or more electronic devices, at least some of which can communicate with each other via one or more communication networks 120, possibly interconnected, such as a local network or LAN (Local Area Network, 1) and/or a wide area type network , or WAN (Wide Area Network, 2).
  • the network may include a corporate or home LAN network and/or a WAN network of the internet or cellular type, GSM - Global System for Mobile Communications, UMTS - Universal Mobile Telecommunications System, Wifi - Wireless, etc.) .
  • GSM Global System for Mobile Communications
  • UMTS Universal Mobile Telecommunications System
  • Wifi - Wireless etc.
  • the system 100 can also include several electronic devices, such as a terminal (such as a laptop computer 110, a smartphone 130, 132, 134, a tablet 136), and/or a server 140, for example an applications server, a storage device 150.
  • the system may also include management and/or network interconnection elements (not shown).
  • These electronic devices can be associated with at least one individual 160, 162, 164, 166 (for example through a user account accessible by login), some of the electronic devices 110, 130 being able to be associated with the same user 160.
  • FIG. 2 illustrates a simplified structure of an electronic device 200 of system 100, for example device 110, 130 or 140 of FIG. 1, adapted to implement the principles of the present application. According to the embodiments, it may be a server, and/or a terminal.
  • the device 200 notably comprises at least one memory M 210.
  • the device 200 can notably comprise a buffer memory, a volatile memory, for example of the RAM type (for "Random Access Memory” according to the English terminology), and/or a non-volatile memory. volatile (for example of the ROM type: (for "Read Only Memory” according to the English terminology).
  • the device 200 can also comprise a processing unit UT 220, equipped for example with at least one processor P 222, and controlled by a computer program PG 212 stored in memory M 210. On initialization, the code instructions of the computer program PG are for example loaded into a RAM memory before being executed by the processor P.
  • the device can also comprise, or be coupled to, at least one I/O input/output module 230, such as a communication module, allowing for example the device 200 to communicate with other devices of the system 100, via wired or wireless communication interfaces, and/or such as an interfacing module with a user of the device (also called more simply in this application “user interface”).
  • he may be a secondary screen of the device or a set of loudspeakers connected by wireless technology to the device.
  • a user interface can in particular be a so-called “output” user interface, suitable for rendering (or controlling a rendering) of an output element of a computer application used by the device 200, for example an application running at least partially on the device 200 or an "online” application running at least partially remotely, for example on the server 140 of the system 100.
  • English terminology on at least one user interface, in any form, for example comprising textual, audio and/or video components, or a combination of such components.
  • Examples of output user interface of the device include one or more screens, in particular at least one graphic screen (touchscreen for example), one or more loudspeakers, a connected helmet.
  • the interface of the device 200 can for example be adapted to the renderings illustrated by FIGS. 5 to 9.
  • a user interface can be a so-called “input” user interface, suitable for acquiring information from a user of the device 200. It can be in particular information intended for an application computer accessible via the device 200, for example an application running at least partially on the device 200 or an "online" application running at least partially remotely, for example on the server 140 of the system 100.
  • the input user interface of the device 200 includes a sensor, an audio and/or video acquisition means (microphone, camera (webcam) for example), a keyboard, a mouse.
  • said at least one microprocessor of device 200 can for example be adapted to:
  • said at least one microprocessor of device 200 can for example be adapted to: obtaining at least one descriptive label of an electronic message; a detection of the languages of the words of said descriptive wording according to a membership of said words of said descriptive wording in at least one electronic dictionary of a plurality of candidate electronic dictionaries containing words in at least one candidate language; obtaining the canonical forms of words of said descriptive wording taking into account the languages of said words of said descriptive wording; storage in at least one memory of said device of said canonical forms obtained, in association with at least one identifier relating to a sender and/or to a receiver of said electronic message.
  • said at least one microprocessor of device 200 can for example be adapted for use of data structures comprising at least one textual characteristic, comprising:
  • said at least one microprocessor of device 200 can for example be adapted to:
  • Some of the above input-output modules are optional and may therefore be absent from device 200 in some embodiments.
  • the present application is sometimes detailed in connection with a device communicating with at least a second device of the system 100, the method can also be implemented locally by a device, when it is used successively by several users exchanging messages asynchronous for example.
  • the method can be implemented in a distributed manner between at least two devices 110, 130, 132, 134, 136, 140 and/or 150 of the system 100.
  • module or the term “component” or “element” of the device here means a hardware element, in particular wired, or a software element, or a combination of at least one hardware element and at least one software item.
  • the method according to the invention can therefore be implemented in various ways, in particular in wired form and/or in software form.
  • Figure 3 illustrates some embodiments of the data collection method 300 of the present application.
  • the method 300 can for example be implemented by the electronic device 200 illustrated in FIG. 2.
  • the method 300 for collecting data can comprise obtaining 310 (or collecting) data from electronic messages exchanged between several individuals, using for example at least one of the electronic devices of the system 100.
  • the data (or traces) obtained from an electronic message include, for example, a date and/or time of transmission and/or reception of the message, an identifier of at least one sender and/or receiver of the message, and/or a descriptive wording of the message (such as a title, or subject, of the message in the case of an e-mail for example, or a textual content of an e-mail or instant message).
  • the descriptive wording may correspond, for example, to a textual transcription of at least part of the message (obtained for example by voice to text conversion techniques known as STT (Speech To Text) according to the English Terminology).
  • the method can also include obtaining 330 at least one textual characteristic, from the contextual data of a message.
  • Various treatments can be carried out on the data collected to obtain these characteristics.
  • the method 300 may include filtering
  • this filtering can take into account the descriptive wording of the message.
  • this filtering can be carried out at least partially automatically, by applying filtering rules, such as the deletion of data from a message, in the presence of a keyword (e.g., "personal",
  • detection 332 can take advantage of lexical differences between at least two candidate languages, such as French and English. Indeed, with the exception of the mention of entities and/or individuals (name of persons, company, etc.), an English sentence does not contain accents or certain special characters (such as é, è, ù , ô, û, ....), the opposite of a sentence in French.
  • the method can therefore comprise a test for the presence, in the descriptive wording, of accent and/or of lexical elements specific to one of the candidate languages.
  • the method can comprise a calculation of a probability of belonging of the descriptive wording to one of the candidate languages.
  • a probability can for example be defined taking into account an intersection between the words of the label and the existing words in an electronic dictionary of a candidate language.
  • the algorithm below can for example be implemented on the label (which is in this example the subject of an email) in connection with a FR dictionary in French language and with an EN dictionary in French English language.
  • fr_special_characters ["à”,”â”,”ç”,”é”,”é”,”è”,” ⁇ ",”ê”,”ù”,”ô",....]
  • intersection_elt fr_caracteres_speciaux ⁇ the alphabets constituting the object
  • fr element the list of words constituting the object ⁇ list of words constituting the dictionary
  • fr en element the list of words constituting the object ⁇ list words making up the dictionary en If the size of fr element > en element then Return fr End of algorithm
  • the embodiment detailed above also offers the advantage of being able to be implemented locally without access to.
  • Internet hors-ligne - or "offline" according to the English terminology.
  • it can be adapted, at least in certain embodiments, to use of data stored in a secure environment without Internet access.
  • the table below represents the correct classification rate obtained, by several algorithms, including the algorithm presented above, during a classification test, according to their language, of data from a test database containing 109 sentences (long and short).
  • the algorithm presented above is the most efficient algorithm, compared to the other algorithms tested, and is 99% successful in assigning the correct language to each sentence.
  • the detection 332 can allow detection of the presence, in a wording classified as relating to a first language, of words of a second language. Indeed, an email title in French may for example contain technical words in English such as "data”, “machine learning”).
  • the method can include obtaining or verifying the language used in at least one descriptive wording via a user interface (such as the user interface of the device 200 for example).
  • the data collection method of the present application may also comprise a step 333 of lemmatizing at least part of the descriptive wording, for example certain words or set of words of the wording.
  • a lemmatization designates a lexical treatment given to a word in such a way as to associate it with its canonical neutral form, and to thus be able to group the words of the same family in the same canonical form, For example, a lemmatization makes it possible to group together verbs, nouns, and/or adjectives associated with the same canonical form (ior lemrne) in a common coding.
  • lemmatization methods can be implemented.
  • different lemmatization methods can be used depending on the language used, For example, in certain embodiments, the “treetagger” lemmatization method can be used for a label (or part of a label) in French and while the “nltk” lemmatization method can be used for English. According to another example, it can be used, for the English language for example, a lemmatization method based on the “nltk” method but making certain modifications thereto.
  • a lemmatization method based on the “nltk” method but integrating a syntactic function (verb, noun, etc.), such as that used by the treetagger method, can be used.
  • Such integration can indeed allow, in certain embodiments, a better identification of the syntax of a word than with the “nltk” method, thus resulting with more probability in obtaining the canonical form of the word.
  • the lemmatizer of “nltk” cannot consider “saw” as the verb “to see” in the past tense and therefore it remains unchanged ).
  • the integration of a syntactic function can make it possible, in certain embodiments, to obtain better performance than with the “nltk” method alone.
  • a first lemmatization can be applied to the parts of the label in the first language of the label, a second lemmatization different from the first lemmatization being applied to the words in the second language.
  • a lemmatizer adapted to French could transform these English technical words into “dater” and “machine learning” respectively , which would not make sense.
  • the wording after the lemmatization(s) step, the wording only contains verbs, nouns, adjectives and lexical connectors (such as adverbs).
  • the method of the present application may also comprise, in certain embodiments, a step 334 of deleting non-informative words (“stop words” according to English terminology), such as lexical connectors (such as “before”, “for “, “on”, “the”, etc.).
  • the detection of these non-informative words to be deleted can for example implement a comparison of the words of the label with those of at least one list (or dictionary) grouping non-informative words in at least one of the candidate languages.
  • the method can implement a consultation of at least one list corresponding to the language(s) detected in the label from among at least a plurality of lists, each being specific to one of the languages candidates.
  • the data collection method may include a detection 335 of compound words, which should be processed together (and not separately). These may include compound words related to the field of application concerned and/or the resources (quality, skills) sought (such as “machine learning”, “artificial intelligence”, Edge computing, UX design in the field telecommunications or “grand cru” in the wine sector).
  • the detection 335 of compound words can for example take into account a number of occurrences of a succession of at least a first and a second word in a plurality of labels and a comparison of this number of occurrences "in association", with the number of occurrences of these same words (first word, second word, etc.) taken separately.
  • the detection 335 of compound words can use a model such as “Phrases” from the Gensim library of Python to detect compound words in the set of labels of the messages obtained.
  • the obtaining step 330 thus results in labels containing only verbs, nouns and/or adjectives (words or groups of words such as compound words). These terms (or characteristics) relate to the senders and/or receivers of the messages (indeed, a topic addressed in an exchange can involve both the sender and the receiver of the message).
  • the method can also comprise a step 340 for storing the characteristic(s) obtained.
  • the characteristics can enrich a knowledge base comprising at least some of the senders and/or receivers of the messages.
  • these characteristics can be associated with sender or to the receiver of the message (for example, they can be added to his personal data, so as to enrich his "profile"), or alternatively to at least one terminal of the sender or receiver of the message.
  • these characteristics can be associated with an entity of several individuals to which the sender or receiver of the message belongs (or as a variant an entity of several terminals of which at least one belongs to the sender or of the receiver of the message), for example a substitution entity identified, during an anonymization 321 of an identifier of the sender and/or of the receiver of the message as explained below.
  • At least certain stored characteristics can be used subsequently by the exploitation method 400 described below in connection with FIG. 4, in certain of its embodiments.
  • the data collection method may include a step 320 of anonymizing the data obtained during step 310.
  • This step may be optional or systematic depending on the embodiments, for example depending on the data collected , and/or securing the equipment or network through which the collected data will pass, and/or depending on the regulations in force in a country in which the process for collecting this application is implemented and/or another internal regulation of a company implementing the process for collecting this request (in application, for example, of the General Data Protection Regulation (RGPD) (or GDPR, from the English "General Data Protection Regulation ”) of the European Union).
  • RGPD General Data Protection Regulation
  • the anonymization 320 may comprise a substitution 321, in the data obtained from a message, of the identifier of the sender and/or of the receiver of the message by another identifier, for example a relative identifier to an entity (hereinafter referred to as a substitute entity) to which belongs (is attached) to the at least one sender and/or receiver of the message (or as a variant a terminal of this sender and/or this receiver).
  • a substitute entity an entity
  • It may thus be an identifier such as an alphanumeric reference or a visual acronym (logo, particular color, etc.) relating to an entity such as a sports team and/or a hierarchical or functional entity at the within a company.
  • the substitution entity can be chosen (or selected) taking into account various criteria, such as a number of individuals (or terminals) belonging to the substitution entity, and/or that a proximity (logical, functional and/or geographic) between a substitute entity and the sender or receiver of the message concerned.
  • the substitution entity can be the hierarchical entity, the closest to the individual to which belongs a number of employees greater than a certain value (for example a number of employees at least equal to 1 , 5, 10 or 15 employees).
  • a criterion relating to a minimum size of a surrogate entity can indeed limit the risks of identification of an individual in the surrogate entity.
  • This minimum size and therefore the degree of precision desired during a subsequent analysis of the data, can vary according to the embodiments. In particular, it may depend on the potential number of message senders and/or receivers, regulatory constraints (linked to the GDPR for example) and/or the sensitive nature of a theme that may be associated with it (see below). -after), For example, a larger minimum size can be chosen for embodiments in the medical field than in the sports field.
  • the anonymization 320 may comprise an anonymization 322 of the descriptive wording, in order to remove, where appropriate from a wording, at least one indication that can help identify at least one sender and/or at least one at least one receiver of the message whose data is collected or other individuals or entities implied by the data collected (for example to remove the name and/or first name of at least one person or entity named in a textual data).
  • the anonymization 321 of at least one of the identifiers and/or the at least partial anonymization 322 of the wording can be carried out before, during or the obtaining and/or the storage of the characteristic.
  • the anonymization 321 of the identifier can be performed in parallel with the obtaining 330 of at least one characteristic from the wording.
  • the anonymization 322 of the label if it is carried out before the detection of the language of the label can offer the advantage of potentially deleting certain words (such as names of persons or entities) whose presence in a label could disturb the detection the language of the label (such as a first name with accent in an English label).
  • a method 300 for collecting data relating to a group of individuals has been detailed above, in order to obtain characteristics intended to be stored for subsequent use in relation to a group of individuals or entities comprising these individuals (for example to enrich a knowledge base of a group of individuals or of entities comprising these individuals).
  • a method 400 for exploiting (or using) data relating to a group of individuals, and in particular textual characteristics of a group of individuals, or of entities comprising these individuals, is now detailed.
  • the group of individuals can correspond for example to the employees of a company, or of a part of a company.
  • at least some of the characteristics of at least one of the individuals or entities used by the exploitation method 400 may have been obtained by the collection method 300 described above and/or in a different way.
  • characteristics relating to at least one individual may have been entered via a user interface (for example, in a group of employees of a company, during hiring or following collective training).
  • the collection method and the exploitation method can be implemented independently, or jointly.
  • the method 400 of data exploitation of the present application may comprise an extraction 440 of data relating to a group of individuals (for example senders and/or receivers of electronic messages), according to at least some of the characteristics (from, for example, the wordings of the messages) associated with these individuals or entities, for example according to a particular characteristic or a plurality of particular characteristics, associated with a "theme" targeted for data exploitation.
  • a thematic can correspond to a technical field (for example quite general) of the company for which one wishes to identify skills available to the company, and/or for which one wishes to locate, within the hierarchical and/or functional organization of the company, employees with skills related to this technical field.
  • a plurality of themes related to the technical fields of the company can be identified (For example: Artificial intelligence, 5G, banking, insurance, .. ,.).
  • Each theme can be associated with one or more words or sets of words characterizing it (and hereinafter called “characteristics”).
  • Characteristics For example, to an “Artificial Intelligence” theme, the characteristic words “machine learning” and “neural networks” can be associated.
  • a thematic and/or associated characteristics can be obtained 410 in various ways depending on the embodiments. For example, they can be obtained at least partially via a communication interface or a user interface of the device 200 of FIG. 2, and/or from a storage means accessible from the device 200 (for example from one or more configuration file(s), which can be local to the device or remote).
  • obtaining 410 a theme and associated characteristics can for example comprise obtaining 411 a theme and/or first skills associated with this theme via a user interface, and be followed by automatically obtaining second characteristics associated with this theme.
  • the method can comprise an at least partially automatic obtaining 412 (determination) of a cloud of words (or semantic field) characterizing the topic obtained.
  • a cloud of words can be obtained by calculating, or estimating, proximity relations between words from at least one electronic glossary with characteristics already associated with the topic (such as the first characteristics obtained at step 411) .
  • words that are semantically close to the characteristics already associated with a topic can in turn be associated with the topic, and subsequently used for proximity calculations with other words of the glossary.
  • the glossary can be dedicated to the group considered and include and/or correspond, in certain embodiments, to all the textual characteristics of all the individuals or entities of the group considered.
  • the glossary can include all of the verbs, nouns and/or adjectives obtained following step 330 from the labels of the messages exchanged. These words (or characteristics) are indeed likely to translate the interests, or work subjects of the senders/receivers of the messages and therefore to correspond, at least for some, to the skills of these senders/receivers.
  • the glossary can for example contain terms specific to the group of individuals concerned (for example terms linked to a context particular to the group considered), Such an embodiment can indeed make it possible to take into account, in connection with a theme, of terms which would be absent from a general dictionary (for example a dictionary on the market), or with a meaning quite different from that conferred on them by a message from which they would be extracted, for example.
  • the electronic glossary may for example be a specialized dictionary, for example a technical dictionary.
  • the determination 412 can for example use several models for representing textual elements, such as models for representing words in a mathematical repository (“word embedding” according to English terminology) (such as Word2vec ⁇ and Fasttext ⁇ ).
  • word embedding according to English terminology
  • N characteristics that are semantically the closest to the same characteristic (already identified) of a theme using at least two of the learned models (with N integer, strictly positive). This identification can then be repeated incrementally starting from the characteristics already or newly identified.
  • the number N of “closest identified characteristics” can vary according to the models used, for example the reliability of the models.
  • the learning can for example be carried out for a determined period (such as a period of a few months or tens of months, for example 12 months).
  • a criterion for stopping the increments can for example be the reception of a stop command via a user interface, the running of a number of iterations, a minimum and/or maximum number of characteristics associated with a theme. These numbers can be constant or vary depending on the size of the group of individuals or entities and/or the total number of characteristics of the individuals or entities in the group.
  • the number N can be between 5 and 15 (for example 10) and 3 to 7 iterations (for example 5) can be performed.
  • the method may include an optional step 413 of rendering (audio and/or visual) the word cloud on a user interface.
  • a rendering of a word cloud comprising terms close to the theme "Artificial Intelligence" is illustrated by way of example in Figure 5.
  • the data exploitation method can comprise an extraction 440 of data related to a theme and at least some of its associated characteristics (for example at least part of the word cloud associated with the theme). This extraction may differ according to the embodiments.
  • the method can also include a rendering 440 (or restitution), for example visual, of the result of this extraction 440.
  • FIG. 6 illustrates an example of rendering, graphic, of a thematic mesh (or thematic network) entities bringing together employees of a company and concerned by the characteristic (here a skill) “process mining”. The branches of the mesh are organized by descending hierarchical levels in this example.
  • one or more characteristics can be selected 430 via the user interface (for example by clicking on one or more word(s) of the cloud) .
  • Their selection can allow for example an extraction of the identifiers of the individuals and/or of the entities associated with at least one of the characteristics selected (or with all the characteristics selected in other embodiments).
  • the selection 430 of the name of this platform can launch an extraction making it possible to display during rendering 460 (for example graphic) of the entities or individuals associated with this platform in the data collected and therefore a priori concerned by this platform.
  • one or more features may be selected 430 via a user interface using a search engine limited to the perimeter of the word cloud.
  • the method may comprise the acquisition of at least one word from a user interface and a selection of at least one word from the word cloud as a function of said acquired word or words.
  • a selection 430 can be made automatically from among the characteristics of the cloud of characteristics associated with the theme, thanks to filtering based on information relating to these characteristics and obtained via a knowledge base (such as Wikipedia ⁇ ).
  • the method can comprise obtaining 420 from a knowledge base such as Wikipedia, adapted for example to the language of the words or characteristics present in the glossary, of at least one definition of at least one of the characteristics of the glossary.
  • a knowledge base such as Wikipedia
  • getting definitions 420 can be done for all of the features in the glossary.
  • Such an embodiment can make it possible to limit the cost, in time and in computing resources, of a possible subsequent automatic selection 430 .
  • the getting definitions 420 can be done for features in the feature cloud only.
  • Such an embodiment can help to limit the number of searches in the knowledge base.
  • the method can therefore comprise a (manual or automatic) selection of a paragraph from among the paragraphs obtained (received) to select a paragraph corresponding (probably) to the definition of the word.
  • An automatic selection of a paragraph can be based on grammatical and/or syntactic rules. For example, an automatic selection can for example include:
  • the method can for example comprise, before calculating the position of a word:
  • the content of the selected paragraph can for example be considered as a definition of the relevant word of the glossary/cloud.
  • the automatic selection 430 of characteristics from the cloud of characteristics associated with the thematic can comprise a filtering 432 of the characteristics of the cloud on the basis of the definitions obtained for these characteristics.
  • the method can comprise for example obtaining 431 (from a user interface, a storage medium and/or a communication interface) a plurality of words likely to be mentioned in the definition of a word in connection with the theme.
  • the theme relates to a particular technical field of software development (Artificial Intelligence), and the purpose of the extraction is to identify skills in this particular technical field
  • the plurality of words can be chosen in such a way as to retain only definitions relating to a technical competence.
  • the filtering 432 can comprise a determination of the presence of at least one word of this plurality of words in the definitions obtained. It may also include a verification of at least one positioning criterion of at least one word of this plurality of words present in a definition obtained (such as positioning in the first and/or second sentence of the definition, and/or just before a verb for example).
  • Figure 7 and Figure 8 respectively represent examples of textual characteristics (technical skills in this example) resulting from an automatic selection for the “Artificial Intelligence” theme and for the “Bigdata” theme.
  • the mining method can allow different extractions according to its embodiments.
  • the examples of extraction cited above can help a user to explore more or less finely, data relating to a group of individuals or entities, in connection with certain characteristics (skills for example) that 'he is looking for (such as a name of the technical skill sought or a support tool name for the skill sought).
  • the method may include pre-rendering filtering of the extracted data.
  • the method can comprise filtering the information representative data obtained to keep, for example, only the most significant entities, such as the I (I integer greater than 0) entities most often associated with a selected characteristic, and/or the J (J integer greater than 0) entities using most often the characteristic selected in the labels of messages having for a sender an individual of the entity or for a substitution entity this entity, and/or the K (K integer greater than 0) entities which most often use a selected characteristic and/or the L (L integer greater than 0) words calculated as being the closest to this selected characteristic (as explained in connection with the eta pe 410 for obtaining the thematic glossary).
  • the method can comprise obtaining 410 a cloud of characteristics for several themes.
  • the method may also include obtaining statistics concerning these themes and/or the distribution of textual characteristics of the data between these themes, such as for example a distribution (in number of characteristics and/or messages) of the themes in the group (or a sub-group such as one or more entities).
  • a distribution in number of characteristics and/or messages
  • FIG. 9 it is possible in certain embodiments to obtain a characterization of each entity of the group in terms of theme(s), a portion of the glossary of words associated with a theme in at least one entity, and /or an extraction of the characteristics associated with a theme for an entity.
  • figure 9 shows a rendering of the different themes addressed by an entity, the surface of the bubbles being representative of the importance of the theme in this entity, of the cloud of characteristics associated with a theme ("artificial intelligence") and of the characteristics associated with this theme in this entity.
  • the operating method in at least some embodiments, may be useful for group steering.
  • it can help a user to obtain (for example to visualize) a distribution of characteristics associated with at least one theme in the different entities of a group. He can thus, for example, help in the constitution of a new team, dedicated to at least one theme", transverse to entities of attachment of individuals (such as hierarchical entities) (for example a transverse project team in a company) .
  • An iterative use of the exploitation method in at least certain embodiments, can also help to study the diffusion of a theme, for example how it spreads within a group
  • Example of application Automatic determination and characterization of project teams in a company and the themes addressed by these projects.
  • the operating method can be implemented iteratively on a first group to obtain a second group then on the second group to obtain a third group. etc., with identical or different themes.
  • the method of collecting and/or the method of exploitation can help to locate themes and technical skills in a company (hierarchical entities, projects), thanks to the electronic messages exchanged in the company. These electronic messages, issued within the framework of professional exchanges, can be considered as a reliable source of information. In addition, it is not distorted or modified before it is used (due, for example, to a standardization constraint). It can be precise and require neither the support of a manager nor a personal statement from employees. Where data (such as e-mail message titles) is collected frequently (eg, daily or weekly), the methods of this application may therefore help to maintain the distribution of skills within a company and obtain maps of skills relating to new or already identified themes more easily. For example, updates can be carried out automatically, at least in certain embodiments, without requiring an effort from the individuals concerned or their management, on the contrary of certain solutions of the prior art.
  • certain steps can be done without training data, which can facilitate the implementation of at least one of the methods of the this request.
  • desired characteristics corresponding to technical skills.
  • the desired characteristics may be different (for example at least certain embodiments described above may be integrated into a management/audit tool of a company intended for Human Resources services (HR) Indeed, determining where the skills are in a company, evaluating the emergence of new skills and watching how they evolve temporally in the company are issues shared by many Human Resources managers in a company.
  • HR Human Resources services
  • At least some embodiments described above can also be used in a management tool for a company's strategy (in order, for example, to visualize how an existing, new, or future theme is applied in the entities of a company)
  • At least some embodiments described above may also be implemented by enterprise production pilots (such as Project Management Offices "PMOs").
  • PMOs Project Management Offices
  • certain embodiments described above can also give a transverse view of at least one project team and/or provide an indicator of its life cycle (based for example on the number of occurrences of particular words in the exchanges (such as growth, stability, decrease), or the satisfaction of a team (based, for example, on the number of occurrences of particular words (with a positive sounding or conversely negative) in the exchanges).

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Information Transfer Between Computers (AREA)
  • Communication Control (AREA)

Abstract

The invention relates to a method for using data structures comprising a text feature, the method comprising automatically selecting a first text feature taking into account an association between the first text feature and a research subject area; and extracting data from a first structure, taking into account said text feature of said first structure and said selected first text feature. The invention relates to a method, implemented in a communication network, comprising obtaining a contextual datum from an electronic message sent or received by a terminal of said network, said contextual datum comprising a descriptive label describing the content of said message and an identifier of a sender and/or receiver of said message, and obtaining a text feature from said descriptive label. The invention also relates to the corresponding electronic devices, computer program products and media.

Description

DESCRIPTION DESCRIPTION
Titre de l'invention : Procédé de collecte de données, procédé d'exploitation de données collectées, dispositif électronique et produits programme d'ordinateur et support correspondants Title of the invention: Method for collecting data, method for exploiting collected data, electronic device and corresponding computer program and support products
1. Domaine technique 1. Technical area
La présente application se rapporte au domaine de la collecte de données concernant au moins un groupe d'individus, pour constituer et/ou enrichir des bases de connaissances, ainsi qu'à l'exploitation de données concernant des individus dans de telles bases de connaissances. Il peut notamment s'agir d'un large groupe d'individus. This application relates to the field of the collection of data concerning at least one group of individuals, to constitute and/or enrich knowledge bases, as well as the exploitation of data concerning individuals in such knowledge bases. . This may in particular be a large group of individuals.
Elle concerne notamment un procédé de collecte de données et un procédé d'exploitation de données collectées ainsi que des dispositifs électroniques, produits programmes d'ordinateur et supports correspondants. It relates in particular to a method for collecting data and a method for exploiting collected data as well as electronic devices, computer program products and corresponding media.
2, Etat de la technique 2, State of the art
La connaissance des membres d'un groupe est un enjeu pour les personnes en charge de la gestion de ce groupe, en particulier lorsque la taille du groupe grandit. Knowing the members of a group is an issue for the people in charge of managing this group, in particular when the size of the group grows.
En effet, pour un large groupe, il est très difficile à une personne de bien connaître l'ensemble des membres du groupe et/ou de se rappeler finement de leurs spécificités, fine solution peut consister à tenir un registre des membres du groupe (comme un fichier client). Un tel registre peut par exemple prendre la forme d'une base de données rassemblant des informations sur les membres, comme des profils d'utilisateurs. De tels registres peuvent par exemple permettre une analyse statistique du groupe, ou la mise en œuvre d'actions collectives sur des membres du groupe. Indeed, for a large group, it is very difficult for a person to know all the members of the group well and/or to remember their specificities in detail, a fine solution may consist in keeping a register of the members of the group (such as a customer file). Such a register can for example take the form of a database gathering information on the members, such as user profiles. Such registers can for example allow a statistical analysis of the group, or the implementation of collective actions on members of the group.
Cependant les informations relatives à un membre (comme le profil d'un utilisateur, ou l'adresse d'une entreprise cliente) sont souvent mises à jour manuellement ou suite a une requête spécifique de ce membre ou d'un gestionnaire du registre. De ce fait, les mises à jour nécessaires sont parfois omises ou effectuées avec du retard. Il peut ainsi s'écouler plusieurs années entre un évènement et la mise à jour correspondante du registre (par exemple le changement de numéro de téléphone d'un interlocuteur d'une entreprise cliente ou fournisseur rarement contactée). De plus, lorsque le groupe est très étendu, le partage des informations au sein d'un groupe (par exemple entre directions et/ou branches d'une même entreprise) peut s'avérer difficile. De ce fait, il peut être impossible à un gestionnaire d'un registre d'être informé de la nécessité d'une mise à jour. Ainsi, plus la taille du groupe augmente et plus il peut être difficile de maintenir un registre concernant ses membres et en particulier de s'assurer de la pertinence des informations du registre. However, information relating to a member (such as a user's profile, or the address of a client company) is often updated manually or following a specific request from this member or from a registry manager. As a result, necessary updates are sometimes omitted or delayed. Several years can thus pass between an event and the corresponding update of the register (for example the change of telephone number of a contact person of a client company or supplier who is seldom contacted). Moreover, when the group is very large, the sharing of information within a group (for example between departments and/or branches of the same company) can prove to be difficult. As a result, it may not be possible for a registry manager to be informed of the need for an update. Thus, the more the size of the group increases, the more difficult it can be to maintain a register concerning its members and in particular to ensure the relevance of the information in the register.
La présente demande a pour objet de proposer des améliorations à au moins certains des inconvénients de l'état de la technique. The object of the present application is to propose improvements to at least some of the disadvantages of the state of the art.
3. Exposé de l'invention 3. Disclosure of Invention
La présente demande vise à améliorer la situation, selon un premier aspect, à l'aide d'un procédé mis en œuvre dans un réseau de communication, comprenant: The present application aims to improve the situation, according to a first aspect, using a method implemented in a communication network, comprising:
• une obtention d'au moins une donnée contextuelle d'un message électronique émis ou reçu par au moins un terminal dudit réseau de communication, ladite donnée contextuelle comprenant au moins un libellé descriptif du contenu dudit message électronique et au moins un identifiant d'au moins un émetteur et/ou récepteur dudit message; • obtaining at least one contextual data item of an electronic message sent or received by at least one terminal of said communication network, said contextual data item comprising at least one descriptive wording of the content of said electronic message and at least one identifier of at least one at least one sender and/or receiver of said message;
* une obtention d'au moins une caractéristique textuelle depuis ledit libellé descriptif. Dans au moins un mode de réalisation, le procédé comprend un stockage de ladite caractéristique obtenue, en association avec un identifiant dudit au moins un émetteur et/ou récepteur. * Obtaining at least one textual characteristic from said descriptive wording. In at least one embodiment, the method comprises storing said characteristic obtained, in association with an identifier of said at least one transmitter and/or receiver.
Dans au moins un mode de réalisation, le procédé comprend une anonymisation de ladite donnée contextuelle. In at least one embodiment, the method comprises an anonymization of said contextual data.
Dans au moins un mode de réalisation, ladite anonymisation comprend un remplacement dans ladite au moins une donnée contextuelle d'au moins un desdits identifiant dudit émetteur et/ou dudit récepteur dudit message par un identifiant d'un groupe auquel appartient ledit émetteur et/ou récepteur. In at least one embodiment, said anonymization comprises a replacement in said at least one contextual datum of at least one of said identifiers of said sender and/or of said receiver of said message by an identifier of a group to which said sender and/or belongs. receiver.
Dans au moins un mode de réalisation, le procédé comprend une association de ladite caractéristique obtenue avec un identifiant dudit groupe. In at least one embodiment, the method comprises an association of said characteristic obtained with an identifier of said group.
Dans au moins un mode de réalisation, le procédé comprend l'obtention de ladite caractéristique textuelle comprend : In at least one embodiment, the method includes obtaining said textual feature includes:
• une lemmatisation dudit libellé en tenant compte d'au moins une langue dudit libellé descriptif ; • a lemmatization of said wording taking into account at least one language of said descriptive wording;
• une extraction de ladite caractéristique textuelle dudit libellé lemmatisé. • an extraction of said textual characteristic of said lemmatized wording.
La présente demande concerne par exemple un procédé mis en œuvre par au moins un dispositif d'un réseau de communication, comprenant : une obtention d'au moins un libellé descriptif d'un message électronique; une detection des langues des mots dudit libellé descriptif en fonction d'une appartenance desdits mots dudit libellé descriptif à au moins un dictionnaire électronique d'une pluralité de dictionnaires électroniques candidats contenant des mots dans au moins une langue candidate; obtention des formes canoniques de mots dudit libellé descriptif en tenant compte des langues desdits mots dudit libellé descriptif ; un stockage dans au moins une mémoire dudit dispositif desdites formes canoniques obtenues, en association avec au moins un identifiant relatif à un émetteur et/ou à un récepteur dudit message électronique. The present application relates for example to a method implemented by at least one device of a communication network, comprising: obtaining at least one descriptive wording of an electronic message; a detection of the languages of the words of said descriptive wording according to a membership of said words of said descriptive wording in at least one electronic dictionary of a plurality of candidate electronic dictionaries containing words in at least one candidate language; obtaining the canonical forms of words of said descriptive wording taking into account the languages of said words of said descriptive wording; storage in at least one memory of said device of said canonical forms obtained, in association with at least one identifier relating to a sender and/or to a receiver of said electronic message.
Dans certains modes de réalisation, le procédé comprend un test d'une présence, dans le libellé descriptif, d'accent et/ou de d'éléments lexicaux spécifiques a une desdites langues candidates. In certain embodiments, the method comprises a test for the presence, in the descriptive wording, of accent and/or lexical elements specific to one of said candidate languages.
Dans certains modes de réalisation, le procédé comprend un calcul d'une probabilité d'appartenance dudit libellé descriptif à une desdites langues candidates. In certain embodiments, the method comprises a calculation of a probability of belonging of said descriptive wording to one of said candidate languages.
Dans certains modes de réalisation, ledit calcul est mis en œuvre lorsque ledit test de présence est infructueux. In certain embodiments, said calculation is implemented when said presence test is unsuccessful.
Dans certains modes de réalisation, le procédé comprend un filtrage desdits libellés descriptifs. In some embodiments, the method includes filtering said descriptive labels.
Dans certains modes de réalisation, le procédé comprend une anonymisation desdits libellés descriptifs. In some embodiments, the method includes anonymizing said descriptive labels.
Dans certains modes de réalisation, le procédé comprend une suppression de mots non informatifs desdits libellés descriptifs en tenant compte d'une appartenance desdits mots desdits libellés à au moins un dictionnaire de mots à supprimer dans au moins une desdites langue candidates. In certain embodiments, the method comprises a deletion of non-informative words from said descriptive labels taking into account that said words of said labels belong to at least one dictionary of words to be deleted in at least one of said candidate languages.
Dans certains modes de réalisation, ledit identifiant relatif audit émetteur et/ou audit récepteur dudit message est un identifiant d'un groupe auquel appartient ledit émetteur et/ou récepteur. In certain embodiments, said identifier relating to said sender and/or to said receiver of said message is an identifier of a group to which said sender and/or receiver belongs.
Dans certains modes de réalisation, ledit procédé est mis en œuvre localement par ledit dispositif. In certain embodiments, said method is implemented locally by said device.
La présente demande vise à améliorer la situation, selon un second aspect, à l'aide d'un procédé d'exploitation de structures de données comprenant au moins une caractéristique textuelle, lesdites structures étant stockées sur au moins un support de stockage informatique accessible depuis un dispositif électronique, ledit procédé comprenant : • une sélection au moins partiellement automatique d'au moins une première desdites caractéristiques textuelles en tenant compte d'une association de ladite première caractéristique textuelle à une thématique de recherche sur lesdites structures de données; The present application aims to improve the situation, according to a second aspect, using a method for exploiting data structures comprising at least one textual characteristic, said structures being stored on at least one computer storage medium accessible from an electronic device, said method comprising: • an at least partially automatic selection of at least a first of said textual characteristics taking into account an association of said first textual characteristic with a research topic on said data structures;
• une extraction d'au moins une partie des données d'au moins une première desdites structures, tenant compte de ladite au moins une caractéristique textuelle de ladite première structure et de ladite première caractéristique textuelle sélectionnée. • an extraction of at least part of the data from at least a first of said structures, taking into account said at least one textual characteristic of said first structure and said first textual characteristic selected.
Ledit procédé peut être mis en œuvre au moins partiellement dans un dispositif électronique. Said method can be implemented at least partially in an electronic device.
Dans au moins un mode de réalisation, ledit émetteur et/ou récepteur est au moins un utilisateur d'au moins un terminal dudit réseau de communication. In at least one embodiment, said sender and/or receiver is at least one user of at least one terminal of said communication network.
Dans au moins un mode de réalisation, le procédé comprend: In at least one embodiment, the method includes:
• une sélection au moins partiellement automatique d'au moins une première desdites caractéristiques textuelles en tenant compte d'une association de ladite première caractéristique textuelle à une thématique de recherche sur lesdites structures de données; • an at least partially automatic selection of at least a first of said textual characteristics taking into account an association of said first textual characteristic with a research topic on said data structures;
• une extraction d'au moins une partie des données d'au moins une première desdites structures, tenant compte de ladite au moins une caractéristique textuelle de ladite première structure et de ladite première caractéristique textuelle sélectionnée. • an extraction of at least part of the data from at least a first of said structures, taking into account said at least one textual characteristic of said first structure and said first textual characteristic selected.
Dans au moins un mode de réalisation, ladite sélection comprend : In at least one embodiment, said selection comprises:
• une obtention d'au moins une caractéristique candidate parmi lesdites caractéristiques textuelles en tenant compte d'une proximité sémantique avec au moins une caractéristique textuelle déjà associée à ladite thématique ; • obtaining at least one candidate characteristic from among said textual characteristics taking into account a semantic proximity with at least one textual characteristic already associated with said theme;
• une sélection de ladite première caractéristique parmi ladite au moins une caractéristique candidate. • a selection of said first characteristic from said at least one candidate characteristic.
Dans au moins un mode de réalisation, ladite sélection comprend : In at least one embodiment, said selection comprises:
• une obtention d'au moins une définition textuelle desdites caractéristiques textuelles et/ou candidates depuis une base de connaissance ; • obtaining at least one textual definition of said textual and/or candidate characteristics from a knowledge base;
• une sélection de ladite première caractéristique en tenant compte de la présence dans ladite au moins une définition obtenue d'au moins un premier mot relatif à la recherche. • a selection of said first characteristic taking into account the presence in said at least one definition obtained of at least one first word relating to the search.
La présente demande concerne par exemple un procédé mis en œuvre par au moins un dispositif électronique d'un réseau de communication et comprenant : une obtention de structures de données, lesdites données d'une structure comprenant au moins une caractéristique textuelle, lesdites structures de données étant stockées sur au moins un support de stockage informatique accessible depuis ledit dispositif électronique ; une obtention automatique d'au moins une première caractéristique candidate parmi lesdites caractéristiques textuelles desdites structures de données en tenant compte d'une proximité sémantique desdites caractéristiques textuelles desdites structures de données avec au moins une caractéristique textuelle recherchée ; au moins une obtention automatique d'au moins une seconde caractéristique textuelle candidate parmi lesdites caractéristiques textuelles desdites structures de données en tenant compte d'une proximité sémantique desdites caractéristiques textuelles desdites structures de données avec au moins une desdites première et/ou seconde caractéristiques candidates déjà obtenues; une exploitation automatique desdites structures de données, tenant compte de la présence dans lesdites structures de données d'au moins une troisième desdites premières et secondes caractéristiques candidates obtenues. The present application relates for example to a method implemented by at least one electronic device of a communication network and comprising: obtaining data structures, said data of a structure comprising at least one textual characteristic, said data structures being stored on at least one computer storage medium accessible from said electronic device; automatic obtaining of at least a first candidate characteristic among said textual characteristics of said data structures taking into account a semantic proximity of said textual characteristics of said data structures with at least one textual characteristic sought; at least one automatic obtaining of at least one second candidate textual characteristic among said textual characteristics of said data structures taking into account a semantic proximity of said textual characteristics of said data structures with at least one of said first and/or second candidate characteristics already obtained; an automatic exploitation of said data structures, taking into account the presence in said data structures of at least a third of said first and second candidate characteristics obtained.
Dans certains modes de réalisation, ledit procédé comprend : une sélection automatique de ladite troisième caractéristique textuelle candidate parmi lesdites premières et secondes caractéristiques candidates en tenant compte de la présence d'au moins un mot recherché associé à ladite caractéristique recherchée, dans au moins une définition obtenue, depuis une base de connaissance, pour lesdites première et/ou seconde caractéristique textuelle candidates. In certain embodiments, said method comprises: an automatic selection of said third candidate textual characteristic among said first and second candidate characteristics by taking into account the presence of at least one search word associated with said searched characteristic, in at least one definition obtained, from a knowledge base, for said first and/or second candidate textual characteristic.
Dans certains modes de réalisation, ladite au moins une caractéristique textuelle recherchée est obtenue depuis une interface utilisateur dudit dispositif électronique et/ou un support de stockage accessible depuis ledit dispositif électronique. In certain embodiments, said at least one textual characteristic sought is obtained from a user interface of said electronic device and/or a storage medium accessible from said electronic device.
Dans certains modes de réalisation, ladite troisième caractéristique textuelle candidate est sélectionnée parmi lesdites premières et secondes caractéristiques candidates via une interface utilisateur dudit dispositif électronique. In some embodiments, said third candidate text feature is selected from among said first and second candidate features via a user interface of said electronic device.
Dans certains modes de réalisation, ledit mot recherché est obtenu depuis une interface utilisateur dudit dispositif et/ou depuis un support de stockage accessible depuis ledit dispositif électronique. In certain embodiments, said searched word is obtained from a user interface of said device and/or from a storage medium accessible from said electronic device.
Les caractéristiques, présentées isolément dans la présente demande en lien avec certains modes de réalisation de l'un des procédés de la présente demande peuvent être combinées entre elles selon d'autres modes de réalisation de ces procédés. Selon un autre aspect, la présente demande concerne également un dispositif électronique adapté à mettre en œuvre au moins un des procédés de la présente demande dans l'un quelconque de ses modes de réalisations. Par exemple, la présente demande concerne ainsi un dispositif électronique comprenant un moins un processeur configuré pour : The characteristics presented separately in the present application in connection with certain embodiments of one of the methods of the present application can be combined together according to other embodiments of these methods. According to another aspect, the present application also relates to an electronic device adapted to implement at least one of the methods of the present application in any one of its embodiments. For example, the present application thus relates to an electronic device comprising at least one processor configured to:
• une obtention d'au moins une donnée contextuelle d'un message électronique émis ou reçu par au moins un terminal dudit réseau de communication, ladite donnée contextuelle comprenant au moins un libellé descriptif du contenu dudit message électronique et au moins un identifiant d'au moins un émetteur et/ou récepteur dudit message; • obtaining at least one contextual data item of an electronic message sent or received by at least one terminal of said communication network, said contextual data item comprising at least one descriptive wording of the content of said electronic message and at least one identifier of at least one at least one sender and/or receiver of said message;
• une obtention d'au moins une caractéristique textuelle depuis ledit libellé descriptif. La présente demande concerne aussi, par exemple, un dispositif électronique comprenant un moins un processeur configuré pour : une obtention d'au moins un libellé descriptif d'un message électronique ; une détection des langues des mots dudit libellé descriptif en fonction d'une appartenance desdits mots dudit libellé descriptif à au moins un dictionnaire électronique d'une pluralité de dictionnaires électroniques candidats contenant des mots dans au moins une langue candidate; obtention des formes canoniques de mots dudit libellé descriptif en tenant compte des langues desdits mots dudit libellé descriptif ; • obtaining at least one textual characteristic from said descriptive wording. The present application also relates, for example, to an electronic device comprising at least one processor configured for: obtaining at least one descriptive wording of an electronic message; a detection of the languages of the words of said descriptive wording according to a membership of said words of said descriptive wording in at least one electronic dictionary of a plurality of candidate electronic dictionaries containing words in at least one candidate language; obtaining the canonical forms of words of said descriptive wording taking into account the languages of said words of said descriptive wording;
- un stockage dans au moins une mémoire dudit dispositif desdites formes canoniques obtenues, en association avec au moins un identifiant relatif à un émetteur et/ou à un récepteur dudit message électronique. - storage in at least one memory of said device of said canonical forms obtained, in association with at least one identifier relating to a sender and/or to a receiver of said electronic message.
Par exemple, la présente demande concerne ainsi un dispositif électronique comprenant un moins un processeur configuré pour une exploitation de structures de données comprenant au moins une caractéristique textuelle, lesdites structures étant stockées sur au moins un support de stockage informatique accessible depuis ledit dispositif électronique, ladite exploitation comprenant: For example, the present application thus relates to an electronic device comprising at least one processor configured for an exploitation of data structures comprising at least one textual characteristic, said structures being stored on at least one computer storage medium accessible from said electronic device, said operation including:
• une sélection au moins partiellement automatique d'au moins une première desdites caractéristiques textuelles en tenant compte d'une association de ladite première caractéristique textuelle à une thématique de recherche sur lesdites structures de données; • une extraction d'au moins une partie des données d'au moins une première desdites structures, tenant compte de ladite au moins une caractéristique textuelle de ladite première structure et de ladite première caractéristique textuelle sélectionnée. • an at least partially automatic selection of at least a first of said textual characteristics taking into account an association of said first textual characteristic with a research topic on said data structures; • an extraction of at least part of the data from at least a first of said structures, taking into account said at least one textual characteristic of said first structure and said first textual characteristic selected.
La présente demande concerne aussi, par exemple, un dispositif électronique comprenant au moins un processeur configuré pour une obtention de structures de données, lesdites données d'une structure comprenant au moins une caractéristique textuelle, lesdites structures de données étant stockées sur au moins un support de stockage informatique accessible depuis ledit dispositif électronique ; une obtention automatique d'au moins une première caractéristique candidate parmi lesdites caractéristiques textuelles desdites structures de données en tenant compte d'une proximité sémantique desdites caractéristiques textuelles desdites structures de données avec au moins une caractéristique textuelle recherchée ; au moins une obtention automatique d'au moins une seconde caractéristique textuelle candidate parmi lesdites caractéristiques textuelles desdites structures de données en tenant compte d'une proximité sémantique desdites caractéristiques textuelles desdites structures de données avec au moins une desdites première et/ou seconde caractéristiques candidates déjà obtenues; une exploitation automatique desdites structures de données, tenant compte de la présence dans lesdites structures de données d'au moins une troisième desdites premières et secondes caractéristiques candidates obtenues. The present application also relates, for example, to an electronic device comprising at least one processor configured to obtain data structures, said data of a structure comprising at least one textual characteristic, said data structures being stored on at least one medium computer storage accessible from said electronic device; automatic obtaining of at least a first candidate characteristic among said textual characteristics of said data structures taking into account a semantic proximity of said textual characteristics of said data structures with at least one textual characteristic sought; at least one automatic obtaining of at least one second candidate textual characteristic among said textual characteristics of said data structures taking into account a semantic proximity of said textual characteristics of said data structures with at least one of said first and/or second candidate characteristics already obtained; an automatic exploitation of said data structures, taking into account the presence in said data structures of at least a third of said first and second candidate characteristics obtained.
La présente demande concerne aussi un programme d'ordinateur comprenant des instructions pour la mise en œuvre des divers modes de réalisation des procédés ci- dessus, lorsque le programme est exécuté par un processeur et un support d'enregistrement lisible par un dispositif électronique et sur lequel est enregistré le programme d'ordinateur. The present application also relates to a computer program comprising instructions for the implementation of the various embodiments of the above methods, when the program is executed by a processor and a recording medium readable by an electronic device and on which the computer program is recorded.
Par exemple, la présente demande concerne ainsi un programme d'ordinateur comprenant des instructions pour la mise en œuvre, lorsque le programme est exécuté par un processeur d'un dispositif électronique, d'un procédé comprenant: For example, the present application thus relates to a computer program comprising instructions for the implementation, when the program is executed by a processor of an electronic device, of a method comprising:
• une obtention d'au moins une donnée contextuelle d'un message électronique émis ou reçu par au moins un terminal dudit réseau de communication, ladite donnée contextuel le comprenant au moins un libellé descriptif du contenu dudit message électronique et au moins un identifiant d'au moins un émetteur et/ou récepteur dudit message; • obtaining at least one contextual data of an electronic message transmitted or received by at least one terminal of said communication network, said contextual data comprising at least one descriptive wording of the content of said electronic message and at least one identifier of at least one sender and/or receiver of said message;
* une obtention d'au moins une caractéristique textuelle depuis ledit libellé descriptif. La présente demande concerne aussi, par exemple, un programme d'ordinateur comprenant des instructions pour la mise en œuvre, lorsque le programme est exécuté par un processeur d'un dispositif électronique d'un réseau de communication, d'un procédé comprenant: une obtention d'au moins un libellé descriptif d'un message électronique ; une détection des langues des mots dudit libellé descriptif en fonction d'une appartenance desdits mots dudit libellé descriptif à au moins un dictionnaire électronique d'une pluralité de dictionnaires électroniques candidats contenant des mots dans au moins une langue candidate; obtention des formes canoniques de mots dudit libellé descriptif en tenant compte des langues desdits mots dudit libellé descriptif ; un stockage dans au moins une mémoire dudit dispositif desdites formes canoniques obtenues, en association avec au moins un identifiant relatif à un émetteur et/ou à. un récepteur dudit message électronique. * Obtaining at least one textual characteristic from said descriptive wording. The present application also relates, for example, to a computer program comprising instructions for the implementation, when the program is executed by a processor of an electronic device of a communication network, of a method comprising: a obtaining at least one descriptive label of an electronic message; a detection of the languages of the words of said descriptive wording according to a membership of said words of said descriptive wording in at least one electronic dictionary of a plurality of candidate electronic dictionaries containing words in at least one candidate language; obtaining the canonical forms of words of said descriptive wording taking into account the languages of said words of said descriptive wording; a storage in at least one memory of said device of said canonical forms obtained, in association with at least one identifier relating to a transmitter and/or to. a receiver of said electronic message.
Par exemple, la présente demande concerne aussi un programme d'ordinateur comprenant des instructions pour la mise en œuvre, lorsque le programme est exécuté par un processeur d'un dispositif électronique, d'un procédé d'exploitation de structures de données comprenant au moins une caractéristique textuelle, lesdites structures étant stockées sur au moins un support de stockage informatique accessible depuis un dispositif électronique, le procédé comprenant : For example, the present application also relates to a computer program comprising instructions for the implementation, when the program is executed by a processor of an electronic device, of a method for exploiting data structures comprising at least a textual characteristic, said structures being stored on at least one computer storage medium accessible from an electronic device, the method comprising:
* une sélection au moins partiellement automatique d'au moins une première desdites caractéristiques textuelles en tenant compte d'une association de ladite première caractéristique textuelle à une thématique de recherche sur lesdites structures de données; * an at least partially automatic selection of at least a first of said textual characteristics taking into account an association of said first textual characteristic with a research topic on said data structures;
• une extraction d'au moins une partie des données d'au moins une première desdites structures, tenant compte de ladite au moins une caractéristique textuelle de ladite première structure et de ladite première caractéristique textuelle sélectionnée. • an extraction of at least part of the data from at least a first of said structures, taking into account said at least one textual characteristic of said first structure and said first textual characteristic selected.
Par exemple, la présente demande concerne ainsi un programme d'ordinateur comprenant des instructions pour la mise en œuvre, lorsque le programme est exécuté par un processeur d'un dispositif électronique, d'un procédé comprenant: une obtention de structures de données, lesdites données d'une structure comprenant au moins une caractéristique textuelle, lesdites structures de données étant stockées sur au moins un support de stockage informatique accessible depuis ledit dispositif électronique ; une obtention automatique d'au moins une première caractéristique candidate parmi lesdites caractéristiques textuelles desdites structures de données en tenant compte d'une proximité sémantique desdites caractéristiques textuelles desdites structures de données avec au moins une caractéristique textuelle recherchée ; au moins une obtention automatique d'au moins une seconde caractéristique textuelle candidate parmi lesdites caractéristiques textuelles desdites structures de données en tenant compte d'une proximité sémantique desdites caractéristiques textuelles desdites structures de données avec au moins une desdites première et/ou seconde caractéristiques candidates déjà obtenues; une exploitation automatique desdites structures de données, tenant compte de la présence dans lesdites structures de données d'au moins une troisième desdites premières et secondes caractéristiques candidates obtenues. For example, the present application thus relates to a computer program comprising instructions for the implementation, when the program is executed by a processor of an electronic device, of a method comprising: obtaining data structures, said data of a structure comprising at least one textual characteristic, said data structures being stored on at least one computer storage medium accessible from said electronic device; automatic obtaining of at least a first candidate characteristic among said textual characteristics of said data structures taking into account a semantic proximity of said textual characteristics of said data structures with at least one textual characteristic sought; at least one automatic obtaining of at least one second candidate textual characteristic among said textual characteristics of said data structures taking into account a semantic proximity of said textual characteristics of said data structures with at least one of said first and/or second candidate characteristics already obtained; an automatic exploitation of said data structures, taking into account the presence in said data structures of at least a third of said first and second candidate characteristics obtained.
Par ailleurs, la présente demande concerne par exemple un support d'enregistrement lisible par un processeur d'un dispositif électronique et sur lequel est enregistré un programme d'ordinateur comprenant des instructions pour la mise en œuvre, lorsque le programme est exécuté par le processeur, d'un procédé comprenant : Furthermore, the present application relates for example to a recording medium readable by a processor of an electronic device and on which is recorded a computer program comprising instructions for the implementation, when the program is executed by the processor , of a method comprising:
* une obtention d'au moins une donnée contextuelle d'un message électronique émis ou reçu par au moins un terminal dudit réseau de communication, ladite donnée contextuelle comprenant au moins un libellé descriptif du contenu dudit message électronique et au moins un identifiant d'au moins un émetteur et/ou récepteur dudit message; * obtaining at least one contextual data of an electronic message sent or received by at least one terminal of said communication network, said contextual data comprising at least one descriptive wording of the content of said electronic message and at least one identifier of at least at least one sender and/or receiver of said message;
• une obtention d'au moins une caractéristique textuelle depuis ledit libellé descriptif. La présente demande concerne aussi, par exemple, un support d'enregistrement lisible par un processeur d'un dispositif électronique d'un réseau de communication et sur lequel est enregistré un programme d'ordinateur comprenant des instructions pour la mise en œuvre, lorsque le programme est exécuté par le processeur, d'un procédé comprenant : • obtaining at least one textual characteristic from said descriptive wording. The present application also relates, for example, to a recording medium readable by a processor of an electronic device of a communication network and on which is recorded a computer program comprising instructions for the implementation, when the program is executed by the processor, of a method comprising:
- une obtention d'au moins un libellé descriptif d'un message électronique : - Obtaining at least one descriptive wording of an electronic message:
- une détection des langues des mots dudit libellé descriptif en fonction d'une appartenance desdits mots dudit libellé descriptif à au moins un dictionnaire électronique d'une pluralité de dictionnaires électroniques candidats contenant des mots dans au moins une langue candidate; obtention des formes canoniques de mots dudit libellé descriptif en tenant compte des langues desdits mots dudit libellé descriptif ; un stockage dans au moins une mémoire dudit dispositif desdites formes canoniques obtenues, en association avec au moins un identifiant relatif à un émetteur et/ou à un récepteur dudit message électronique. - detection of the languages of the words of said descriptive wording according to a membership of said words of said descriptive wording in at least one electronic dictionary of a plurality of candidate electronic dictionaries containing words in at least one candidate language; obtaining the canonical forms of words of said descriptive wording taking into account the languages of said words of said descriptive wording; storage in at least one memory of said device of said canonical forms obtained, in association with at least one identifier relating to a sender and/or to a receiver of said electronic message.
Par exemple, la présente demande concerne aussi un support d'enregistrement lisible par un processeur d'un dispositif électronique et sur lequel est enregistré un programme d'ordinateur comprenant des instructions pour la mise en œuvre, lorsque le programme est exécuté par le processeur, d'un procédé d'exploitation de structures de données comprenant au moins une caractéristique textuelle, lesdites structures étant stockées sur au moins un support de stockage informatique accessible depuis un dispositif électronique, le procédé comprenant : For example, the present application also relates to a recording medium readable by a processor of an electronic device and on which is recorded a computer program comprising instructions for the implementation, when the program is executed by the processor, of a method for exploiting data structures comprising at least one textual characteristic, said structures being stored on at least one computer storage medium accessible from an electronic device, the method comprising:
• une sélection au moins partiellement automatique d'au moins une première desdites caractéristiques textuelles en tenant compte d'une association de ladite première caractéristique textuelle à une thématique de recherche sur lesdites structures de données; • an at least partially automatic selection of at least a first of said textual characteristics taking into account an association of said first textual characteristic with a research topic on said data structures;
• une extraction d'au moins une partie des données d'au moins une première desdites structures, tenant compte de ladite au moins une caractéristique textuelle de ladite première structure et de ladite première caractéristique textuelle sélectionnée. Les programmes mentionnés ci-dessus peuvent utiliser n'importe quel langage de programmation, et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet, tel que dans une forme partiellement compilée, ou dans n'importe quelle autre forme souhaitable. • an extraction of at least part of the data from at least a first of said structures, taking into account said at least one textual characteristic of said first structure and said first textual characteristic selected. The programs mentioned above may use any programming language, and be in the form of source code, object code, or intermediate code between source code and object code, such as in partially compiled form, or in n any other desirable shape.
La présente demande concerne aussi par exemple un support d'enregistrement lisible par un processeur d'un dispositif électronique et sur lequel est enregistré un programme d'ordinateur comprenant des instructions pour la mise en œuvre, lorsque le programme est exécuté par le processeur, d'un procédé comprenant : une obtention de structures de données, lesdites données d'une structure comprenant au moins une caractéristique textuelle, lesdites structures de données étant stockées sur au moins un support de stockage informatique accessible depuis ledit dispositif électronique ; une obtention automatique d'au moins une première caractéristique candidate parmi lesdites caractéristiques textuelles desdites structures de données en tenant compte d'une proximité sémantique desdites caractéristiques textuelles desdites structures de données avec au moins une caractéristique textuelle recherchée ; au moins une obtention automatique d'au moins une seconde caractéristique textuelle candidate parmi lesdites caractéristiques textuelles desdites structures de données en tenant compte d'une proximité sémantique desdites caractéristiques textuelles desdites structures de données a vec au moins une desdites première et/ou seconde caractéristiques candidates déjà obtenues; une exploitation automatique desdites structures de données, tenant compte de la présence dans lesdites structures de données d'au moins une troisième desdites premières et secondes caractéristiques candidates obtenues. The present application also relates, for example, to a recording medium readable by a processor of an electronic device and on which is recorded a computer program comprising instructions for the implementation, when the program is executed by the processor, of a method comprising: obtaining data structures, said data of a structure comprising at least one textual characteristic, said data structures being stored on at least one computer storage medium accessible from said electronic device; automatic obtaining of at least a first candidate characteristic among said textual characteristics of said data structures taking into account a semantic proximity of said textual characteristics of said data structures with at least one textual characteristic sought; at least one automatic obtaining of at least one second candidate textual characteristic among said textual characteristics of said data structures taking into account a semantic proximity of said textual characteristics of said data structures with at least one of said first and/or second candidate characteristics already obtained; an automatic exploitation of said data structures, taking into account the presence in said data structures of at least a third of said first and second candidate characteristics obtained.
Les supports d'informations mentionnés ci-dessus peuvent être n'importe quelle entité ou dispositif capable de stocker le programme. Par exemple, un support peut comporter un moyen de stockage, tel qu'une ROM, par exemple un CD ROM ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique. The information carriers mentioned above can be any entity or device capable of storing the program. For example, a medium may comprise a storage means, such as a ROM, for example a CD ROM or a microelectronic circuit ROM, or even a magnetic recording means.
Un tel moyen de stockage peut par exemple être un disque dur, une mémoire flash, etc. D'autre part, un support d'informations peut être un support transmissible tel qu'un signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. Un programme selon l'invention peut être en particulier téléchargé sur un réseau de type Internet. Such a storage means can for example be a hard disk, a flash memory, etc. On the other hand, an information medium can be a transmissible medium such as an electrical or optical signal, which can be conveyed via an electrical or optical cable, by radio or by other means. A program according to the invention can in particular be downloaded from an Internet-type network.
Alternativement, un support d'informations peut être un circuit intégré dans lequel un programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution de l'un quelconque des modes de réalisation du procédé objet de la présente demande de brevet. Alternatively, an information medium may be an integrated circuit in which a program is incorporated, the circuit being adapted to execute or to be used in the execution of any one of the embodiments of the method which is the subject of the present application for patent.
4. Brève description des dessins 4. Brief description of drawings
D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante de modes de réalisation particuliers, donnés à titre de simples exemples illustratifs et non limitatifs, et des dessins annexés, parmi lesquels : La [Fig 1] présente une vue simplifiée d'un système, cité à titre d'exemple, dans lequel au moins certains modes de réalisation du procédé de la présente demande peuvent être implémentés, Other characteristics and advantages of the invention will emerge more clearly on reading the following description of particular embodiments, given by way of simple illustrative and non-limiting examples, and the appended drawings, among which: [Fig 1] presents a simplified view of a system, cited by way of example, in which at least certain embodiments of the method of the present application can be implemented,
La [Fig 2] présente une vue simplifiée d'un dispositif adapté à mettre en œuvre au moins certains modes de réalisation de l'un des procédés de la présente demande, La [Fig 3] présente un aperçu du procédé de collecte de données de la présente demande, dans certains de ses modes de réalisation, [Fig 2] presents a simplified view of a device adapted to implement at least certain embodiments of one of the methods of the present application, [Fig 3] presents an overview of the method for collecting data from the present application, in some of its embodiments,
La [Fig 4] présente un aperçu du procédé d'exploitation de données de la présente demande, dans certains de ses modes de réalisation, La [Fig 5] présente un exemple d'un nuage de mots associés à la thématique [Fig 4] presents an overview of the data mining method of the present application, in some of its embodiments, [Fig 5] presents an example of a cloud of words associated with the theme
« Intelligence Artificielle » dans certains modes de réalisation du procédé d'exploitation de données de la présente demande, "Artificial Intelligence" in certain embodiments of the data exploitation method of the present application,
La [Fig 6] présente un exemple de réseau thématique obtenu pour certains de modes de réalisation du procédé d'exploitation de données de la présente demande, [Fig 6] presents an example of thematic network obtained for certain embodiments of the data exploitation method of the present application,
La [Fig 7] présente un exemple de compétences techniques résultant d'une sélection automatique pour la thématique « Intelligence artificielle », dans certains modes de réalisation du procédé d'exploitation de données de la présente demande, [Fig 7] presents an example of technical skills resulting from an automatic selection for the "Artificial Intelligence" theme, in certain embodiments of the data exploitation method of the present application,
La [Fig 8] présente un exemple de compétences techniques résultant d'une sélection automatique pour la thématique « Bigdata » dans certains modes de réalisation du procédé d'exploitation de données de la présente demande. [FIG 8] presents an example of technical skills resulting from an automatic selection for the “Bigdata” theme in certain embodiments of the data exploitation method of the present application.
La [Fig 9] présente un exemple de restitution graphique d'une extraction dans certains modes de réalisation du procédé d'exploitation de données de la présente demande.[FIG 9] presents an example of graphical restitution of an extraction in certain embodiments of the data exploitation method of the present application.
5. Description des modes de réalisation 5. Description of embodiments
La présente invention vise à collecter des données automatiquement (ou au moins partiellement automatiquement) concernant des individus d'un groupe d'individus en se basant sur des échanges électroniques par messages entre et/ou avec ces individus. Ces données peuvent par exemple être utilisées par exemple pour constituer ou enrichir une base de connaissances concernant ces individus. Il peut s'agir de messages tels que des messages électroniques audio, vidéo et/ou textuels comme par exemple des courriers électroniques (courriels ou « email » selon la terminologie anglaise) ou des messages instantanés (tchat) . The present invention aims to collect data automatically (or at least partially automatically) concerning individuals of a group of individuals based on electronic exchanges by messages between and/or with these individuals. This data can for example be used for example to constitute or enrich a knowledge base concerning these individuals. These may be messages such as audio, video and/or textual electronic messages such as for example electronic mails (emails or “email” according to the English terminology) or instant messages (chat).
La digitalisation des échanges entre individus offre en effet des possibilités accrues d'acquisition au moins partiellement automatique d'informations relatives à ces individus, par exemple par le biais de techniques de traitement automatique de langues.The digitization of exchanges between individuals indeed offers increased possibilities of at least partially automatic acquisition of information relating to these individuals, for example by means of automatic language processing techniques.
Ces informations à acquérir sont par exemple des « propriétés » attachées à des individus (comme des informations relatives à des compétences de ces individus). This information to be acquired is, for example, “properties” attached to individuals (such as information relating to the skills of these individuals).
Par individu, on entend un émetteur ou un récepteur d'un message. Il peut donc s'agir d'une unique personne comme d'une pluralité de personnes agissant collectivement dans le cadre de ces échanges (telles que par exemple une pluralité de personnes accessibles à travers une même adresse email). Dans ce dernier cas, selon les modes de réalisation, les propriétés identifiées peuvent être attribuées à un unique individu « fictif » associé à la pluralité d'individus ou à chacune des personnes. Le groupe d'individus peut notamment comprendre un grand nombre d'individus. 11 peut s'agir par exemple des membres d'une fédération sportive, d'une association, d'une entreprise publique ou privée, et/ou d'une collectivité ayant un nombre important de collaborateurs, de clients et/ou de fournisseurs (ou plus généralement d'interlocuteurs). Il peut aussi s'agir des membres d'un groupe inter-projets, comme des membres d'une plateforme collaborative de communication telle que « Slack © et/ou d'un réseau social d'entreprise. By individual, we mean a sender or a receiver of a message. It can therefore be a single person or a plurality of persons acting collectively in the context of these exchanges (such as for example a plurality of persons accessible through the same email address). In the latter case, according to the embodiments, the identified properties can be attributed to a single “fictitious” individual associated with the plurality of individuals or with each of the persons. The group of individuals may in particular comprise a large number of individuals. It may be, for example, members of a sports federation, an association, a public or private company, and/or a community with a large number of employees, customers and/or suppliers ( or more generally interlocutors). They may also be members of an inter-project group, such as members of a collaborative communication platform such as “Slack © and/or a corporate social network.
La présente invention est présentée plus en détail ci-après en relation avec des modes de réalisation, cités à titre d'exemples non limitatifs, qui concernent une base de connaissance d'individus d'une entreprise (par exemple une entreprise considérée comme une Grande Entreprise (GE), comptant plus de 5000 collaborateurs). Les individus sont par exemple les collaborateurs de l'entreprise ou d'une partie d'une entreprise et les propriétés à acquérir concernent des compétences de ces individus, comme des compétences dans un domaine technique particulier (comme un langage de programmation particulier, les réseaux de neurones en intelligence artificielle, etc..). En effet, l'identification des compétences au sein d'une grande entreprise est une donnée clé pour son organisation et pour ses enjeux. Cette identification peut s'avérer difficile dans des entreprises proposant à leurs collaborateurs un nombre important de métiers, impliquant pour les salariés des compétences diverses, ou lorsque ces compétences sont susceptibles d'évoluer rapidement dans le temps, du fait par exemple de nombreux départs et/ou arrivées de collaborateurs et /ou d'un environnement technologique très évolutif (comme dans des secteurs de haute technologie tel que le secteur des télécommunications, de l'aéronautique, du secteur pharmaceutique ou médical, etc...).The present invention is presented in more detail below in relation to embodiments, cited by way of non-limiting examples, which relate to a knowledge base of individuals of a company (for example a company considered as a Large Company (GE), with more than 5,000 employees). The individuals are for example the collaborators of the company or part of a company and the properties to be acquired relate to the skills of these individuals, such as skills in a particular technical field (such as a particular programming language, networks of neurons in artificial intelligence, etc.). Indeed, the identification of skills within a large company is a key factor for its organization and for its challenges. This identification can prove difficult in companies offering their employees a large number of professions, implying various skills for the employees, or when these skills are likely to change rapidly over time, due for example to numerous departures and /or arrivals of collaborators and/or a very evolving technological environment (as in high-tech sectors such as the telecommunications sector, aeronautics, the pharmaceutical or medical sector, etc.).
On décrit à présent, en lien a vec la figure 1, de façon plus détaillée la présente demande. La figure 1 représente un système de télécommunication 100 dans lequel certains modes de réalisation de l'invention peuvent être mis en œuvre. Le système 100 comporte un ou plusieurs dispositifs électroniques, certains au moins pouvant communiquer entre eux via un ou plusieurs réseaux de communication 120, éventuellement interconnectés, comme un réseau local ou LAN (Local Area Network, 1) et/ou un réseau de type étendu, ou WAN (Wide Area Network, 2). Par exemple, le réseau peut comprendre un réseau LAN d'entreprise ou domestique et/ou un réseau WAN de type internet, ou cellulaire, GSM - Global System for Mobile Communications, UMTS - Universal Mobile Telecommunications System, Wifi - Wireless, etc.) . Comme illustré en figure 1, le système 100 peut également comprendre plusieurs dispositifs électroniques, comme un terminal (tel qu'un ordinateur portable 110, un smartphone 130, 132, 134, une tablette 136), et/ou un serveur 140, par exemple un serveur d'applications, un dispositif de stockage 150. Le système peut également comprendre des éléments de gestion et/ou d'interconnexion réseau (non représentés). Ces dispositifs électroniques peuvent être associés à au moins un individu 160, 162, 164, 166 (par le biais par exemple d'un compte utilisateur accessible par login), certains des dispositifs électroniques 110, 130 pouvant être associés à un même utilisateur 160. La figure 2 illustre une structure simplifiée d'un dispositif électronique 200 du système 100, par exemple le dispositif 1 10, 130 ou 140 de la figure 1, adapté à mettre en œuvre les principes de la présente demande. Selon les modes de réalisation, il peut s'agir d'un serveur, et/ou d'un terminal. The present application will now be described in connection with FIG. 1 in more detail. Figure 1 depicts a telecommunications system 100 in which certain embodiments of the invention may be implemented. The system 100 comprises one or more electronic devices, at least some of which can communicate with each other via one or more communication networks 120, possibly interconnected, such as a local network or LAN (Local Area Network, 1) and/or a wide area type network , or WAN (Wide Area Network, 2). For example, the network may include a corporate or home LAN network and/or a WAN network of the internet or cellular type, GSM - Global System for Mobile Communications, UMTS - Universal Mobile Telecommunications System, Wifi - Wireless, etc.) . As illustrated in FIG. 1, the system 100 can also include several electronic devices, such as a terminal (such as a laptop computer 110, a smartphone 130, 132, 134, a tablet 136), and/or a server 140, for example an applications server, a storage device 150. The system may also include management and/or network interconnection elements (not shown). These electronic devices can be associated with at least one individual 160, 162, 164, 166 (for example through a user account accessible by login), some of the electronic devices 110, 130 being able to be associated with the same user 160. FIG. 2 illustrates a simplified structure of an electronic device 200 of system 100, for example device 110, 130 or 140 of FIG. 1, adapted to implement the principles of the present application. According to the embodiments, it may be a server, and/or a terminal.
Le dispositif 200 comprend notamment au moins une mémoire M 210. Le dispositif 200 peut notamment comprendre une mémoire tampon, une mémoire volatile, par exemple de type RAM (pour « Random Access Memory » selon la terminologie anglaise), et/ou une mémoire non volatile (par exemple de type ROM: (pour « Read Only Memory » selon la terminologie anglaise). Le dispositif 200 peut également comprendre une unité de traitement UT 220, équipée par exemple d'au moins un processeur P 222, et pilotée par un programme d'ordinateur PG 212 stocké en mémoire M 210. A l'initialisation, les instructions de code du programme d'ordinateur PG sont par exemple chargées dans une mémoire RAM avant d'être exécutées par le processeur P. Ledit au moins un processeur P 222 de l'unité de traitement UT 220 peut notamment mettre en œuvre, individuellement ou collectivement, l'un quelconque des modes de réalisation de l'un et/ou de l'autre des procédés de la présente demande (décrit notamment en relation avec la figure 3), selon les instructions du programme d'ordinateur PG. The device 200 notably comprises at least one memory M 210. The device 200 can notably comprise a buffer memory, a volatile memory, for example of the RAM type (for "Random Access Memory" according to the English terminology), and/or a non-volatile memory. volatile (for example of the ROM type: (for "Read Only Memory" according to the English terminology). The device 200 can also comprise a processing unit UT 220, equipped for example with at least one processor P 222, and controlled by a computer program PG 212 stored in memory M 210. On initialization, the code instructions of the computer program PG are for example loaded into a RAM memory before being executed by the processor P. Said at least one processor P 222 of the processing unit UT 220 can in particular implement, individually or collectively, any of the embodiments of one and/or the other of the methods of the present application (described in particular in relation with the fig ure 3), according to the instructions of the computer program PG.
Le dispositif peut également comporter, ou être couplé à, au moins un module d'entrée/ sortie I/O 230, tel qu'un module de communication, permettant par exemple au dispositif 200 de communiquer avec d'autres dispositifs du système 100, via des interfaces de communication fîlaires ou sans fils, et/ou tel qu'un module d'interfaçage avec un utilisateur du dispositif (aussi appelé plus simplement dans cette demande « interface utilisateur »).Par interface utilisateur du dispositif, on entend par exemple une interface intégrée au dispositif 200, ou une parti e d'un dispositif tiers couplé à ce dispositif par des moyens de communication fîlaires ou sans fils. Par exemple, il peut s'agir d'un écran secondaire du dispositif ou d'un ensemble de hauts parleurs connectés par une technologie sans fils au dispositif. The device can also comprise, or be coupled to, at least one I/O input/output module 230, such as a communication module, allowing for example the device 200 to communicate with other devices of the system 100, via wired or wireless communication interfaces, and/or such as an interfacing module with a user of the device (also called more simply in this application “user interface”). an interface integrated into the device 200, or a part of a third-party device coupled to this device by wired or wireless communication means. For example, he can it may be a secondary screen of the device or a set of loudspeakers connected by wireless technology to the device.
Une interface utilisateur peut notamment être une interface utilisateur, dite «de sortie», adaptée à un rendu (ou au contrôle d'un rendu) d'un élément de sortie d'une application informatique utilisée par le dispositif 200, par exemple une application s'exécutant au moins partiellement sur le dispositif 200 ou une application « en ligne » s'exécutant au moins partiellement à distance, par exemple sur le serveur 140 du système 100. Par rendu, on entend ici une restitution (ou « output » selon la terminologie anglaise) sur au moins une interface utilisateur, sous une forme quelconque, par exemple comprenant des composantes textuelle, audio et/ou vidéo, ou une combinaison de telles composantes. A user interface can in particular be a so-called “output” user interface, suitable for rendering (or controlling a rendering) of an output element of a computer application used by the device 200, for example an application running at least partially on the device 200 or an "online" application running at least partially remotely, for example on the server 140 of the system 100. English terminology) on at least one user interface, in any form, for example comprising textual, audio and/or video components, or a combination of such components.
Des exemples d'interface utilisateur de sortie du dispositif incluent un ou plusieurs écrans, notamment au moins un écran graphique (tactile par exemple), un ou plusieurs haut-parleurs, un casque connecté. L'interface du dispositif 200 peut par exemple être adaptée aux rendus illustrés par les figures 5 à 9. Examples of output user interface of the device include one or more screens, in particular at least one graphic screen (touchscreen for example), one or more loudspeakers, a connected helmet. The interface of the device 200 can for example be adapted to the renderings illustrated by FIGS. 5 to 9.
Par ailleurs, une interface utilisateur peut être une interface utilisateur, dite «d'entrée», adaptée à une acquisition d'une information provenant d'un utilisateur du dispositif 200. Il peut s'agir notamment d'une information destinée à une application informatique accessible via le dispositif 200, par exemple une application s'exécutant au moins partiellement sur le dispositif 200 ou une application « en ligne » s'exécutant au moins partiellement à distance, par exemple sur le serveur 140 du système 100. Des exemples d'interface utilisateur d'entrée du dispositif 200 incluent un capteur, un moyen d'acquisition audio et/ou vidéo (microphone, caméra (webcam) par exemple), un clavier, une souris. Furthermore, a user interface can be a so-called “input” user interface, suitable for acquiring information from a user of the device 200. It can be in particular information intended for an application computer accessible via the device 200, for example an application running at least partially on the device 200 or an "online" application running at least partially remotely, for example on the server 140 of the system 100. Examples of The input user interface of the device 200 includes a sensor, an audio and/or video acquisition means (microphone, camera (webcam) for example), a keyboard, a mouse.
Dans certains modes de réalisation, ledit au moins un microprocesseur du dispositif 200 peut par exemple être adapté pour : In certain embodiments, said at least one microprocessor of device 200 can for example be adapted to:
• une obtention d'au moins une donnée contextuelle d'un message électronique émis ou reçu par au moins un terminal dudit réseau de communication, ladite donnée contextuelle comprenant au moins un libellé descriptif du contenu dudit message électronique et au moins un identifiant d'au moins un émetteur et/ou récepteur dudit message; • obtaining at least one contextual data item of an electronic message sent or received by at least one terminal of said communication network, said contextual data item comprising at least one descriptive wording of the content of said electronic message and at least one identifier of at least one at least one sender and/or receiver of said message;
• une obtention d'au moins une caractéristique textuelle depuis ledit libellé descriptif. Dans certains modes de réalisation, ledit au moins un microprocesseur du dispositif 200 peut par exemple être adapté pour : une obtention d'au moins un libellé descriptif d'un message électronique ; une détection des langues des mots dudit libellé descriptif en fonction d'une appartenance desdits mots dudit libellé descriptif à au moins un dictionnaire électronique d'une pluralité de dictionnaires électroniques candidats contenant des mots dans au moins une langue candidate; obtention des formes canoniques de mots dudit libellé descriptif en tenant compte des langues desdits mots dudit libellé descriptif ; un stockage dans au moins une mémoire dudit dispositif desdites formes canoniques obtenues, en association avec au moins un identifiant relatif à un émetteur et/ou à un récepteur dudit message électronique. • obtaining at least one textual characteristic from said descriptive wording. In certain embodiments, said at least one microprocessor of device 200 can for example be adapted to: obtaining at least one descriptive label of an electronic message; a detection of the languages of the words of said descriptive wording according to a membership of said words of said descriptive wording in at least one electronic dictionary of a plurality of candidate electronic dictionaries containing words in at least one candidate language; obtaining the canonical forms of words of said descriptive wording taking into account the languages of said words of said descriptive wording; storage in at least one memory of said device of said canonical forms obtained, in association with at least one identifier relating to a sender and/or to a receiver of said electronic message.
Dans certains modes de réalisation, ledit au moins un microprocesseur du dispositif 200 peut par exemple être adapté pour une exploitation de structures de données comprenant au moins une caractéristique textuelle, comprenant : In certain embodiments, said at least one microprocessor of device 200 can for example be adapted for use of data structures comprising at least one textual characteristic, comprising:
• une sélection au moins partiellement automatique d'au moins une première desdites caractéristiques textuelles en tenant compte d'une association de ladite première caractéristique textuelle à une thématique de recherche sur lesdites structures de données; • an at least partially automatic selection of at least a first of said textual characteristics taking into account an association of said first textual characteristic with a research topic on said data structures;
• une extraction d'au moins une partie des données d'au moins une première desdites structures, tenant compte de ladite au moins une caractéristique textuelle de ladite première structure et de ladite première caractéristique textuelle sélectionnée. • an extraction of at least part of the data from at least a first of said structures, taking into account said at least one textual characteristic of said first structure and said first textual characteristic selected.
Dans certains modes de réalisation, ledit au moins un microprocesseur du dispositif 200 peut par exemple être adapté pour : In certain embodiments, said at least one microprocessor of device 200 can for example be adapted to:
• une obtention de structures de données, lesdites données d'une structure comprenant au moins une caractéristique textuelle, lesdites structures de données étant stockées sur au moins un support de stockage informatique accessible depuis ledit dispositif électronique ; • obtaining data structures, said data of a structure comprising at least one textual characteristic, said data structures being stored on at least one computer storage medium accessible from said electronic device;
• une obtention automatique d'au moins une première caractéristique candidate parmi lesdites caractéristiques textuelles desdites structures de données en tenant compte d'une proximité sémantique desdites caractéristiques textuelles desdites structures de données avec au moins une caractéristique textuelle recherchée ; • an automatic obtaining of at least a first candidate characteristic among said textual characteristics of said data structures taking into account a semantic proximity of said textual characteristics of said data structures with at least one textual characteristic sought;
• au moins une obtention automatique d'au moins une seconde caractéristique textuelle candidate parmi lesdites caractéristiques textuelles desdites structures de données en tenant compte d'une proximité sémantique desdites caractéristiques textuelles desdites structures de données avec au moins une desdites première et/ou seconde caractéristiques candidates déjà obtenues; • at least one automatic obtaining of at least one second candidate textual characteristic among said textual characteristics of said data structures taking into account a semantic proximity of said characteristics texts of said data structures with at least one of said first and/or second candidate features already obtained;
• une exploitation automatique desdites structures de données, tenant compte de la présence dans lesdites structures de données d'au moins une troisième desdites premières et secondes caractéristiques candidates obtenues. • an automatic exploitation of said data structures, taking into account the presence in said data structures of at least a third of said first and second candidate characteristics obtained.
Certains des modules d'entrées-sorties ci-dessus sont optionnels et peuvent donc être absents du dispositif 200 dans certains modes de réalisation. Notamment, si la présente demande est parfois détaillée en lien avec un dispositif communiquant avec au moins un second dispositif du système 100, le procédé peut également être mis en œuvre localement par un dispositif, lorsqu'il est utilisé successivement par plusieurs utilisateurs échanges des messages asynchrones par exemple. Some of the above input-output modules are optional and may therefore be absent from device 200 in some embodiments. In particular, if the present application is sometimes detailed in connection with a device communicating with at least a second device of the system 100, the method can also be implemented locally by a device, when it is used successively by several users exchanging messages asynchronous for example.
Au contraire, dans certains de ses modes de réalisation, le procédé peut être mis en œuvre de façon distribuée entre au moins deux dispositifs 110, 130, 132, 134, 136, 140 et/ou 150 du système 100. On the contrary, in some of its embodiments, the method can be implemented in a distributed manner between at least two devices 110, 130, 132, 134, 136, 140 and/or 150 of the system 100.
Par le terme « module » ou le terme « composant » ou «élément » du dispositif, on entend ici un élément matériel, notamment câblé, ou un élément logiciel, ou une combinaison d'au moins un élément matériel et d'au moins un élément logiciel. Le procédé selon l'invention peut donc être mis en œuvre de diverses manières, notamment sous forme câblée et/ou sous forme logicielle. The term "module" or the term "component" or "element" of the device here means a hardware element, in particular wired, or a software element, or a combination of at least one hardware element and at least one software item. The method according to the invention can therefore be implemented in various ways, in particular in wired form and/or in software form.
La figure 3 illustre certains modes de réalisation du procédé 300 de collecte de données de la présente demande. Le procédé 300 peut par exemple être implémenté par le dispositif électronique 200 illustré en figure 2. Figure 3 illustrates some embodiments of the data collection method 300 of the present application. The method 300 can for example be implemented by the electronic device 200 illustrated in FIG. 2.
Comme illustré en figure 3, le procédé 300 de collecte de données peut comprendre une obtention 310 (ou collecte) de données à partir de messages électroniques échangés entre plusieurs individus, en utilisant par exemple d'au moins un des dispositifs électroniques du système 100. As illustrated in FIG. 3, the method 300 for collecting data can comprise obtaining 310 (or collecting) data from electronic messages exchanged between several individuals, using for example at least one of the electronic devices of the system 100.
Dans les modes de réalisation détaillés, les données (ou traces) obtenues à partir d'un message électronique comprennent par exemple une date et/ou heure de l'émission et/ou de la réception du message, un identifiant d'au moins un émetteur et/ou récepteur du message, et/ou un libellé descriptif du message (tel qu'un titre, ou objet, du message dans le cas d'un courriel par exemple, ou un contenu textuel d'un courriel ou d'un message instantané). Dans le cadre d'un message audio ou d'un message vidéo ayant un e composante audio, le libellé descriptif peut correspondre par ex emple à une retranscription textuelle d'au moins une partie du message (obtenu par exemple par des techniques de conversion de voix en texte connues sous le nom de STT (Speech To Text) selon la Terminologie anglaise). In the detailed embodiments, the data (or traces) obtained from an electronic message include, for example, a date and/or time of transmission and/or reception of the message, an identifier of at least one sender and/or receiver of the message, and/or a descriptive wording of the message (such as a title, or subject, of the message in the case of an e-mail for example, or a textual content of an e-mail or instant message). In the context of an audio message or a video message having an audio component, the descriptive wording may correspond, for example, to a textual transcription of at least part of the message (obtained for example by voice to text conversion techniques known as STT (Speech To Text) according to the English Terminology).
Comme exposé avec plus de détail ci -après, le procédé peut également comprendre une obtention 330 d'au moins une caractéristique textuelle, à partir des données contextuelles d'un message. Différents traitements peuvent être effectués sur les données collectées pour obtenir ces caractéristiques. As explained in more detail below, the method can also include obtaining 330 at least one textual characteristic, from the contextual data of a message. Various treatments can be carried out on the data collected to obtain these characteristics.
Ainsi, dans certains modes de réalisation, le procédé 300 peut comprendre un filtrageThus, in some embodiments, the method 300 may include filtering
331 des données collectées. Par exemple, certaines données considérées comme personnelles ou confidentielles peuvent être supprimées. Ce filtrage peut tenir compte du libellé descriptif du message. Ainsi, ce filtrage peut être effectué au moins partiellement automatiquement, par application de règles de filtrage, comme la suppression de données d'un message, en présence de mot clé (ex., « personnel »,331 of the data collected. For example, some data considered personal or confidential may be deleted. This filtering can take into account the descriptive wording of the message. Thus, this filtering can be carried out at least partially automatically, by applying filtering rules, such as the deletion of data from a message, in the presence of a keyword (e.g., "personal",
« confidentiel », « private », etc.) indicatifs d'un caractère personnel ou confidentiel d'un message, dans un libellé descriptif obtenu. "confidential", "private", etc.) indicative of a personal or confidential nature of a message, in a descriptive wording obtained.
Dans la figure 3, le procédé de collecte de données comprend aussi une étape de détectionIn Figure 3, the data collection method also includes a detection step
332 d'au moins une langue (par exemple le français et/ou l'anglais) utilisée dans un libellé descriptif d'un message, parmi une pluralité de langues candidates. 332 of at least one language (for example French and/or English) used in a descriptive wording of a message, among a plurality of candidate languages.
Selon les modes de réalisation, et notamment selon les données collectées (leur taille, les langues «candidates » supportées, et les contraintes de sécurité relatives à ces données, notamment en termes d'accès, par exemple), différentes méthodes peuvent être utilisées pour détecter une langue. Par exemple, dans le mode de réalisation illustré, la détection 332 peut tirer parti de différences lexicales entre au moins deux langues candidates, comme le français et l'anglais. En effet, à l'exception de la mention d'entités et/ou individus (nom de personnes, entreprise, etc.), une phrase en anglais ne contient pas d'accents ni certains caractères spéciaux (tels que é, è, ù, ô, û, ....), à l'opposé d'une phrase en français. Par ailleurs, il existe des connecteurs lexicaux, tels que des « mots de liaisons », (comme « pour », « des », « la », « le », « alors », « etc » pour le français et (by, the, for, ...). pour l'anglais), qui sont spécifiques à certaines langues, et peuvent donc aider à les différentier. Dans certains modes de réalisation, le procédé peut donc comprendre un test de la présence, dans le libellé descriptif, d'accent et/ou de d'éléments lexicaux spécifiques à une des langues candidates. According to the embodiments, and in particular according to the data collected (their size, the "candidate" languages supported, and the security constraints relating to this data, particularly in terms of access, for example), different methods can be used to detect a language. For example, in the illustrated embodiment, detection 332 can take advantage of lexical differences between at least two candidate languages, such as French and English. Indeed, with the exception of the mention of entities and/or individuals (name of persons, company, etc.), an English sentence does not contain accents or certain special characters (such as é, è, ù , ô, û, ....), the opposite of a sentence in French. In addition, there are lexical connectors, such as "linking words", (such as "for", "des", "la", "le", "then", "etc" for French and (by, the, for, ...). for English), which are specific to certain languages, and can therefore help to differentiate them. In certain embodiments, the method can therefore comprise a test for the presence, in the descriptive wording, of accent and/or of lexical elements specific to one of the candidate languages.
Dans certains modes de réalisation, par exemple lorsque le test précédent a été infructueux, le procédé peut comprendre un calcul d'une probabilité d'appartenance du libellé descriptif à une des langues candidates. Une telle probabilité peut par exemple être définie en tenant compte d'une intersection entre les mots du libellé et les mots existants dans un dictionnaire électronique d'une langue candidate. L'algorithme ci- après peut exemple être mis en œuvre sur le libellé (qui est dans cet exemple l'objet d'un email) en lien avec un dictionnaire FR en langue française et avec un dictionnaire EN en langue française anglaise. In certain embodiments, for example when the previous test was unsuccessful, the method can comprise a calculation of a probability of belonging of the descriptive wording to one of the candidate languages. Such a probability can for example be defined taking into account an intersection between the words of the label and the existing words in an electronic dictionary of a candidate language. The algorithm below can for example be implemented on the label (which is in this example the subject of an email) in connection with a FR dictionary in French language and with an EN dictionary in French English language.
Entrée de l'algorithme : Objet d'un email Algorithm input: Subject of an email
Initialisation : fr_caracteres_speciaux = ["à","â","ç","é","è","œ","ê","ù","ô",....] fr mots relatifs = ["les”, "le", "pas", "ici", "alors”, "aussi", "encore", "par", "dans", "sur", "pour”, ....] en mots relatifs = ["by", "the", "in", "under", "for", ....] Initialization: fr_special_characters = ["à","â","ç","é","è","œ","ê","ù","ô",....] fr relative words = ["the", "the", "not", "here", "then", "also", "again", "by", "in", "on", "for”, ....] in relative words = ["by", "the", "in", "under", "for", ....]
Premier test : intersection_elt = fr_caracteres_speciaux ∩ les alphabets constituant l'objetFirst test: intersection_elt = fr_caracteres_speciaux ∩ the alphabets constituting the object
Si intersection_elt != 0 alors Retourner fr Fin d'algorithme Sinon : Deuxième test : fr element = fr_mots_relatifs ∩ la liste des mots constituant l'objetIf intersection_elt != 0 then Return fr End of algorithm Otherwise: Second test: fr element = fr_mots_relatifs ∩ the list of words constituting the object
Si fr_element != Φ alors Retourner fr Fin d'algorithme If fr_element != Φ then Return fr End of algorithm
Sinon en element = en mots relatifs ∩ la liste des mots constituant l'objetOtherwise in element = in relative words ∩ the list of words constituting the object
Si en element != Φ alors Retourner en Fin d’algorithme Sinon : Troisième test : fr element = la liste des mots constituant l'objet ∩ liste des mots constituant le dictionnaire fr en element = la liste des mots constituant l'objet ∩ liste des mots constituant le dictionnaire en Si la taille de fr element > en element alors Retourner fr Fin d'algorithme If in element != Φ then Return to End of algorithm Otherwise: Third test: fr element = the list of words constituting the object ∩ list of words constituting the dictionary fr en element = the list of words constituting the object ∩ list words making up the dictionary en If the size of fr element > en element then Return fr End of algorithm
Sinon Retourner en Fin d'algorithme Else Return to End of Algorithm
Résultats expérimentaux Experimental results
L'exemple de détection détaillé ci avant peut présenter, dans certains modes de réalisation, des avantages en termes de pertinence de la détection de langue par rapport à. certains algorithmes existants, par exemple des algorithmes utilisant le langage de programmation Python. The example of detection detailed above can present, in certain embodiments, advantages in terms of relevance of language detection with respect to. certain existing algorithms, for example algorithms using the Python programming language.
Notamment, elle peut par exemple, dans certains modes de réalisation, ne pas être sensible (ou très faiblement) à la longueur des phrases en entrée, à l'inverse de certains autres algorithmes dont les résultats se dégradent lorsque la longueur des phrases en entrée augmente. In particular, it may for example, in certain embodiments, not be sensitive (or very weakly) to the length of the input sentences, unlike certain other algorithms whose results degrade as the length of input sentences increases.
Le mode de réalisation détaillé ci-avant offre de plus l'avantage de pouvoir être mis en œuvre localement sans accès à. Internet (hors-ligne - ou « offline » selon la terminologie anglaise). Ainsi, il peut être adapté, au moins dans certains modes de réalisation, à une utilisation de données stockées dans un environnement sécurisé sans accès à internet.The embodiment detailed above also offers the advantage of being able to be implemented locally without access to. Internet (hors-ligne - or "offline" according to the English terminology). Thus, it can be adapted, at least in certain embodiments, to use of data stored in a secure environment without Internet access.
Le tableau ci-après représente le taux de classification correcte obtenu, par plusieurs algorithmes, dont l'algorithme présenté ci-avant, lors d'un essai de classification, en fonction de leur langue, des données d'une base de de test contenant 109 phrases (longues et courtes). Comme le montre le tableau, dans cet essai, l'algorithme présenté ci-avant est l'algorithme le plus performant, par rapport aux autres algorithmes testés, et arrive à 99% à assigner la bonne langue à chaque phrase.
Figure imgf000022_0001
The table below represents the correct classification rate obtained, by several algorithms, including the algorithm presented above, during a classification test, according to their language, of data from a test database containing 109 sentences (long and short). As the table shows, in this test, the algorithm presented above is the most efficient algorithm, compared to the other algorithms tested, and is 99% successful in assigning the correct language to each sentence.
Figure imgf000022_0001
Dans certains modes de réalisation, la détection 332 peut permettre une détection de la présence, dans un libellé classifié comme relatif à une première langue, de mots d'une seconde langue. En effet, un titre d'émail en français peut par exemple contenir des mots techniques en anglais comme « data », « machine learning »). In certain embodiments, the detection 332 can allow detection of the presence, in a wording classified as relating to a first language, of words of a second language. Indeed, an email title in French may for example contain technical words in English such as "data", "machine learning").
Dans certains modes de réalisation, par exemple lorsqu'une détection automatique n'a pas permis de déterminer avec certitude (ou avec une probabilité suffisante, par exemple une probabilité supérieure à une première valeur « dite seuil ») une langue utilisée, le procédé peut comprendre une obtention ou une vérification de la langue utilisée dans au moins un libellé descriptif via une interface utilisateur (telle que l'interface utilisateur du dispositif 200 par exemple). In certain embodiments, for example when an automatic detection has not made it possible to determine with certainty (or with a sufficient probability, for example a probability greater than a first “so-called threshold” value) a language used, the method can include obtaining or verifying the language used in at least one descriptive wording via a user interface (such as the user interface of the device 200 for example).
Le procédé de collecte de données de la présente demande peut également comprendre une étape de lemmatisation 333 d'au moins une partie du libellé descriptif, par exemple de certains mots ou ensemble de mots du libellé. Une lemmatisation désigne un traitement lexical apporté à un mot de façon à lui associer sa forme neutre canonique, et à pouvoir regrouper ainsi les mots d'une même famille sous une même forme canonique, Par exemple, une lemmatisation permet de regrouper des verbes, substantifs, et/ou adjectifs associés à une même forme canoniqueiou lemrne) dans un codage commun. The data collection method of the present application may also comprise a step 333 of lemmatizing at least part of the descriptive wording, for example certain words or set of words of the wording. A lemmatization designates a lexical treatment given to a word in such a way as to associate it with its canonical neutral form, and to thus be able to group the words of the same family in the same canonical form, For example, a lemmatization makes it possible to group together verbs, nouns, and/or adjectives associated with the same canonical form (ior lemrne) in a common coding.
Selon les modes de réalisation de l'invention, plusieurs méthodes de lemmatisation peuvent être mises en œuvre. Ainsi, dans des modes de réalisations où la lemmatisation est effectuée sur un libellé après une détection 332 (ou détermination) d'au moins une langue utilisée dans le libellé, des méthodes différentes de lemmatisation peuvent être utilisées selon la langue utilisée, Par exemple, dans certains modes de réalisation, la méthode de lemmatisation « treetagger » peut être utilisée pour un libellé (ou une partie de libellé) en français et tandis que la méthode de lemmatisation « nltk » peut être utilisée pour l'anglais. Selon un autre exemple, il peut être utilisé, pour la langue anglaise par exemple, une méthode de lemmatisation basée sur la méthode « nltk » mais y apportant certaines modifications. Par exemple, il peut être utilisé une méthode de lemmatisa tion basée sur la méthode « nltk » mais intégrant une fonction syntaxique (verbe, nom, etc), telle que celle utilisée par la méthode treetagger. Une telle intégration peut en effet permettre, dans certains modes de réalisation, une meilleure identification de la syntaxe d'un mot qu'avec la méthode « nltk », aboutissant donc avec plus de probabilité à l'obtention de la forme canonique du mot. (Par exemple, pour la phrase “the best moment be when / saw my baby walk on their foof\ le lemmatiseur de « nltk » n'arrive pas à considérer «saw» comme le verbe « voir » au passé et donc il reste inchangé). Ainsi l'intégration d'une fonction syntaxique peut permettre dans certains modes de réalisation d'obtenir une meilleure performance qu'avec la méthode « nltk » seule. According to the embodiments of the invention, several lemmatization methods can be implemented. Thus, in embodiments where the lemmatization is performed on a label after a detection 332 (or determination) of at least one language used in the label, different lemmatization methods can be used depending on the language used, For example, in certain embodiments, the “treetagger” lemmatization method can be used for a label (or part of a label) in French and while the “nltk” lemmatization method can be used for English. According to another example, it can be used, for the English language for example, a lemmatization method based on the “nltk” method but making certain modifications thereto. For example, a lemmatization method based on the “nltk” method but integrating a syntactic function (verb, noun, etc.), such as that used by the treetagger method, can be used. Such integration can indeed allow, in certain embodiments, a better identification of the syntax of a word than with the “nltk” method, thus resulting with more probability in obtaining the canonical form of the word. (For example, for the sentence “the best moment be when / saw my baby walk on their foof\ the lemmatizer of “nltk” cannot consider “saw” as the verb “to see” in the past tense and therefore it remains unchanged ). Thus the integration of a syntactic function can make it possible, in certain embodiments, to obtain better performance than with the “nltk” method alone.
Dans certains modes de réalisation, par exemple lorsque la détection 332 a conclu à la présence dans un libellé utilisant une première langue, de mots d'une seconde langue, une première lemmatisation peut être appliquée aux parties du libellé dans la première langue du libellé, une seconde lemmatisation différente de la première lemmatisation étant appliquée aux mots dans la seconde langue. En effet, si un titre d'émail en français contient par exemple des mots techniques en anglais comme « data », « machine learning », un lemmatiseur adapté au français pourrait transformer ces mots techniques anglais en « dater » et « machiner learning » respectivement, ce qui n'aurait pas de sens, Dans certains modes de réalisation, après l'étape de lemmatisation(s), le libellé ne contient plus que des verbes, des noms, des adjectifs et des connecteurs lexicaux (tels que des adverbes). In certain embodiments, for example when the detection 332 has concluded that words from a second language are present in a label using a first language, a first lemmatization can be applied to the parts of the label in the first language of the label, a second lemmatization different from the first lemmatization being applied to the words in the second language. Indeed, if an email title in French contains, for example, technical words in English such as "data", "machine learning", a lemmatizer adapted to French could transform these English technical words into "dater" and "machine learning" respectively , which would not make sense, In certain embodiments, after the lemmatization(s) step, the wording only contains verbs, nouns, adjectives and lexical connectors (such as adverbs).
Le procédé de la présente demande peut également comprendre, dans certains modes de réalisation, une étape de suppression 334 de mots non informatifs (« stop Words » selon la terminologie anglaise), tels que des connecteurs lexicaux (tels que « avant », « pour », « sur », « la », etc.). La détection de ces mots non informatifs à supprimer peut par exemple mettre en œuvre une comparaison des mots du libellé avec ceux d'au moins une liste (ou dictionnaire) regroupant des mots non informatifs dans au moins une des langues candidates. Par exemple, le procédé peut mettre en œuvre une consultation d'au moins une liste correspondant à la (ou les) langue(s) détectée(s) dans le libellé parmi au moins une pluralité de listes, chacune étant spécifique à une des langues candidates.The method of the present application may also comprise, in certain embodiments, a step 334 of deleting non-informative words (“stop words” according to English terminology), such as lexical connectors (such as “before”, “for “, “on”, “the”, etc.). The detection of these non-informative words to be deleted can for example implement a comparison of the words of the label with those of at least one list (or dictionary) grouping non-informative words in at least one of the candidate languages. For example, the method can implement a consultation of at least one list corresponding to the language(s) detected in the label from among at least a plurality of lists, each being specific to one of the languages candidates.
Dans certains modes de réalisation, le procédé de collecte de données peut comprendre une détection 335 de mots composés, qu'il convient de traiter conjointement (et non séparément). Il peut s'agir notamment de mots composés en lien avec le domaine d'application concerné et/ou des ressources (qualité, compétences) recherchées (tels que « machine learning », « intelligence artificielle », Edge computing, Conception UX dans le domaine des télécommunications ou «grand cru » dans le domaine viticole). In some embodiments, the data collection method may include a detection 335 of compound words, which should be processed together (and not separately). These may include compound words related to the field of application concerned and/or the resources (quality, skills) sought (such as "machine learning", "artificial intelligence", Edge computing, UX design in the field telecommunications or “grand cru” in the wine sector).
Dans certains modes de réalisation, la détection 335 de mots composés peut par exemple tenir compte d'une présence dans un dictionnaire technique et/ou une base de connaissances d'une association d'au moins deux mots successifs d'un libellé. In certain embodiments, the detection 335 of compound words can for example take account of the presence in a technical dictionary and/or a knowledge base of an association of at least two successive words of a description.
Dans certains modes de réalisation, la détection 335 de mots composés peut par exemple tenir compte d'un nombre d'occurrences d'une succession d'au moins un premier et un second mot dans une pluralité de libellés et d'une comparaison de ce nombre d'occurrences « en association », avec le nombre d'occurrence de ces même mots (premier mot, second mot, etc) pris séparément. Par exemple, dans certains modes de réalisation, la détection 335 de mots composés peut utiliser un modèle telle que « Phrases » de la librairie Gensim de Python pour détecter des mots composés dans l'ensemble des libellés des messages obtenus. In certain embodiments, the detection 335 of compound words can for example take into account a number of occurrences of a succession of at least a first and a second word in a plurality of labels and a comparison of this number of occurrences "in association", with the number of occurrences of these same words (first word, second word, etc.) taken separately. For example, in certain embodiments, the detection 335 of compound words can use a model such as “Phrases” from the Gensim library of Python to detect compound words in the set of labels of the messages obtained.
L'étape d'obtention 330 aboutit ainsi à des libellés ne contenant plus que des verbes, des noms et/ou des adjectifs(mots ou groupe de mots comme des mot composés). Ces termes ( ou caractéristiques) sont relatifs aux émetteurs et/ou récepteurs des messages (en effet, un thème abordé dans un échange peut impliquer à la fois l'émetteur et le récepteur du message). Comme illustré en figure 3, le procédé peut de plus comprendre une étape de stockage 340 de la ou des caractéristique^) obtenue(s). Par exemple les caractéristiques peuvent enrichir une base de connaissances comprenant au moins certains des émetteurs et/ou récepteurs des messages. Dans certains modes de réalisation, (notamment lorsque l'identifiant de l'émetteur et/ou du récepteur du message n'a pas été précédemment « anonymise » (i.e. rendu anonyme) comme exposé ci-après), ces caractéristiques peuvent être associées à l'émetteur ou au récepteur du message (par exemple, elles peuvent être ajoutées à ses données personnelles, de façon à enrichir son « profil »), ou en variante à au moins un terminal de l'émetteur ou du récepteur du message. Alternativement ou de façon cumulative, dans certains modes de réalisation, ces caractéristiques peuvent être associées à une entité de plusieurs individus à laquelle appartient à l'émetteur ou au récepteur du message (ou en variante une entité de plusieurs terminaux dont au moins un appartient à l'émetteur ou du récepteur du message), par exemple une entité de substitution identifiée, lors d'une anonymisation 321 d'un identifiant de l'émetteur et/ou du récepteur du message comme exposé ci- après. The obtaining step 330 thus results in labels containing only verbs, nouns and/or adjectives (words or groups of words such as compound words). These terms (or characteristics) relate to the senders and/or receivers of the messages (indeed, a topic addressed in an exchange can involve both the sender and the receiver of the message). As illustrated in FIG. 3, the method can also comprise a step 340 for storing the characteristic(s) obtained. For example, the characteristics can enrich a knowledge base comprising at least some of the senders and/or receivers of the messages. In certain embodiments (in particular when the identifier of the sender and/or of the receiver of the message has not previously been "anonymized" (ie made anonymous) as explained below), these characteristics can be associated with sender or to the receiver of the message (for example, they can be added to his personal data, so as to enrich his "profile"), or alternatively to at least one terminal of the sender or receiver of the message. Alternatively or cumulatively, in certain embodiments, these characteristics can be associated with an entity of several individuals to which the sender or receiver of the message belongs (or as a variant an entity of several terminals of which at least one belongs to the sender or of the receiver of the message), for example a substitution entity identified, during an anonymization 321 of an identifier of the sender and/or of the receiver of the message as explained below.
Dans certains des modes de réalisation du procédé 300 de collecte de données, au moins certaines caractéristiques stockées peuvent être utilisées ultérieurement par le procédé d'exploitation 400 décrit ci-après en lien avec la figure 4, dans certains de ses modes de réalisation. In some of the embodiments of the data collection method 300, at least certain stored characteristics can be used subsequently by the exploitation method 400 described below in connection with FIG. 4, in certain of its embodiments.
Dans certains modes de réalisation, le procédé de collecte de données peut comprendre une étape 320 d'anonymisation des données obtenues lors de l'étape 310. Cette étape peut être facultative ou systématique selon les modes de réalisation, par exemple en fonction des données collectées, et/ou d'une sécurisation des équipements ou réseau par lesquels vont transiter les données collectées, et/ou en fonction de la règlementation en vigueur dans un pays dans lesquels est mis en œuvre le procédé de collecte de la présente demande et/ou encore d'une règlementation interne à une entreprise mettant en œuvre le procédé de collecte de la présente demande (en application par exemple du Règlement Général sur la Protection des Données (RGPD) (ou encore GDPR, de l'anglais « General Data Protection Regulation ») de l'Union Européenne). In some embodiments, the data collection method may include a step 320 of anonymizing the data obtained during step 310. This step may be optional or systematic depending on the embodiments, for example depending on the data collected , and/or securing the equipment or network through which the collected data will pass, and/or depending on the regulations in force in a country in which the process for collecting this application is implemented and/or another internal regulation of a company implementing the process for collecting this request (in application, for example, of the General Data Protection Regulation (RGPD) (or GDPR, from the English "General Data Protection Regulation ") of the European Union).
Dans l'exemple illustré, l'anonymisation 320 peut comprendre une substitution 321, dans les données obtenues d'un message, de l'identifiant de l'émetteur et/ou du récepteur du message par un autre identifiant, par exemple un identifiant relatif à une entité (appelée ci-après entité de substitution) à laquelle appartient (est rattaché) au moins un émetteur et/ou récepteur du message (ou en variante un terminai de cet émetteur et/ou ce récepteur). Il peut s'agir ainsi d'un identifiant tel qu'une référence alphanumérique ou un sigle visuel (logo, couleur particulière etc..) relatif à une entité telle qu'une équipe sportive et/ou qu'une entité hiérarchique ou fonctionnelle au sein d'une entreprise. In the example illustrated, the anonymization 320 may comprise a substitution 321, in the data obtained from a message, of the identifier of the sender and/or of the receiver of the message by another identifier, for example a relative identifier to an entity (hereinafter referred to as a substitute entity) to which belongs (is attached) to the at least one sender and/or receiver of the message (or as a variant a terminal of this sender and/or this receiver). It may thus be an identifier such as an alphanumeric reference or a visual acronym (logo, particular color, etc.) relating to an entity such as a sports team and/or a hierarchical or functional entity at the within a company.
Selon les modes de réalisation, l'entité de substitution peut être choisie (ou sélectionnée) en tenant compte de différents critères, tels qu'un nombre d'individus (ou de terminaux) appartenant à l'entité de substitution, et/ou qu'une proximité (logique, fonctionnelle et/ou géographique) entre une entité de substitution et l'émetteur ou le récepteur du message concerné. Par exemple, dans une entreprise, l'entité de substitution peut être l'entité hiérarchique, la plus proche de l'individu à laquelle appartient un nombre de salariés supérieur à une certaine valeur (par exemple un nombre de salariés au moins égal à 1, 5,10 ou 15 salariés). According to the embodiments, the substitution entity can be chosen (or selected) taking into account various criteria, such as a number of individuals (or terminals) belonging to the substitution entity, and/or that a proximity (logical, functional and/or geographic) between a substitute entity and the sender or receiver of the message concerned. For example, in a company, the substitution entity can be the hierarchical entity, the closest to the individual to which belongs a number of employees greater than a certain value (for example a number of employees at least equal to 1 , 5, 10 or 15 employees).
Un critère relatif à une tai lle minimale d'une entité de substitution peut en effet limiter les risques d'identification d'un individu dans l'entité de substitution. Cette taille minimale, et donc le degré de précision souhaité lors d'une analyse ultérieure des données, peut varier selon les modes de réalisation. Notamment, elle peut être fonction du nombre potentiel d'émetteurs et/ ou de récepteurs de messages, de contraintes règlementaires (liées au R.GPD par exemple) et/ou du caractère sensible d‘une thématique qui peut y être associée (voir ci-après), Par exemple, il peut être choisi une plus grande taille minimale pour des modes de réalisation dans le domaine médical que dans le domaine sportif. A criterion relating to a minimum size of a surrogate entity can indeed limit the risks of identification of an individual in the surrogate entity. This minimum size, and therefore the degree of precision desired during a subsequent analysis of the data, can vary according to the embodiments. In particular, it may depend on the potential number of message senders and/or receivers, regulatory constraints (linked to the GDPR for example) and/or the sensitive nature of a theme that may be associated with it (see below). -after), For example, a larger minimum size can be chosen for embodiments in the medical field than in the sports field.
Dans certains modes de réalisation, l'anonymisation 320 peut comprendre une anonymisation 322 du libellé descriptif, afin de supprimer le cas échéant d'un libellé au moins une indication pouvant aider à une identification d'au moins un émetteur et/ou d'au moins un récepteur du message dont les données sont collectées ou d'autres individus ou entités impliqué par la données collectée (par exemple supprimer les nom et/ou prénom d'au moins une personne ou entité nommée dans une donnée textuelle). Selon les modes de réalisation, l'anonymisation 321 d'au moins un des identifiants et/ou l'anonymisation 322 au moins partielle du libellé peut être effectuée avant, pendant ou l'obtention et/ou le stockage de la caractéristique. Par exemple, l'anonymisation 321 de l'identifiant peut être effectué en parallèle à l'obtention 330 d'au moins une caractéristique à partir du libellé. L'anonymisation 322 du libellé, si elle est effectuée avant la détection de la langue du libellé peut offrir l'avantage de supprimer potentiellement certains mots (comme des noms de personnes ou d'entité) dont la présence dans un libellé pourrait perturber la détection de la langue du libellé (comme un prénom avec accent dans un libellé an anglais). De plus, il peut être plus efficace, en termes de charge de traitement, d'anonymiser un libellé en amont d'une détection de langue, d'une lemmatisation, d'une suppression de mots non informatifs et /ou d'une détection de mots composés) de façon à raccourcir éventuellement un libellé et donc à limiter les données d'entrée de ces étapes. In some embodiments, the anonymization 320 may comprise an anonymization 322 of the descriptive wording, in order to remove, where appropriate from a wording, at least one indication that can help identify at least one sender and/or at least one at least one receiver of the message whose data is collected or other individuals or entities implied by the data collected (for example to remove the name and/or first name of at least one person or entity named in a textual data). According to the embodiments, the anonymization 321 of at least one of the identifiers and/or the at least partial anonymization 322 of the wording can be carried out before, during or the obtaining and/or the storage of the characteristic. For example, the anonymization 321 of the identifier can be performed in parallel with the obtaining 330 of at least one characteristic from the wording. The anonymization 322 of the label, if it is carried out before the detection of the language of the label can offer the advantage of potentially deleting certain words (such as names of persons or entities) whose presence in a label could disturb the detection the language of the label (such as a first name with accent in an English label). In addition, it may be more efficient, in terms of processing load, to anonymize a label upstream of language detection, lemmatization, deletion of non-informative words and/or detection of compound words) in order to possibly shorten a label and therefore to limit the input data of these steps.
Il a été détaillé ci-avant un procédé 300 de collecte de données relative à un groupe des individus, pour une obtention de caractéristiques destinée à être stockées pour une exploitation ultérieure en relation avec un groupe d'individus ou d'entités comprenant ces individus (par exemple à enrichir une base de connaissance d'un groupe d'individus ou d'entités comprenant ces individus). A method 300 for collecting data relating to a group of individuals has been detailed above, in order to obtain characteristics intended to be stored for subsequent use in relation to a group of individuals or entities comprising these individuals ( for example to enrich a knowledge base of a group of individuals or of entities comprising these individuals).
On détaille à présent un procédé 400 d'exploitation (ou utilisation) de données relatives à un groupe d'individus, et notamment de caractéristiques textuelles d'un groupe d'individus, ou d'entités comprenant ces individus. Le groupe d'individus peut correspondre par exemple aux collaborateurs d'une entreprise, ou d'une partie d'une entreprise. Selon les modes de réalisation, au moins certaines des caractéristiques d'au moins un des individus ou entités utilisées par le procédé d'exploitation 400 peuvent avoir été obtenues par le procédé 300 de collecte décrit ci-avant et/ou de façon différente. Par exemple, des caractéristiques relatives à au moins un individu peuvent avoir été saisies via une interface utilisateur (par exemple, dans un groupe de collaborateurs d'une entreprise, lors d'une embauche ou suite à une formation collective). Ainsi, selon les modes de réalisation, le procédé de collecte et le procédé d'exploitation peuvent mis en œuvre de façon indépendante, ou de façon conjointe. A method 400 for exploiting (or using) data relating to a group of individuals, and in particular textual characteristics of a group of individuals, or of entities comprising these individuals, is now detailed. The group of individuals can correspond for example to the employees of a company, or of a part of a company. According to the embodiments, at least some of the characteristics of at least one of the individuals or entities used by the exploitation method 400 may have been obtained by the collection method 300 described above and/or in a different way. For example, characteristics relating to at least one individual may have been entered via a user interface (for example, in a group of employees of a company, during hiring or following collective training). Thus, according to the embodiments, the collection method and the exploitation method can be implemented independently, or jointly.
Comme illustré en figure 4, le procédé 400 d'exploitation de données de la présente demande peut comprendre une extraction 440 de données relatives à un groupe d'individus (par exemple des émetteurs et/ou de récepteurs de messages électroniques), en fonction d'au moins certaines des caractéristiques (issues par exemple des libellés des messages) associées à ces individus ou entités, par exemple en fonction d'une caractéristique ou d'une pluralité de caractéristiques particulières, associé(s) à une « thématique » ciblée pour l'exploitation des données. Ainsi, lorsque le procédé d'exploitation 400 est appliqué pour un groupe de collaborateurs d'une entreprise, une thématique peut correspondre à un domaine technique (par exemple assez général) de l'entreprise pour lequel on souhaite identifier des compétences dont dispose l'entreprise, et/ou pour lequel on souhaite localiser, au sein de l'organisation hiérarchique et/ou fonctionnelle de l'entreprise, les collaborateurs ayant des compétences en lien avec ce domaine technique. Par exemple, une pluralité de thématiques liées aux domaines techniques de l'entreprise peut être identifiée (Par exemple : Intelligence artificielle, 5G, banque, assurance, .. ,.). A chaque thématique peut être associé(s) un ou plusieurs mots ou ensemble de mots la caractérisant (et appelés ci-après « caractéristiques »). Par exemple, à une thématique « Intelligence Artificielle», peuvent être associés les mots caractéristiques « machine learning » et « réseaux de neurones ». As illustrated in FIG. 4, the method 400 of data exploitation of the present application may comprise an extraction 440 of data relating to a group of individuals (for example senders and/or receivers of electronic messages), according to at least some of the characteristics (from, for example, the wordings of the messages) associated with these individuals or entities, for example according to a particular characteristic or a plurality of particular characteristics, associated with a "theme" targeted for data exploitation. Thus, when the operating method 400 is applied for a group of employees of a company, a thematic can correspond to a technical field (for example quite general) of the company for which one wishes to identify skills available to the company, and/or for which one wishes to locate, within the hierarchical and/or functional organization of the company, employees with skills related to this technical field. For example, a plurality of themes related to the technical fields of the company can be identified (For example: Artificial intelligence, 5G, banking, insurance, .. ,.). Each theme can be associated with one or more words or sets of words characterizing it (and hereinafter called "characteristics"). For example, to an “Artificial Intelligence” theme, the characteristic words “machine learning” and “neural networks” can be associated.
Une thématique et/ou des caractéristiques associées peuvent être obtenues 410 de diverses façons selon les modes de réalisation. Par exemple elles peuvent être obtenues au moins partiellement via une interface de communication ou une interface utilisateur du dispositif 200 de la figure 2, et/ou à partir d'un moyen de stockage accessible depuis le dispositif 200 (par exemple d'un ou plusieurs fichier(s) de configuration, qui peut être local au dispositif ou distant). A thematic and/or associated characteristics can be obtained 410 in various ways depending on the embodiments. For example, they can be obtained at least partially via a communication interface or a user interface of the device 200 of FIG. 2, and/or from a storage means accessible from the device 200 (for example from one or more configuration file(s), which can be local to the device or remote).
Dans l'exemple de la figure 4, l'obtention 410 d'une thématique et de caractéristiques associées peut par exemple comprendre une obtention 411 d'une thématique et/ou de premières compétences associées à cette thématique via une interface utilisateur, et être suivie par une obtention automatique de secondes caractéristiques associées à cette thématique. Plus précisément, le procédé peut comprendre une obtention 412 (détermination) au moins partiellement automatique d'un nuage de mots (ou champ sémantique) caractérisant la thématique obtenue. Un tel nuage de mots peut être obtenu en calculant, ou estimant, des relations de proximité entre des mots issus d'au moins un glossaire électronique avec des caractéristiques déjà associées à la thématique (telles que les premières caractéristiques obtenues à l'étape 411). Ainsi, des mots proches sémantiquement des caractéristiques déjà associées à une thématique peuvent à leur tour être associés à la thématique, et utilisés ultérieurement pour des calculs de proximité avec d'autres mots du glossaire. In the example of FIG. 4, obtaining 410 a theme and associated characteristics can for example comprise obtaining 411 a theme and/or first skills associated with this theme via a user interface, and be followed by automatically obtaining second characteristics associated with this theme. More precisely, the method can comprise an at least partially automatic obtaining 412 (determination) of a cloud of words (or semantic field) characterizing the topic obtained. Such a cloud of words can be obtained by calculating, or estimating, proximity relations between words from at least one electronic glossary with characteristics already associated with the topic (such as the first characteristics obtained at step 411) . Thus, words that are semantically close to the characteristics already associated with a topic can in turn be associated with the topic, and subsequently used for proximity calculations with other words of the glossary.
Progressivement, en itérant le calcul, on peut faire grossir le nuage de caractéristiques associé à une thématique, Gradually, by iterating the calculation, we can increase the cloud of characteristics associated with a theme,
Le glossaire peut être dédié au groupe considéré et comprendre et/ou correspondre, dans certains modes de réalisation, à l'ensemble des caractéristiques textuelles de l'ensemble des individus ou entités du groupe considéré. Par exemple, en lien avec le procédé 300 de collecte précédemment présenté, le glossaire peut comprendre l'ensemble des verbes, noms et/ou adjectifs obtenus suite à l'étape 330 à partir des libellés des messages échangés. Ces mots (ou caractéristiques) sont en effet susceptibles de traduire les intérêts, ou sujets de travail des émetteurs/ récepteurs des messages et donc de correspondre, au moins pour certains, à des compétences de ces émetteurs/ récepteurs. Le glossaire peut par exemple contenir des termes spécifiques au groupe d'individus concerné (par exemple des termes liés à un contexte particulier au groupe considéré), Un tel mode de réalisation peut en effet permettre de prendre en compte, en liaison avec une thématique, de termes qui seraient absents d'un dictionnaire général (par exemple un dictionnaire du marché), ou avec un sens tout autre que celui que leur conférerait un message dont ils seraient extraits par exemple. The glossary can be dedicated to the group considered and include and/or correspond, in certain embodiments, to all the textual characteristics of all the individuals or entities of the group considered. For example, in connection with process 300 collection previously presented, the glossary can include all of the verbs, nouns and/or adjectives obtained following step 330 from the labels of the messages exchanged. These words (or characteristics) are indeed likely to translate the interests, or work subjects of the senders/receivers of the messages and therefore to correspond, at least for some, to the skills of these senders/receivers. The glossary can for example contain terms specific to the group of individuals concerned (for example terms linked to a context particular to the group considered), Such an embodiment can indeed make it possible to take into account, in connection with a theme, of terms which would be absent from a general dictionary (for example a dictionary on the market), or with a meaning quite different from that conferred on them by a message from which they would be extracted, for example.
Dans une variante, le glossaire électronique peut être par exemple un dictionnaire spécialisé, par exemple un dictionnaire technique. La détermination 412 peut par exemple utiliser plusieurs modèles de représentation d'éléments textuels, comme des modèles de représentation de mots dans un référentiel mathématique (« word embedding » selon la terminologie anglaise) (tels que Word2vec© et Fasttext©). Par exemple, après une phase d'apprentissage de plusieurs modèles sur l'ensemble du glossaire (par exemple l'ensemble des caractéristiques de l'ensemble des individus ou entités du groupe considéré), on peut identifier N caractéristiques les plus proches sémantiquement d'une même caractéristique (déjà identifiée) d'une thématique en utilisant au moins deux des modèles appris (avec N entier, strictement positif). On peut répéter ensuite cette identification de façon incrémentale en partant des caractéristiques déjà ou nouvellement identifiées. Bien entendu dans certains modes de réalisation, le nombre N de « plus proches caractéristiques identifiées » peut varier selon les modèles utilisés, par exemple la fiabilité des modèles. In a variant, the electronic glossary may for example be a specialized dictionary, for example a technical dictionary. The determination 412 can for example use several models for representing textual elements, such as models for representing words in a mathematical repository (“word embedding” according to English terminology) (such as Word2vec© and Fasttext©). For example, after a learning phase of several models on the whole of the glossary (for example the set of characteristics of all the individuals or entities of the group considered), we can identify N characteristics that are semantically the closest to the same characteristic (already identified) of a theme using at least two of the learned models (with N integer, strictly positive). This identification can then be repeated incrementally starting from the characteristics already or newly identified. Of course, in certain embodiments, the number N of “closest identified characteristics” can vary according to the models used, for example the reliability of the models.
L'apprentissage peut par exemple être effectué pendant une durée déterminée (comme une durée de quelques mois ou dizaines de mois, par exemple 12 mois). The learning can for example be carried out for a determined period (such as a period of a few months or tens of months, for example 12 months).
Un critère d'arrêt des incrémentations peut par exemple être la réception d‘une commande d'arrêt via une interface utilisateur, le déroulement d'un nombre d'itérations, un nombre minimum et/ou maximum de caractéristiques associées à une thématique. Ces nombres peuvent être constants ou varier selon la taille du groupe d'individus ou d'entités et/ou nombre total de caractéristiques des individus ou des entités du groupe. A criterion for stopping the increments can for example be the reception of a stop command via a user interface, the running of a number of iterations, a minimum and/or maximum number of characteristics associated with a theme. These numbers can be constant or vary depending on the size of the group of individuals or entities and/or the total number of characteristics of the individuals or entities in the group.
Ainsi, selon un exemple d'implémentation, le nombre N peut être compris entre 5 et 15 (par exemple 10) et il peut être effectué 3 à 7 itérations (par exemple 5). Le procédé peut comprendre une étape, optionnelle, de rendu 413 (audio et/ou visuel) du nuage de mots sur une interface utilisateur. Ainsi, un rendu d'un nuage de mots comprenant des termes proches de la thématique « Intelligence Artificielle » est illustré à titre d'exemple en Figure 5. Thus, according to an exemplary implementation, the number N can be between 5 and 15 (for example 10) and 3 to 7 iterations (for example 5) can be performed. The method may include an optional step 413 of rendering (audio and/or visual) the word cloud on a user interface. Thus, a rendering of a word cloud comprising terms close to the theme "Artificial Intelligence" is illustrated by way of example in Figure 5.
Dans le mode de réalisation de la figure 4, le procédé d'exploitation de données peut comprendre une extraction 440 des données en lien avec une thématique et au moins certaines de ses caractéristique associées (par exemple au moins une partie du nuage de mots associé à la thématique). Cette extraction peut différer selon les modes de réalisation. In the embodiment of FIG. 4, the data exploitation method can comprise an extraction 440 of data related to a theme and at least some of its associated characteristics (for example at least part of the word cloud associated with the theme). This extraction may differ according to the embodiments.
Selon la figure 4, le procédé peut aussi comprendre un rendu 440 (ou restitution), par exemple visuel, du résultat de cette extraction 440. La figure 6 illustre un exemple de rendu, graphique, d'un maillage thématique (ou réseau thématique) d'entités rassemblant des collaborateurs d'une entreprise et concernées par la caractéristique (ici une compétence) « process mining ». Les branches du maillage sont organisées par niveaux hiérarchiques descendants dans cet exemple. According to FIG. 4, the method can also include a rendering 440 (or restitution), for example visual, of the result of this extraction 440. FIG. 6 illustrates an example of rendering, graphic, of a thematic mesh (or thematic network) entities bringing together employees of a company and concerned by the characteristic (here a skill) “process mining”. The branches of the mesh are organized by descending hierarchical levels in this example.
Dans certains modes de réalisation, l'extraction 440 de données peut être précédée par une obtention d'au moins un critère de sélection à utiliser lors de l'extraction 440 de données, notamment un critère relatif aux caractéristiques textuelles des données. In certain embodiments, the extraction 440 of data can be preceded by obtaining at least one selection criterion to be used during the extraction 440 of data, in particular a criterion relating to the textual characteristics of the data.
Par exemple, dans un mode de réalisation où le nuage de mots est restitué 413 sur une interface utilisateur, une ou plusieurs caractéristiques peuvent être sélectionnées 430 via l'interface utilisateur (par exemple par clic sur un ou plusieurs mot(s) du nuage). Leur sélection peut permettre par exemple une extraction des identifiants des individus et/ou des entités associées à au moins une des caractéristiques sélectionnées (ou à toutes les caractéristiques sélectionnées dans d'autres modes de réalisation). Ainsi, si le nuage de mots contient le nom d'une plateforme (ou d'un outil) en lien avec la thématique, la sélection 430 du nom de cette plateforme peut lancer une extraction permettant de faire apparaitre lors du rendu 460 (par exemple graphique) des entités ou individus associés à cette plateforme dans les données collectées et donc a priori concernées par cette plateforme. For example, in an embodiment where the word cloud is rendered 413 on a user interface, one or more characteristics can be selected 430 via the user interface (for example by clicking on one or more word(s) of the cloud) . Their selection can allow for example an extraction of the identifiers of the individuals and/or of the entities associated with at least one of the characteristics selected (or with all the characteristics selected in other embodiments). Thus, if the word cloud contains the name of a platform (or a tool) related to the theme, the selection 430 of the name of this platform can launch an extraction making it possible to display during rendering 460 (for example graphic) of the entities or individuals associated with this platform in the data collected and therefore a priori concerned by this platform.
Dans une variante, une ou plusieurs caractéristiques peuvent être sélectionnées 430 via une interface utilisateur en utilisation d'un moteur de recherche limité au périmètre du nuage de mots. Ainsi dans certains modes de réalisation, le procédé peut comprendre l'acquisition d'au moins un mot depuis une interface utilisateur et une sélection d'au moins un mot du nuage de mots en fonction du ou desdits mots acquis. Dans un autre mode de réalisation, une sélection 430 peut être effectuée de façon automatique parmi les caractéristiques du nuage de caractéristiques associé à la thématique, grâce à un filtrage basé sur des informations relatives à ces caractéristiques et obtenues via une base de connaissance (telle que Wikipédia ©). Alternatively, one or more features may be selected 430 via a user interface using a search engine limited to the perimeter of the word cloud. Thus in certain embodiments, the method may comprise the acquisition of at least one word from a user interface and a selection of at least one word from the word cloud as a function of said acquired word or words. In another embodiment, a selection 430 can be made automatically from among the characteristics of the cloud of characteristics associated with the theme, thanks to filtering based on information relating to these characteristics and obtained via a knowledge base (such as Wikipedia ©).
Plus précisément, le procédé peut comprendre une obtention 420 depuis une base de connaissances telle que Wikipédia, adaptée par exemple à la langue des mots ou caractéristiques présents dans le glossaire, d'au moins une définition d'au moins une des caractéristiques du glossaire. Dans certains modes de réalisation, par exemple lorsqu'elle est effectuée avant la sélection d'une thématique (comme illustrée en ligure 4), l'obtention des définitions 420 peut être effectuée pour l'ensemble des caractéristiques du glossaire. Un tel mode de réalisation peut permettre de limiter le coût, en temps et en ressource de calcul, d'une sélection 430 automatique éventuelle ultérieure. Dans certains modes de réalisation, par exemple lorsqu'elle est effectuée après sélection d'une thématique et détermination 412 du nuage de caractéristiques associées (systématiquement et/ou sur une activation d'une commande de sélection automatique de caractéristiques du nuage), l'obtention des définitions 420 peut être effectuée pour les caractéristiques du nuage de caractéristiques seulement. Un tel mode de réalisation peut aider à limiter le nombre de recherches dans la base de connaissance. More precisely, the method can comprise obtaining 420 from a knowledge base such as Wikipedia, adapted for example to the language of the words or characteristics present in the glossary, of at least one definition of at least one of the characteristics of the glossary. In some embodiments, for example when done before selecting a topic (as shown in Figure 4), getting definitions 420 can be done for all of the features in the glossary. Such an embodiment can make it possible to limit the cost, in time and in computing resources, of a possible subsequent automatic selection 430 . In certain embodiments, for example when it is carried out after selection of a theme and determination 412 of the cloud of associated characteristics (systematically and/or upon activation of an automatic selection command of characteristics of the cloud), the getting definitions 420 can be done for features in the feature cloud only. Such an embodiment can help to limit the number of searches in the knowledge base.
Lorsqu'on recherche un mot sur une base de connaissance telle que Wikipédia, plusieurs paragraphes peuvent être reçus en retour, comportant une définition du mot ainsi que des exemples d'applications contextuelles du mot. Dans certains modes de réalisation, le procédé peut donc comprendre une sélection (manuelle ou automatique) d'un paragraphe parmi les paragraphes obtenus (reçus) pour sélectionner un paragraphe correspondant (probablement) à la définition du mot. Une sélection automatique d'un paragraphe peut se baser sur des règles grammaticales et/ou syntaxiques. Par exemple, une sélection automatique peut par exemple comprendre : When searching for a word on a knowledge base such as Wikipedia, several paragraphs may be returned, including a definition of the word as well as examples of contextual applications of the word. In certain embodiments, the method can therefore comprise a (manual or automatic) selection of a paragraph from among the paragraphs obtained (received) to select a paragraph corresponding (probably) to the definition of the word. An automatic selection of a paragraph can be based on grammatical and/or syntactic rules. For example, an automatic selection can for example include:
• une vérification de la présence du mot du glossaire/nuage de mots recherché dans au moins l'une des deux premières phrases des paragraphes reçus, • a verification of the presence of the word from the glossary/word cloud sought in at least one of the first two sentences of the paragraphs received,
• si le mot est bien présent dans une phrase d'un paragraphe, un calcul de la position du mot dans la phrase, et • if the word is indeed present in a sentence of a paragraph, a calculation of the position of the word in the sentence, and
• une sélection du paragraphe, si le mot est situé en première position ou en deuxième position dans la phrase. • a selection of the paragraph, if the word is located in the first or second position in the sentence.
Souvent, l'explication d'un acronyme apparait, dans une phrase, avant l'acronyme lui- même, ce qui décale la position du mot recherché dans la phrase quand celui-ci est un acronyme. De ce fait, dans certains modes de réalisation, le procédé peut par exemple comprendre, avant le calcul de la position d'un mot : Often, the explanation of an acronym appears, in a sentence, before the acronym itself, which shifts the position of the word sought in the sentence when it is a acronym. Therefore, in certain embodiments, the method can for example comprise, before calculating the position of a word:
• un test de la présence de parenthèses autour du mot dans le paragraphe ; • a test for the presence of parentheses around the word in the paragraph;
• lorsque des parenthèses sont présentes, une comparaison des premières lettres des mots qui précèdent le mot recherché (ou plus exactement la parenthèse ouvrante) avec les lettres composant le mot entre parenthèses, et • when parentheses are present, a comparison of the first letters of the words preceding the searched word (or more exactly the opening parenthesis) with the letters composing the word in parentheses, and
• une suppression de ces mots qui précèdent le mot recherché (de façon à rapprocher l'acronyme du début de la phrase avant le calcul de sa position dans la phrase comme exposé ci-dessus). • deletion of these words which precede the searched word (so as to bring the acronym closer to the beginning of the sentence before calculating its position in the sentence as described above).
Le contenu du paragraphe sélectionné peut par exemple être considéré comme une définition du mot concerné du glossaire/nuage. The content of the selected paragraph can for example be considered as a definition of the relevant word of the glossary/cloud.
Dans certains modes de réalisation, la sélection 430 automatique de caractéristiques du nuage de caractéristiques associé à la thématique (à utiliser comme critère d'extraction), peut comprendre un filtrage 432 des caractéristiques du nuage sur la base des définitions obtenues pour ces caractéristiques. Pour cela, le procédé peut comprendre par exemple une obtention 431 (depuis une interface utilisateur, un support de stockage et/ou une interface de communication) d'une pluralité de mots susceptibles d'être mentionnés dans la définition d'un mot en lien avec la thématique. Par exemple, lorsque la thématique est relative à un domaine technique particulier du développement logiciel (Intelligence Artificielle), et que la finalité de l'extraction est une identification de compétences dans ce domaine technique particulier, la pluralité de mots (« méthode », « algorithme », « ensemble d'approches », etc.) peut être choisie de façon à conserver uniquement des définitions relatives à une compétence technique. In some embodiments, the automatic selection 430 of characteristics from the cloud of characteristics associated with the thematic (to be used as an extraction criterion), can comprise a filtering 432 of the characteristics of the cloud on the basis of the definitions obtained for these characteristics. For this, the method can comprise for example obtaining 431 (from a user interface, a storage medium and/or a communication interface) a plurality of words likely to be mentioned in the definition of a word in connection with the theme. For example, when the theme relates to a particular technical field of software development (Artificial Intelligence), and the purpose of the extraction is to identify skills in this particular technical field, the plurality of words ("method", " algorithm”, “set of approaches”, etc.) can be chosen in such a way as to retain only definitions relating to a technical competence.
Le filtrage 432 peut comprendre une détermination de la présence d'au moins un mot de cette pluralité de mots dans les définitions obtenues. Il peut également comprendre une vérification d'au moins un critère de positionnement d'au moins un mot de cette pluralité de mots présents dans une définition obtenue (tel qu'un positionnement dans la première et/ou de la deuxième phrase de la définition, et/ou juste avant un verbe par exemple).The filtering 432 can comprise a determination of the presence of at least one word of this plurality of words in the definitions obtained. It may also include a verification of at least one positioning criterion of at least one word of this plurality of words present in a definition obtained (such as positioning in the first and/or second sentence of the definition, and/or just before a verb for example).
Le filtrage peut par exemple ne conserver que des mots du nuage ayant au moins une définition pour laquelle au moins un des critères de positionnement est vérifié. The filtering can for example retain only words from the cloud having at least one definition for which at least one of the positioning criteria is verified.
La Figure 7 et la Figure 8 représentent respectivement des exemples de caractéristiques textuelles (des compétences techniques dans cet exemple) résultant d'une sélection automatique pour la thématique « Intelligence artificielle » et pour la thématique « Bigdata ». Le procédé d'exploitation peut permettre différentes extractions selon ses modes de réalisation. Les exemples d'extraction cités ci-dessus peuvent participer à d'aider un utilisateur à explorer plus ou moins finement, des données relatives à un groupe d'individus ou d'entités, en lien avec certaines caractéristiques (des compétences par exemple) qu'il recherche (comme un nom de compétence technique recherchée ou un nom d'outil support à la compétence recherchée). Figure 7 and Figure 8 respectively represent examples of textual characteristics (technical skills in this example) resulting from an automatic selection for the “Artificial Intelligence” theme and for the “Bigdata” theme. The mining method can allow different extractions according to its embodiments. The examples of extraction cited above can help a user to explore more or less finely, data relating to a group of individuals or entities, in connection with certain characteristics (skills for example) that 'he is looking for (such as a name of the technical skill sought or a support tool name for the skill sought).
En particulier, un utilisateur peut obtenir, au moins dans certains modes de réalisation, des résultats plus précis que ceux qu'il pourrait obtenir par des solutions existantes. En effet, dans le domaine de la collecte de compétences d'individus par exemple, l'utilisation d'un registre amène souvent à normaliser, dans un but de classification, les compétences au sein d'un groupe d'individus. De ce fait, un registre est souvent limité à l'identification de compétences très générales (ex : spécialiste en intelligence artificielle). Selon la présente demande, il peut être possible au contraire de varier le degré de précisions des informations restituées, et en particulier de détailler des compétences techniques très particulières (comme des compétences très « pointues », ou dans un domaine d'expertise très étroit, ou encore des compétences peu répandues (ex : spécialiste en word2vec).In particular, a user can obtain, at least in certain embodiments, more precise results than those which he could obtain by existing solutions. Indeed, in the field of collecting skills of individuals for example, the use of a register often leads to standardizing, for the purpose of classification, the skills within a group of individuals. As a result, a register is often limited to the identification of very general skills (eg specialist in artificial intelligence). According to the present application, it may on the contrary be possible to vary the degree of precision of the information returned, and in particular to detail very specific technical skills (such as very "specific" skills, or in a very narrow field of expertise, or even skills that are not very widespread (eg: specialist in word2vec).
Dans certains modes de réalisation, le procédé peut comprendre un filtrage avant rendu des données extraites. Par exemple, après extraction 440 d'information représentatives d'au moins certaines des entités du groupe concernées par au moins une caractéristique associée à la thématique (par exemple une compétence de la thématique « Intelligence Artificielle), le procédé peut comprendre un filtrage des informations représentatives obtenues pour ne conserver, par exemple, que les entités les plus significatives, comme les I (I entier supérieur à 0) entités associées le plus souvent à une caractéristique sélectionnée, et/ou les J (J entier supérieur à 0) entités employant le plus souvent la caractéristique sélectionnée dans les libellés de messages ayant pour un émetteur un individu de l'entité ou pour entité de substitution cette entité, et/ou les K (K entier supérieur à 0) entités qui emploient le plus souvent une caractéristique sélectionnée et/ou les L (L entier supérieur à 0) mots calculés comme étant les plus très proches de cette caractéristique sélectionnée (comme exposé en lien avec l'étape 410 d'obtention du glossaire thématique). In some embodiments, the method may include pre-rendering filtering of the extracted data. For example, after extraction 440 of information representative of at least some of the entities of the group concerned by at least one characteristic associated with the theme (for example a skill of the “Artificial Intelligence” theme), the method can comprise filtering the information representative data obtained to keep, for example, only the most significant entities, such as the I (I integer greater than 0) entities most often associated with a selected characteristic, and/or the J (J integer greater than 0) entities using most often the characteristic selected in the labels of messages having for a sender an individual of the entity or for a substitution entity this entity, and/or the K (K integer greater than 0) entities which most often use a selected characteristic and/or the L (L integer greater than 0) words calculated as being the closest to this selected characteristic (as explained in connection with the eta pe 410 for obtaining the thematic glossary).
Dans certains modes de réalisation du procédé d'exploitation mettant en œuvre plusieurs thématiques, le procédé peut comprendre une obtention 410 de nuage de caractéristiques pour plusieurs thématiques. Le procédé peut également comprendre une obtention de statistiques concernant ces thématiques et/ou la distribution des caractéristiques textuelles des données entre ces thématiques, comme par exemple une répartition (en nombre de caractéristiques et/ou de messages) des thématiques dans le groupe (ou un sous-groupe telle qu'une ou plusieurs entité). Par exemple, comme illustré en figure 9, on peut obtenir dans certains modes de réalisation, une caractérisation de chaque entité du groupe en termes de thématique(s), une portion du glossaire des mots associée à une thématique dans au moins une entité, et/ou une extraction des caractéristiques associées à une thématique pour une entité. Ainsi, la figure 9 montre un rendu des différentes thématiques abordées par une entité, la surface des bulles étant représentative de l'importance de la thématique dans cette entité, du nuage de caractéristiques associé à une thématique (« intelligence artificielle ») et des caractéristiques associées à cette thématique dans cette entité. In certain embodiments of the exploitation method implementing several themes, the method can comprise obtaining 410 a cloud of characteristics for several themes. The method may also include obtaining statistics concerning these themes and/or the distribution of textual characteristics of the data between these themes, such as for example a distribution (in number of characteristics and/or messages) of the themes in the group (or a sub-group such as one or more entities). For example, as illustrated in FIG. 9, it is possible in certain embodiments to obtain a characterization of each entity of the group in terms of theme(s), a portion of the glossary of words associated with a theme in at least one entity, and /or an extraction of the characteristics associated with a theme for an entity. Thus, figure 9 shows a rendering of the different themes addressed by an entity, the surface of the bubbles being representative of the importance of the theme in this entity, of the cloud of characteristics associated with a theme ("artificial intelligence") and of the characteristics associated with this theme in this entity.
Le procédé d'exploitation, dans au moins certains modes de réalisation, peut s'avérer utile pour le pilotage d'un groupe. Ainsi, dans certains modes de réalisation, il peut aider un utilisateur à obtenir (par exemple à visualiser) une répartition de caractéristiques associées à au moins une thématique dans les différentes entités d'un groupe. Il peut ainsi par exemple aider à la constitution d'une nouvelle équipe, dédiée à au moins une thématique », transverse à des entités de rattachements d'individus (tels que des entités hiérarchiques) (par exemple une équipe projet transverse dans une entreprise). The operating method, in at least some embodiments, may be useful for group steering. Thus, in certain embodiments, it can help a user to obtain (for example to visualize) a distribution of characteristics associated with at least one theme in the different entities of a group. He can thus, for example, help in the constitution of a new team, dedicated to at least one theme", transverse to entities of attachment of individuals (such as hierarchical entities) (for example a transverse project team in a company) .
Une utilisation itérative du procédé d'exploitation, dans au moins certains modes de réalisation, peut de plus aider à étudier la diffusion d'une thématique, par exemple comment elle se diffuse au sein d'un groupe An iterative use of the exploitation method, in at least certain embodiments, can also help to study the diffusion of a theme, for example how it spreads within a group
Exemple d’application : Détermination et caractérisation automatique des équipes projets dans une entreprise et des thématiques abordées par ces projets. Example of application: Automatic determination and characterization of project teams in a company and the themes addressed by these projects.
Avec l'hypothèse que les personnes qui envoient le plus souvent des courriels dont le titre comprend le nom d'un projet sont souvent celles qui appartiennent ou sont proches d'une équipe projet, on peut reconstituer une équipe projet au sein d'un groupe en sélectionnant les individus associés à des courriels qui mentionnent dans leur titre le nom du projet (ou son acronyme), avec un filtrage optionnel sur les entités, en fonction par exemple du nombre de courriels avec un tel titre par entité. Cette entité peut être par exemple une entité de substitution ajoutée lors de l'anonymisation des données, de façon à ne conserver que les entités qui totalisent le plus grand nombre de courriels « projet ». Cette approche peut en particulier être adaptée à la reconstitution d'une équipe d'un projet transverse à des équipes utilisant des outils de gestion de projet différents, voire incompatibles. With the assumption that the people who most often send emails whose title includes the name of a project are often those who belong to or are close to a project team, we can reconstitute a project team within a group by selecting the individuals associated with emails that mention the name of the project (or its acronym) in their title, with optional filtering on the entities, depending for example on the number of emails with such a title per entity. This entity can for example be a substitution entity added during the anonymization of the data, so as to keep only the entities which add up the greatest number of “project” emails. This approach can in particular be adapted to the reconstitution of a team from a cross-functional project to teams using different, even incompatible, project management tools.
Le procédé d'exploitation peut être mise en œuvre de façon itérative sur un premier groupe pour obtenir un second groupe puis sur le second groupe pour obtenir un troisième groupe . etc..., avec des thématiques identiques ou différentes. The operating method can be implemented iteratively on a first group to obtain a second group then on the second group to obtain a third group. etc..., with identical or different themes.
Dans au moins certains modes de réalisation, le procédé de collecte et/ou le procédé d'exploitation peut aider à localiser des thématiques et compétences techniques dans une entreprise (entités hiérarchiques, projets), grâce aux messages électroniques échangés dans l'entreprise. Ces messages électroniques, émis dans le cadre d'échanges professionnels, peuvent être considérés comme une source d'infonnation fiable. De plus, celle-ci n'est pas déformée ou modifiée avant son exploitation (du fait par exemple d'une contrainte de normalisation. Elle peut être précise et ne nécessiter ni l'accompagnement d'un manager, ni une déclaration personnelle des collaborateurs. Lorsque les données (comme titres des messages électroniques) sont collectées fréquemment (par exemple quotidiennement ou de façon hebdomadaire), les procédés de la présente demande peuvent donc aider à tenir à jour la distribution des compétences au sein d'une entreprise et à obtenir plus facilement des cartographies de compétences relatives à des thématiques nouvelles ou déjà identifiées. Par exemple, les mises à jour peuven t être effectuées automatiquement, au moins dans certains modes de réalisation, sans requérir un effort des individus concernés ou de leur management, au contraire de certaines solutions de l'art antérieur. In at least certain embodiments, the method of collecting and/or the method of exploitation can help to locate themes and technical skills in a company (hierarchical entities, projects), thanks to the electronic messages exchanged in the company. These electronic messages, issued within the framework of professional exchanges, can be considered as a reliable source of information. In addition, it is not distorted or modified before it is used (due, for example, to a standardization constraint). It can be precise and require neither the support of a manager nor a personal statement from employees. Where data (such as e-mail message titles) is collected frequently (eg, daily or weekly), the methods of this application may therefore help to maintain the distribution of skills within a company and obtain maps of skills relating to new or already identified themes more easily. For example, updates can be carried out automatically, at least in certain embodiments, without requiring an effort from the individuals concerned or their management, on the contrary of certain solutions of the prior art.
Dans au moins certains modes de réalisation, certaines étapes (comme l'association de messages électroniques à au moins une thématique) peuvent se faire sans données d'apprentissage, ce qui peut faciliter la mise en œuvre d'au moins un des procédés de la présente demande. In at least certain embodiments, certain steps (such as the association of electronic messages with at least one topic) can be done without training data, which can facilitate the implementation of at least one of the methods of the this request.
Certains modes de réalisation ont été décrits avec des caractéristiques recherchées correspondant à des compétences techniques. Dans d'autres modes de réalisation, des caractéristiques recherchées peuvent être différentes (par exemple au moins certains modes de réalisation décrits ci -dessus peuvent être intégrés dans un outil de pilotage/d' audit d'une entreprise à destination de services de Ressources Humaines (RH). En effet, déterminer où sont les compétences dans une entreprise, évaluer l'apparition de nouvelles compétences et regarder comment elles évoluent temporellement dans l'entreprise sont des problématiques partagées par beaucoup de responsables de Ressources Humaines d'une entreprise. Certain embodiments have been described with desired characteristics corresponding to technical skills. In other embodiments, the desired characteristics may be different (for example at least certain embodiments described above may be integrated into a management/audit tool of a company intended for Human Resources services (HR) Indeed, determining where the skills are in a company, evaluating the emergence of new skills and watching how they evolve temporally in the company are issues shared by many Human Resources managers in a company.
Au moins certains modes de réalisation décrits ci-dessus peuvent aussi être utilisés dans un outil de pilotage de la stratégie d'une entreprise (afin par exemple de visualiser comment une thématique existante, nouvelle, ou à venir, se décline dans les entités d'une entreprise) At least some embodiments described above can also be used in a management tool for a company's strategy (in order, for example, to visualize how an existing, new, or future theme is applied in the entities of a company)
Au moins certains modes de réalisation décrits ci-dessus peuvent aussi être mis en œuvre par des pilotes de la production de l'entreprise (comme des Project Management Office « PMO » ) . Ainsi, certains modes de réalisation décrits ci-dessus peuvent aussi donner une vue transverse d'au moins une équipe projet et/ou fournir un indicateur de son cycle de vie (à partir par exemple du nombre d'occurrences de mots particuliers dans les échanges (comme croissance, stabilité, décroissance), ou de la satisfaction d'une équipe (à partir par exemple du nombre d'occurrences de mots particuliers (à consonance positive ou a contrario négative) dans les échanges). At least some embodiments described above may also be implemented by enterprise production pilots (such as Project Management Offices "PMOs"). Thus, certain embodiments described above can also give a transverse view of at least one project team and/or provide an indicator of its life cycle (based for example on the number of occurrences of particular words in the exchanges (such as growth, stability, decrease), or the satisfaction of a team (based, for example, on the number of occurrences of particular words (with a positive sounding or conversely negative) in the exchanges).

Claims

REVENDICATIONS Procédé mis en œuvre par au moins un dispositif électronique d'un réseau de communication et comprenant : une obtention de structures de données, lesdites données d'une structure comprenant au moins une caractéristique textuelle, lesdites structures de données étant stockées sur au moins un support de stockage informatique accessible depuis ledit dispositif électronique ; une obtention automatique d'au moins une première caractéristique candidate parmi lesdites caractéristiques textuelles desdites structures de données en tenant compte d'une proximité sémantique desdites caractéristiques textuelles desdites structures de données avec au moins une caractéristique textuelle recherchée ; au moins une obtention automatique d'au moins une seconde caractéristique textuelle candidate parmi lesdites caractéristiques textuelles desdites structures de données en tenant compte d'une proximité sémantique desdites caractéristiques textuelles desdites structures de données avec au moins une desdites première et/ou seconde caractéristiques candidates déjà obtenues; une exploitation automatique desdites structures de données, tenant compte de la présence dans lesdites structures de données d'au moins une troisième desdites premières et secondes caractéristiques candidates obtenues. Procédé selon la revendication 1 dans lequel ladite au moins une caractéristique textuelle recherchée est obtenue depuis une interface utilisateur dudit dispositif électronique et/ou un support de stockage accessible depuis ledit dispositif électronique. Procédé selon la revendication 1 ou 2, dans lequel ladite troisième caractéristique textuelle candidate est sélectionnée parmi lesdites premières et secondes caractéristiques candidates via une interface utilisateur dudit dispositif électronique. Procédé selon la revendication 1 ou 2, dans lequel ledit procédé comprend : une sélection automatique de ladite troisième caractéristique textuelle candidate parmi lesdites premières et secondes caractéristiques candidates en tenant compte de la présence d'au moins un mot recherché associé à ladite caractéristique recherchée, dans au moins une définition obtenue, depuis une base de connaissance, pour lesdites première et/ou seconde caractéristique textuelle candidates. CLAIMS Method implemented by at least one electronic device of a communication network and comprising: obtaining data structures, said data of a structure comprising at least one textual characteristic, said data structures being stored on at least one computer storage medium accessible from said electronic device; automatic obtaining of at least a first candidate characteristic among said textual characteristics of said data structures taking into account a semantic proximity of said textual characteristics of said data structures with at least one textual characteristic sought; at least one automatic obtaining of at least one second candidate textual characteristic among said textual characteristics of said data structures taking into account a semantic proximity of said textual characteristics of said data structures with at least one of said first and/or second candidate characteristics already obtained; an automatic exploitation of said data structures, taking into account the presence in said data structures of at least a third of said first and second candidate characteristics obtained. Method according to Claim 1, in which the said at least one textual characteristic sought is obtained from a user interface of the said electronic device and/or a storage medium accessible from the said electronic device. A method according to claim 1 or 2, wherein said third candidate text feature is selected from said first and second candidate features via a user interface of said electronic device. A method according to claim 1 or 2, wherein said method comprises: automatically selecting said third candidate textual feature from among said first and second candidate features taking into account the presence of at least one search word associated with said search feature, in at least one definition obtained, from a knowledge base, for said first and/or second candidate textual characteristic.
5. Procédé selon la revendication 4, dans lequel ledit mot recherché est obtenu depuis une interface utilisateur dudit dispositif et/ou depuis un support de stockage accessible depuis ledit dispositif électronique. 5. Method according to claim 4, wherein said searched word is obtained from a user interface of said device and/or from a storage medium accessible from said electronic device.
6. Procédé mis en œuvre par au moins un dispositif d'un réseau de communication, comprenant : 6. Method implemented by at least one device of a communication network, comprising:
- une obtention d'au moins un libellé descriptif d'un message électronique ; une détection des langues des mots dudit libellé descriptif en fonction d'une appartenance desdits mots dudit libellé descriptif à au moins un dictionnaire électronique d'une pluralité de dictionnaires électroniques candidats contenant des mots dans au moins une langue candidate; obtention des formes canoniques de mots dudit libellé descriptif en tenant compte des langues desdits mots dudit libellé descriptif ; un stockage dans au moins une mémoire dudit dispositif desdites formes canoniques obtenues, en association avec au moins un identifiant relatif à un émetteur et/ou à un récepteur dudit message électronique. - Obtaining at least one descriptive wording of an electronic message; a detection of the languages of the words of said descriptive wording according to a membership of said words of said descriptive wording in at least one electronic dictionary of a plurality of candidate electronic dictionaries containing words in at least one candidate language; obtaining the canonical forms of words of said descriptive wording taking into account the languages of said words of said descriptive wording; storage in at least one memory of said device of said canonical forms obtained, in association with at least one identifier relating to a sender and/or to a receiver of said electronic message.
7. Procédé selon la revendication 6 comprenant un test d'une présence, dans le libellé descriptif, d'accent et/ou de d'éléments lexicaux spécifiques à une desdites langues candidates. 7. Method according to claim 6 comprising a test for the presence, in the descriptive wording, of accent and/or lexical elements specific to one of said candidate languages.
8. Procédé selon la revendication 7 comprenant un calcul d'une probabilité d'appartenance dudit libellé descriptif à une desdites langues candidates. 8. Method according to claim 7 comprising a calculation of a probability of belonging of said descriptive wording to one of said candidate languages.
9. Procédé selon la revendication 8 dans lequel ledit calcul est mis en œuvre lorsque ledit test de présence est infructueux. 9. Method according to claim 8 wherein said calculation is implemented when said presence test is unsuccessful.
10. Procédé selon l'une des revendications 6 à 9 comprenant un filtrage desdits libellés descriptifs. 10. Method according to one of claims 6 to 9 comprising a filtering of said descriptive wordings.
11. Procédé selon l'une des revendications 6 à 10 comprenant une anonymisation desdits libellés descriptifs. 11. Method according to one of claims 6 to 10 comprising an anonymization of said descriptive wordings.
12. Procédé selon l'une des revendications 6 à. 11 comprenant une suppression de mots non informatifs desdits libellés descriptifs en tenant compte d'une appartenance desdits mots desdits libellés à au moins un dictionnaire de mots à supprimer dans au moins une desdites langue candidates. 12. Method according to one of claims 6 to. 11 comprising a deletion of non-informative words from said descriptive labels taking into account that said words of said labels belong to at least one dictionary of words to be deleted in at least one of said candidate languages.
13. Procédé selon l'une des revendications 6 à 12 dans lequel ledit identifiant relatif audit émetteur et/ou audit récepteur dudit message est un identifiant d'un groupe auquel appartient ledit émetteur et/ou récepteur. 13. Method according to one of claims 6 to 12 wherein said identifier relating to said sender and/or said receiver of said message is an identifier of a group to which said sender and/or receiver belongs.
14. Procédé selon l'une des revendications 6 à 13 dans lequel ledit procédé est mis en œuvre localement par ledit dispositif. Dispositif électronique comprenant au moins un processeur, ledit processeur étant configuré pour mettre en œuvre le procédé selon Tune des revendications 1 à 5 ou le procédé selon l'une des revendications 6 à 14. Programme d'ordinateur comprenant des instructions pour la mise en œuvre, lorsque le programme est exécuté par un processeur d'un dispositif électronique, d'un procédé selon l'une des revendications 1 à 5 ou le procédé selon l'une des revendications 6 à 14 Support d'enregistrement lisible par un dispositif électronique et sur lequel est enregistré un programme d'ordinateur comprenant des instructions pour la mise en œuvre, lorsque le programme est exécuté par un processeur dudit dispositif électronique, d'un procédé selon l'une des revendications 1 à 5 ou le procédé selon l'une des revendications 6 à 14. 14. Method according to one of claims 6 to 13 wherein said method is implemented locally by said device. Electronic device comprising at least one processor, said processor being configured to implement the method according to one of Claims 1 to 5 or the method according to one of Claims 6 to 14. Computer program comprising instructions for the implementation , when the program is executed by a processor of an electronic device, of a method according to one of Claims 1 to 5 or the method according to one of Claims 6 to 14 Recording medium readable by an electronic device and on which is recorded a computer program comprising instructions for the implementation, when the program is executed by a processor of said electronic device, of a method according to one of claims 1 to 5 or the method according to one of claims 6 to 14.
PCT/FR2021/052298 2020-12-14 2021-12-13 Method for collecting data, method for using collected data, corresponding electronic device and computer program products and medium WO2022129760A2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FRFR2013195 2020-12-14
FR2013195A FR3117638A1 (en) 2020-12-14 2020-12-14 Method of collecting data, method of exploiting collected data, electronic device and corresponding computer program products and medium1.

Publications (2)

Publication Number Publication Date
WO2022129760A2 true WO2022129760A2 (en) 2022-06-23
WO2022129760A3 WO2022129760A3 (en) 2022-08-25

Family

ID=75339846

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2021/052298 WO2022129760A2 (en) 2020-12-14 2021-12-13 Method for collecting data, method for using collected data, corresponding electronic device and computer program products and medium

Country Status (2)

Country Link
FR (1) FR3117638A1 (en)
WO (1) WO2022129760A2 (en)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2062404B1 (en) * 2006-08-24 2019-04-24 Orange Method and system for exchanging messages to guarantee the anonymity of a transmitter
FR2939538A1 (en) * 2008-12-08 2010-06-11 France Telecom Data sets correspondence searching method for e.g. Google search engine, involves performing iterative comparison of primary set of data with subset of secondary set of data, where comparison step considers similarity graph
US20140289213A1 (en) * 2013-03-21 2014-09-25 Paul Delano Search Engine With Term Cloud
FR3003966A1 (en) * 2013-03-29 2014-10-03 France Telecom METHOD FOR DYNAMICALLY ADAPTING A SOFTWARE ENVIRONMENT EXECUTED FROM A COMMUNICATION TERMINAL OF A USER DURING COMMUNICATION BETWEEN THE USER AND AT LEAST ONE INTERLOCUTOR
FR3032584B1 (en) * 2015-02-06 2017-02-17 Tdf IMPROVED ACCESS TO DIGITAL CONTENT

Also Published As

Publication number Publication date
FR3117638A1 (en) 2022-06-17
WO2022129760A3 (en) 2022-08-25

Similar Documents

Publication Publication Date Title
US10397157B2 (en) Message management in a social networking environment
US11087414B2 (en) Distance-based social message pruning
US10750005B2 (en) Selective email narration system
US10169466B2 (en) Persona-based conversation
US10021061B1 (en) Message presentation management in a social networking environment
WO2010149427A1 (en) An assistant-adviser using the semantic analysis of community exchanges
EP1364316A2 (en) Device for retrieving data from a knowledge-based text
US20120209605A1 (en) Method and apparatus for data exploration of interactions
US20170300823A1 (en) Determining user influence by contextual relationship of isolated and non-isolated content
US10592236B2 (en) Documentation for version history
US20210141820A1 (en) Omnichannel virtual assistant using artificial intelligence
US10531154B2 (en) Viewer-relation broadcasting buffer
US20230163988A1 (en) Computer-implemented system and method for providing an artificial intelligence powered digital meeting assistant
WO2022129760A2 (en) Method for collecting data, method for using collected data, corresponding electronic device and computer program products and medium
US20170024454A1 (en) Discourse advancement scoring for social media posts
US20160314477A1 (en) Identifying entities trending in a professional community
FR2975204A1 (en) METHOD FOR DETERMINING MULTIPLE IDENTITIES, AND A CORRESPONDING SERVER AND TERMINAL
Shim et al. Communication data based user activity recommendations
FR3060800A1 (en) METHOD AND DEVICE FOR AUTOMATICALLY INDEXING A TEXTUAL DOCUMENT
US20240104400A1 (en) Deriving augmented knowledge
US20200344279A1 (en) Automatic summarization and visualization of multi-platform communications
EP4256822A1 (en) Method for processing information, electronic device, and corresponding computer program product and recording medium
US20180234365A1 (en) Mobile data transmission enhancement system
EP3079076A1 (en) Method, device and program for determining a semantic gap
FR2971597A1 (en) Method for calculation of social relevance index of digital documents to sort list of documents to search documents in documentary base in enterprise, involves calculating index from set of actions realized on document

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21848175

Country of ref document: EP

Kind code of ref document: A2

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21848175

Country of ref document: EP

Kind code of ref document: A2