WO2019202450A1 - Procédé et dispositif de vérification de l'auteur d'un message court - Google Patents

Procédé et dispositif de vérification de l'auteur d'un message court Download PDF

Info

Publication number
WO2019202450A1
WO2019202450A1 PCT/IB2019/053037 IB2019053037W WO2019202450A1 WO 2019202450 A1 WO2019202450 A1 WO 2019202450A1 IB 2019053037 W IB2019053037 W IB 2019053037W WO 2019202450 A1 WO2019202450 A1 WO 2019202450A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
texts
questioned
author
windows
Prior art date
Application number
PCT/IB2019/053037
Other languages
English (en)
Inventor
Guy GENILLOUD
Alexandre-Pierre COTTY
Augustin Camille KASSER
Antoine JOVER
Adrien DONNET-MONAY
Florent DEVILLARD
Constanze ANDEL RIMENSBERGER
Valentin ROTEN
Stefan CODRESCU
Alain Favre
Luc-Olivier POCHON
Lionel POUSAZ
Claire ROTEN
Stéphane RIAND
Serge NICOLLERAT
Myriam EUGSTER
Jean-Luc BUHLMANN
Léonard André Henri STUDER
Claude-Alain ROTEN
Original Assignee
Orphanalytics Sa
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orphanalytics Sa filed Critical Orphanalytics Sa
Priority to US17/048,531 priority Critical patent/US11640501B2/en
Priority to EP19724617.6A priority patent/EP3782054A1/fr
Publication of WO2019202450A1 publication Critical patent/WO2019202450A1/fr

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Definitions

  • the present invention relates to the problem of assigning an author to a text, in particular a short text, for example a text of less than 500 characters.
  • WO2008 / 036059 discloses an author identification method based on the linguistic analysis of units of the text.
  • the linguistic analysis is based for example on the lexical analysis, including the frequency of appearances of certain words or prepositions, as well as the stylometric analysis, including the punctuation, the average length of the words, the number of words short, or the average length of the paragraphs. Analysis
  • JGAAP Java Graphical Authorship Attribution Program
  • these objects are achieved in particular by means of parameters characterizing the style of the document, or a window in the document.
  • the choice of these style parameters and / or their value can be determined automatically. They advantageously make it possible to characterize the style of a window automatically and objectively.
  • the invention also relates to a method for verifying whether a questioned text, complete or fragmented, of less than 500 characters has written by an author, including the following steps:
  • This method can be performed by a computer or other digital processing system. It has the advantage of only having steps that can be effectively implemented by a digital processing system, but would be very difficult or virtually impossible to achieve without the assistance of such a system.
  • this method allows a performing computer performance and efficient.
  • the questioned text can be a complete text, for example a message of less than 500 characters, or a fragment of less than 500 characters extracted from a complete text.
  • Clustering consists of a grouping of points.
  • This hierarchical clustering minimizes the distances in a dendrogram (we speak of cophenetic distances).
  • the method of the invention thus combines two statistical analysis tools that are normally used.
  • an ASM multivariate statistical analysis, for example a PCA or a PCoA
  • This clustering can implement methods of UPGMA type, Minimum Variance, WPGMA, NJ for example.
  • the result of the ASM is an N-dimensional coordinate matrix that is subject to hierarchical clustering of the distances between points of a multidimensional space.
  • the result obtained can be represented by a dendrogram, which allows, if it is robust, to decide whether a text can be attributed to an author, or not.
  • the method may comprise the establishment of a robustness measurement of the dendrogram using a cophenetic correlation coefficient.
  • This dendrogram evaluation technique makes it possible to use the results of the process more often even when the cophenetic correlation coefficient is medium or even low.
  • a visual confirmation of the robustness of a dendrogram can be obtained by comparing its structure with that of others.
  • dendrograms obtained by different clustering methods (UPGMA, Minimum Variance, WPGMA, NJ, .
  • the robustness of a dendrogram is furthermore testable either by statistically analyzing the cophenetic distance measurements, or by comparing the close relations of the terminal buds ("leaf nodes") of the dendrogram.
  • Author attribution is done by confirming or denying the distribution of texts according to a departure hypothesis, HD1, according to which the questioned text is attributed to an author.
  • HD1 a departure hypothesis
  • the text or texts questioned are confronted in turn to texts of at least two reference authors (known authors who have certified the production of their texts). These reference texts are similar in nature, number and size as the texts questioned.
  • Dendrograms which test three authors by comparison, are generated.
  • each author is tested by pair of authors 210 times.
  • a statistical count is established to determine the number of times that the assumption underlying each dendrogram is verified.
  • the frequency of results in favor of the hypothesis is established.
  • the 350 tests, which compare only reference authors, make it possible to establish the height of the signal necessary for the acceptance of the hypothesis of the author attribution of the texts questioned.
  • the robustness of the approach is tested by formulating a new hypothesis HD2, for example by adding to the texts questioned in HD1 one or more texts of the same author or another author. Several initial hypotheses concerning texts attributed to the author are thus testable in parallel.
  • the invention also starts from the observation that semantic patterns (for example the number of occurrences of words or lemmas) in a short text are not very useful for identifying an author, because this type of reason is statistically too rare to provide a reliable indication of the author.
  • the method of the invention therefore proposes to use only relatively frequent patterns, for example letter patterns.
  • the method also proposes to standardize the text, replacing all the capital letters with lower case letters, and all the letters accentuated by the corresponding lower case character (eg the letter "é” is replaced by "e”, "ç” by "c”, etc.). Surprisingly, he found that this
  • the problem of author verification of a questioned text short for example a text of less than 500 words, is in particular solved by a method comprising the following steps:
  • predefined patterns comprising exclusively intra and / or interword word patterns
  • standardization preferably converts the basic text into a text with only 27 characters (26 letters and the space symbol).
  • the cutting is advantageously independent of the contents; for example, it is advantageous to cut a text or another sequence of symbols into windows having all, or almost all except for example the first or the last, the same length.
  • This feature makes it possible to compare with windows of optimal length, that is, not too short to avoid style measurements disturbed by rare events, or too long to allow plagiarism detection of short sequences.
  • the length of the windows is advantageously between 150 and 2000. In this case, the questioned text is thus not cut out;
  • the windows are preferably offset from each other by characters, some windows comprising a portion of the end of the text and a portion of the beginning of the text. This cyclization makes it possible to stabilize the final stylometric signal.
  • the patterns preferably correspond to either:
  • the analysis may be a multivariate analysis (PCA or PCoA).
  • the method may comprise a step of clustering the results of the multivariate analysis (UPGMA, Minimum Variance, WPGMA, NJ,
  • the analysis may be based on a measurement of distance to the centers of gravity.
  • the method may include the establishment of a dendrogram to determine if two texts were produced by the same author.
  • the questioned text is attributed to an author by confirming or reversing a distribution of the text according to an attribution hypothesis.
  • two sub-clusters of texts questioned are created from the group of texts questioned, according to their distance from one of said groups of reference text, and the difference between the mean of the cophenetic distances between the fragments of each sub-cluster is determined with a group of reference text in order to determine whether the two subclusters come from the same author or not.
  • the type of distance used during the multivariate statistical analysis can be selected according to the analysis strategy. For example, we will preferably choose a Boolean distance for a short text, and another distance, for example a Euclidean distance, for a longer text. The type of distance used during construction of the dendrogram may be selected.
  • a first type of distance for a multivariate approach and a second type of distance for an approach based on a dendrogram, and a third type for an approach based on the distance to a centroid will be chosen.
  • the type of distance used for measuring the distances to the centers of gravity can be selected according to the analysis strategy.
  • Statistically weighted distances eg standardized Euclidean distance, weighted according to standard deviation
  • distances eg standardized Euclidean distance, weighted according to standard deviation
  • selectable includes at least two distances, for example two distances to be chosen from the following distances: distance of the ropes, Euclidean, Euclidian normalized, Manhattan, Canberra, Chi square [c 2 ], distance of generalized Jaccard.
  • the invention comes from the observation that these language bricks are highly personal and difficult to manipulate.
  • the style parameters of each portion of text thus constitute a biometric trace of the author's stylometric signature. It is observed that the style parameters associated with each author depend on his way of thinking, much like the phrasing played by a jazzman is highly personal.
  • the letter patterns in a text naturally depend on the type of text. In French, a medical text presents a high occurrence of trigrams "dare" or "ite".
  • the method may include calculating a stylometric distance between the number of occurrences of patterns in a text to be verified and a reference text: for example a distance from the strings, Euclidean, Euclidean normalized, Manhattan, Canberra, Khi square (c 2 ), etc. It can be measured between two windows, between a window and a group of windows or between two groups of windows representing all or part of one or more sequences of letters.
  • the analysis of the occurrences of predefined patterns may include groupings by different multivariate statistical treatments.
  • a principal component analysis (PCA), or principal coordinate analysis (PCoA main coordinates also called MDS MultiDimensional Scaling) working on mathematical distances defined between observations of style parameters (eg bigrams) reduces the number of original dimensions (the number of types of bigrams).
  • PCA principal component analysis
  • PCoA main coordinates also called MDS MultiDimensional Scaling working on mathematical distances defined between observations of style parameters (eg bigrams) reduces the number of original dimensions (the number of types of bigrams).
  • MDS MultiDimensional Scaling principal coordinate analysis
  • Such groupings make it possible to detect the most characteristic style parameters of an author.
  • the Euclidean distance is performed without multivariate statistical processing. This approach is more sensitive to noise, since the stylometric distance between two windows takes into account all style parameters, even the least individual ones. On the other hand, it avoids using the most characteristic style parameters with less
  • Figure 2 illustrates the memory of the device of Figure 1
  • Figure 6 shows the first two dimensions of an ASM on trigrams taken from text fragments obtained after cutting to about 500 characters.
  • Figure 7 is drawn from an ASM (like that of Figure 6) and illustrates the distance of each text fragment to the barycenters of three clusters.
  • Figure 8 illustrates an example of a dendrogram.
  • Figure 9 illustrates an example of a perfect dendrogram.
  • Figure 10 shows a first example of an almost perfect dendrogram.
  • Figure 11 shows a second example of a dendrogram
  • Figure 12 illustrates an example of a dendrogram with two entangled branches.
  • Figure 13 illustrates an example of an entangled three-branched dendrogram.
  • the method of detecting breaks in style described in this application has the particular advantage of being implemented by means of a computer device 1, for example a computer or a server such as the one illustrated. schematically in Figure 1.
  • This device comprises in particular one or more processors 10, a random access memory 11, a read-only memory 12, a graphics card 13 for controlling a screen 17, an input-output port, for example a USB port 14 , allowing the connection of external peripherals such as scanner 18, printer, etc., a network card 15 for connection to a network 19, for example an Ethernet network, and data input devices such as keyboard, mouse, screen touch, etc.
  • the memory 11 comprises a portion 110 for the operating system, a portion 111 for the data and a portion 112 for the application programs.
  • This portion 112 includes in particular a windowing module 113, a stylistic parameter determination module 114, a stylistic distance calculation module 115, and a style break identification module 116.
  • the "modules" above are advantageously consisting of portions of computer code, for example programs, program extracts, routines, procedures, etc., arranged to be executed by the microprocessor 10 in order to make it execute the windowing operations, the determination of stylistic parameters , stylistic distance calculation, and respectively identification of breaks in style that will be described below as an example.
  • These modules can be stored on a computer medium, for example a cd-rom, a hard disk, a flash memory, etc., before being loaded into memory 11 as illustrated.
  • the method allows to check the style of a document, and compare it with the style of a reference document to determine if they were written by the same author.
  • style we mean the catalog of occurrence of predefined letter patterns.
  • the first step of the method is therefore to obtain in electronic copy at least one short text to test (questioned text) and at least one reference text of the author to check (reference text).
  • the reference text may be longer than the text questioned.
  • This sequence of symbols can be loaded for example from the Internet, via e-mail, from a removable data medium etc.
  • a windowing module 113 normalizes the text to be queried, and at least one reference text, by removing the symbols of
  • the windowing module 113 divides at least one reference text, and possibly the questioned text, into a plurality of windows 20A, 20B, and so on.
  • Each window 20 is constituted by a sequence of consecutive L letters within the complete sequence.
  • Window cutting is preferably independent of the contents; it is not therefore a division into grammatical or syntactic elements, and is independent for example of the beginning or the end of sentences, paragraphs or pages. This allows analysis with window sizes independent of the author's style. This also allows an analysis of punctuation sequences by windows of fixed length.
  • the windows 20 overlap partially, in the sense that certain symbols, or even most of the symbols
  • the window 20A comprises the sequence of characters
  • Window 20B is obtained from the first window 20A and the symbol sequence 2 by an offset of K symbols, here 20.
  • K offset values different from 20 can also be used, provided that K is less than the length L of the windows.
  • the offset value can be a parameter chosen by the user during the execution of the program, depending on the type of documents, the computing power available, the required accuracy, etc.
  • the offset value can be derived from one or other user-selected parameters. For example, the user chooses a degree of coverage C, indicating the number of windows to which each symbol must belong simultaneously, and the value of K is calculated accordingly.
  • the module 114 determines the number of occurrences of predefined patterns in each window.
  • the number of patterns counted in each window can be significant; for example, in the case of a calculation of trigrams, the number of possible trigrams will be 27 * 27 * 27.
  • the accounted patterns are exclusively patterns that can occur in statistically representative quantities in a short text.
  • the semantic motifs are preferably excluded, the probability of finding the same word several times in a short text is small.
  • the following pattern occurrences can be counted:
  • each sequence may include one or more alternate insert characters ( ⁇ a * a>, ⁇ a * b>, etc.; ⁇ a ** a>, ⁇ a ** b>, etc., the insert character * can be any character).
  • counted include an accumulation of bigrams signals, trigrams, etc. in order to make a multivariate analysis on all of these dimensions.
  • the analysis thus includes a Principal Component Analysis (PCA) statistical analysis in order to group the counts of different patterns.
  • PCA Principal Component Analysis
  • the analysis comprises a PCoA (Principal Coordinate Analysis).
  • Figure 4 illustrates the position in a three-dimensional space of 17 windows each represented by a symbol, resulting from a multivariate analysis.
  • Each axis can for example correspond to the frequency of a pattern; in a variant, each axis corresponds to a dimension obtained after a multivariate analysis, according to the size reduction of a multivariate statistical processing to optimize the variance between windows carried by the style parameters.
  • the rounds correspond to windows written by a first author, the two triangles to windows written by a second author; the stars correspond to the average points of the groups of windows corresponding to each of the two authors. It is obvious that the number of dimensions can be much larger than three in the case where more than three distinct patterns are extracted from each window 20 and that these patterns are not grouped together.
  • Figure 5 maps the distance to the average point of each window (20A, 20B, ...., 20i) on a curve.
  • the large distance jump between the window 20A and the window 20B at the beginning of the sequence shows a break of style between these two windows and is an index of author change.
  • the mathematical stylometric distance between points may be a Euclidean distance, a Manhattan distance, or a cos Q distance for example.
  • the stylometric distance used is a Boolean distance, for example a distance between two binary vectors (called the binary distance), each component of the vector indicating the presence or absence of a stylometric pattern.
  • the binary distance a distance between two binary vectors
  • Jaccard, Rogers-Tanimoto, Simpson or Yule Sigma can be used.
  • a description of this type of distance and their use in clustering is presented by Seung-Seok Choi et al. in "A Survey of Binary Similarity and Distance Measures," SYSTEMICS, CYBERNETICS AND INFORMATICS, Vol.8, Num. 1, 2000.
  • This type of distance makes it possible to work with a large number of dimensions and is therefore particularly suited to the cumulative approaches mentioned above, in which a large number of different patterns are counted. They therefore make it possible to measure a distance between a large number of dimensions of a small object, for example a short text.
  • the stylometric distance calculation module 115 then groups the text extracts by calculating the stylometric distance between points of the multidimensional space represented by a dendrogram.
  • the different texts questioned and referenced are grouped using a classification / clustering method, such as UPGMA, UPGMC, Minimum Variance, WPGMA, WPGMC, NJ, ...)
  • the result of multivariate statistical analysis is thus used to construct a taxonomy.
  • the result of this grouping is a dendrogram, that is to say a diagram which represents affinities (similarities of style) between texts, which may be questioned texts or reference texts.
  • the grouping of these texts is based on the coordinate matrix, which indicates the (dis) similarities or distances between texts. Texts of very similar styles are worn together by a common branch of the
  • a robust dendrogram makes it possible to decide whether a questioned text can be attributed to an author of the match or not. On the other hand, no reliable decision can be made if the dendrogram is not robust enough.
  • a standard measure of robustness of a dendrogram is the cophenetic correlation coefficient. It is based on the cophenetic distances between the fragments, measured on the dendrogram. These distances are different from the original distances between the same fragments but measured in the ASM.
  • the cophenetic correlation coefficient evaluates the relation between the cophenetic distances (from the dendrogram) and the "original" distances (between the fragments in the ASM).
  • a confirmation of the robustness of a dendrogram can be obtained by comparing its structure with that of other dendrograms obtained by different clustering methods (UPGMA, Minimum Variance, WPGMA, NJ, etc.).
  • the robustness of a dendrogram is in addition testable either by statistically analyzing the cophenetic distance measurements, or by comparing the proximity relations of the terminal buds of the dendrogram.
  • a first step it is tested whether the group of texts questioned (Q) is significantly away from the other two groups of reference texts (A and B), known authors, which he is confronted.
  • QQ, QA, QB, AA, AB and BB we calculate the average of the distances between the text fragments of the two groups of the couple, with their standard deviation and their number (ie number of text fragments ). Then, for each group, we calculate its interval of
  • the statistical hypothesis H0 is accepted: the clusters Q1 and Q2 are distinct; there are therefore four clusters in the dendrogram considered (Q1, Q2, A and B). The experiment does not therefore make it possible to establish that Q1 and Q2 are from the same editor. In the opposite case (if this difference is less than the sum of the confidence intervals), the statistical hypothesis H0 is rejected: we can then affirm that Q1 and Q2 are of the same editor with a probability of being wrong equal to the probability threshold chosen to calculate the confidence interval.
  • the clustering of the group of texts questioned therefore amounts to partitioning all the texts questioned into at least two groups such that the stylometric distance between a member of a group is reduced.
  • the ASM calculates the coordinates of text extracts on N dimensions, where N is the number of dimensions necessary to reach a cumulative percentage of variance (eg, 90%). In other words, all the coordinates are used with a coefficient 1 for the N principal dimensions, which carry the discriminant signal, and 0 for the other dimensions, whose signal is noisy. In another embodiment, weighting coefficients are implemented to give more weight to the first dimensions, depending on their importance.
  • the module 116 determines on the basis of the dendrogram if the text questioned comes from the same author as one of the texts, or set of reference texts A, B.
  • the cophenetic correlation coefficient can be calculated and displayed.
  • several author attribution tests with several types of complementary statistical validations are made, using texts of the same nature (for example two texts from a blog, two messages of threat etc). These texts of the same nature serve as reference texts, from at least three known authors, and are collected for this purpose. For example, performing 10 independent tests (with 10 different reference writers) can reduce the probability of error by a factor of 10. In our example, this probability would increase from 5% to 0.5%.
  • a dendrogram will be called perfect if it is perfect distribution, that is to say if it combines the texts of styles / authors supposed in as many main branches as styles / authors.
  • Figure 9 illustrates in this respect an example of a perfect dendrogram.
  • the three authors or styles supposed A, B and C clusters according to the three main branches of the dendrogram.
  • the distance between A1 and B1 is equal to the distance between A1 and B2, and that between A2 and B1, etc.
  • the relationship between the texts of a pair of authors is considered perfect if the distances between terminal buds of an author with terminal buds of the other author are identical.
  • a dendrogram will be called almost perfect if a branch carrying a style is worn in another branch of different style.
  • Figure 10 thus illustrates a first example of an almost perfect dendrogram.
  • the texts of the author A are carried by the branch which bears the author B.
  • the distances between the texts of B are greater than the distances between the texts of A.
  • Figure 11 illustrates another example of an almost perfect dendrogram.
  • the texts of the author B are carried by the branch which bears the author A.
  • the relation between the texts of a pair of authors is considered almost perfect if the maximum distances between terminal buds of texts of an author is smaller than the minimum distances between terminal buds of texts of the other author.
  • a dendrogram will be called entangled in all other cases.
  • FIG. 12 illustrates an example of a dendrogram with partial entanglement.
  • the texts of the authors B and C are entangled. Neither the texts of the author B nor those of the author C are found worn
  • FIG. 13 illustrates an example of a dendrogram with a generalized entanglement.
  • the texts of the three authors are intricate.
  • the texts of any author A, B or C are found carried exclusively by a single branch.
  • the relationship between the texts of a pair of authors is considered intricate if the two conditions
  • an entangled dendrogram contains at least one pair of intricately related authors
  • an almost-perfect dendrogram contains no pair with intricate relation but at least one pair with almost perfect relation
  • the examination of the dendrograms can be done automatically for example by comparing the structures or the distances between the nodes or branches of the dendrograms.
  • a preliminary automation step consists in verifying the initial hypothesis: a series of texts attributed to each author. This assumption is validated if each main branch carries exclusively the texts of an author. An automated measurement of the distances between each leaf node makes it possible to evaluate the relevance of the initial hypothesis: the terminal buds of a main branch will generally have shorter distances between them than those prevailing between a bud. terminal of a main branch and a terminal bud of another main branch. Measuring distances for to validate the distribution of the texts of an author on a main branch is verified in the majority of the dendrograms. A type of dendrogrammes, the ultrametric dendrograms, allows a strict verification of this last proposition.
  • a UPGMA dendrogram is ultrametric because it is rooted and the distances between its root and its terminal buds are identical. This ultramétric Congress property makes it possible to strictly automate the examination of the UPGMA dendrograms, for example by comparing all the distances between terminal buds for each pair of authors.
  • a multiple comparison experiment can be made from distance measurement to the centroid centers defined for the sequences of each author. A score can be established.
  • the method can be used not only to authenticate the alleged perpetrator of a short text (ie, to check whether it is the real author), but also to identify the author. author of an anonymous text or signed by another person. For this purpose, it is possible, from a few texts, to search in a collection of texts texts that are closest to reference texts (eg texts of suspects previously identified in a forensic application).
  • the method of the invention makes it possible to determine whether a message (short text) can be attributed to a known author whose at least one other short or long text is known. For example, it allows subscribers to receive messages from a person - for example, to tweeter subscribers, or to subscribers of other social networks or e-mail recipients - from make sure that the short messages read come from the supposed author who signed the message, and not from an usurper.
  • This procedure can be repeated to compare a questioned message with some supposed usurper messages, and with some messages from a reference author. If one of these three matches (unknown, usurper, reference) classifies the message questioned with those of the usurper, the message is attributed, with a certain probability, to this usurper.
  • the method may be used in anti-spam or anti-phishing software to determine, possibly with other methods, the likelihood that the message will come from a usurper.
  • the usurper can be a spammer.
  • the compared messages can relate to very different subjects, the approach being independent of the specific vocabulary used.
  • the messages are preferably of the same nature - for example all e-mails, or smear messages.
  • Figure 6 is taken from an example with three authors of dummy letters, each having produced two letters of about 500 and 1750 characters.
  • the author questioned (bottom left group) in this test has also produced a document of a hundred characters only (squares at the bottom left of the figure). These texts were cut to a preferred size of about 500 characters, with a coverage of three.
  • FIG. 6 represents the first two dimensions of an ASM on trigrams taken from the fragments of texts obtained after cutting at about 500 characters and recovery (degree of coverage of 3).
  • the resulting coordinate matrix of this ASM is stored in a table.
  • FIG. 7 is established from an ASM and illustrates the distance of each text fragment to the barycenters of the three visible clusters on this ASM.
  • the figure represents in X the number of the extract and in Y the distance from this extract to the representative anoint. For example, the first 15 fragments are closer to the center of the cluster in the lower left and are part of this cluster.
  • This diagram makes it possible to identify the misplaced points of a cluster because they are closer to the center of gravity of another cluster. It is therefore possible to calculate the proportion of misplaced points from the data in this graph and to determine the probability of
  • Figure 8 shows the dendrogram obtained from the matrix of coordinates from an ASM.
  • clusters There are three main branches (clusters) containing the fragments of the texts placed in the following order, from top to bottom: 88 (cluster on the bottom left), 95 (cluster on the top left) and 90 (cluster on the right).
  • This non-hierarchical clustering dendrogram validates the existence and the clear separation of the three clusters, corresponding to three authors.
  • the dendrogram refinement technique measures the statistical robustness of the results of this dendrogram.
  • a non-hierarchical clustering dendrogram therefore clusters the very short text of 130 characters (0088R2.txt1) with the other fragments from both texts 0088L and 0088C, which together form the cluster at the bottom left.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

Procédé permettant de vérifier si un texte questionné de moins de 500 caractères a été rédigé par un auteur, comprenant les étapes suivantes : analyse statistique multivariée du texte questionné, par exemple PCA ou PCoA, de manière à générer une matrice de coordonnées dans un espace à N dimensions; clusterisation hiérarchique des points de cet espace représentable par un dendrogramme; vérification de l'auteur du texte questionné sur la base de cette clusterisation.

Description

Procédé et dispositif de vérification de l'auteur d'un message court
Domaine technique
[001] La présente invention concerne le problème de l'attribution d'un auteur à un texte, en particulier d'un texte court, par exemple un texte de moins de 500 caractères.
Etat de la technique
[002] La connaissance du véritable auteur d'un texte est souvent importante pour des raisons de droit d'auteur, d'authentification de document, ou en forensique, par exemple pour identifier l'auteur d'une lettre anonyme, d'une note de suicide, pour attester l'auteur d'un e-mail, d'un message sur Twitter, d'une publication sur un autre réseau social, etc.
[003] Diverses solutions ont donc été proposées afin d'authentifier ou d'identifier l'auteur d'un document.
[004] W02008/036059 décrit un procédé d'identification d'auteur basé sur l'analyse linguistique d'unités du texte. L'analyse linguistique se base par exemple sur l'analyse lexicale, y compris la fréquence d'apparitions de certains mots ou de prépositions, ainsi que l'analyse stylométrique, y compris la ponctuation, la longueur moyenne des mots, le nombre de mots courts, ou la longueur moyenne des paragraphes. Une analyse
graphémique incluant un comptage des lettres et des signes de
ponctuation, et une analyse syntaxique incluant un comptage des noms, des verbes, etc., sont aussi suggérées. L'analyse est effectuée au niveau de chaque phrase ou du document entier. Il est donc destiné à
l'authentification de documents complets.
[005] JGAAP (Java Graphical Authorship Attribution Program) est un programme Java modulaire qui, à la date de dépôt de la présente invention, peut être téléchargé depuis le site web
Figure imgf000003_0001
[006] Dans sa version 6.0, il permet l'analyse stylométrique et textométrique de texte dans un but de catégorisation et d'attribution d'auteur.
[007] La demande de brevet WO2017144939, dont le contenu est ici inclus par référence, décrit un procédé et un dispositif de détection de rupture de style par calcul de distance stylométrique entre portions ou fenêtres du texte. Ce procédé est particulièrement adapté à la détection de passage plagiés ou « ghostwrités » au sein d'un document plus long. Les procédés décrits sont cependant peu adaptés à la vérification d'auteur d'un texte très court, par exemple un texte de moins de 500 caractères.
Bref résumé de l'invention
[008] Il existe donc un besoin pour un procédé de vérification d'auteur spécialement adapté à des textes courts, par exemple des textes de moins de 500 caractères ou même de moins de 160 caractères, et qui puisse être automatisé et exécuté par exemple à l'aide d'une machine ou d'un système informatique.
[009] Il existe aussi un besoin pour un procédé qui améliore l'efficacité des et la rapidité des procédés de vérification d'auteur de textes courts, grâce é un procédé qui comprend des étapes pouvant être réalisées de manière efficace avec un ordinateur ou un système de traitement numérique.
[0010] Selon un aspect de l'invention, ces buts sont atteints notamment au moyen de paramètres caractérisant le style du document, ou d'une fenêtre dans le document. Le choix de ces paramètres de style et/ou leur valeur peuvent être déterminés automatiquement. Ils permettent avantageusement de caractériser le style d'une fenêtre de manière automatique et objective.
[0011] L'invention a aussi pour objet un procédé permettant de vérifier si un texte questionné, complet ou fragmenté, de moins de 500 caractères a été rédigé par un auteur, comprenant les étapes suivantes :
analyse statistique multivariée du texte questionné, de manière à générer une matrice de coordonnées dans un espace à N dimensions ;
clusterisation hiérarchique des points de cet espace représentable par un dendrogramme,
vérification de l'auteur du texte questionné sur la base de cette clusterisation.
[0012] Ce procédé peut être effectué par un ordinateur ou un autre système de traitement numérique. Il présente l'avantage de ne comporter que des étapes pouvant être mises en oeuvre de manière efficace par un système de traitement numérique, mais qui seraient en revanche très difficile ou pratiquement impossibles à réaliser sans l'assistance d'un tel système.
[0013] Par rapport aux procédés de vérification d'auteur existantes, ce procédé permet donc une réalisation informatique performante et efficace.
[0014] Le texte questionné peut être un texte complet, par exemple un message de moins de 500 caractères, ou un fragment de moins de 500 caractères extrait d'un texte complet.
[0015] La clusterisation (clustering) consiste en un regroupement des points.
[0016] Cette clusterisation hiérarchique minimise les distances dans un dendrogramme (on parle de distances cophénétiques).
[0017] Selon un aspect, le procédé de l'invention combine ainsi deux outils d'analyses statistiques qui sont normalement utilisées
indépendamment l'un de l'autre : une ASM (analyse statistique multivariée, par exemple une PCA ou une PCoA) et une clusterisation des distances représentées par un arbre, plus précisément un dendrogramme. [0018] Cette clusterisation peut mettre en œuvre des procédés de type UPGMA, Minimum Variance, WPGMA, NJ par exemple. Le résultat de l'ASM est une matrice de coordonnées à N dimensions qui est soumise à une clusterisation hiérarchique des distances entre points d'un espace multidimensionnel.
[0019] Le résultat obtenu peut être représenté par un dendrogramme, qui permet, s'il est robuste, de décider si un texte peut être attribué à un auteur, ou non.
[0020] Le procédé peut comporter l'établissement d'une mesure de robustesse du dendrogramme à l'aide d'un coefficient de corrélation cophénétique. Cette technique d'évaluation du dendrogramme permet d'utiliser plus souvent les résultats du procédé même quand le coefficient de corrélation cophénétique est moyen, voire faible.
[0021] D'autres techniques d'évaluation du dendrogramme, y compris des techniques spécifiques au problème d'attribution d'auteur, peuvent être mises en œuvre.
[0022] Une confirmation visuelle de la robustesse d'un dendrogramme peut être obtenue en comparant sa structure avec celle d'autres
dendrogrammes obtenus par des méthodes de clusterisation différentes (UPGMA, Minimum Variance, WPGMA, NJ, ...).
[0023] La robustesse d'un dendrogramme est en outre testable soit en analysant statistiquement les mesures de distances cophénétiques, soit en comparant les relations de proximité des bourgeons terminaux (« leaf nodes ») du dendrogramme.
[0024] L'attribution d'auteur se fait en confirmant ou en infirmant la distribution des textes selon une hypothèse de départ, HD1, selon laquelle le texte questionné est attribué à un auteur. [0025] Afin de tester la robustesse de HD1, le ou les textes questionnés sont confrontés à tour de rôle à des textes d'au moins deux auteurs de référence (auteurs connus qui ont certifié la production de leurs textes). Ces textes de référence sont de nature, de nombre et de taille similaires que les textes questionnés.
[0026] Par exemple, avec l'auteur questionné en HD1 et 15 auteurs de référence, 560 (16! / [3! * 13!]) dendrogrammes, qui testent trois auteurs par comparaison, sont générés. Dans notre approche basée sur la structure du dendrogramme, chaque auteur est testé par paire d'auteurs 210 fois. Un décompte statistique est établi pour déterminer le nombre de fois où l'hypothèse à la base de chaque dendrogramme est vérifiée. La fréquence de résultats en faveur de l'hypothèse est établie. Les 350 tests, qui comparent uniquement des auteurs de référence, permettent d'établir la hauteur du signal nécessaire à l'acceptation de l'hypothèse de l'attribution d'auteur des textes questionnés. La robustesse de l'approche est testée en formulant une nouvelle hypothèse HD2, par exemple en ajoutant aux textes questionnés en HD1 un ou des textes supplémentaires du même auteur ou d'un autre auteur. Plusieurs hypothèses de départ, concernant des textes dont l'auteur est à attribué, sont ainsi testables en parallèle.
[0027] Selon un aspect, l'invention part aussi de la constatation que des motifs sémantiques (par exemple le nombre d'occurrences de mots ou de lemmes) dans un texte court sont peu utiles pour identifier un auteur, car ce type de motif est statistiquement trop rare pour fournir une indication fiable de l'auteur. Le procédé de l'invention propose par conséquent de n'utiliser que des motifs relativement fréquents, par exemple des motifs de lettres.
[0028] Afin d'augmenter encore le nombre d'occurrence de ces motifs de lettre, et donc leur représentativité, le procédé propose aussi de normaliser le texte, en remplaçant toutes les lettres majuscules par des minuscules, et toutes les lettres accentuées par le caractère minuscule de base correspondant (par exemple la lettre « é » est remplacée par « e », « ç » par « c », etc). De manière surprenante, il a constaté que cette
normalisation n'affecte pas le caractère discriminant des motifs.
[0029] Selon un aspect, le problème de la vérification d'auteur d'un texte questionné court, par exemple un texte de moins de 500 mots, est en particulier résolu grâce à un procédé comprenant les étapes suivantes :
normalisation du texte questionné et/ou d'un ou plusieurs textes de référence, en supprimant les signes de ponctuation, en remplaçant les lettres majuscules par des minuscules, et en replaçant les lettres accentuées ou autres variations des lettres de base par la forme principale des lettres correspondantes ;
découpage automatique du texte questionné et/ou d'un ou plusieurs textes de référence en une pluralité de fenêtres, au moins deux fenêtres se recoupant ;
détermination par processeur du nombre d'occurrences de motifs prédéfinis dans lesdites fenêtres, lesdits motifs prédéfinis comprenant exclusivement des motifs de lettres intra et/ou inter-mots,
analyse des dits nombres d'occurrence ;
comparaison des résultats de ladite analyse avec les résultats d'une analyse effectuée sur un texte de l'auteur, afin de déterminer.
[0030] Dans le cas d'un texte rédigé dans un alphabet latin, la
normalisation convertit de préférence le texte de base en un texte comportant 27 caractères seulement (26 lettres et le symbole espace).
[0031] Le découpage est avantageusement indépendant du contenu ; par exemple, il est avantageux de découper un texte ou une autre séquence de symboles en fenêtre ayant toutes, ou quasiment toutes à l'exception par exemple de la première ou de la dernière, la même longueur. Cette caractéristique permet d'effectuer des comparaisons avec des fenêtres de longueur optimale, c'est-à-dire ni trop courte pour éviter des mesures de style perturbées par des événements rares, ni trop longues pour permettre une détection de plagiat de séquences courtes. [0032] La longueur des fenêtres est avantageusement comprise entre 150 et 2000. Dans ce cas, le texte questionné n'est ainsi pas découpé ;
cependant le ou les textes de référence, qui peuvent être plus longs, seront découpés.
[0033] Les fenêtres sont de préférence décalées entre elles de t caractères, certaines fenêtres comprenant une portion de la fin du texte et une portion du début du texte. Cette cyclisation permet de stabiliser le signal stylométrique final.
[0034] Les motifs correspondent de préférence soit :
à des trigrammes (par exemple <aaa>, <aab>, <aac>) ; et/ou à des bigrammes avec n lettres intercalaires <a*a>, <a*b>, etc.). On parle de bigrammes à multi-intercalaires ; et/ou
à des bigrammes au début de mots, au milieu de mots ou en fin de mots, ou à des bigrammes inter-mots.
[0035] Il est aussi possible de combiner différents type de ces motifs dans un seul texte.
[0036] Par exemple, si on utilise à la fois des unigrammes, des
bigrammes, des trigrammes, etc, on parle de motifs sous forme de multigrammes à n-grammes.
[0037] Il est aussi possible de détecter des n-grammes de début de mot, combinés avec des n-grammes de fin de mot. On parle alors de
multigrammes de bornes (début, milieu, et fin) de mots.
[0038] Il est aussi possible d'utiliser des multigrammes d'autres types : syllabes, longueurs de mots, fonctions des mots (parts of speech),
ponctuation, etc.
[0039] On peut aussi combiner les différents types de multigrammes entre eux : par exemple, combiner des multigrammes à n-grammes avec des bigrammes à multi-intercalaires. [0040] On évite ainsi l'utilisation de motifs de mots ou de lemmes, trop peu fréquents dans un texte court pour fournir une base statistique fiable.
[0041] L'analyse peut être une analyse multivariée (PCA ou PCoA).
[0042] Le procédé peut comporter une étape de clustérisation des résultats de l'analyse multivariée (UPGMA, Minimum Variance, WPGMA, NJ,
[0043] L'analyse peut être basée sur une mesure de distance aux barycentres.
[0044] Le procédé peut comporter l'établissement d'un dendrogramme afin de déterminer si deux textes ont été produits par le même auteur.
[0045] Le texte questionné est attribué à un auteur en confirmant ou en infirmant une distribution du texte selon une hypothèse d'attribution.
[0046] Plusieurs textes questionnés peuvent être confrontés à tour de rôle à des textes d'au moins deux auteurs de référence. [0047] Dans un mode de réalisation, on teste tout d'abord si un groupe de textes questionnés est éloigné de deux autres groupes de textes de référence ; d'auteurs connus, auquel il est confronté ;
si le groupe de textes questionné est suffisamment éloigné des deux autres groupes de texte de référence, on créé deux sous-clusters de textes questionnés à partir du groupe de textes questionnés, selon leur distance à l'un desdits groupes de texte de référence, et l'on détermine la différence entre la moyenne des distances cophénétiques entre les fragments de chaque sous-cluster avec un groupe de texte de référence afin de déterminer si les deux sous-clusters proviennent ou non d'un même auteur.
[0048] Le type de distance utilisé lors de l'analyse statistique multivariée peut être sélectionné en fonction de la stratégie d'analyse. Par exemple, on choisira de préférence une distance booléenne pour un texte court, et une autre distance, par exemple une distance euclidienne, pour un texte plus long..Le type de distance utilisé lors de la construction du dendrogramme peut être sélectionné.
[0049] On choisira par exemple un premier type de distance pour une approche multivariée, et deuxième type de distance pour une approche basée sur un dendrogramme, et un troisième type pour une approche basée sur la distance à un barycentre.
[0050] Le type de distance utilisé pour la mesure des distances aux barycentres peut être sélectionné en fonction de la stratégie d'analyse. Les distances à pondération statistique (par exemple la distance euclidienne standardisée, pondérée selon l'écart type) ainsi que les distances
booléennes ou binaires, ne seront de préférence pas appliquées pour cette approche.
[0051] A chacun de ces niveaux, le choix du type de distance
sélectionnable comprend au moins deux distances, par exemple deux distances à choix parmi les distances suivantes : distance des cordes, euclidienne, euclidienne normalisée, Manhattan, Canberra, Khi carré [c2], distance de Jaccard généralisée.
[0052] Le style de chaque portion de texte est ainsi déterminé à partir d'éléments de langage très simples, un peu comme si l'on déterminait le style gothique d'une cathédrale en étudiant ses pierres de taille employées au lieu de s'intéresser à l'impression d'ensemble.
[0053] Selon un aspect, l'invention vient de la constatation que ces briques de langages sont hautement personnelles et difficiles à manipuler. Les paramètres de style de chaque portion de texte constituent ainsi une trace biométrique de la signature stylométrique de l'auteur. Il est observé que les paramètres de style associés à chaque auteur dépendent de son mode de pensée, un peu comme le phrasé joué par un jazzman est hautement personnel. [0054] Les motifs de lettres dans un texte dépendent naturellement du type de texte. En français, un texte médical présente une occurrence élevée des trigrammes « ose » ou « ite ».
[0055] D'autres motifs sont plus personnels. De manière tout à fait inattendue, certaines personnes emploient systématiquement certains trigrammes, ou certains autres motifs etc. plus souvent que d'autres - indépendamment du type de texte, du niveau d'éducation ou du style littéraire.
[0056] Dans un mode de réalisation préférentiel, plusieurs centaines de motifs sont calculés pour certaines ou toutes les fenêtres. La distance stylométrique dépend alors d'un grand nombre de paramètres de style distincts, rendant ainsi très difficile toute tentative d'imiter le style d'un autre auteur.
[0057] Le procédé peut comporter le calcul d'une distance stylométrique entre les nombres d'occurrences de motifs dans un texte à vérifier et un texte de référence : par exemple une distance des cordes, euclidienne, euclidienne normalisée, Manhattan, Canberra, Khi carré (c2), etc. Elle peut être mesurée entre deux fenêtres, entre une fenêtre et un groupe de fenêtres ou entre deux groupes de fenêtres représentant tout ou partie d'une ou de plusieurs séquences de lettres.
[0058] L'analyse des occurrences de motifs prédéfinis peut comprendre des regroupements par différents traitements statistiques multivariés. Par exemple, une analyse en composantes principales (PCA), ou une analyse en coordonnées principales (PCoA principal coordinates aussi appelée MDS MultiDimensional Scaling) travaillant sur les distances mathématiques définies entre observations des paramètres de style (par exemple les bigrammes) réduit le nombre de dimensions originales (le nombre de types de bigrammes). De tels regroupements permettent de détecter les paramètres de style les plus caractéristiques d'un auteur. [0059] Dans une variante, la distance euclidienne est effectuée sans traitement statistique multivarié. Cette approche est plus sensible au bruit, puisque la distance stylométrique entre deux fenêtres tient compte de tous les paramètres de style, même les moins individuels. Elle évite en revanche de moyenner les paramètres de style les plus caractéristiques avec des paramètres moins personnels, ou de négliger des paramètres de style très individuelles mais d'occurrence rare.
Brève description des figures
[0060] Des exemples de mise en oeuvre de l'invention sont indiqués dans la description illustrée par les figures annexées dans lesquelles : · La figure 1 illustre à titre d'exemple un dispositif informatique
comprenant notamment certains des composants nécessaires à la mise en oeuvre de l'invention ;
La figure 2 illustre la mémoire du dispositif de la figure 1 ;
• La figure 3 illustre un exemple de séquence de symboles, en
l'occurrence un document de type texte, et de fenêtrage au sein de ce texte ;
• La figure 4 illustre la position dans un espace à trois dimensions de 17 fenêtres représentées chacune par un symbole résultant d'une analyse multivariée ; · La figure 5 illustre graphiquement la distance stylistique entre
différentes fenêtres d'une séquence de symboles et une fenêtre de référence ou un ensemble de fenêtres de référence.
• La figure 6 représente les deux premières dimensions d'une ASM sur des trigrammes tirés des fragments de textes obtenus après découpage à 500 caractères environ. • La figure 7 est établie à partir d'une ASM (comme celle de la figure 6) et illustre la distance de chaque fragment de texte aux barycentres de trois clusters.
La figure 8 illustre un exemple de dendrogramme. · La figure 9 illustre un exemple de dendrogramme parfait.
• La figure 10 illustre un premier exemple de dendrogramme presque parfait.
• La figure 11 illustre un deuxième exemple de dendrogramme
presque parfait. · La figure 12 illustre un exemple de dendrogramme à deux branches intriquées.
• La figure 13 illustre un exemple de dendrogramme à trois branches intriquées.
Exemple(s) de mode de réalisation de l'invention
[0061] Le procédé de détection de ruptures de style décrit dans cette demande a notamment l'avantage de pouvoir être mis en oeuvre au moyen d'un dispositif informatique 1, par exemple d'un ordinateur ou d'un serveur tel que celui illustré schématiquement sur la figure 1. Ce dispositif comprend notamment un ou plusieurs processeurs 10, une mémoire vive 11, une mémoire morte 12, une carte graphique 13 pour contrôler un écran 17, un port d'entrée-sortie, par exemple un port USB 14, permettant la connexion de périphériques externes tels que scanner 18, imprimante, etc., une carte réseau 15 pour la connexion à un réseau 19, par exemple un réseau Ethernet, et des périphériques d'entrée de donnée tels que clavier, souris, écran tactile, etc. [0062] La mémoire 11 comprend une portion 110 pour le système d'exploitation, une portion 111 pour les données et une portion 112 pour les programmes applicatifs. Cette portion 112 comporte notamment un module de fenêtrage 113, un module de détermination de paramètres stylistiques 114, un module de calcul de distance stylistique 115, et un module d'identification de ruptures de style 116. Les « modules » ci-dessus sont avantageusement constitués par des portions de code informatiques, par exemple des programmes, des extraits de programmes, des routines, des procédures, etc., agencés pour être exécutés par le microprocesseur 10 afin de lui faire exécuter les opérations de fenêtrage, de détermination de paramètres stylistiques, de calcul de distance stylistique, et respectivement d'identification de ruptures de style qui vont être décrites plus bas à titre d'exemple. Ces modules peuvent être stockés sur un support informatique, par exemple un cd-rom, un disque dur, une mémoire flash, etc., avant d'être chargés en mémoire 11 comme illustré.
[0063] Le procédé permet de vérifier le style d'un document, et de le comparer avec le style d'un document de référence pour déterminer s'ils ont été rédigés par le même auteur. Par style, on entend le catalogue d'occurrence de motifs de lettres prédéfinis.
[0064] La première étape du procédé consiste donc à se procurer en copie électronique au moins un texte court à tester (texte questionné) et au moins un texte de référence de l'auteur à vérifier (texte de référence). Le texte de référence peut être plus long que le texte questionné. Cette séquence de symboles peut être chargée par exemple depuis Internet, via e- mail, depuis un support de données amovible etc.
[0065] Un module de fenêtrage 113 normalise le texte à questionner, et au moins un texte de référence, en supprimant les symboles de
ponctuation, en désaccentuant les lettres accentuées, en remplaçant les variations d'une lettre par la forme de base (« ç » -> « c », etc) et en remplaçant les majuscules par des minuscules. Dans le cas d'un texte latin, on obtient donc un texte normalisé formé de 27 caractères différents au maximum (26 lettres de l'alphabet plus l'espace). Ce nombre de lettres peut être différent pour un texte rédigé dans un autre alphabet.
[0066] Avant ou après normalisation, le module de fenêtrage 113 découpe au moins un texte de référence, et éventuellement le texte questionné, en une pluralité de fenêtres 20A, 20B, etc. Chaque fenêtre 20 est constituée par une suite de L lettres consécutives au sein de la séquence complète.
[0067] Le découpage en fenêtre est de préférence indépendant du contenu ; il ne s'agit donc pas d'un découpage en éléments grammaticaux ou syntaxiques, et est indépendant par exemple du début ou de la fin des phrases, des paragraphes ou des pages. Cela permet une analyse avec des tailles de fenêtre indépendante du style de l'auteur. Cela permet aussi une analyse des séquences de ponctuation par fenêtres de longueur fixe.
[0068] Un découpage en fenêtres dépendant du contenu peut aussi être envisagé.
[0069] Selon un aspect, les fenêtres 20 se chevauchent partiellement, en ce sens que certains symboles, ou même la plupart des symboles
appartiennent simultanément à plusieurs fenêtres. Sur l'exemple de la figure 3, la fenêtre 20A comprend la suite de caractères
Lorem ipsum dolor sit amet, consectetur adipiscing élit. Vivamus ultricies hendrerit tellus, eu sollicitudin enim porta ut. Quisq tandis que la fenêtre suivante 20B comporte la suite t amet, consectetur adipiscing élit. Vivamus ultricies hendrerit tellus, eu sollicitudin enim porta ut. Quisque convallis vulputa
[0070] A l'exception des 20 premiers symboles de la fenêtre 20A et des 20 derniers symboles de la fenêtre 20B, les deux fenêtres 20A et 20B sont donc identiques. La fenêtre 20B est obtenue à partir de la première fenêtre 20A et de la séquence de symboles 2 par un décalage de K symboles, ici 20. Des valeurs de décalage K différentes de 20 peuvent aussi être utilisées, pour autant que K soit inférieur à la longueur L des fenêtres. La valeur de décalage peut être un paramètre choisi par l'utilisateur lors de l'exécution du programme, selon le type de documents, la puissance de calcul à disposition, la précision requise, etc. La valeur de décalage peut être dérivée d'un ou d'autres paramètres choisis par l'utilisateur. Par exemple, l'utilisateur choisit un degré de couverture C, indiquant le nombre de fenêtres auxquelles chaque symbole doit appartenir simultanément, et la valeur de K est calculée en conséquence.
[0071] Le module 114 détermine ensuite le nombre d'occurrence de motifs prédéfinis dans chaque fenêtre. Le nombre de motifs comptabilisé dans chaque fenêtre peut être important ; par exemple, dans le cas d'un calcul de trigrammes, le nombre de trigrammes possibles sera de 27*27*27.
[0072] Les motifs comptabilisés sont exclusivement des motifs pouvant se produire en quantités statistiquement représentatives dans un texte court. On exclura de préférence les motifs sémantiques, la probabilité de retrouver plusieurs fois le même mot dans un texte court étant faible. Les occurrences de motifs suivants peuvent être comptabilisées :
• Nombre d'occurrence de trigrammes prédéfinis dans la fenêtre - un trigramme étant constitué par une série de trois lettres consécutives
• Nombre d'occurrence de suites de caractères prédéfinies dans la fenêtre, chaque suite pouvant comporter un ou plusieurs caractères intercalaires de remplacement (<a*a>, <a*b>, etc. ; <a**a>, <a**b>, etc., le caractère intercalaire * pouvant représenter n'importe quel caractère). Un décompte final est établi en établissant un catalogue d'usage cumulatif des intercalaires, i.e. au catalogue de fréquence d'usage du bigramme nominale (27x27=729 possibilités), c'est-à-dire sans intercalaire, on ajoute le catalogue de fréquence de bigrammes à 1 intercalaire (27x27), puis le catalogue de bigrammes à 2 intercalaires (27x27),... puis le catalogue de bigrammes à 3 intercalaires (27x27) pour obtenir un profil d'usage de 0 à n intercalaires ((27x27)x((n+1)) dimensions qui seront analysée par la multivariée (PCA/PCoA).
• Nombre d'occurrence de bigrammes de chaînage, tenant compte par exemple de la dernière lettre du mot précédent et de la première du mot suivant. On peut aussi comptabiliser les bigrammes de chaînages avec un ou plusieurs mots intercalaires ; dans ce cas, au lieu de comptabiliser les bigrammes dans les chaînages de mots 1 et 2, puis 2 et 3..., on comptabilise les bigrammes dans le chaînage des mots 1 et 3, puis 2 et 4... par exemple. Cet exemple correspond à un chaînage de mots avec un intercalaire de 1
• Distribution de N-grammes de début et/ou de fin de mot, etc. Par exemple bigrammes d'enchaînement intra mots (bigrammes au début de mots, au milieu de mots ou en fin de mots, e.g. enchaînement) ou en inter mot (inter mot) : seuls ou ensemble (27X27 ou ... 4 X27x27)
[0073] Dans un mode de réalisation, les occurrences de motifs
comptabilisés comprennent un cumul des signaux de bigrammes, de trigrammes, etc afin de faire une analyse multivariée sur l'ensemble de ces dimensions. On parle de multivariée de multigrammes à n-grammes.
[0074] Ces différentes occurrences de motifs, ou certaines de ces occurrences, peuvent être cumulés, éventuellement avec des pondérations sur les dimensions. L'analyse comporte ainsi un traitement statistique multivarié en composantes principales (PCA, Principal Component Analysis) afin de regrouper les comptages de différents motifs. Dans une variante, l'analyse comporte une PCoA (Principal Coordinate Analysis).
[0075] La figure 4 illustre la position dans un espace à trois dimensions de 17 fenêtres représentées chacune par un symbole, résultant d'une analyse multivariée. Chaque axe peut par exemple correspondre à la fréquence d'un motif ; dans une variante, chaque axe correspond à une dimension obtenue après une analyse multivariée, selon la réduction de dimensions d'un traitement statistique multivarié pour optimiser la variance entre fenêtres portée par les paramètres de style. Les ronds correspondent à des fenêtres écrites par un premier auteur, les deux triangles à des fenêtres écrites par un deuxième auteur; les étoiles correspondent aux points moyens des groupes de fenêtres correspondant à chacun des deux auteurs. Il est évident que le nombre de dimensions peut être beaucoup plus important que trois dans le cas où plus de trois motifs distincts sont extraits de chaque fenêtre 20 et que ces motifs ne sont pas regroupés.
[0076] [0055] La figure 5 cartographie la distance au point moyen de chaque fenêtre (20A, 20B, ...., 20i ) sur une courbe. Le saut de distance important entre la fenêtre 20A et la fenêtre 20B au début de la séquence montre une rupture de style entre ces deux fenêtres et est un indice de changement d'auteur. La distance stylométrique mathématique entre points peut être une distance euclidienne, une distance Manhattan, ou une distance cos Q par exemple.
[0077] Dans un mode de réalisation, la distance stylométrique employée est une distance booléenne, par exemple une distance entre deux vecteurs binaires (dite distance binaire), chaque composant du vecteur indiquant la présence ou l'absence d'un motif stylométrique. On peut par exemple employer une distance Jaccard, de Rogers-Tanimoto, de Simpson ou de Yule Sigma. Une description de ce type de distances et de leur usage en clusterisation est présentée par Seung-Seok Choi et al. dans « A Survey of Binary Similarity and Distance Measures », SYSTEMICS, CYBERNETICS AND INFORMATICS, Vol.8, num. 1, 2000.
[0078] Ce type de distance permet de travailler avec un nombre important de dimensions et est donc particulièrement adapté aux approches cumulées mentionnées plus haut, dans lesquelles un grand nombre de motifs différents sont comptabilisés. Elles permettent donc de mesurer une distance entre un grand nombre de dimensions d'un objet de petite taille, par exemple un texte court.
[0079] Le module de calcul de distance stylométrique 115 regroupe ensuite les extraits de texte en calculant la distance stylométrique entre points de l'espace multidimensionnel représentée par un dendrogramme. Les différents textes questionnés et de référence sont regroupés à l'aide d'une méthode de classification/clusterisation, telle que UPGMA, UPGMC, Minimum Variance, WPGMA, WPGMC, NJ, ...)
[0080] Dans un mode de réalisation, le résultat de l'analyse statistique multivariée, une matrice de coordonnées à N dimensions, est ainsi employé afin de construire une taxonomie.
[0081] Le résultat de ce regroupement est un dendrogramme, c'est-à- dire un diagramme qui représente des affinités (similarités de style) entre textes, qui peuvent être des textes questionnés ou des textes de référence. Le groupement de ces textes se base sur la matrice de coordonnées, qui indique les (dis)similarités ou distances entre textes. Des textes de styles très similaires sont portés ensemble par une branche commune du
dendrogramme.
[0082] Un dendrogramme robuste permet de décider si un texte questionné peut être attribué à un auteur du match à plusieurs, ou non. Aucune décision fiable ne peut en revanche être prise si le dendrogramme n'est pas suffisamment robuste.
[0083] Une mesure standard de robustesse d'un dendrogramme est le coefficient de corrélation cophénétique. Elle est basée sur les distances cophénétiques entre les fragments, mesurées sur le dendrogramme. Ces distances sont différentes des distances originales entre les mêmes fragments mais mesurées dans l'ASM. Le coefficient de corrélation cophénétique évalue la relation entre les distances cophénétiques (issues du dendrogramme) et les distances "originales" (entre les fragments dans l'ASM).
[0084] Une confirmation de la robustesse d'un dendrogramme peut être obtenue en comparant sa structure avec celle d'autres dendrogrammes obtenus par des méthodes de clustérisation différentes (UPGMA, Minimum Variance, WPGMA, NJ, ...). [0085] La robustesse d'un dendrogramme est en plus testable soit en analysant statistiquement les mesures de distances cophénétiques, soit en comparant les relations de proximité des bourgeons terminaux du dendrogramme.
[0086] Dans un mode d'évaluation statistique, une technique ad hoc d'évaluation du dendrogramme spécifique au problème d'attribution d'auteur est mise en oeuvre. Celle-ci permet d'utiliser plus souvent les résultats de notre procédure, même quand le coefficient de corrélation cophénétique est moyen, voire faible.
[0087] Cette technique se déroule en deux étapes :
[0088] Dans une première étape, on teste si le groupe de textes questionné (Q) est éloigné significativement des deux autres groupes de textes de référence (A et B), d'auteurs connus, auquel il est confronté. Pour chaque couple de groupes (QQ, QA, QB, AA, AB et BB), on calcule la moyenne des distances entre les fragments de textes des deux groupes du couple, avec leur écart type et leur effectif (i.e. nombre de fragments de textes). Ensuite, pour chaque groupe, on calcule son intervalle de
confiance, qui est la distance de part et d'autre de la moyenne qui contient une fraction, par exemple le 95 % des fragments de texte de ce groupe (95 %, si on a choisi un seuil d'acceptabilité de 5 %, par exemple). Si la distance entre les moyennes de Q et de A, par exemple, est supérieure à la somme de leurs intervalles de confiance respectifs, les deux groupes Q et A sont distincts avec une probabilité de 95 %. On répète l'opération avec Q et B pour estimer si Q est distinct de B.
Si Q est distinct de A et de B, on passe à la deuxième étape.
[0089] Dans une deuxième étape, la ramification de l'arbre
(dendrogramme) qui contient les fragments du groupe Q formant un cluster est parfois automatiquement divisée en plusieurs sous-clusters à l'aide d'un algorithme. Nous formulons l'hypothèse statistique H0 : il existe deux sous-clusters Q1 et Q2 distincts. [0090] On teste d'abord les distances des fragments du cluster Q par rapport au cluster A. Pour cela, on met dans le sous-cluster Q1 tous les fragments du cluster Q dont la distance cophénétique au cluster A est supérieure à la distance moyenne de tous les fragments de Q par rapport à ce même groupe. Par opposition, on met dans le sous-cluster Q2 tous les fragments du cluster Q dont la distance cophénétique au cluster A est inférieure à la distance moyenne de tous les fragments de Q par rapport à ce même groupe.
[0091] Si la différence entre la moyenne des distances cophénétiques entre les fragments de Q1 avec A et la moyenne des distances
cophénétiques entre les fragments de Q2 avec A est supérieure à la somme des intervalles de confiance qui leur sont associés, l'hypothèse statistique H0 est acceptée : les clusters Q1 et Q2 sont distincts ; il y a donc quatre clusters dans le dendrogramme considéré (Q1, Q2, A et B). L'expérience ne permet donc pas d'établir que Q1 et Q2 sont du même rédacteur. Dans le cas contraire (si cette différence est inférieure à la somme des intervalles de confiance), l'hypothèse statistique H0 est rejetée : on peut alors affirmer que Q1 et Q2 sont du même rédacteur avec une probabilité de se tromper égale au seuil de probabilité choisi pour calculer l'intervalle de confiance.
[0092] La clusterisation du groupe de textes questionnés revient donc à partitionner l'ensemble des textes questionnés en au moins deux groupes tels que la distance stylométrique entre membre d'un groupe est réduite.
[0093] Dans le mode de réalisation décrit plus haut, l'ASM calcule les coordonnées des extraits de textes sur N dimensions, N étant le nombre de dimensions nécessaires pour atteindre un pourcentage cumulé de variance (e.g., 90%). En d'autres termes, toutes les coordonnées sont utilisées avec un coefficient 1 pour les N dimensions principales, qui portent le signal discriminant, et 0 pour les autres dimensions, dont le signal est bruité. Dans un autre mode de réalisation, des coefficients de pondération sont mis en oeuvre afin de donner davantage de poids aux premières dimensions, en fonction de leur importance. [0094] Le module 116 détermine sur la base du dendrogramme si le texte questionné provient du même auteur que l'un des textes, ou ensemble de textes de référence A, B.
[0095] Le coefficient de corrélation cophénétique peut être calculé et affiché.
[0096] Par exemple, pour mesurer si deux textes à analyser (textes questionnés) ont été produit par un même auteur, on peut comparer ces deux à quatre textes d'une base de données (par exemple deux textes produits par deux auteurs A et B). Si les deux textes questionnés (Q 1 et Q2) ont été produits par un seul auteur, ils formeront une branche (Q 1 et Q2) dans le dendrogramme, et deux autres branches (A et B) seront formées par les auteurs A et B respectivement. Si Q1 et Q2 ont été produits par deux auteurs, le dendrogramme produira quatre branches (Q1, Q2, A et B).
[0097] Afin de valider le processus, les textes des auteurs A et B peuvent être remplacé par des textes d'autres auteurs : pour 2 auteurs de référence 1 expérience pour 3 auteurs de référence 3 expériences possibles : 1+2=3 pour 4 auteurs de référence 6 expériences possibles : 3+3=6 pour 5 auteurs de référence 10 expériences possibles : 6+4=10 pour 6 auteurs de référence 15 expériences possibles : 10+5=15
[0098] Une statistique finale sur les résultats avec par exemple 6 auteurs de référence permet de savoir si les deux textes questionnés dans cet exemple se comportent comme les texte d'un auteur ou non.
[0099] Dans un mode de réalisation, plusieurs tests d'attribution d'auteur avec plusieurs types de validations statistiques complémentaires sont effectués, en utilisant des textes de même nature (par exemple deux textes provenant d'un blog, deux messages de menace etc). Ces textes de même nature servent de textes de référence, provenant d'au moins trois auteurs connus, et sont collectés dans ce but. Par exemple, la réalisation de 10 tests indépendants (avec 10 rédacteurs de référence différents) permet d'abaisser d'un facteur 10 la probabilité de se tromper. Dans notre exemple, cette probabilité passerait de 5 % à 0.5 %.
[00100] Alternativement au mode d'évaluation statistique décrit ci- dessus, une approche par analyse de structure de dendrogrammes peut être mise en oeuvre après avoir défini trois types de structure utiles.
[00101] Un dendrogramme sera appelé parfait s'il est à distribution parfaite, c'est-à-dire s'il regroupe les textes de styles/auteurs supposés en autant de branches principales que de styles/auteurs. La figure 9 illustre à cet égard un exemple d'un dendrogramme parfait. Les trois auteurs ou styles supposés A, B et C clustérisent selon les trois branches principales du dendrogramme. Dans cette figure, la distance entre A1 et B1 est égale à la distance entre A1 et B2, et à celle entre A2 et B1, etc. De manière générale, la relation entre les textes d'une paire d'auteurs est considérée comme parfaite si les distances entre bourgeons terminaux d'un auteur aux bourgeons terminaux de l'autre auteur sont identiques.
[00102] Un dendrogramme sera appelé presque-parfait si une branche portant un style est portée dans une autre branche de style différent. La figure 10 illustre ainsi un premier exemple d'un dendrogramme presque- parfait. Les textes de l'auteur A sont portés par la branche qui porte l'auteur B. Dans cette figure, les distances entre les textes de B sont plus grandes que les distances entre les textes de A. La figure 11 illustre un autre exemple d'un dendrogramme presque-parfait. Les textes de l'auteur B sont portés par la branche qui porte l'auteur A. De manière générale, la relation entre les textes d'une paire d'auteurs est considérée comme presque- parfaite si le maximum des distances entre bourgeons terminaux des textes d'un auteur est plus petit que le minimum des distances entre bourgeons terminaux des textes de l'autre auteur. [00103] Un dendrogramme sera appelé intriqué dans tous les autres cas. Ainsi la figure 12 illustre un exemple d'un dendrogramme avec une intrication partielle. Les textes des auteurs B et C sont intriqués. Ni les textes de l'auteur B, ni ceux de l'auteur C ne se retrouvent portés
exclusivement par une seule branche. Dans cette figure, les auteurs B et C sont intriqués, car ni les textes de l'auteur B, ni ceux de l'auteur C ne se retrouvent portés exclusivement par une seule branche du dendrogramme. La figure 13 illustre quant à elle un exemple d'un dendrogramme avec une intrication généralisée. Les textes des trois auteurs sont intriqués. Les textes d'aucun auteur A, B ou C ne se retrouvent portés exclusivement par une seule branche. De manière générale, la relation entre les textes d'une paire d'auteurs est considérée comme intriquée si les deux conditions
précédentes (relation parfaite ou presque-parfaite) ne sont pas remplies.
[00104] Par définition :
- un dendrogramme intriqué contient au moins une paire d'auteurs à relation intriquée ;
- un dendrogramme presque-parfait ne contient aucune paire à relation intriquée mais au moins une paire à relation presque-parfaite ;
un dendrogramme parfait ne contient que des paires à relation parfaite .
[00105] L'examen des dendrogrammes (UPGMA, Minimum Variance, WPGMA, NJ, ...) peut se faire automatiquement par exemple en comparant les structures ou les distances entre les noeuds ou les branches des dendrogrammes.
[00106] Une démarche préliminaire d'automatisation consiste à vérifier l'hypothèse de départ : une série de textes attribuée à chaque auteur. Cette hypothèse est validée si chaque branche principale porte exclusivement les textes d'un auteur. Une automatisation de mesures des distances entre chaque bourgeon terminal (leaf node) permet d'évaluer la pertinence de l'hypothèse de départ : les bourgeons terminaux d'une branche principale auront en général des distances entre eux plus courtes que celles prévalant entre un bourgeon terminal d'une branche principale et un bourgeon terminal d'une autre branche principale. La mesure des distances pour valider la répartition des textes d'un auteur sur une branche principale se vérifie dans la majorité des dendrogrammes. Un type de dendrogrammes, les dendrogrammes ultramétriques, permet une vérification stricte de cette dernière proposition.
[00107] Un dendrogramme UPGMA est ultramétrique, car il est enraciné et les distances entre sa racine et ses bourgeons terminaux sont identiques. Cette propriété d'ultramétricité permet d'automatiser strictement l'examen des dendrogrammes UPGMA, par exemple en comparant toutes les distances entre bourgeons terminaux pour chaque paire d'auteurs.
[00108] Alternativement aux dendrogrammes, une expérience de comparaison multiple peut être faite à partir de mesure de distance aux barycentres centroïdes définis pour les séquences de chaque auteur. Un score peut être établi.
[00109] Dans une variante, il est possible de se passer de l'analyse multivariée (PCoA/PCA) pour tester directement les fragments questionnés avec des dendrogrammes ou des mesures de distance aux barycentres centroïdes.
[00110] Dans un mode de réalisation, le procédé peut être utilisé non seulement pour authentifier l'auteur allégué d'un texte court (c'est-à-dire vérifier s'il est le véritable auteur), mais aussi pour identifier l'auteur d'un texte anonyme ou signé par une autre personne. Dans ce but, il est possible, à partir de quelques textes, d'aller chercher dans une collection de textes les textes qui sont les plus proches de textes de références (par exemple des textes de suspects préalablement identifiés dans une application forensique).
[00111] Le procédé de l'invention permet de déterminer si un message (texte court) peut être attribué à un auteur connu dont on connaît au moins un autre texte court ou long. Il permet par exemple aux abonnés des messages d'une personne - par exemple aux abonnés tweeter, ou aux abonnés d'autres réseaux sociaux ou aux destinataires de e-mails - de s'assurer que les messages courts lus proviennent de l'auteur supposé qui a signé le message, et pas d'un usurpateur.
[00112] Cette procédure peut être répétée pour comparer un message questionné avec quelques messages d'usurpateurs supposés, et avec quelques messages d'un auteur de référence. Si l'un de ces matches à trois (inconnu, usurpateur, référence) classifie le message questionné avec ceux de l'usurpateur, le message est attribué, avec une certaine probabilité, à cet usurpateur. Le procédé peut être utilisé dans un logiciel anti-spam ou anti phishing pour déterminer, éventuellement avec d'autres méthodes, la probabilité que le message provienne d'un usurpateur.
[00113] Dans un logiciel anti-spam ou anti-phishing, l'usurpateur peut être un spammeur.
[00114] Les messages comparés peuvent porter sur des sujets très différents, l'approche étant indépendante du vocabulaire spécifique utilisé. Les messages sont cependant de préférence de même nature - par exemple tous des e-mails, ou des messages de dénigrement.
[00115] La figure 6 est tirée d'un exemple avec trois auteurs de lettres factices, chacun ayant produit deux lettres d'environ 500 et 1750 caractères. L'auteur questionné (groupe en bas à gauche) dans ce test a en outre produit un document d'une centaine de caractères seulement (carrés en bas à gauche de la figure). Ces textes ont été découpés à une taille préférée de 500 caractères environ, avec un degré de couverture de trois.
[00116] La figure 6 représente les deux premières dimensions d'une ASM sur des trigrammes tirés des fragments de textes obtenus après découpage à 500 caractères environ et recouvrement (degré de couverture de 3). A cette ASM correspond une matrice F x N (F = nombre de fragments et N = le nombre de dimensions retenues pour atteindre un pourcentage cumulé de variance de 90%). [00117] La matrice de coordonnées résultante de cette ASM est stockée dans une table.
[00118] La figure 7 est établie à partir d'une ASM et illustre la distance de chaque fragment de texte aux barycentres des trois clusters visibles sur cette ASM. La figure représente en X le numéro de l'extrait et en Y la distance de cet extrait au oint représentatif. Par exemple, les 15 premiers fragments sont plus proches du barycentre du cluster en bas à gauche et font donc partie de ce cluster.
[00119] Ce diagramme permet d'identifier les points mal placés d'un cluster car plus proches du barycentre d'un autre cluster. Il est donc possible de calculer la proportion de points mal placés à partir des données d'élaboration de ce graphique et de déterminer la probabilité de
l'existence de trois clusters correspondant à trois styles rédactionnels différents.
[00120] La figure 8 montre le dendrogramme obtenu à partir de la matrice de coordonnées issues d'une ASM. On remarque trois branches principales (clusters) contenant les fragments des textes placés dans l'ordre suivant, de haut en bas : 88 (cluster en bas à gauche), 95 (cluster en haut à gauche) et 90 (cluster à droite). Ce dendrogramme de clustérisation non- hiérarchisée valide l'existence et la claire séparation des trois clusters, correspondant à trois auteurs.
[00121] La technique d'affinement du dendrogramme mesure la robustesse statistique des résultats de ce dendrogramme. Ce
dendrogramme de clustérisation non-hiérarchisée clustérise donc le texte très court de 130 caractères (0088R2.txt1) avec les autres fragments issus des deux textes 0088L et 0088C, qui tous ensemble constituent le cluster en bas à gauche.

Claims

Revendications
1. Procédé permettant de vérifier si un texte questionné de moins de 500 caractères a été rédigé par un auteur, comprenant les étapes suivantes : analyse statistique multivariée du texte questionné, par exemple PCA ou PCoA, de manière à générer une matrice de coordonnées dans un espace à N dimensions ;
clusterisation hiérarchique des points de cet espace représentable par un dendrogramme;
vérification de l'auteur du texte questionné sur la base de cette clusterisation.
2. Le procédé de la revendication 1, ladite clusterisation comprenant un procédé UPGMA, Minimum Variance, WPGMA, ou NJ.
3. Le procédé de l'une des revendications 1 ou 2, comportant
l'établissement d'une mesure de robustesse du dendrogramme à l'aide d'un coefficient de corrélation cophénétique.
4. Procédé selon l'une des revendications 1 à 3, comprenant une étape de détermination si la structure du dendrogramme est parfaite, presque- parfaite ou imbriquée.
5. Le procédé de l'une des revendications 1 à 4, comprenant la
comparaison du texte questionné avec des textes de plusieurs auteurs, et l'attribution de l'auteur le plus probable au texte questionné.
6. Le procédé de la revendication 5, comprenant :
calcul de la distance du texte questionné (Q) avec au moins deux autres groupes de textes (A et B) d'auteurs connus ;
pour chaque couple de groupes (QQ, QA, QB, AA, AB et BB), calcul de la moyenne des distances entre les fragments de textes des deux groupes du couple, avec leur écart type ;
pour chaque groupe, calcul d'un intervalle de confiance, qui est la distance de part et d'autre de la moyenne qui contient le une proportion donnée des fragments de texte de ce groupe.
7. Le procédé de l'une des revendications 5 ou 6, comportant une clusterisation des fragments de texte questionnés en plusieurs groupes de texte questionnés associés à plusieurs auteurs.
8. Le procédé de l'une des revendications 1 à 7, ladite analyse statistique multivariée et/ou ladite clusterisation comprenant le calcul d'une distance booléenne entre deux textes.
9. Le procédé de l'une des revendications 1 à 8, comprenant :
détermination par processeur du nombre d'occurrences de motifs prédéfinis dans ledit texte questionné, lesdits motifs prédéfinis comprenant exclusivement des motifs de lettres intra et/ou inter-mots,
analyse des dits nombres d'occurrence.
10. Procédé selon la revendication 9, lesdits motifs correspondant
à des trigrammes ; et/ou
à des bigrammes avec n lettres intercalaires ; et/ou
à des bigrammes au début de mots, au milieu de mots ou en fin de mots, ou à des bigrammes inter-mots.
11. Procédé selon l'une des revendications 9 ou 10, lesdits motifs
comprenant des occurrence de multi-grammes à n-grammes, avec ou sans n lettres intercalaires.
12. Procédé selon l'une des revendications 9 à 11, lesdits motifs comprenant des bigrammes de chaînage entre deux mots, avec ou sans mot intercalaire.
13. Le procédé de l'une des revendications 1 à 12, comprenant :
normalisation du texte questionné en supprimant les signes de ponctuation, en remplaçant les lettres majuscules par des minuscules, et en replaçant les lettres accentuées ou autres variations des lettres de base par la forme principale des lettres correspondantes.
14. Le procédé de l'une des revendications 1 à 13, comprenant :
découpage automatique du texte questionné en une pluralité de fenêtres, au moins deux fenêtres se recoupant, lesdites fenêtres étant décalées entre elles de t caractères, certaines fenêtres comprenant une portion de la fin du texte et une portion du début du texte.
15. Le procédé de l'une des revendications 1 à 14, comprenant :
découpage automatique d'un texte de référence en une pluralité de fenêtres, au moins deux fenêtres se recoupant, lesdites fenêtres étant décalées entre elles de t caractères, certaines fenêtres comprenant une portion de la fin du texte et une portion du début du texte.
16. Procédé selon l'une des revendications 1 à 15, ladite analyse étant basée sur une mesure de distance aux barycentres.
17. Procédé selon la revendication 16, dans lequel plusieurs textes
questionnés sont confrontés à tour de rôle à des textes d'au moins deux auteurs de référence.
18. Procédé selon l'une des revendications 1 à 17, dans lequel :
on teste tout d'abord si un groupe de textes questionnés est éloigné de deux autres groupes de textes de référence d'auteurs connus, auquel il est confronté ;
si le groupe de textes questionné est suffisamment éloigné des deux autres groupes de texte de référence, on créé deux sous-clusters de textes questionnés à partir du groupe de textes questionnés, selon leur distance à l'un desdits groupes de texte de référence, et l'on détermine la différence entre la moyenne des distances cophénétiques entre les fragments de chaque sous-cluster avec un groupe de texte de référence afin de
déterminer si les deux sous-clusters proviennent ou non d'un même auteur.
19. Support de données informatique comportant un programme
informatique destiné à être exécuté par un processeur pour lui faire exécuter le procédé de l'une des revendications précédentes.
PCT/IB2019/053037 2018-04-20 2019-04-12 Procédé et dispositif de vérification de l'auteur d'un message court WO2019202450A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US17/048,531 US11640501B2 (en) 2018-04-20 2019-04-12 Method and device for verifying the author of a short message
EP19724617.6A EP3782054A1 (fr) 2018-04-20 2019-04-12 Procédé et dispositif de vérification de l'auteur d'un message court

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
CH00510/18 2018-04-20
CH5102018 2018-04-20
CH00835/18 2018-07-04
CH8352018 2018-07-04

Publications (1)

Publication Number Publication Date
WO2019202450A1 true WO2019202450A1 (fr) 2019-10-24

Family

ID=66554450

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/IB2019/053037 WO2019202450A1 (fr) 2018-04-20 2019-04-12 Procédé et dispositif de vérification de l'auteur d'un message court

Country Status (3)

Country Link
US (1) US11640501B2 (fr)
EP (1) EP3782054A1 (fr)
WO (1) WO2019202450A1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210174017A1 (en) * 2018-04-20 2021-06-10 Orphanalytics Sa Method and device for verifying the author of a short message

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102665023B1 (ko) * 2021-12-20 2024-05-13 부산대학교 산학협력단 타겟 시스템을 위한 관측 변수를 결정하는 방법 및 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008036059A1 (fr) 2006-04-06 2008-03-27 Chaski Carole E Variables et procédé d'attribution de paternité
WO2017144939A1 (fr) 2016-02-22 2017-08-31 Orphanalytics Sa Procédé et dispositif de détection de style au sein d'une ou plusieurs séquences de symboles

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5758257A (en) * 1994-11-29 1998-05-26 Herz; Frederick System and method for scheduling broadcast of and access to video programs and other data using customer profiles
US6460036B1 (en) * 1994-11-29 2002-10-01 Pinpoint Incorporated System and method for providing customized electronic newspapers and target advertisements
US7421418B2 (en) * 2003-02-19 2008-09-02 Nahava Inc. Method and apparatus for fundamental operations on token sequences: computing similarity, extracting term values, and searching efficiently
US9495358B2 (en) * 2006-10-10 2016-11-15 Abbyy Infopoisk Llc Cross-language text clustering
US20120254333A1 (en) * 2010-01-07 2012-10-04 Rajarathnam Chandramouli Automated detection of deception in short and multilingual electronic messages
WO2011139687A1 (fr) * 2010-04-26 2011-11-10 The Trustees Of The Stevens Institute Of Technology Systèmes et procédés pour la détection automatique d'une tromperie dans des communications humaines exprimées sous forme numérique
US11093476B1 (en) * 2016-09-26 2021-08-17 Splunk Inc. HTTP events with custom fields
US11164239B2 (en) * 2018-03-12 2021-11-02 Ebay Inc. Method, system, and computer-readable storage medium for heterogeneous data stream processing for a smart cart
US11640501B2 (en) * 2018-04-20 2023-05-02 Orphanalytics Sa Method and device for verifying the author of a short message

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008036059A1 (fr) 2006-04-06 2008-03-27 Chaski Carole E Variables et procédé d'attribution de paternité
WO2017144939A1 (fr) 2016-02-22 2017-08-31 Orphanalytics Sa Procédé et dispositif de détection de style au sein d'une ou plusieurs séquences de symboles

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HELENA GÓMEZ-ADORNO ET AL: "Author Clustering using Hierarchical Clustering Analysis", 12 October 2017 (2017-10-12), XP055602841, Retrieved from the Internet <URL:http://www.cic.ipn.mx/~sidorov/2017_PAN_clustering.pdf> [retrieved on 20190705] *
LAYTON R ET AL: "Authorship Attribution for Twitter in 140 Characters or Less", CYBERCRIME AND TRUSTWORTHY COMPUTING WORKSHOP (CTC), 2010 SECOND, IEEE, PISCATAWAY, NJ, USA, 19 July 2010 (2010-07-19), pages 1 - 8, XP031784752, ISBN: 978-1-4244-8054-8 *
MACIEJ EDER: "Visualization in stylometry: Cluster analysis using networks", DIGITAL SCHOLARSHIP IN THE HUMANITIES, vol. 32, no. 1, 2 December 2015 (2015-12-02), pages 50 - 64, XP055602753, ISSN: 2055-7671, DOI: 10.1093/llc/fqv061 *
SEUNG-SEOK CHOI ET AL.: "A Survey of Binary Similarity and Distance Measures", SYSTEMICS, CYBERNETICS AND INFORMATICS, vol. 8, no. 1, 2000

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210174017A1 (en) * 2018-04-20 2021-06-10 Orphanalytics Sa Method and device for verifying the author of a short message
US11640501B2 (en) * 2018-04-20 2023-05-02 Orphanalytics Sa Method and device for verifying the author of a short message

Also Published As

Publication number Publication date
US20210174017A1 (en) 2021-06-10
EP3782054A1 (fr) 2021-02-24
US11640501B2 (en) 2023-05-02

Similar Documents

Publication Publication Date Title
CN109635296B (zh) 新词挖掘方法、装置计算机设备和存储介质
EP3420468A1 (fr) Procédé et dispositif de détection de style au sein d&#39;une ou plusieurs séquences de symboles
Stamatatos Authorship Verification: A Review of Recent Advances.
Bouazizi et al. Sentiment analysis in twitter: From classification to quantification of sentiments within tweets
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
Wibowo et al. Comparison between fingerprint and winnowing algorithm to detect plagiarism fraud on Bahasa Indonesia documents
US11036818B2 (en) Method and system for detecting graph based event in social networks
Beleveslis et al. A hybrid method for sentiment analysis of election related tweets
EP3782054A1 (fr) Procédé et dispositif de vérification de l&#39;auteur d&#39;un message court
JP6237639B2 (ja) 情報抽出システム、情報抽出方法および情報抽出用プログラム
Chiruzzo et al. HAHA 2019 dataset: A corpus for humor analysis in Spanish
CN110570199B (zh) 一种基于用户输入行为的用户身份检测方法及系统
Ceballos Delgado et al. Deception detection using machine learning
Samory et al. Quotes reveal community structure and interaction dynamics
Hofmann et al. The reddit politosphere: a large-scale text and network resource of online political discourse
CN107229605A (zh) 文本相似度的计算方法及装置
Ousirimaneechai et al. Extraction of trend keywords and stop words from thai facebook pages using character n-grams
CN111062199B (zh) 一种不良信息识别方法及装置
CN112016317A (zh) 基于人工智能的敏感词识别方法、装置及计算机设备
Huang et al. Disambiguating false-alarm hashtag usages in tweets for irony detection
Orebaugh et al. Data mining instant messaging communications to perform author identification for cybercrime investigations
Tschuggnall et al. Reduce & attribute: Two-step authorship attribution for large-scale problems
CN105843890A (zh) 基于知识库面向大数据及普通数据的数据采集方法和系统
Locker “Because the computer said so!”: Can computational authorship analysis be trusted?
CN115033668A (zh) 故事脉络构建方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19724617

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2019724617

Country of ref document: EP