WO2013073999A2 - Способ автоматизированного анализа текстовых документов - Google Patents

Способ автоматизированного анализа текстовых документов Download PDF

Info

Publication number
WO2013073999A2
WO2013073999A2 PCT/RU2012/000945 RU2012000945W WO2013073999A2 WO 2013073999 A2 WO2013073999 A2 WO 2013073999A2 RU 2012000945 W RU2012000945 W RU 2012000945W WO 2013073999 A2 WO2013073999 A2 WO 2013073999A2
Authority
WO
WIPO (PCT)
Prior art keywords
document
clauses
text
documents
shingle
Prior art date
Application number
PCT/RU2012/000945
Other languages
English (en)
French (fr)
Other versions
WO2013073999A3 (ru
WO2013073999A8 (ru
Inventor
Владимир Анатольевич ЛАПШИН
Екатерина Александровна ПШЕХОТСКАЯ
Дмитрий Всеволодович ПЕРОВ
Original Assignee
Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" filed Critical Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской"
Priority to EP12849920.9A priority Critical patent/EP2782023A4/en
Priority to US14/350,292 priority patent/US9852122B2/en
Publication of WO2013073999A2 publication Critical patent/WO2013073999A2/ru
Publication of WO2013073999A3 publication Critical patent/WO2013073999A3/ru
Publication of WO2013073999A8 publication Critical patent/WO2013073999A8/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • G06F21/563Static detection by source code analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6209Protecting access to data via a platform, e.g. using keys or access control rules to a single file or object, e.g. in a secure envelope, encrypted and accessed using a key, or with access control rules appended to the object itself
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/123Storage facilities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2101Auditing as a secondary aspect

Definitions

  • the present invention relates to automated analysis of text documents and can be used to develop new and improve existing systems for checking text documents for the presence of phrases or parts of text from other documents.
  • US patent application Ha 2010/0205525 (published August 12, 2010) describes a method for automatically classifying text using a computer system in which the qualitative characteristics of a word and the frequency of occurrence of these characteristics in a classified text are determined. This method also has limited use.
  • US patent No. 6810375 (published on October 26, 2004), which can be considered the closest analogue of the present invention, discloses a method for segmenting text in which the text to be checked is divided into clauses from a predetermined number of elements and their conjugation with patterns is checked compiled according to predefined rules. At the same time, at each step, the checks move along the line of elements by one or more positions. This method requires a long processing time and has limited application.
  • the present invention provides a method for automated analysis of text documents, which consists in the following: convert all electronic files of reference documents to a predetermined format, highlighting in each of them meaningful fragments called clauses; save converted electronic files of reference documents in a database; convert each electronic file of the analyzed document into a predetermined format; reveal the coincidence of the selected clauses in the electronic file of the analyzed document with the selected clauses in the electronic files of the reference documents; calculate the relative number of clauses in the electronic file of the analyzed document that coincide with the corresponding clauses of each of the electronic files of the reference documents; comparing the found relative numbers of coincidences with a predetermined threshold value to identify the presence of fragments of the text of any of the reference documents in the electronic file of the analyzed document.
  • a feature of the method of the present invention is that a text document file can be pre-converted to a binary stream whose bytes correspond to significant characters or punctuation marks of a natural language used in said text document.
  • Another feature of the method according to the present invention is that the conversion of an electronic file of a text document into the aforementioned predetermined format can be carried out due to the fact that: in advance, in each of the used natural languages, a lot of its significant characters, as well as punctuation marks; extract clauses from the text of the document being transformed; remove insignificant characters from each clause; convert all remaining significant characters of each clause to lower case, getting the so-called shingle; calculate the hash value of each shingle; place a pair of the calculated hash value of each shingle and the position of this shingle in the document in the inverted index of the corresponding document, which is a sorted list of pairs with the identifier of this document.
  • the binary stream can be converted to the aforementioned predetermined format due to the fact that: in advance, each of the natural languages used has a plurality of significant symbols and signs punctuation; extract clauses from the text of the document being transformed; remove insignificant characters from each clause; convert all remaining significant characters of each clause to lower case, getting the so-called shingle; calculate the hash value of each shingle; randomly select shingles and their hash values from a predetermined interval in each binary document; place a pair of the calculated hash value of each selected shingle and the position of this shingle in the document in the inverted index of the corresponding document, which is a sorted list of pairs with the identifier of this document.
  • D d is the reference document
  • D is the analyzed document
  • ⁇ D ⁇ is the number of shingles found in the document
  • D r (D d , D) is the similarity coefficient
  • FIG. 1 shows an example of a text document to which the method of the present invention is applied.
  • FIG. 2 shows a sequence of shingles obtained from the document of FIG. one.
  • the present invention can be implemented in any computing system, for example, a personal computer, a server, or the like.
  • a personal computer for example, a personal computer, a server, or the like.
  • the method of automated analysis of text documents of the present invention is intended for the implementation of the so-called copyright analysis (English analogue - fingerprint detection), the task of which is to establish the similarity of binary and (or) text documents to documents transferred earlier to the database (library) in as a reference.
  • Binary documents are considered as a stream of bytes (binary stream), therefore, for documents of this class, only a similarity measure is defined, expressed as a measure of the proportion of the evaluated document in the reference document (number from zero to one).
  • all the fragments of texts common to the evaluated and reference documents are also indicated with their positions in the reference document.
  • the algorithm works with an accuracy of 80 significant characters, for which the characters of the alphabet and numbers are considered. According to safety requirements, the texts of the reference documents are not saved, which allows to avoid their unauthorized reading.
  • an electronic file of a text document is preliminarily converted to a binary stream, the bytes of which correspond to significant characters or punctuation marks of the natural language used in the said text document.
  • This step is not necessary, because when analyzing a document arriving, say, over a network in the form of an already generated byte stream, such a conversion is not required.
  • the binary stream in the method of the present invention is first transformed into a specialized format for further processing.
  • such a conversion of a binary stream into a predetermined format is performed as follows.
  • each of the used natural languages is distinguished by its many significant characters, as well as punctuation marks.
  • the end character of a sentence is the character “ 0 ”
  • the ⁇ > character appears at the beginning of a sentence. All such significant characters and punctuation marks of a particular language are assigned certain bytes, the combination of which forms the basis for further processing of the text in this natural language. This preliminary stage is carried out by specialists in an automated mode.
  • shingles and their hash values are randomly selected from a predetermined interval. If the document arrives for processing already in the form of a binary stream, the stage of this choice is omitted. Then put a pair of the calculated hash value as of each shingle and the position of this shingle in the document into the inverted index of the corresponding document, which is a sorted list of the mentioned pairs with the identifier of this document.
  • the position of a shingle is understood as an indication of the beginning of this shingle, counted from its end. That is why the document index is referred to as the inverted index.
  • FIG. 1 An example of converting a document to such a format is shown in FIG. 1 and 2.
  • FIG. 1 is an excerpt of an exemplary document
  • FIG. 2 shows the shingles formed from this document.
  • clauses can be of equal length, or special signs of characters (capital letters, spaces, etc.) can be noted in shingles.
  • reference documents This can be either pre-installed documents, or new ones that are submitted for analysis already in the process of work, documents that are assigned reference status. Information about such reference documents, i.e. their inverted indices are stored in the database.
  • the relative number of clauses in the analyzed document that match the corresponding clauses is calculated by each of the reference documents.
  • This calculation of the relative number of matches which is called the coefficient of similarity, is performed, for example, in accordance with the expression:
  • D d is the reference document
  • D e is the analyzed document
  • ⁇ D ⁇ is the number of shingles found in the document
  • D g (D / , D.) is the similarity coefficient.
  • the relative numbers of coincidences found are compared with a predetermined threshold value to identify the presence of text fragments of any of the reference documents in the analyzed document. In this case, a statistical measure of the relevance of the analyzed document with the available reference documents is obtained.
  • the method of automated analysis of text documents of the present invention provides an expansion of the arsenal of technical means and allows relatively quickly to identify expressions, phrases or even text fragments from other documents in any document, thereby overcoming the disadvantages of known solutions in the form of the limitations of their use .

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computer Security & Cryptography (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Virology (AREA)
  • Bioethics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Изобретение относится к автоматизированному анализу текстовых документов. Его использование при разработке новых и совершенствовании существующих систем проверки текстовых документов на наличие в них фраз или частей текста из других документов позволяет расширить арсенал технических средств за счет создания сравнительно быстрого и универсального способа, который позволяет выявлять в документе выражения, фразы или даже текстовые отрывки из других документов. Способ автоматизированного анализа текстовых документов заключается в том, что: преобразуют в заранее заданный формат все электронные файлы эталонных документов, выделяя в каждом из них осмысленные фрагменты, именуемые клаузами; сохраняют преобразованные электронные файлы эталонных документов в базе данных; преобразуют каждый электронный файл анализируемого документа в заранее заданный формат; выявляют совпадение выделенных клауз в электронном файле анализируемого документа с выделенными клаузами в электронных файлах эталонных документов; подсчитывают относительное число клауз в электронном файле анализируемого документа, совпавших с соответствующими клаузами каждого из электронных файлов эталонных документов; сравнивают найденные относительные числа совпадений с заранее заданным пороговым значением для выявления наличия в электронном файле анализируемого документа отрывков текста какого-либо из эталонных документов.

Description

СПОСОБ АВТОМАТИЗИРОВАННОГО АНАЛИЗА
ТЕКСТОВЫХ ДОКУМЕНТОВ
Область техники, к которой относится изобретение
Настоящее изобретение относится к автоматизированному анализу текстовых документов и может быть использовано при разработке новых и совершенствовании существующих систем проверки текстовых докумен- тов на наличие в них фраз или частей текста из других документов.
Уровень техники
В настоящее время весьма остро стоит проблема так называемого пе- рехвата данных. Такая проблема может встретиться в случае отслеживания документов, проходящих по сети компании, на предмет наличия в них конфиденциальной информации.
В настоящее время известно несколько систем или способов, позво- ляющих решить эту проблему.
Например, в патенте России N° 2420800 (опубл. 10.06.2011) раскрыт способ поиска похожих по смысловому содержимому электронных доку- ментов, в котором задают правила формирования уникальных слов, взве- шивают уникальные слова и связи между ними, строят на основе этого се- мантическую сеть и сравнивают семантические сети документов. Этот способ достаточно трудоёмок и пригоден лишь в ограниченной области.
В заявке на патент РФ 2007141666 (опубл. 20.05.2009) предложен способ сбора, обработки и каталогизации целевой информации из неструк- турированных источников, в котором сравнивают лексические признаки документов с контрольными информационными признаками. Сходное ре- шение представлено в заявке на патент Японии Ν» 2008-257444 (опубл. 23.10.2008), которая описывает устройство, способ и программу для ме- неджмента сходных файлов. В этой заявке выделяют в файле особенности за счёт использования предписанных выражений и вычисляют сходство между файлами путём сравнения этих особенностей. Эти способы также имеют лишь ограниченное применение.
В заявке на патент США Ха 2010/0205525 (опубл. 12.08.2010) описан способ для автоматической классификации текста с помощью компьютер- ной системы, в котором определяют качественные характеристики слова и частоту появления этих характеристик в классифицируемом тексте. Этот способ также имеет ограниченное применение.
Патент США Ν° 6810375 (опубл. 26.10.2004), который можно считать ближайшим аналогом настоящего изобретения, раскрывает способ сегмен- тации текста, в котором сегментируют проверяемый текст на клаузы из за- ранее заданного числа элементов и проверяют их сопряжение с паттерна- ми, составленными по заранее заданным правилам. При этом на каждом шаге проверки перемещаются по строке элементов на одну или несколько позиций. Этот способ требует длительного времени на обработку и имеет ограниченное применение.
Раскрытие изобретения
Таким образом, существует потребность в расширении арсенала тех- нических средств за счёт создания сравнительно быстрого и универсально- го способа, который позволил бы выявлять в каком-либо документе выра- жения, фразы или даже текстовые отрывки из других документов и кото- рый бы преодолевал недостатки известных решений.
Для решения этой задачи и получения указанного технического ре- зультата в настоящем изобретении предложен способ автоматизированно- го анализа текстовых документов, заключающийся в том, что: преобразуют в заранее заданный формат все электронные файлы эталонных документов, выделяя в каждом из них осмысленные фрагменты, именуемые клаузами; сохраняют преобразованные электронные файлы эталонных документов в базе данных; преобразуют каждый электронный файл анализируемого до- кумента в заранее заданный формат; выявляют совпадение выделенных клауз в электронном файле анализируемого документа с выделенными клаузами в электронных файлах эталонных документов; подсчитывают от- носительное число клауз в электронном файле анализируемого документа, совпавших с соответствующими клаузами каждого из электронных файлов эталонных документов; сравнивают найденные относительные числа сов- падений с заранее заданным пороговым значением для выявления наличия в электронном файле анализируемого документа отрывков текста какого- либо из эталонных документов.
Особенность способа по настоящему изобретению состоит в том, что файл текстового документа может быть предварительно преобразован в бинарный поток, байты которого соответствуют значащим символам или знакам препинания используемого в упомянутом текстовом документе ес- тественного языка.
Ещё одна особенность способа по настоящему изобретению состоит в том, что преобразование электронного файла текстового документа в упомянутый заранее заданный формат могут осуществлять за счёт того, что: заранее выделяют в каждом из используемых естественных языков множество его значащих символов, а также знаков препинания; выделяют из текста преобразуемого документа клаузы; удаляют из каждой клаузы незначащие символы; преобразуют все оставшиеся значащие символы ка- ждой клаузы в нижний регистр, получая так называемый шингл; подсчи- тывают хэш-значение каждого шингла; помещают пару из подсчитанного хэш-значения каждого шингла и позиции этого шингла в документе в ин- вертированный индекс соответствующего документа, представляющий со- бой отсортированный список пар с идентификатором данного документа. Ещё одна особенность способа по настоящему изобретению состоит в том, что преобразование бинарного потока в упомянутый заранее задан- ный формат могут осуществлять за счёт того, что: заранее выделяют в ка- ждом из используемых естественных языков множество его значащих сим- волов, а также знаков препинания; выделяют из текста преобразуемого до- кумента клаузы; удаляют из каждой клаузы незначащие символы; преобра- зуют все оставшиеся значащие символы каждой клаузы в нижний регистр, получая так называемый шингл; подсчитывают хэш-значение каждого шингла; выбирают случайным образом из заранее заданного промежутка в каждом бинарном документе шинглы и их хэш-значения; помещают пару из подсчитанного хэш-значения каждого выбранного шингла и позиции этого шингла в документе в инвертированный индекс соответствующего документа, представляющий собой отсортированный список пар с иденти- фикатором данного документа.
Наконец, ещё одна особенность способа по настоящему изобретению состоит в том, что подсчёт относительного числа совпадений, именуемого коэффициентом схожести выполняют в соответствии с выражением:
Figure imgf000006_0001
где Dd - эталонный документ, Д - анализируемый документ, \D\ - количе- ство найденных шинглов в документе Д r{Dd, Д) - коэффициент схоже- сти.
Краткое описание чертежей
На фиг. 1 представлен пример текстового документа, к которому применяется способ по настоящему изобретению.
На фиг. 2 представлена последовательность шинглов, полученных из документа по Фиг. 1. Подробное описание изобретения
Настоящее изобретение может быть реализовано в любой вычисли- тельной системе, например, в персональном компьютере, на сервере и т.п. Для осуществления изобретения необходимо также наличие соответст- вующей базы данных, в которой хранятся электронные файлы текстовых документов.
Способ автоматизированного анализа текстовых документов по на- стоящему изобретению предназначен для осуществления так называемого копирайтного анализа (английский аналог - fingerprint detection), задачей которого является установление схожести бинарных и (или) текстовых до- кументов документам, переданным ранее в базу данных (библиотеку) в ка- честве эталонных. Бинарные документы рассматриваются как поток бай- тов (бинарный поток), поэтому для документов этого класса определяется только мера схожести, выраженная как мера доли оцениваемого документа в эталонном документе (число от нуля до единицы). Для текстовых доку- ментов находятся также все общие для оцениваемого и эталонного доку- ментов фрагменты текстов с указанием их позиций в эталонном докумен- те. Алгоритм работает с точностью до 80 значимых символов, за которые считаются символы алфавита и цифры. Согласно требованиям безопасно- сти, тексты эталонных документов не сохраняются, что позволяет избе- жать их несанкционированного чтения.
Как правило, электронный файл текстового документа предвари- тельно преобразуется в бинарный поток, байты которого соответствуют значащим символам или знакам препинания используемого в упомянутом текстовом документе естественного языка. Этот этап не является обяза- тельным, поскольку при анализе документа, поступающего, скажем, по се- ти в виде уже сформированного потока байтов такого преобразования не потребуется. Однако бинарный поток в способе по настоящему изобретению сна- чала трансформируется в специализированный формат для дальнейшей обработки. Предпочтительно такое преобразование бинарного потока в за- ранее заданный формат осуществляют следующим образом.
Поскольку в качестве языка анализируемого текстового документа могут использоваться разные естественные языки, сначала заранее в каж- дом из используемых естественных языков выделяют множество его зна- чащих символов, а также знаков препинания. Например, в японском языке знаком окончания предложения является символ «0», а в испанском языке встречается знак < > в начале предложения. Всем таким значащим симво- лам и знакам препинания конкретного языка ставят в соответствие опреде- лённые байты, совокупность которых образует основу для дальнейшей об- работки текста на данном естественном языке. Этот предварительный этап осуществляют специалисты в автоматизированном режиме.
При поступлении документа на конкретном естественном языке на обработку по заявленному способу из этого текста выделяют так называе- мые клаузы, т.е. осмысленные фрагменты текста. Этот этап также осуще- ствляют специалисты в автоматизированном режиме. Все дальнейшие эта- пы могут выполняться автоматически без участия операторов.
Из каждой выделенной клаузы удаляют все незначащие символы, на- пример, пробелы. Оставшиеся значащие символы каждой клаузы преобра- зуют в нижний регистр, т.е. заменяют заглавные буквы строчными, в ре- зультате чего получается так называемый шингл, т.е. байтовая строка. Для каждого шингла подсчитывают его хэш-значение с помощью заранее за- данной хэш-функции, как это известно специалистам.
В каждом бинарном документе выбирают случайным образом из за- ранее заданного промежутка шинглы и их хэш-значения. Если же доку- мент поступает на обработку уже в виде бинарного потока, этап этого вы- бора опускают. Затем помещают пару из подсчитанного хэш-значения ка- ждого шингла и позиции этого шингла в документе в инвертированный индекс соответствующего документа, представляющий собой отсортиро- ванный список упомянутых пар с идентификатором данного документа. В данном описании под позицией шингла понимается указание на начало данного шингла, отсчитанное от его конца. Именно поэтому индекс доку- мента именуется инвертированным индексом.
Пример преобразования документа в такой формат приведён на Фиг. 1 и 2. На Фиг. 1 приведён отрывок примерного документа, а на фиг. 2 по- казаны сформированные из этого документа шинглы.
Приведённый пример преобразования в заранее заданный формат служит лишь иллюстративным целям, и любые иные форматы также могут использоваться для преобразования клауз в шинглы. К примеру, клаузы могут иметь равную длину, либо в шинглах могут отмечаться особые при- знаки символов (заглавные буквы, пробелы и т.п.).
Рассмотренное выше (или любое иное возможное) преобразование выполняется над так называемыми эталонными документами. Это могут быть как заранее установленные документы, так и новые, поступающие на анализ уже в процессе работы, документы, которым присвоен статус эта- лонных. Сведения о таких эталонных документах, т.е. их инвертированные индексы сохраняются в базе данных.
Когда поступает электронный файл любого анализируемого доку- мента, его преобразуют в тот же заранее заданный формат. Далее выявля- ют совпадение выделенных клауз анализируемого документа с выделен- ными клаузами эталонных документов. Это можно осуществлять по совпа- дению рассмотренных выше шинглов с соответствующими шинглами эта- лонных документов, либо любым иным известным специалистам образом, например, так, как это делается в упомянутом патенте США J « 6810375.
При этом выявлении совпадений подсчитывают относительное число клауз в анализируемом документе, совпавших с соответствующими клау- зами каждого из эталонных документов. Этот подсчёт относительного числа совпадений, который именуется коэффициентом схожести, выпол- няют, например, в соответстви с выражением:
Figure imgf000010_0001
где Dd - эталонный документ, De - анализируемый документ, \D\ - количе- ство найденных шинглов в документе Д г(Д/, Д.) - коэффициент схоже- сти. Специалистам понятно, что такой подсчёт можно проводить и иным способом, например, так, как в упомянутой заявке на патент США N° 2010/0205525.
После подсчёта совпадений осуществляют сравнение найденных от- носительных чисел совпадений с заранее заданным пороговым значением для выявления наличия в анализируемом документе отрывков текста како- го-либо из эталонных документов. При этом получают статистическую ме- ру релевантности анализируемого документа с имеющимися эталонными документами.
При необходимости позицию клаузы в анализируемом документе, совпавшей с аналогичной клаузой в каком-либо эталонном документе, можно найти по её инвертированному индексу.
Следует подчеркнуть, что сами эталонные документы хранятся в базе данных в виде упомянутых инвертированных индексов, что позволяет из- бежать их несанкционированного прочтения.
Таким образом, способ автоматизированного анализа текстовых до- кументов по настоящему изобретению обеспечивает расширение арсенала технических средств и позволяет сравнительно быстро выявлять в каком- либо документе выражения, фразы или даже текстовые отрывки из других документов, преодолевая тем самым недостатки известных решений в виде ограниченности их применения.

Claims

Формула изобретения
1. Способ автоматизированного анализа текстовых документов, за- ключающийся в том, что:
- преобразуют в заранее заданный формат все электронные файлы эталонных документов, выделяя в каждом из них осмысленные фрагменты, именуемые клаузами;
- сохраняют преобразованные электронные файлы эталонных доку- ментов в базе данных;
- преобразуют каждый электронный файл анализируемого документа в упомянутый заранее заданный формат;
- выявляют совпадение выделенных клауз в электронном файле ана- лизируемого документа с выделенными клаузами в электронных файлах эталонных документов;
- подсчитывают относительное число клауз в электронном файле анализируемого документа, совпавших с соответствующими клаузами ка- ждого из электронных файлов эталонных документов;
- сравнивают найденные относительные числа совпадений с заранее заданным пороговым значением для выявления наличия в электронном файле анализируемого документа отрывков текста какого-либо из эталон- ных документов.
2. Способ по п. 1 , в котором предварительно преобразуют файл тек- стового документа в бинарный поток, байты которого соответствуют зна- чащим символам или знакам препинания используемого в упомянутом текстовом документе естественного языка.
3. Способ по п. 2, в котором упомянутое преобразование электронно- го файла текстового документа в упомянутый заранее заданный формат осуществляют за счёт того, что: - заранее выделяют в каждом из используемых естественных языков множество его значащих символов, а также знаков препинания;
- выделяют из текста преобразуемого документа клаузы;
- удаляют из каждой клаузы незначащие символы;
- преобразуют все оставшиеся значащие символы каждой клаузы в нижний регистр, получая так называемый шингл;
- подсчитывают хэш-значение каждого шингла;
- помещают пару из подсчитанного хэш-значения каждого шингла и позиции этого шингла в документе в инвертированный индекс соответст- вующего документа, представляющий собой отсортированный список упомянутых пар с идентификатором данного документа.
4. Способ по п. 1, в котором упомянутое преобразование бинарного потока в упомянутый заранее заданный формат осуществляют за счёт того, что:
- заранее выделяют в каждом из используемых естественных языков множество его значащих символов, а также знаков препинания;
- выделяют из текста преобразуемого документа клаузы;
- удаляют из каждой клаузы незначащие символы;
- преобразуют все оставшиеся значащие символы каждой клаузы в нижний регистр, получая так называемый шингл;
- подсчитывают хэш-значение каждого шингла;
- выбирают случайным образом из заранее заданного промежутка в каждом бинарном документе шинглы и их хэш-значения;
- помещают пару из подсчитанного хэш-значения каждого выбран- ного шингла и позиции этого шингла в документе в инвертированный ин- декс соответствующего документа, представляющий собой отсортирован- ный список упомянутых пар с идентификатором данного документа.
5. Способ по п. 3 или 4, в котором упомянутый подсчёт относитель- ного числа совпадений, именуемого коэффициентом схожести, выполняют в соответствии с выражением:
Figure imgf000013_0001
где Dd - эталонный документ, Д, - анализируемый документ, \D\ - количество найденных шинглов в документе D, г(Д/, Д - коэффициент схожести.
PCT/RU2012/000945 2011-11-18 2012-11-16 Способ автоматизированного анализа текстовых документов WO2013073999A2 (ru)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP12849920.9A EP2782023A4 (en) 2011-11-18 2012-11-16 METHOD FOR THE AUTOMATED ANALYSIS OF TEXT DOCUMENTS
US14/350,292 US9852122B2 (en) 2011-11-18 2012-11-16 Method of automated analysis of text documents

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
RU2011146888/08A RU2474870C1 (ru) 2011-11-18 2011-11-18 Способ автоматизированного анализа текстовых документов
RU2011146888 2011-11-18

Publications (3)

Publication Number Publication Date
WO2013073999A2 true WO2013073999A2 (ru) 2013-05-23
WO2013073999A3 WO2013073999A3 (ru) 2013-07-25
WO2013073999A8 WO2013073999A8 (ru) 2014-08-28

Family

ID=48430328

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/RU2012/000945 WO2013073999A2 (ru) 2011-11-18 2012-11-16 Способ автоматизированного анализа текстовых документов

Country Status (4)

Country Link
US (1) US9852122B2 (ru)
EP (1) EP2782023A4 (ru)
RU (1) RU2474870C1 (ru)
WO (1) WO2013073999A2 (ru)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10817662B2 (en) 2013-05-21 2020-10-27 Kim Technologies Limited Expert system for automation, data collection, validation and managed storage without programming and without deployment
RU2583713C2 (ru) 2013-06-06 2016-05-10 Закрытое акционерное общество "Лаборатория Касперского" Система и способ исключения шинглов от незначимых частей из сообщения при фильтрации спама
RU2607975C2 (ru) * 2014-03-31 2017-01-11 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Построение корпуса сравнимых документов на основе универсальной меры похожести
RU2580424C1 (ru) 2014-11-28 2016-04-10 Общество С Ограниченной Ответственностью "Яндекс" Способ выявления незначащих лексических единиц в текстовом сообщении и компьютер
US10275430B2 (en) * 2015-06-29 2019-04-30 Microsoft Technology Licensing, Llc Multimodal sharing of content between documents
RU2601191C1 (ru) * 2015-07-06 2016-10-27 Федеральное государственное казенное военное образовательное учреждение высшего образования "Академия Федеральной службы охраны Российской Федерации" (Академия ФСО России) Способ идентификации массивов бинарных данных
TWI712899B (zh) 2015-07-28 2020-12-11 香港商阿里巴巴集團服務有限公司 資訊查詢方法及裝置
RU2647640C2 (ru) * 2015-12-07 2018-03-16 федеральное государственное казенное военное образовательное учреждение высшего образования "Краснодарское высшее военное училище имени генерала армии С.М. Штеменко" Министерства обороны Российской Федерации Способ автоматической классификации конфиденциальных формализованных документов в системе электронного документооборота
AU2017320475B2 (en) 2016-09-02 2022-02-10 FutureVault Inc. Automated document filing and processing methods and systems
EP3516536A4 (en) * 2016-09-19 2020-05-13 Kim Technologies Limited ACTIVELY ADAPTED KNOWLEDGE BASE, CONTENT CALIBRATION AND CONTENT RECOGNITION
RU2692043C2 (ru) * 2017-12-18 2019-06-19 Федеральное государственное казенное военное образовательное учреждение высшего образования "Краснодарское высшее военное училище имени генерала армии С.М. Штеменко" Министерство обороны Российской Федерации Способ автоматической классификации формализованных текстовых документов и авторизованных пользователей системы электронного документооборота
RU2720954C1 (ru) 2018-12-13 2020-05-15 Общество С Ограниченной Ответственностью "Яндекс" Способ и система построения поискового индекса с использованием алгоритма машинного обучения
US11657078B2 (en) * 2021-10-14 2023-05-23 Fmr Llc Automatic identification of document sections to generate a searchable data structure

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6810375B1 (en) 2000-05-31 2004-10-26 Hapax Limited Method for segmentation of text
JP2008257444A (ja) 2007-04-04 2008-10-23 Nec Corp 類似ファイル管理装置、その方法及びそのプログラム
RU2007141666A (ru) 2007-11-13 2009-05-20 Николай Игоревич Докучаев (RU) Способ сбора, обработки и каталогизации целевой информации из неструктурированных источников
US20100205525A1 (en) 2009-01-30 2010-08-12 Living-E Ag Method for the automatic classification of a text with the aid of a computer system
RU2420800C2 (ru) 2009-06-30 2011-06-10 Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) Способ поиска похожих по смысловому содержимому электронных документов, размещенных на устройствах хранения данных

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6119124A (en) * 1998-03-26 2000-09-12 Digital Equipment Corporation Method for clustering closely resembling data objects
AU4869601A (en) * 2000-03-20 2001-10-03 Robert J. Freeman Natural-language processing system using a large corpus
US20020165707A1 (en) * 2001-02-26 2002-11-07 Call Charles G. Methods and apparatus for storing and processing natural language text data as a sequence of fixed length integers
US8661498B2 (en) * 2002-09-18 2014-02-25 Symantec Corporation Secure and scalable detection of preselected data embedded in electronically transmitted messages
US20050060643A1 (en) * 2003-08-25 2005-03-17 Miavia, Inc. Document similarity detection and classification system
KR20080021017A (ko) * 2005-05-13 2008-03-06 커틴 유니버시티 오브 테크놀로지 텍스트 기반의 문서 비교
WO2009048149A1 (ja) * 2007-10-11 2009-04-16 Nec Corporation 電子文書の同等判定システムおよび同等判定方法
RU2395117C2 (ru) * 2008-07-23 2010-07-20 Общество с ограниченной ответственностью "Фирма "АРТИ" Способ и система анализа распечатанного документа на наличие в нем конфиденциальной информации
KR100999488B1 (ko) * 2008-12-19 2010-12-09 테크놀러지리딩퓨처(주) 문서 표절 탐색 방법 및 장치
US9245007B2 (en) * 2009-07-29 2016-01-26 International Business Machines Corporation Dynamically detecting near-duplicate documents
US8874663B2 (en) * 2009-08-28 2014-10-28 Facebook, Inc. Comparing similarity between documents for filtering unwanted documents

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6810375B1 (en) 2000-05-31 2004-10-26 Hapax Limited Method for segmentation of text
JP2008257444A (ja) 2007-04-04 2008-10-23 Nec Corp 類似ファイル管理装置、その方法及びそのプログラム
RU2007141666A (ru) 2007-11-13 2009-05-20 Николай Игоревич Докучаев (RU) Способ сбора, обработки и каталогизации целевой информации из неструктурированных источников
US20100205525A1 (en) 2009-01-30 2010-08-12 Living-E Ag Method for the automatic classification of a text with the aid of a computer system
RU2420800C2 (ru) 2009-06-30 2011-06-10 Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) Способ поиска похожих по смысловому содержимому электронных документов, размещенных на устройствах хранения данных

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP2782023A4

Also Published As

Publication number Publication date
WO2013073999A3 (ru) 2013-07-25
EP2782023A2 (en) 2014-09-24
US20140324416A1 (en) 2014-10-30
RU2474870C1 (ru) 2013-02-10
EP2782023A4 (en) 2015-11-11
US9852122B2 (en) 2017-12-26
WO2013073999A8 (ru) 2014-08-28

Similar Documents

Publication Publication Date Title
RU2474870C1 (ru) Способ автоматизированного анализа текстовых документов
JP5144940B2 (ja) 目次抽出におけるロバスト性向上
Stamatatos Author identification using imbalanced and limited training texts
US10163063B2 (en) Automatically mining patterns for rule based data standardization systems
RU2491622C1 (ru) Способ классификации документов по категориям
US20130103695A1 (en) Machine translation detection in web-scraped parallel corpora
Yerra et al. A sentence-based copy detection approach for web documents
Zou et al. A cluster-based plagiarism detection method
Sindhu et al. Fingerprinting based detection system for identifying plagiarism in Malayalam text documents
KR101565367B1 (ko) 숫자정규화를 이용한 문서 표절률 산출 방법
Besagni et al. A segmentation method for bibliographic references by contextual tagging of fields
CN113515622A (zh) 一种档案数据分类保存系统
CN111291535A (zh) 剧本处理方法、装置、电子设备及计算机可读存储介质
CN109063117B (zh) 一种基于特征抽取的网络安全博客分类方法及系统
Francopoulo et al. A study of reuse and plagiarism in LREC papers
CN111581950A (zh) 同义名称词的确定方法和同义名称词的知识库的建立方法
Martín-del-Campo-Rodríguez et al. Unsupervised authorship attribution using feature selection and weighted cosine similarity
Klaithin et al. Enhancing Target Document Search in CopyCatch: A Focus on Thai and English document
JP3767180B2 (ja) 文書構造解析方法及び装置及び文書構造解析プログラムを格納した記憶媒体
JP2014115718A (ja) 形態素解析装置、方法、及びプログラム
JP2011180687A (ja) 多言語文書解析装置
Flynn Document classification in support of automated metadata extraction form heterogeneous collections
El-Beltagy et al. A corpus based approach for the automatic creation of Arabic broken plural dictionaries
Cheng et al. A comparative study of term extraction methods in translation
Saeed et al. An Intelligent Approach for Semantic Plagiarism Detection in Scientific Papers

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 2012849920

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 14350292

Country of ref document: US

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12849920

Country of ref document: EP

Kind code of ref document: A2

NENP Non-entry into the national phase

Ref country code: DE