RU2474870C1 - Способ автоматизированного анализа текстовых документов - Google Patents
Способ автоматизированного анализа текстовых документов Download PDFInfo
- Publication number
- RU2474870C1 RU2474870C1 RU2011146888/08A RU2011146888A RU2474870C1 RU 2474870 C1 RU2474870 C1 RU 2474870C1 RU 2011146888/08 A RU2011146888/08 A RU 2011146888/08A RU 2011146888 A RU2011146888 A RU 2011146888A RU 2474870 C1 RU2474870 C1 RU 2474870C1
- Authority
- RU
- Russia
- Prior art keywords
- document
- clauses
- text
- shingle
- documents
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/562—Static detection
- G06F21/563—Static detection by source code analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6209—Protecting access to data via a platform, e.g. using keys or access control rules to a single file or object, e.g. in a secure envelope, encrypted and accessed using a key, or with access control rules appended to the object itself
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/123—Storage facilities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2101—Auditing as a secondary aspect
Abstract
Изобретение относится к автоматизированному анализу текстовых документов. Техническим результатом является расширение арсенала технических средств за счет создания сравнительно быстрого и универсального способа, который позволяет выявлять в документе выражения, фразы или даже текстовые отрывки из других документов. Способ автоматизированного анализа текстовых документов заключается в том, что сначала преобразуют в заранее заданный формат все электронные файлы эталонных документов, выделяя в каждом из них осмысленные фрагменты, именуемые клаузами, и сохраняют преобразованные электронные файлы эталонных документов в базе данных. Преобразуют каждый электронный файл анализируемого документа в заранее заданный формат. Выявляют совпадение выделенных клауз в электронном файле анализируемого документа с выделенными клаузами в электронных файлах эталонных документов. Затем подсчитывают относительное число клауз в электронном файле анализируемого документа, совпавших с соответствующими клаузами каждого из электронных файлов эталонных документов. После чего сравнивают найденные относительные числа совпадений с заранее заданным пороговым значением для выявления наличия в электронном файле анализируемого документа отрывков текста какого-либо из эталонных документов. 4 з.п. ф-лы, 2 ил.
Description
Область техники, к которой относится изобретение
Настоящее изобретение относится к автоматизированному анализу текстовых документов и может быть использовано при разработке новых и совершенствовании существующих систем проверки текстовых документов на наличие в них фраз или частей текста из других документов.
Уровень техники
В настоящее время весьма остро стоит проблема так называемого перехвата данных. Такая проблема может встретиться в случае отслеживания документов, проходящих по сети компании, на предмет наличия в них конфиденциальной информации.
В настоящее время известно несколько систем или способов, позволяющих решить эту проблему.
Например, в патенте России №2420800 (опубл. 10.06.2011) раскрыт способ поиска похожих по смысловому содержимому электронных документов, в котором задают правила формирования уникальных слов, взвешивают уникальные слова и связи между ними, строят на основе этого семантическую сеть и сравнивают семантические сети документов. Этот способ достаточно трудоемок и пригоден лишь в ограниченной области.
В заявке на патент РФ №2007141666 (опубл. 20.05.2009) предложен способ сбора, обработки и каталогизации целевой информации из неструктурированных источников, в котором сравнивают лексические признаки документов с контрольными информационными признаками. Сходное решение представлено в заявке на патент Японии № 2008-257444 (опубл. 23.10.2008), которая описывает устройство, способ и программу для менеджмента сходных файлов. В этой заявке выделяют в файле особенности за счет использования предписанных выражений и вычисляют сходство между файлами путем сравнения этих особенностей. Эти способы также имеют лишь ограниченное применение.
В заявке на патент США №2010/0205525 (опубл. 12.08.2010) описан способ для автоматической классификации текста с помощью компьютерной системы, в котором определяют качественные характеристики слова и частоту появления этих характеристик в классифицируемом тексте. Этот способ также имеет ограниченное применение.
Патент США №6810375 (опубл. 26.10.2004), который можно считать ближайшим аналогом настоящего изобретения, раскрывает способ сегментации текста, в котором сегментируют проверяемый текст на клаузы из заранее заданного числа элементов и проверяют их сопряжение с паттернами, составленными по заранее заданным правилам. При этом на каждом шаге проверки перемещаются по строке элементов на одну или несколько позиций. Этот способ требует длительного времени на обработку и имеет ограниченное применение.
Раскрытие изобретения
Таким образом, существует потребность в расширении арсенала технических средств за счет создания сравнительно быстрого и универсального способа, который позволил бы выявлять в каком-либо документе выражения, фразы или даже текстовые отрывки из других документов и который бы преодолевал недостатки известных решений.
Для решения этой задачи и получения указанного технического результата в настоящем изобретении предложен способ автоматизированного анализа текстовых документов, заключающийся в том, что: преобразуют в заранее заданный формат все электронные файлы эталонных документов, выделяя в каждом из них осмысленные фрагменты, именуемые клаузами; сохраняют преобразованные электронные файлы эталонных документов в базе данных; преобразуют каждый электронный файл анализируемого документа в заранее заданный формат; выявляют совпадение выделенных клауз в электронном файле анализируемого документа с выделенными клаузами в электронных файлах эталонных документов; подсчитывают относительное число клауз в электронном файле анализируемого документа, совпавших с соответствующими клаузами каждого из электронных файлов эталонных документов; сравнивают найденные относительные числа совпадений с заранее заданным пороговым значением для выявления наличия в электронном файле анализируемого документа отрывков текста какого-либо из эталонных документов.
Особенность способа по настоящему изобретению состоит в том, что файл текстового документа может быть предварительно преобразован в бинарный поток, байты которого соответствуют значащим символам или знакам препинания используемого в упомянутом текстовом документе естественного языка.
Еще одна особенность способа по настоящему изобретению состоит в том, что преобразование электронного файла текстового документа в упомянутый заранее заданный формат могут осуществлять за счет того, что: заранее выделяют в каждом из используемых естественных языков множество его значащих символов, а также знаков препинания; выделяют из текста преобразуемого документа клаузы; удаляют из каждой клаузы незначащие символы; преобразуют все оставшиеся значащие символы каждой клаузы в нижний регистр, получая так называемый шингл; подсчитывают хэш-значение каждого шингла; помещают пару из подсчитанного хэш-значения каждого шингла и позиции этого шингла в документе в инвертированный индекс соответствующего документа, представляющий собой отсортированный список пар с идентификатором данного документа.
Еще одна особенность способа по настоящему изобретению состоит в том, что преобразование бинарного потока в упомянутый заранее заданный формат могут осуществлять за счет того, что: заранее выделяют в каждом из используемых естественных языков множество его значащих символов, а также знаков препинания; выделяют из текста преобразуемого документа клаузы; удаляют из каждой клаузы незначащие символы; преобразуют все оставшиеся значащие символы каждой клаузы в нижний регистр, получая так называемый шингл; подсчитывают хэш-значение каждого шингла; выбирают случайным образом из заранее заданного промежутка в каждом бинарном документе шинглы и их хэш-значения; помещают пару из подсчитанного хэш-значения каждого выбранного шингла и позиции этого шингла в документе в инвертированный индекс соответствующего документа, представляющий собой отсортированный список пар с идентификатором данного документа.
Наконец, еще одна особенность способа по настоящему изобретению состоит в том, что подсчет относительного числа совпадений, именуемого коэффициентом схожести, выполняют в соответствии с выражением:
где Dd - эталонный документ, De - анализируемый документ, |D| - количество найденных шинглов в документе D, r(Dd, De) - коэффициент схожести.
Краткое описание чертежей
На фиг.1 представлен пример текстового документа, к которому применяется способ по настоящему изобретению.
На фиг.2 представлена последовательность шинглов, полученных из документа по фиг.1.
Подробное описание изобретения
Настоящее изобретение может быть реализовано в любой вычислительной системе, например в персональном компьютере, на сервере и т.п. Для осуществления изобретения необходимо также наличие соответствующей базы данных, в которой хранятся электронные файлы текстовых документов.
Способ автоматизированного анализа текстовых документов по настоящему изобретению предназначен для осуществления так называемого копирайтного анализа (английский аналог - fingerprint detection), задачей которого является установление схожести бинарных и (или) текстовых документов документам, переданным ранее в базу данных (библиотеку) в качестве эталонных. Бинарные документы рассматриваются как поток байтов (бинарный поток), поэтому для документов этого класса определяется только мера схожести, выраженная как мера доли оцениваемого документа в эталонном документе (число от нуля до единицы). Для текстовых документов находятся также все общие для оцениваемого и эталонного документов фрагменты текстов с указанием их позиций в эталонном документе. Алгоритм работает с точностью до 80 значимых символов, за которые считаются символы алфавита и цифры. Согласно требованиям безопасности, тексты эталонных документов не сохраняются, что позволяет избежать их несанкционированного чтения.
Как правило, электронный файл текстового документа предварительно преобразуется в бинарный поток, байты которого соответствуют значащим символам или знакам препинания используемого в упомянутом текстовом документе естественного языка. Этот этап не является обязательным, поскольку при анализе документа, поступающего, скажем, по сети в виде уже сформированного потока байтов такого преобразования не потребуется.
Однако бинарный поток в способе по настоящему изобретению сначала трансформируется в специализированный формат для дальнейшей обработки. Предпочтительно такое преобразование бинарного потока в заранее заданный формат осуществляют следующим образом.
Поскольку в качестве языка анализируемого текстового документа могут использоваться разные естественные языки, сначала заранее в каждом из используемых естественных языков выделяют множество его значащих символов, а также знаков препинания. Например, в японском языке знаком окончания предложения является символ «o», а в испанском языке встречается знак «¿» в начале предложения. Всем таким значащим символам и знакам препинания конкретного языка ставят в соответствие определенные байты, совокупность которых образует основу для дальнейшей обработки текста на данном естественном языке. Этот предварительный этап осуществляют специалисты в автоматизированном режиме.
При поступлении документа на конкретном естественном языке на обработку по заявленному способу из этого текста выделяют так называемые клаузы, т.е. осмысленные фрагменты текста. Этот этап также осуществляют специалисты в автоматизированном режиме. Все дальнейшие этапы могут выполняться автоматически без участия операторов.
Из каждой выделенной клаузы удаляют все незначащие символы, например пробелы. Оставшиеся значащие символы каждой клаузы преобразуют в нижний регистр, т.е. заменяют заглавные буквы строчными, в результате чего получается так называемый шингл, т.е. байтовая строка. Для каждого шингла подсчитывают его хэш-значение с помощью заранее заданной хэш-функции, как это известно специалистам.
В каждом бинарном документе выбирают случайным образом из заранее заданного промежутка шинглы и их хэш-значения. Если же документ поступает на обработку уже в виде бинарного потока, этап этого выбора опускают. Затем помещают пару из подсчитанного хэш-значения каждого шингла и позиции этого шингла в документе в инвертированный индекс соответствующего документа, представляющий собой отсортированный список упомянутых пар с идентификатором данного документа. В данном описании под позицией шингла понимается указание на начало данного шимгла, отсчитанное от его конца. Именно поэтому индекс документа именуется инвертированным индексом.
Пример преобразования документа в такой формат приведен на фиг.1 и 2. На фиг.1 приведен отрывок примерного документа, а на фиг.2 показаны сформированные из этого документа шинглы.
Приведенный пример преобразования в заранее заданный формат служит лишь иллюстративным целям, и любые иные форматы также могут использоваться для преобразования клауз в шинглы. К примеру, клаузы могут иметь равную длину, либо в шинглах могут отмечаться особые признаки символов (заглавные буквы, пробелы и т.п.).
Рассмотренное выше (или любое иное возможное) преобразование выполняется над так называемыми эталонными документами. Это могут быть как заранее установленные документы, так и новые, поступающие на анализ уже в процессе работы, документы, которым присвоен статус эталонных. Сведения о таких эталонных документах, т.е. их инвертированные индексы, сохраняются в базе данных.
Когда поступает электронный файл любого анализируемого документа, его преобразуют в тот же заранее заданный формат. Далее выявляют совпадение выделенных клауз анализируемого документа с выделенными клаузами эталонных документов. Это можно осуществлять по совпадению рассмотренных выше шинглов с соответствующими шинглами эталонных документов, либо любым иным известным специалистам образом, например, так, как это делается в упомянутом патенте США №6810375.
При этом выявлении совпадений подсчитывают относительное число клауз в анализируемом документе, совпавших с соответствующими клаузами каждого из эталонных документов. Этот подсчет относительного числа совпадений, который именуется коэффициентом схожести, выполняют, например, в соответствии с выражением:
где Dd - эталонный документ, De - анализируемый документ, |D| - количество найденных шинглов в документе D, r(Dd, De) - коэффициент схожести. Специалистам понятно, что такой подсчет можно проводить и иным способом, например, так, как в упомянутой заявке на патент США №2010/0205525.
После подсчета совпадений осуществляют сравнение найденных относительных чисел совпадений с заранее заданным пороговым значением для выявления наличия в анализируемом документе отрывков текста какого-либо из эталонных документов. При этом получают статистическую меру релевантности анализируемого документа с имеющимися эталонными документами.
При необходимости позицию клаузы в анализируемом документе, совпавшей с аналогичной клаузой в каком-либо эталонном документе, можно найти по ее инвертированному индексу.
Следует подчеркнуть, что сами эталонные документы хранятся в базе данных в виде упомянутых инвертированных индексов, что позволяет избежать их несанкционированного прочтения.
Таким образом, способ автоматизированного анализа текстовых документов по настоящему изобретению обеспечивает расширение арсенала технических средств и позволяет сравнительно быстро выявлять в каком-либо документе выражения, фразы или даже текстовые отрывки из других документов, преодолевая тем самым недостатки известных решений в виде ограниченности их применения.
Claims (5)
1. Способ автоматизированного анализа текстовых документов, заключающийся в том, что:
- преобразуют в заранее заданный формат все электронные файлы эталонных документов, выделяя в каждом из них осмысленные фрагменты, именуемые клаузами;
- сохраняют преобразованные электронные файлы эталонных документов в базе данных;
- преобразуют каждый электронный файл анализируемого документа в упомянутый заранее заданный формат;
- выявляют совпадение выделенных клауз в электронном файле анализируемого документа с выделенными клаузами в электронных файлах эталонных документов;
- подсчитывают относительное число клауз в электронном файле анализируемого документа, совпавших с соответствующими клаузами каждого из электронных файлов эталонных документов;
- сравнивают найденные относительные числа совпадений с заранее заданным пороговым значением для выявления наличия в электронном файле анализируемого документа отрывков текста какого-либо из эталонных документов.
- преобразуют в заранее заданный формат все электронные файлы эталонных документов, выделяя в каждом из них осмысленные фрагменты, именуемые клаузами;
- сохраняют преобразованные электронные файлы эталонных документов в базе данных;
- преобразуют каждый электронный файл анализируемого документа в упомянутый заранее заданный формат;
- выявляют совпадение выделенных клауз в электронном файле анализируемого документа с выделенными клаузами в электронных файлах эталонных документов;
- подсчитывают относительное число клауз в электронном файле анализируемого документа, совпавших с соответствующими клаузами каждого из электронных файлов эталонных документов;
- сравнивают найденные относительные числа совпадений с заранее заданным пороговым значением для выявления наличия в электронном файле анализируемого документа отрывков текста какого-либо из эталонных документов.
2. Способ по п.1, в котором предварительно преобразуют файл текстового документа в бинарный поток, байты которого соответствуют значащим символам или знакам препинания используемого в упомянутом текстовом документе естественного языка.
3. Способ по п.2, в котором упомянутое преобразование электронного файла текстового документа в упомянутый заранее заданный формат осуществляют за счет того, что:
- заранее выделяют в каждом из используемых естественных языков множество его значащих символов, а также знаков препинания;
- выделяют из текста преобразуемого документа клаузы;
- удаляют из каждой клаузы незначащие символы;
- преобразуют все оставшиеся значащие символы каждой клаузы в нижний регистр, получая так называемый шингл;
- подсчитывают хэш-значение каждого шингла;
- помещают пару из подсчитанного хэш-значения каждого шингла и позиции этого шингла в документе в инвертированный индекс соответствующего документа, представляющий собой отсортированный список упомянутых пар с идентификатором данного документа.
- заранее выделяют в каждом из используемых естественных языков множество его значащих символов, а также знаков препинания;
- выделяют из текста преобразуемого документа клаузы;
- удаляют из каждой клаузы незначащие символы;
- преобразуют все оставшиеся значащие символы каждой клаузы в нижний регистр, получая так называемый шингл;
- подсчитывают хэш-значение каждого шингла;
- помещают пару из подсчитанного хэш-значения каждого шингла и позиции этого шингла в документе в инвертированный индекс соответствующего документа, представляющий собой отсортированный список упомянутых пар с идентификатором данного документа.
4. Способ по п.1, в котором упомянутое преобразование бинарного потока в упомянутый заранее заданный формат осуществляют за счет того, что:
- заранее выделяют в каждом из используемых естественных языков множество его значащих символов, а также знаков препинания;
- выделяют из текста преобразуемого документа клаузы;
- удаляют из каждой клаузы незначащие символы;
- преобразуют все оставшиеся значащие символы каждой клаузы в нижний регистр, получая так называемый шингл;
- подсчитывают хэш-значение каждого шингла;
- выбирают случайным образом из заранее заданного промежутка в каждом бинарном документе шинглы и их хэш-значения;
- помещают пару из подсчитанного хэш-значения каждого выбранного шингла и позиции этого шингла в документе в инвертированный индекс соответствующего документа, представляющий собой отсортированный список упомянутых пар с идентификатором данного документа.
- заранее выделяют в каждом из используемых естественных языков множество его значащих символов, а также знаков препинания;
- выделяют из текста преобразуемого документа клаузы;
- удаляют из каждой клаузы незначащие символы;
- преобразуют все оставшиеся значащие символы каждой клаузы в нижний регистр, получая так называемый шингл;
- подсчитывают хэш-значение каждого шингла;
- выбирают случайным образом из заранее заданного промежутка в каждом бинарном документе шинглы и их хэш-значения;
- помещают пару из подсчитанного хэш-значения каждого выбранного шингла и позиции этого шингла в документе в инвертированный индекс соответствующего документа, представляющий собой отсортированный список упомянутых пар с идентификатором данного документа.
5. Способ по п.3 или 4, в котором упомянутый подсчет относительного числа совпадений, именуемого коэффициентом схожести, выполняют в соответствии с выражением:
,
где Dd - эталонный документ, De - анализируемый документ, |D| - количество найденных шинглов в документе D, r(Dd, De) - коэффициент схожести.
,
где Dd - эталонный документ, De - анализируемый документ, |D| - количество найденных шинглов в документе D, r(Dd, De) - коэффициент схожести.
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2011146888/08A RU2474870C1 (ru) | 2011-11-18 | 2011-11-18 | Способ автоматизированного анализа текстовых документов |
PCT/RU2012/000945 WO2013073999A2 (ru) | 2011-11-18 | 2012-11-16 | Способ автоматизированного анализа текстовых документов |
US14/350,292 US9852122B2 (en) | 2011-11-18 | 2012-11-16 | Method of automated analysis of text documents |
EP12849920.9A EP2782023A4 (en) | 2011-11-18 | 2012-11-16 | METHOD FOR THE AUTOMATED ANALYSIS OF TEXT DOCUMENTS |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2011146888/08A RU2474870C1 (ru) | 2011-11-18 | 2011-11-18 | Способ автоматизированного анализа текстовых документов |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2474870C1 true RU2474870C1 (ru) | 2013-02-10 |
Family
ID=48430328
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2011146888/08A RU2474870C1 (ru) | 2011-11-18 | 2011-11-18 | Способ автоматизированного анализа текстовых документов |
Country Status (4)
Country | Link |
---|---|
US (1) | US9852122B2 (ru) |
EP (1) | EP2782023A4 (ru) |
RU (1) | RU2474870C1 (ru) |
WO (1) | WO2013073999A2 (ru) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8996638B2 (en) | 2013-06-06 | 2015-03-31 | Kaspersky Lab Zao | System and method for spam filtering using shingles |
RU2601191C1 (ru) * | 2015-07-06 | 2016-10-27 | Федеральное государственное казенное военное образовательное учреждение высшего образования "Академия Федеральной службы охраны Российской Федерации" (Академия ФСО России) | Способ идентификации массивов бинарных данных |
RU2607975C2 (ru) * | 2014-03-31 | 2017-01-11 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Построение корпуса сравнимых документов на основе универсальной меры похожести |
RU2647640C2 (ru) * | 2015-12-07 | 2018-03-16 | федеральное государственное казенное военное образовательное учреждение высшего образования "Краснодарское высшее военное училище имени генерала армии С.М. Штеменко" Министерства обороны Российской Федерации | Способ автоматической классификации конфиденциальных формализованных документов в системе электронного документооборота |
RU2692043C2 (ru) * | 2017-12-18 | 2019-06-19 | Федеральное государственное казенное военное образовательное учреждение высшего образования "Краснодарское высшее военное училище имени генерала армии С.М. Штеменко" Министерство обороны Российской Федерации | Способ автоматической классификации формализованных текстовых документов и авторизованных пользователей системы электронного документооборота |
RU2720954C1 (ru) * | 2018-12-13 | 2020-05-15 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система построения поискового индекса с использованием алгоритма машинного обучения |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10817662B2 (en) | 2013-05-21 | 2020-10-27 | Kim Technologies Limited | Expert system for automation, data collection, validation and managed storage without programming and without deployment |
RU2580424C1 (ru) | 2014-11-28 | 2016-04-10 | Общество С Ограниченной Ответственностью "Яндекс" | Способ выявления незначащих лексических единиц в текстовом сообщении и компьютер |
US10275430B2 (en) * | 2015-06-29 | 2019-04-30 | Microsoft Technology Licensing, Llc | Multimodal sharing of content between documents |
TWI712899B (zh) | 2015-07-28 | 2020-12-11 | 香港商阿里巴巴集團服務有限公司 | 資訊查詢方法及裝置 |
CA3035097A1 (en) | 2016-09-02 | 2018-03-08 | FutureVault Inc. | Automated document filing and processing methods and systems |
EP3516536A4 (en) * | 2016-09-19 | 2020-05-13 | Kim Technologies Limited | ACTIVELY ADAPTED KNOWLEDGE BASE, CONTENT CALIBRATION AND CONTENT RECOGNITION |
US11657078B2 (en) * | 2021-10-14 | 2023-05-23 | Fmr Llc | Automatic identification of document sections to generate a searchable data structure |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6810375B1 (en) * | 2000-05-31 | 2004-10-26 | Hapax Limited | Method for segmentation of text |
US20050060643A1 (en) * | 2003-08-25 | 2005-03-17 | Miavia, Inc. | Document similarity detection and classification system |
KR20100071287A (ko) * | 2008-12-19 | 2010-06-29 | 테크놀러지리딩퓨처(주) | 문서 표절 탐색 방법 및 장치 |
RU2395117C2 (ru) * | 2008-07-23 | 2010-07-20 | Общество с ограниченной ответственностью "Фирма "АРТИ" | Способ и система анализа распечатанного документа на наличие в нем конфиденциальной информации |
US20110029491A1 (en) * | 2009-07-29 | 2011-02-03 | International Business Machines Corporation | Dynamically detecting near-duplicate documents |
RU2420800C2 (ru) * | 2009-06-30 | 2011-06-10 | Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) | Способ поиска похожих по смысловому содержимому электронных документов, размещенных на устройствах хранения данных |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6119124A (en) * | 1998-03-26 | 2000-09-12 | Digital Equipment Corporation | Method for clustering closely resembling data objects |
AU4869601A (en) * | 2000-03-20 | 2001-10-03 | Robert J. Freeman | Natural-language processing system using a large corpus |
US20020165707A1 (en) * | 2001-02-26 | 2002-11-07 | Call Charles G. | Methods and apparatus for storing and processing natural language text data as a sequence of fixed length integers |
US8661498B2 (en) * | 2002-09-18 | 2014-02-25 | Symantec Corporation | Secure and scalable detection of preselected data embedded in electronically transmitted messages |
US20090265160A1 (en) * | 2005-05-13 | 2009-10-22 | Curtin University Of Technology | Comparing text based documents |
JP2008257444A (ja) | 2007-04-04 | 2008-10-23 | Nec Corp | 類似ファイル管理装置、その方法及びそのプログラム |
US8977949B2 (en) * | 2007-10-11 | 2015-03-10 | Nec Corporation | Electronic document equivalence determination system and equivalence determination method |
RU2007141666A (ru) | 2007-11-13 | 2009-05-20 | Николай Игоревич Докучаев (RU) | Способ сбора, обработки и каталогизации целевой информации из неструктурированных источников |
DE102009006857A1 (de) | 2009-01-30 | 2010-08-19 | Living-E Ag | Verfahren zum automatischen Klassifizieren eines Textes durch ein Computersystem |
US8874663B2 (en) * | 2009-08-28 | 2014-10-28 | Facebook, Inc. | Comparing similarity between documents for filtering unwanted documents |
-
2011
- 2011-11-18 RU RU2011146888/08A patent/RU2474870C1/ru active IP Right Revival
-
2012
- 2012-11-16 WO PCT/RU2012/000945 patent/WO2013073999A2/ru active Application Filing
- 2012-11-16 EP EP12849920.9A patent/EP2782023A4/en not_active Ceased
- 2012-11-16 US US14/350,292 patent/US9852122B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6810375B1 (en) * | 2000-05-31 | 2004-10-26 | Hapax Limited | Method for segmentation of text |
US20050060643A1 (en) * | 2003-08-25 | 2005-03-17 | Miavia, Inc. | Document similarity detection and classification system |
RU2395117C2 (ru) * | 2008-07-23 | 2010-07-20 | Общество с ограниченной ответственностью "Фирма "АРТИ" | Способ и система анализа распечатанного документа на наличие в нем конфиденциальной информации |
KR20100071287A (ko) * | 2008-12-19 | 2010-06-29 | 테크놀러지리딩퓨처(주) | 문서 표절 탐색 방법 및 장치 |
RU2420800C2 (ru) * | 2009-06-30 | 2011-06-10 | Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) | Способ поиска похожих по смысловому содержимому электронных документов, размещенных на устройствах хранения данных |
US20110029491A1 (en) * | 2009-07-29 | 2011-02-03 | International Business Machines Corporation | Dynamically detecting near-duplicate documents |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8996638B2 (en) | 2013-06-06 | 2015-03-31 | Kaspersky Lab Zao | System and method for spam filtering using shingles |
RU2583713C2 (ru) * | 2013-06-06 | 2016-05-10 | Закрытое акционерное общество "Лаборатория Касперского" | Система и способ исключения шинглов от незначимых частей из сообщения при фильтрации спама |
US9391936B2 (en) | 2013-06-06 | 2016-07-12 | AO Kaspersky Lab | System and method for spam filtering using insignificant shingles |
RU2607975C2 (ru) * | 2014-03-31 | 2017-01-11 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Построение корпуса сравнимых документов на основе универсальной меры похожести |
RU2601191C1 (ru) * | 2015-07-06 | 2016-10-27 | Федеральное государственное казенное военное образовательное учреждение высшего образования "Академия Федеральной службы охраны Российской Федерации" (Академия ФСО России) | Способ идентификации массивов бинарных данных |
RU2647640C2 (ru) * | 2015-12-07 | 2018-03-16 | федеральное государственное казенное военное образовательное учреждение высшего образования "Краснодарское высшее военное училище имени генерала армии С.М. Штеменко" Министерства обороны Российской Федерации | Способ автоматической классификации конфиденциальных формализованных документов в системе электронного документооборота |
RU2692043C2 (ru) * | 2017-12-18 | 2019-06-19 | Федеральное государственное казенное военное образовательное учреждение высшего образования "Краснодарское высшее военное училище имени генерала армии С.М. Штеменко" Министерство обороны Российской Федерации | Способ автоматической классификации формализованных текстовых документов и авторизованных пользователей системы электронного документооборота |
RU2720954C1 (ru) * | 2018-12-13 | 2020-05-15 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система построения поискового индекса с использованием алгоритма машинного обучения |
US11194848B2 (en) | 2018-12-13 | 2021-12-07 | Yandex Europe Ag | Method of and system for building search index using machine learning algorithm |
Also Published As
Publication number | Publication date |
---|---|
EP2782023A4 (en) | 2015-11-11 |
WO2013073999A8 (ru) | 2014-08-28 |
US9852122B2 (en) | 2017-12-26 |
WO2013073999A2 (ru) | 2013-05-23 |
EP2782023A2 (en) | 2014-09-24 |
WO2013073999A3 (ru) | 2013-07-25 |
US20140324416A1 (en) | 2014-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2474870C1 (ru) | Способ автоматизированного анализа текстовых документов | |
KR101715432B1 (ko) | 단어쌍취득장치, 단어쌍취득방법 및 기록 매체 | |
Gipp et al. | Citation pattern matching algorithms for citation-based plagiarism detection: greedy citation tiling, citation chunking and longest common citation sequence | |
US10095780B2 (en) | Automatically mining patterns for rule based data standardization systems | |
RU2491622C1 (ru) | Способ классификации документов по категориям | |
JP2007226792A (ja) | 目次抽出におけるロバスト性向上 | |
El-Shishtawy et al. | An accurate arabic root-based lemmatizer for information retrieval purposes | |
Zou et al. | A cluster-based plagiarism detection method | |
Sindhu et al. | Fingerprinting based detection system for identifying plagiarism in Malayalam text documents | |
KR101565367B1 (ko) | 숫자정규화를 이용한 문서 표절률 산출 방법 | |
Besagni et al. | A segmentation method for bibliographic references by contextual tagging of fields | |
Sefid et al. | Cleaning noisy and heterogeneous metadata for record linking across scholarly big datasets | |
CN108021595B (zh) | 检验知识库三元组的方法及装置 | |
Ehsan et al. | A Pairwise Document Analysis Approach for Monolingual Plagiarism Detection. | |
JP5795302B2 (ja) | 形態素解析装置、方法、及びプログラム | |
Francopoulo et al. | A study of reuse and plagiarism in LREC papers | |
Martín-del-Campo-Rodríguez et al. | Unsupervised authorship attribution using feature selection and weighted cosine similarity | |
CN114492409B (zh) | 文件内容的评价方法、装置、电子设备及程序产品 | |
CN115587599B (zh) | 一种机器翻译语料的质量检测方法及装置 | |
Ďuračík et al. | Using concepts of text based plagiarism detection in source code plagiarism analysis | |
Nawab et al. | External plagiarism detection using information retrieval and sequence alignment | |
Saeed et al. | An Intelligent Approach for Semantic Plagiarism Detection in Scientific Papers | |
Gómez | Sketching a" low-cost" text-classification technique for text topics in English | |
Cheng et al. | A comparative study of term extraction methods in translation | |
JP2011180687A (ja) | 多言語文書解析装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PD4A | Correction of name of patent owner | ||
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20191119 |
|
NF4A | Reinstatement of patent |
Effective date: 20201022 |