WO2013073999A2

WO2013073999A2 - Способ автоматизированного анализа текстовых документов

Info

Publication number: WO2013073999A2
Application number: PCT/RU2012/000945
Authority: WO
Inventors: Владимир Анатольевич ЛАПШИН; Екатерина Александровна ПШЕХОТСКАЯ; Дмитрий Всеволодович ПЕРОВ
Original assignee: Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской"
Priority date: 2011-11-18
Filing date: 2012-11-16
Publication date: 2013-05-23
Also published as: WO2013073999A3; EP2782023A2; US20140324416A1; RU2474870C1; EP2782023A4; US9852122B2; WO2013073999A8

Abstract

Изобретение относится к автоматизированному анализу текстовых документов. Его использование при разработке новых и совершенствовании существующих систем проверки текстовых документов на наличие в них фраз или частей текста из других документов позволяет расширить арсенал технических средств за счет создания сравнительно быстрого и универсального способа, который позволяет выявлять в документе выражения, фразы или даже текстовые отрывки из других документов. Способ автоматизированного анализа текстовых документов заключается в том, что: преобразуют в заранее заданный формат все электронные файлы эталонных документов, выделяя в каждом из них осмысленные фрагменты, именуемые клаузами; сохраняют преобразованные электронные файлы эталонных документов в базе данных; преобразуют каждый электронный файл анализируемого документа в заранее заданный формат; выявляют совпадение выделенных клауз в электронном файле анализируемого документа с выделенными клаузами в электронных файлах эталонных документов; подсчитывают относительное число клауз в электронном файле анализируемого документа, совпавших с соответствующими клаузами каждого из электронных файлов эталонных документов; сравнивают найденные относительные числа совпадений с заранее заданным пороговым значением для выявления наличия в электронном файле анализируемого документа отрывков текста какого-либо из эталонных документов.

Description

СПОСОБ АВТОМАТИЗИРОВАННОГО АНАЛИЗА

ТЕКСТОВЫХ ДОКУМЕНТОВ

Область техники, к которой относится изобретение

Настоящее изобретение относится к автоматизированному анализу текстовых документов и может быть использовано при разработке новых и совершенствовании существующих систем проверки текстовых докумен- тов на наличие в них фраз или частей текста из других документов.

Уровень техники

В настоящее время весьма остро стоит проблема так называемого пе- рехвата данных. Такая проблема может встретиться в случае отслеживания документов, проходящих по сети компании, на предмет наличия в них конфиденциальной информации.

В настоящее время известно несколько систем или способов, позво- ляющих решить эту проблему.

Например, в патенте России N° 2420800 (опубл. 10.06.2011) раскрыт способ поиска похожих по смысловому содержимому электронных доку- ментов, в котором задают правила формирования уникальных слов, взве- шивают уникальные слова и связи между ними, строят на основе этого се- мантическую сеть и сравнивают семантические сети документов. Этот способ достаточно трудоёмок и пригоден лишь в ограниченной области.

В заявке на патент РФ 2007141666 (опубл. 20.05.2009) предложен способ сбора, обработки и каталогизации целевой информации из неструк- турированных источников, в котором сравнивают лексические признаки документов с контрольными информационными признаками. Сходное ре- шение представлено в заявке на патент Японии Ν» 2008-257444 (опубл. 23.10.2008), которая описывает устройство, способ и программу для ме- неджмента сходных файлов. В этой заявке выделяют в файле особенности за счёт использования предписанных выражений и вычисляют сходство между файлами путём сравнения этих особенностей. Эти способы также имеют лишь ограниченное применение.

В заявке на патент США Ха 2010/0205525 (опубл. 12.08.2010) описан способ для автоматической классификации текста с помощью компьютер- ной системы, в котором определяют качественные характеристики слова и частоту появления этих характеристик в классифицируемом тексте. Этот способ также имеет ограниченное применение.

Патент США Ν° 6810375 (опубл. 26.10.2004), который можно считать ближайшим аналогом настоящего изобретения, раскрывает способ сегмен- тации текста, в котором сегментируют проверяемый текст на клаузы из за- ранее заданного числа элементов и проверяют их сопряжение с паттерна- ми, составленными по заранее заданным правилам. При этом на каждом шаге проверки перемещаются по строке элементов на одну или несколько позиций. Этот способ требует длительного времени на обработку и имеет ограниченное применение.

Раскрытие изобретения

Таким образом, существует потребность в расширении арсенала тех- нических средств за счёт создания сравнительно быстрого и универсально- го способа, который позволил бы выявлять в каком-либо документе выра- жения, фразы или даже текстовые отрывки из других документов и кото- рый бы преодолевал недостатки известных решений.

Для решения этой задачи и получения указанного технического ре- зультата в настоящем изобретении предложен способ автоматизированно- го анализа текстовых документов, заключающийся в том, что: преобразуют в заранее заданный формат все электронные файлы эталонных документов, выделяя в каждом из них осмысленные фрагменты, именуемые клаузами; сохраняют преобразованные электронные файлы эталонных документов в базе данных; преобразуют каждый электронный файл анализируемого до- кумента в заранее заданный формат; выявляют совпадение выделенных клауз в электронном файле анализируемого документа с выделенными клаузами в электронных файлах эталонных документов; подсчитывают от- носительное число клауз в электронном файле анализируемого документа, совпавших с соответствующими клаузами каждого из электронных файлов эталонных документов; сравнивают найденные относительные числа сов- падений с заранее заданным пороговым значением для выявления наличия в электронном файле анализируемого документа отрывков текста какого- либо из эталонных документов.

Особенность способа по настоящему изобретению состоит в том, что файл текстового документа может быть предварительно преобразован в бинарный поток, байты которого соответствуют значащим символам или знакам препинания используемого в упомянутом текстовом документе ес- тественного языка.

Ещё одна особенность способа по настоящему изобретению состоит в том, что преобразование электронного файла текстового документа в упомянутый заранее заданный формат могут осуществлять за счёт того, что: заранее выделяют в каждом из используемых естественных языков множество его значащих символов, а также знаков препинания; выделяют из текста преобразуемого документа клаузы; удаляют из каждой клаузы незначащие символы; преобразуют все оставшиеся значащие символы ка- ждой клаузы в нижний регистр, получая так называемый шингл; подсчи- тывают хэш-значение каждого шингла; помещают пару из подсчитанного хэш-значения каждого шингла и позиции этого шингла в документе в ин- вертированный индекс соответствующего документа, представляющий со- бой отсортированный список пар с идентификатором данного документа. Ещё одна особенность способа по настоящему изобретению состоит в том, что преобразование бинарного потока в упомянутый заранее задан- ный формат могут осуществлять за счёт того, что: заранее выделяют в ка- ждом из используемых естественных языков множество его значащих сим- волов, а также знаков препинания; выделяют из текста преобразуемого до- кумента клаузы; удаляют из каждой клаузы незначащие символы; преобра- зуют все оставшиеся значащие символы каждой клаузы в нижний регистр, получая так называемый шингл; подсчитывают хэш-значение каждого шингла; выбирают случайным образом из заранее заданного промежутка в каждом бинарном документе шинглы и их хэш-значения; помещают пару из подсчитанного хэш-значения каждого выбранного шингла и позиции этого шингла в документе в инвертированный индекс соответствующего документа, представляющий собой отсортированный список пар с иденти- фикатором данного документа.

Наконец, ещё одна особенность способа по настоящему изобретению состоит в том, что подсчёт относительного числа совпадений, именуемого коэффициентом схожести выполняют в соответствии с выражением:

где D_d - эталонный документ, Д - анализируемый документ, \D\ - количе- ство найденных шинглов в документе Д r{D_d, Д) - коэффициент схоже- сти.

Краткое описание чертежей

На фиг. 1 представлен пример текстового документа, к которому применяется способ по настоящему изобретению.

На фиг. 2 представлена последовательность шинглов, полученных из документа по Фиг. 1. Подробное описание изобретения

Настоящее изобретение может быть реализовано в любой вычисли- тельной системе, например, в персональном компьютере, на сервере и т.п. Для осуществления изобретения необходимо также наличие соответст- вующей базы данных, в которой хранятся электронные файлы текстовых документов.

Способ автоматизированного анализа текстовых документов по на- стоящему изобретению предназначен для осуществления так называемого копирайтного анализа (английский аналог - fingerprint detection), задачей которого является установление схожести бинарных и (или) текстовых до- кументов документам, переданным ранее в базу данных (библиотеку) в ка- честве эталонных. Бинарные документы рассматриваются как поток бай- тов (бинарный поток), поэтому для документов этого класса определяется только мера схожести, выраженная как мера доли оцениваемого документа в эталонном документе (число от нуля до единицы). Для текстовых доку- ментов находятся также все общие для оцениваемого и эталонного доку- ментов фрагменты текстов с указанием их позиций в эталонном докумен- те. Алгоритм работает с точностью до 80 значимых символов, за которые считаются символы алфавита и цифры. Согласно требованиям безопасно- сти, тексты эталонных документов не сохраняются, что позволяет избе- жать их несанкционированного чтения.

Как правило, электронный файл текстового документа предвари- тельно преобразуется в бинарный поток, байты которого соответствуют значащим символам или знакам препинания используемого в упомянутом текстовом документе естественного языка. Этот этап не является обяза- тельным, поскольку при анализе документа, поступающего, скажем, по се- ти в виде уже сформированного потока байтов такого преобразования не потребуется. Однако бинарный поток в способе по настоящему изобретению сна- чала трансформируется в специализированный формат для дальнейшей обработки. Предпочтительно такое преобразование бинарного потока в за- ранее заданный формат осуществляют следующим образом.

Поскольку в качестве языка анализируемого текстового документа могут использоваться разные естественные языки, сначала заранее в каж- дом из используемых естественных языков выделяют множество его зна- чащих символов, а также знаков препинания. Например, в японском языке знаком окончания предложения является символ «₀», а в испанском языке встречается знак < > в начале предложения. Всем таким значащим симво- лам и знакам препинания конкретного языка ставят в соответствие опреде- лённые байты, совокупность которых образует основу для дальнейшей об- работки текста на данном естественном языке. Этот предварительный этап осуществляют специалисты в автоматизированном режиме.

При поступлении документа на конкретном естественном языке на обработку по заявленному способу из этого текста выделяют так называе- мые клаузы, т.е. осмысленные фрагменты текста. Этот этап также осуще- ствляют специалисты в автоматизированном режиме. Все дальнейшие эта- пы могут выполняться автоматически без участия операторов.

Из каждой выделенной клаузы удаляют все незначащие символы, на- пример, пробелы. Оставшиеся значащие символы каждой клаузы преобра- зуют в нижний регистр, т.е. заменяют заглавные буквы строчными, в ре- зультате чего получается так называемый шингл, т.е. байтовая строка. Для каждого шингла подсчитывают его хэш-значение с помощью заранее за- данной хэш-функции, как это известно специалистам.

В каждом бинарном документе выбирают случайным образом из за- ранее заданного промежутка шинглы и их хэш-значения. Если же доку- мент поступает на обработку уже в виде бинарного потока, этап этого вы- бора опускают. Затем помещают пару из подсчитанного хэш-значения ка- ждого шингла и позиции этого шингла в документе в инвертированный индекс соответствующего документа, представляющий собой отсортиро- ванный список упомянутых пар с идентификатором данного документа. В данном описании под позицией шингла понимается указание на начало данного шингла, отсчитанное от его конца. Именно поэтому индекс доку- мента именуется инвертированным индексом.

Пример преобразования документа в такой формат приведён на Фиг. 1 и 2. На Фиг. 1 приведён отрывок примерного документа, а на фиг. 2 по- казаны сформированные из этого документа шинглы.

Приведённый пример преобразования в заранее заданный формат служит лишь иллюстративным целям, и любые иные форматы также могут использоваться для преобразования клауз в шинглы. К примеру, клаузы могут иметь равную длину, либо в шинглах могут отмечаться особые при- знаки символов (заглавные буквы, пробелы и т.п.).

Рассмотренное выше (или любое иное возможное) преобразование выполняется над так называемыми эталонными документами. Это могут быть как заранее установленные документы, так и новые, поступающие на анализ уже в процессе работы, документы, которым присвоен статус эта- лонных. Сведения о таких эталонных документах, т.е. их инвертированные индексы сохраняются в базе данных.

Когда поступает электронный файл любого анализируемого доку- мента, его преобразуют в тот же заранее заданный формат. Далее выявля- ют совпадение выделенных клауз анализируемого документа с выделен- ными клаузами эталонных документов. Это можно осуществлять по совпа- дению рассмотренных выше шинглов с соответствующими шинглами эта- лонных документов, либо любым иным известным специалистам образом, например, так, как это делается в упомянутом патенте США J ^« 6810375.

При этом выявлении совпадений подсчитывают относительное число клауз в анализируемом документе, совпавших с соответствующими клау- зами каждого из эталонных документов. Этот подсчёт относительного числа совпадений, который именуется коэффициентом схожести, выпол- няют, например, в соответстви с выражением:

где D_d - эталонный документ, D_e - анализируемый документ, \D\ - количе- ство найденных шинглов в документе Д г(Д_/, Д.) - коэффициент схоже- сти. Специалистам понятно, что такой подсчёт можно проводить и иным способом, например, так, как в упомянутой заявке на патент США N° 2010/0205525.

После подсчёта совпадений осуществляют сравнение найденных от- носительных чисел совпадений с заранее заданным пороговым значением для выявления наличия в анализируемом документе отрывков текста како- го-либо из эталонных документов. При этом получают статистическую ме- ру релевантности анализируемого документа с имеющимися эталонными документами.

При необходимости позицию клаузы в анализируемом документе, совпавшей с аналогичной клаузой в каком-либо эталонном документе, можно найти по её инвертированному индексу.

Следует подчеркнуть, что сами эталонные документы хранятся в базе данных в виде упомянутых инвертированных индексов, что позволяет из- бежать их несанкционированного прочтения.

Таким образом, способ автоматизированного анализа текстовых до- кументов по настоящему изобретению обеспечивает расширение арсенала технических средств и позволяет сравнительно быстро выявлять в каком- либо документе выражения, фразы или даже текстовые отрывки из других документов, преодолевая тем самым недостатки известных решений в виде ограниченности их применения.

Claims

Формула изобретения

1. Способ автоматизированного анализа текстовых документов, за- ключающийся в том, что:

- преобразуют в заранее заданный формат все электронные файлы эталонных документов, выделяя в каждом из них осмысленные фрагменты, именуемые клаузами;

- сохраняют преобразованные электронные файлы эталонных доку- ментов в базе данных;

- преобразуют каждый электронный файл анализируемого документа в упомянутый заранее заданный формат;

- выявляют совпадение выделенных клауз в электронном файле ана- лизируемого документа с выделенными клаузами в электронных файлах эталонных документов;

- подсчитывают относительное число клауз в электронном файле анализируемого документа, совпавших с соответствующими клаузами ка- ждого из электронных файлов эталонных документов;

- сравнивают найденные относительные числа совпадений с заранее заданным пороговым значением для выявления наличия в электронном файле анализируемого документа отрывков текста какого-либо из эталон- ных документов.

2. Способ по п. 1 , в котором предварительно преобразуют файл тек- стового документа в бинарный поток, байты которого соответствуют зна- чащим символам или знакам препинания используемого в упомянутом текстовом документе естественного языка.

3. Способ по п. 2, в котором упомянутое преобразование электронно- го файла текстового документа в упомянутый заранее заданный формат осуществляют за счёт того, что: - заранее выделяют в каждом из используемых естественных языков множество его значащих символов, а также знаков препинания;

- выделяют из текста преобразуемого документа клаузы;

- удаляют из каждой клаузы незначащие символы;

- преобразуют все оставшиеся значащие символы каждой клаузы в нижний регистр, получая так называемый шингл;

- подсчитывают хэш-значение каждого шингла;

- помещают пару из подсчитанного хэш-значения каждого шингла и позиции этого шингла в документе в инвертированный индекс соответст- вующего документа, представляющий собой отсортированный список упомянутых пар с идентификатором данного документа.

4. Способ по п. 1, в котором упомянутое преобразование бинарного потока в упомянутый заранее заданный формат осуществляют за счёт того, что:

- заранее выделяют в каждом из используемых естественных языков множество его значащих символов, а также знаков препинания;

- подсчитывают хэш-значение каждого шингла;

- выбирают случайным образом из заранее заданного промежутка в каждом бинарном документе шинглы и их хэш-значения;

- помещают пару из подсчитанного хэш-значения каждого выбран- ного шингла и позиции этого шингла в документе в инвертированный ин- декс соответствующего документа, представляющий собой отсортирован- ный список упомянутых пар с идентификатором данного документа.

5. Способ по п. 3 или 4, в котором упомянутый подсчёт относитель- ного числа совпадений, именуемого коэффициентом схожести, выполняют в соответствии с выражением:

где D_d - эталонный документ, Д, - анализируемый документ, \D\ - количество найденных шинглов в документе D, г(Д_/, Д - коэффициент схожести.