RU2581766C2

RU2581766C2 - Способ автоматизированного анализа эталонных форм

Info

Publication number: RU2581766C2
Application number: RU2013140166/08A
Authority: RU
Inventors: Екатерина Александровна Пшехотская; Сергей Сергеевич Рябов
Original assignee: Общество с ограниченной ответственностью "Лаборатория ИнфоВотч"
Priority date: 2013-08-30
Filing date: 2013-08-30
Publication date: 2016-04-20
Also published as: RU2013140166A

Abstract

Изобретение относится к средствам автоматизированного анализа текстовых документов. Технический результат заключается в повышении точности определения наличия в документах конфиденциальной информации. Преобразуют в заранее заданный формат все информационно-значимые поля эталонных форм документа с указанием их позиций в каждой форме. Выявляют поля эталонных форм документа в электронном файле анализируемого документа. Выявляют количество полей эталонных форм документа в анализируемом документе. Осуществляют поиск эталонных форм в анализируемом документе. Формируют список найденных эталонных форм документа в анализируемом документе. Проверяют порядок следования полей из каждой найденной эталонной формы документа в анализируемом документе, если в конкретной эталонной форме порядок не совпадает, ее удаляют из списка найденных. Определяют позицию полей эталонных форм документа из отобранного списка в анализируемом документе. Выявляют текст в анализируемом документе, находящийся между найденными полями. Определяют наличие данной эталонной формы документа в заполненном виде в анализируемом тексте, если между любыми соседними полями выявлен текст. Помещают имя текущей формы в список эталонных форм документа, найденных в анализируемом тексте. 2 з.п. ф-лы, 1 ил.

Description

Область техники, к которой относится изобретение

Настоящее изобретение относится к автоматизированному анализу эталонных форм и может быть использовано при разработке новых и совершенствовании существующих систем проверки текстовых документов на наличие в них частей, принадлежащих к заданной эталонной форме. К эталонным формам можно отнести анкеты, платежные формы, формы заявлений.

Уровень техники

В настоящее время весьма остро стоит проблема так называемого перехвата данных. Такая проблема может встретиться в случае отслеживания документов, проходящих по сети компании, на предмет наличия в них конфиденциальной информации.

В настоящее время известно несколько систем или способов, позволяющих решить эту проблему.

Например, в патенте РФ №2282889 (опубл. 27.08.2006 г.), который можно считать ближайшим аналогом настоящего изобретения, раскрыт способ обработки информации для обнаружения полей формы в информационных потоках, где предварительно формируют базу эталонных полей форм, подлежащих выявлению в информационном потоке, принимают информационный поток, последовательно выделяют и запоминают фрагменты принимаемого информационного потока, из которых выделяют поля форм, сравнивают их с эталонными полями форм из базы эталонных полей форм и по результатам сравнения фиксируют наличие и отсутствие в каждом фрагменте информационного потока полей форм, подлежащих выявлению. Этот способ достаточно трудоемок, требует длительного времени на обработку и пригоден лишь в ограниченной области.

Раскрытие изобретения

Таким образом, существует потребность в расширении арсенала технических средств за счет создания сравнительно быстрого и универсального способа, который позволил бы выявлять в каком-либо документе информацию из заданной эталонной формы и который бы не имел недостатков относительно известных решений. Также, способ позволяет детектировать только заполненные эталонные формы, что должно снижать количество ложноположительных срабатываний.

Для решения этой задачи и получения указанного технического результата в настоящем изобретении предложен способ автоматизированного анализа эталонных форм, заключающийся в том, что: преобразуют в заранее заданный формат все информационно-значимые поля эталонных форм с указанием их позиций в каждой форме; сохраняют преобразованные поля эталонных форм на запоминающем устройстве; выявляют поля эталонных форм в электронном файле анализируемого документа; выявляют количество полей эталонных форм в анализируемом документе; формируют список найденных эталонных форм в анализируемом документе; проверяют порядок следования полей из каждой найденной эталонной формы в анализируемом документе для исключения из списка; определяют позицию полей эталонных форм из отобранного списка в анализируемом документе; выявляют текст в анализируемом документе, находящийся между найденными полями; определяют наличие данной эталонной формы в заполненном виде в анализируемом тексте, если между любыми соседними полями выявлен текст; помещают имя текущей формы в список эталонных форм, найденных в анализируемом тексте.

Особенность способа по настоящему изобретению состоит в том, что для каждой эталонной формы задают условие, определяющее необходимость эталонной формы быть заполненной для ее детектирования на этапе формирования эталонных форм.

Еще одной особенностью по настоящему изобретению является то, что если на этапе проверки порядка следования полей для текущей эталонной формы достаточно только присутствия ее в анализируемом тексте и поля расположены в заданном порядке, то имя текущей эталонной формы помещают в список эталонных форм, выявленных в анализируемом тексте, и анализ для данной формы не продолжается.

Еще одной особенностью по настоящему изобретению является то, что исключают «стоп-слова» в анализируемом документе.

Краткое описание чертежей

На Фиг.1 представлен пример эталонной формы, к которой применяется способ по настоящему изобретению.

Подробное описание изобретения

Настоящее изобретение может быть реализовано в любой вычислительной системе, например в персональном компьютере, на сервере и т.п.

Способ автоматизированного анализа эталонных форм по настоящему изобретению предназначен для осуществления защиты от утечек информации, хранящейся в заполненных формах, например анкетах сотрудников, содержащих личную информацию. Анализ производится в несколько этапов. Цель каждого этапа сузить список эталонных форм, которыми может являться анализируемый текст.

На первом этапе необходимо подготовить эталонные данные. Преобразуют в заранее заданный формат все информационно-значимые поля эталонных форм с указанием их позиций в каждой форме.

К эталонным данным в данном изобретении можно отнести следующую информацию:

1. Непосредственно форму с незаполненными полями.

2. Идентификатор формы (название).

3. Параметры чувствительности алгоритма.

Непосредственно эталонные данные, относящиеся к эталонной форме, готовят следующим образом:

1) каждое поле формы разбивается на слова либо числа (разделителем считаются все символы кроме букв и цифр);

2) из получившегося списка удаляются «стоп-слова»;

3) для каждого выделенного слова снимается HASH;

4) для полученных HASH значений записывается местоположение полей, в которых они встречаются (имя эталонной формы, номер поля).

«Стоп-слова» - это слова, не несущие какой-либо самостоятельной смысловой нагрузки (см. http://ru.wikipedia.org/wiki/стоп-слова).

HASH представляет собой число фиксированной длины, которое ставится в соответствие данным произвольной длины таким образом, чтобы вероятность появления различных данных с одинаковым хешем стремилась к нулю, а восстановить данные по их хешу было как можно труднее (см. http://ru.wiktionary.org/wiki/хэш).

Преобразованные поля эталонной формы, а также параметры чувствительности сохраняют на запоминающем устройстве. В совокупности эти данные образуют цифровой отпечаток эталонной формы.

Далее перед началом автоматизированного анализа эталонных форм цифровые отпечатки эталонных форм загружаются в память. Согласно требованиям безопасности, тексты эталонных форм не сохраняются, что позволяет предотвратить их несанкционированное чтение.

Следующий этап настоящего изобретения заключается в том, что выявляют поля эталонных форм в электронном файле анализируемого документа, таким образом происходит анализ того, содержит ли электронный документ часть эталонной формы или нет. Выявляют степень соответствия между эталонными формами и анализируемым документом. Таким образом, выявляют количество полей эталонных форм в анализируемом документе.

Для этого составляют список найденных полей эталонных форм. Основной целью данного этапа является создание списка эталонных форм, данные из которых присутствуют в анализируемом документе. Один из вариантов данного этапа выявления количества полей эталонных форм в анализируемом документе происходит следующим образом.

Этап создания данного списка состоит из нескольких шагов:

1) входной текст разбивается на слова и числа (разделителем считаются все символы кроме букв и цифр), формируется вектор;

2) из полученного вектора удаляются «стоп-слова» и дубликаты, таким образом, получается вектор, состоящий из уникальных слов и чисел, принадлежащих анализируемому документу;

3) от каждого элемента в векторе считается HASH сумма;

4) каждый HASH из полученного вектора ищется во внутреннем хранилище эталонных форм;

5) каждое поле, где найден текущий HASH, помечается;

6) как только становится ясно, что все HASH значения в каком-либо поле формы присутствуют в анализируемом тексте, то соответствующий счетчик для текущей эталонной выгрузки увеличивается;

7) после того как все HASH входного вектора обработаны, формируется список из эталонных форм, счетчики полей которых больше 0.

В результате формируют список эталонных форм, поля которых присутствуют в анализируемом тексте. Далее весь анализ производится только с этими эталонами. Если список эталонов не пустой, то для последующих этапов анализа анализируемый текст разбивается на слова, и от каждого слова снимается HASH, важно не потерять порядок слов. Дальнейшим этапом способа проверяют порядок следования полей из каждой найденной эталонной формы в анализируемом документе, и если порядок полей не совпадает с конкретной эталонной формой, то найденная эталонная форма исключается из списка и не участвует в дальнейшем анализе. Определяют позицию полей эталонной формы в анализируемом документе. Выявляют текст в анализируемом документе, находящийся между найденными полями. Если между любыми соседними полями найден текст, то определяют наличие данной эталонной формы в заполненном виде в анализируемом тексте.

Помещают имя текущей формы в список форм, найденных в анализируемом тексте.

В частном варианте осуществления настоящего изобретения для каждой эталонной формы задают условие, определяющее необходимость эталонной формы быть заполненной для ее детектирования на этапе формирования эталонных форм. И если на этапе проверки порядка следования полей для текущей эталонной формы достаточно только присутствия ее в анализируемом тексте и поля расположены в заданном порядке, то имя текущей эталонной формы помещают в список эталонных форм, выявленных в анализируемом тексте, и анализ для данной формы не продолжается.

Еще в одном из частных случаев осуществления настоящего изобретения исключают «стоп-слова» эталонных формах и в анализируемом документе. Таким образом, способ автоматизированного анализа эталонных форм по настоящему изобретению обеспечивает расширение арсенала технических средств и позволяет сравнительно быстро выявлять в каком-либо документе присутствие данных из эталонных форм, а также определять, заполнены ли данные формы, преодолевая тем самым недостатки известных решений в виде ограниченности их применения.

В заключение следует отметить, что приведенные в описании сведения являются примерами, которые не ограничивают объем настоящего изобретения, определенного формулой. Специалисту в данной области становится понятным, что могут существовать и другие варианты осуществления настоящего изобретения, согласующиеся с сущностью и объемом настоящего изобретения.

Claims

1. Способ автоматизированного анализа эталонных форм документа, заключающийся в том, что:
- преобразуют в заранее заданный формат все информационно-значимые поля эталонных форм документа с указанием их позиций в каждой форме;
- сохраняют преобразованные поля эталонных форм документа на запоминающем устройстве;
- выявляют поля эталонных форм документа в электронном файле анализируемого документа;
- выявляют количество полей эталонных форм документа в анализируемом документе;
- осуществляют поиск эталонных форм в анализируемом документе;
- формируют список найденных эталонных форм документа в анализируемом документе;
- проверяют порядок следования полей из каждой найденной эталонной формы документа в анализируемом документе, если в конкретной эталонной форме порядок не совпадает, ее удаляют из списка найденных;
- определяют позицию полей эталонных форм документа из отобранного списка в анализируемом документе;
- выявляют текст в анализируемом документе, находящийся между найденными полями;
- определяют наличие данной эталонной формы документа в заполненном виде в анализируемом тексте, если между любыми соседними полями выявлен текст;
- помещают имя текущей формы в список эталонных форм документа, найденных в анализируемом тексте.

2. Способ по п. 1, в котором:
- для каждой эталонной формы документа задают условие, определяющее необходимость эталонной формы документа быть заполненной для ее детектирования на этапе формирования эталонных форм документа;
- если на этапе проверки порядка следования полей для текущей эталонной формы документа достаточно только присутствия ее в анализируемом тексте и поля расположены в заданном порядке, то имя текущей эталонной формы документа помещают в список эталонных форм документа, выявленных в анализируемом тексте.

3. Способ по п. 1, в котором исключают «стоп-слова» в эталонных формах и в анализируемом документе.