RU2581766C2 - Способ автоматизированного анализа эталонных форм - Google Patents

Способ автоматизированного анализа эталонных форм Download PDF

Info

Publication number
RU2581766C2
RU2581766C2 RU2013140166/08A RU2013140166A RU2581766C2 RU 2581766 C2 RU2581766 C2 RU 2581766C2 RU 2013140166/08 A RU2013140166/08 A RU 2013140166/08A RU 2013140166 A RU2013140166 A RU 2013140166A RU 2581766 C2 RU2581766 C2 RU 2581766C2
Authority
RU
Russia
Prior art keywords
document
fields
forms
analyzed
text
Prior art date
Application number
RU2013140166/08A
Other languages
English (en)
Other versions
RU2013140166A (ru
Inventor
Екатерина Александровна Пшехотская
Сергей Сергеевич Рябов
Original Assignee
Общество с ограниченной ответственностью "Лаборатория ИнфоВотч"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество с ограниченной ответственностью "Лаборатория ИнфоВотч" filed Critical Общество с ограниченной ответственностью "Лаборатория ИнфоВотч"
Priority to RU2013140166/08A priority Critical patent/RU2581766C2/ru
Publication of RU2013140166A publication Critical patent/RU2013140166A/ru
Application granted granted Critical
Publication of RU2581766C2 publication Critical patent/RU2581766C2/ru

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Input (AREA)
  • Machine Translation (AREA)

Abstract

Изобретение относится к средствам автоматизированного анализа текстовых документов. Технический результат заключается в повышении точности определения наличия в документах конфиденциальной информации. Преобразуют в заранее заданный формат все информационно-значимые поля эталонных форм документа с указанием их позиций в каждой форме. Выявляют поля эталонных форм документа в электронном файле анализируемого документа. Выявляют количество полей эталонных форм документа в анализируемом документе. Осуществляют поиск эталонных форм в анализируемом документе. Формируют список найденных эталонных форм документа в анализируемом документе. Проверяют порядок следования полей из каждой найденной эталонной формы документа в анализируемом документе, если в конкретной эталонной форме порядок не совпадает, ее удаляют из списка найденных. Определяют позицию полей эталонных форм документа из отобранного списка в анализируемом документе. Выявляют текст в анализируемом документе, находящийся между найденными полями. Определяют наличие данной эталонной формы документа в заполненном виде в анализируемом тексте, если между любыми соседними полями выявлен текст. Помещают имя текущей формы в список эталонных форм документа, найденных в анализируемом тексте. 2 з.п. ф-лы, 1 ил.

Description

Область техники, к которой относится изобретение
Настоящее изобретение относится к автоматизированному анализу эталонных форм и может быть использовано при разработке новых и совершенствовании существующих систем проверки текстовых документов на наличие в них частей, принадлежащих к заданной эталонной форме. К эталонным формам можно отнести анкеты, платежные формы, формы заявлений.
Уровень техники
В настоящее время весьма остро стоит проблема так называемого перехвата данных. Такая проблема может встретиться в случае отслеживания документов, проходящих по сети компании, на предмет наличия в них конфиденциальной информации.
В настоящее время известно несколько систем или способов, позволяющих решить эту проблему.
Например, в патенте РФ №2282889 (опубл. 27.08.2006 г.), который можно считать ближайшим аналогом настоящего изобретения, раскрыт способ обработки информации для обнаружения полей формы в информационных потоках, где предварительно формируют базу эталонных полей форм, подлежащих выявлению в информационном потоке, принимают информационный поток, последовательно выделяют и запоминают фрагменты принимаемого информационного потока, из которых выделяют поля форм, сравнивают их с эталонными полями форм из базы эталонных полей форм и по результатам сравнения фиксируют наличие и отсутствие в каждом фрагменте информационного потока полей форм, подлежащих выявлению. Этот способ достаточно трудоемок, требует длительного времени на обработку и пригоден лишь в ограниченной области.
Раскрытие изобретения
Таким образом, существует потребность в расширении арсенала технических средств за счет создания сравнительно быстрого и универсального способа, который позволил бы выявлять в каком-либо документе информацию из заданной эталонной формы и который бы не имел недостатков относительно известных решений. Также, способ позволяет детектировать только заполненные эталонные формы, что должно снижать количество ложноположительных срабатываний.
Для решения этой задачи и получения указанного технического результата в настоящем изобретении предложен способ автоматизированного анализа эталонных форм, заключающийся в том, что: преобразуют в заранее заданный формат все информационно-значимые поля эталонных форм с указанием их позиций в каждой форме; сохраняют преобразованные поля эталонных форм на запоминающем устройстве; выявляют поля эталонных форм в электронном файле анализируемого документа; выявляют количество полей эталонных форм в анализируемом документе; формируют список найденных эталонных форм в анализируемом документе; проверяют порядок следования полей из каждой найденной эталонной формы в анализируемом документе для исключения из списка; определяют позицию полей эталонных форм из отобранного списка в анализируемом документе; выявляют текст в анализируемом документе, находящийся между найденными полями; определяют наличие данной эталонной формы в заполненном виде в анализируемом тексте, если между любыми соседними полями выявлен текст; помещают имя текущей формы в список эталонных форм, найденных в анализируемом тексте.
Особенность способа по настоящему изобретению состоит в том, что для каждой эталонной формы задают условие, определяющее необходимость эталонной формы быть заполненной для ее детектирования на этапе формирования эталонных форм.
Еще одной особенностью по настоящему изобретению является то, что если на этапе проверки порядка следования полей для текущей эталонной формы достаточно только присутствия ее в анализируемом тексте и поля расположены в заданном порядке, то имя текущей эталонной формы помещают в список эталонных форм, выявленных в анализируемом тексте, и анализ для данной формы не продолжается.
Еще одной особенностью по настоящему изобретению является то, что исключают «стоп-слова» в анализируемом документе.
Краткое описание чертежей
На Фиг.1 представлен пример эталонной формы, к которой применяется способ по настоящему изобретению.
Подробное описание изобретения
Настоящее изобретение может быть реализовано в любой вычислительной системе, например в персональном компьютере, на сервере и т.п.
Способ автоматизированного анализа эталонных форм по настоящему изобретению предназначен для осуществления защиты от утечек информации, хранящейся в заполненных формах, например анкетах сотрудников, содержащих личную информацию. Анализ производится в несколько этапов. Цель каждого этапа сузить список эталонных форм, которыми может являться анализируемый текст.
На первом этапе необходимо подготовить эталонные данные. Преобразуют в заранее заданный формат все информационно-значимые поля эталонных форм с указанием их позиций в каждой форме.
К эталонным данным в данном изобретении можно отнести следующую информацию:
1. Непосредственно форму с незаполненными полями.
2. Идентификатор формы (название).
3. Параметры чувствительности алгоритма.
Непосредственно эталонные данные, относящиеся к эталонной форме, готовят следующим образом:
1) каждое поле формы разбивается на слова либо числа (разделителем считаются все символы кроме букв и цифр);
2) из получившегося списка удаляются «стоп-слова»;
3) для каждого выделенного слова снимается HASH;
4) для полученных HASH значений записывается местоположение полей, в которых они встречаются (имя эталонной формы, номер поля).
«Стоп-слова» - это слова, не несущие какой-либо самостоятельной смысловой нагрузки (см. http://ru.wikipedia.org/wiki/стоп-слова).
HASH представляет собой число фиксированной длины, которое ставится в соответствие данным произвольной длины таким образом, чтобы вероятность появления различных данных с одинаковым хешем стремилась к нулю, а восстановить данные по их хешу было как можно труднее (см. http://ru.wiktionary.org/wiki/хэш).
Преобразованные поля эталонной формы, а также параметры чувствительности сохраняют на запоминающем устройстве. В совокупности эти данные образуют цифровой отпечаток эталонной формы.
Далее перед началом автоматизированного анализа эталонных форм цифровые отпечатки эталонных форм загружаются в память. Согласно требованиям безопасности, тексты эталонных форм не сохраняются, что позволяет предотвратить их несанкционированное чтение.
Следующий этап настоящего изобретения заключается в том, что выявляют поля эталонных форм в электронном файле анализируемого документа, таким образом происходит анализ того, содержит ли электронный документ часть эталонной формы или нет. Выявляют степень соответствия между эталонными формами и анализируемым документом. Таким образом, выявляют количество полей эталонных форм в анализируемом документе.
Для этого составляют список найденных полей эталонных форм. Основной целью данного этапа является создание списка эталонных форм, данные из которых присутствуют в анализируемом документе. Один из вариантов данного этапа выявления количества полей эталонных форм в анализируемом документе происходит следующим образом.
Этап создания данного списка состоит из нескольких шагов:
1) входной текст разбивается на слова и числа (разделителем считаются все символы кроме букв и цифр), формируется вектор;
2) из полученного вектора удаляются «стоп-слова» и дубликаты, таким образом, получается вектор, состоящий из уникальных слов и чисел, принадлежащих анализируемому документу;
3) от каждого элемента в векторе считается HASH сумма;
4) каждый HASH из полученного вектора ищется во внутреннем хранилище эталонных форм;
5) каждое поле, где найден текущий HASH, помечается;
6) как только становится ясно, что все HASH значения в каком-либо поле формы присутствуют в анализируемом тексте, то соответствующий счетчик для текущей эталонной выгрузки увеличивается;
7) после того как все HASH входного вектора обработаны, формируется список из эталонных форм, счетчики полей которых больше 0.
В результате формируют список эталонных форм, поля которых присутствуют в анализируемом тексте. Далее весь анализ производится только с этими эталонами. Если список эталонов не пустой, то для последующих этапов анализа анализируемый текст разбивается на слова, и от каждого слова снимается HASH, важно не потерять порядок слов. Дальнейшим этапом способа проверяют порядок следования полей из каждой найденной эталонной формы в анализируемом документе, и если порядок полей не совпадает с конкретной эталонной формой, то найденная эталонная форма исключается из списка и не участвует в дальнейшем анализе. Определяют позицию полей эталонной формы в анализируемом документе. Выявляют текст в анализируемом документе, находящийся между найденными полями. Если между любыми соседними полями найден текст, то определяют наличие данной эталонной формы в заполненном виде в анализируемом тексте.
Помещают имя текущей формы в список форм, найденных в анализируемом тексте.
В частном варианте осуществления настоящего изобретения для каждой эталонной формы задают условие, определяющее необходимость эталонной формы быть заполненной для ее детектирования на этапе формирования эталонных форм. И если на этапе проверки порядка следования полей для текущей эталонной формы достаточно только присутствия ее в анализируемом тексте и поля расположены в заданном порядке, то имя текущей эталонной формы помещают в список эталонных форм, выявленных в анализируемом тексте, и анализ для данной формы не продолжается.
Еще в одном из частных случаев осуществления настоящего изобретения исключают «стоп-слова» эталонных формах и в анализируемом документе. Таким образом, способ автоматизированного анализа эталонных форм по настоящему изобретению обеспечивает расширение арсенала технических средств и позволяет сравнительно быстро выявлять в каком-либо документе присутствие данных из эталонных форм, а также определять, заполнены ли данные формы, преодолевая тем самым недостатки известных решений в виде ограниченности их применения.
В заключение следует отметить, что приведенные в описании сведения являются примерами, которые не ограничивают объем настоящего изобретения, определенного формулой. Специалисту в данной области становится понятным, что могут существовать и другие варианты осуществления настоящего изобретения, согласующиеся с сущностью и объемом настоящего изобретения.

Claims (3)

1. Способ автоматизированного анализа эталонных форм документа, заключающийся в том, что:
- преобразуют в заранее заданный формат все информационно-значимые поля эталонных форм документа с указанием их позиций в каждой форме;
- сохраняют преобразованные поля эталонных форм документа на запоминающем устройстве;
- выявляют поля эталонных форм документа в электронном файле анализируемого документа;
- выявляют количество полей эталонных форм документа в анализируемом документе;
- осуществляют поиск эталонных форм в анализируемом документе;
- формируют список найденных эталонных форм документа в анализируемом документе;
- проверяют порядок следования полей из каждой найденной эталонной формы документа в анализируемом документе, если в конкретной эталонной форме порядок не совпадает, ее удаляют из списка найденных;
- определяют позицию полей эталонных форм документа из отобранного списка в анализируемом документе;
- выявляют текст в анализируемом документе, находящийся между найденными полями;
- определяют наличие данной эталонной формы документа в заполненном виде в анализируемом тексте, если между любыми соседними полями выявлен текст;
- помещают имя текущей формы в список эталонных форм документа, найденных в анализируемом тексте.
2. Способ по п. 1, в котором:
- для каждой эталонной формы документа задают условие, определяющее необходимость эталонной формы документа быть заполненной для ее детектирования на этапе формирования эталонных форм документа;
- если на этапе проверки порядка следования полей для текущей эталонной формы документа достаточно только присутствия ее в анализируемом тексте и поля расположены в заданном порядке, то имя текущей эталонной формы документа помещают в список эталонных форм документа, выявленных в анализируемом тексте.
3. Способ по п. 1, в котором исключают «стоп-слова» в эталонных формах и в анализируемом документе.
RU2013140166/08A 2013-08-30 2013-08-30 Способ автоматизированного анализа эталонных форм RU2581766C2 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2013140166/08A RU2581766C2 (ru) 2013-08-30 2013-08-30 Способ автоматизированного анализа эталонных форм

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2013140166/08A RU2581766C2 (ru) 2013-08-30 2013-08-30 Способ автоматизированного анализа эталонных форм

Publications (2)

Publication Number Publication Date
RU2013140166A RU2013140166A (ru) 2015-03-10
RU2581766C2 true RU2581766C2 (ru) 2016-04-20

Family

ID=53279615

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2013140166/08A RU2581766C2 (ru) 2013-08-30 2013-08-30 Способ автоматизированного анализа эталонных форм

Country Status (1)

Country Link
RU (1) RU2581766C2 (ru)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2282889C1 (ru) * 2005-01-31 2006-08-27 Военная академия связи Способ обработки информации для обнаружения идентификационных признаков в информационных потоках
EP1748365A1 (en) * 2005-07-27 2007-01-31 Hewlett-Packard Development Company, L.P. Document Template Generation
US7562088B2 (en) * 2006-12-27 2009-07-14 Sap Ag Structure extraction from unstructured documents

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2282889C1 (ru) * 2005-01-31 2006-08-27 Военная академия связи Способ обработки информации для обнаружения идентификационных признаков в информационных потоках
EP1748365A1 (en) * 2005-07-27 2007-01-31 Hewlett-Packard Development Company, L.P. Document Template Generation
US7562088B2 (en) * 2006-12-27 2009-07-14 Sap Ag Structure extraction from unstructured documents

Also Published As

Publication number Publication date
RU2013140166A (ru) 2015-03-10

Similar Documents

Publication Publication Date Title
CN106446816B (zh) 人脸识别方法及装置
CN108985057B (zh) 一种webshell检测方法及相关设备
CN106815207B (zh) 用于法律裁判文书的信息处理方法及装置
US8875303B2 (en) Detecting pirated applications
US20190188729A1 (en) System and method for detecting counterfeit product based on deep learning
CN111881455B (zh) 一种固件安全分析的方法及装置
CN110162750A (zh) 文本相似度检测方法、电子设备及计算机可读存储介质
CN111159697B (zh) 一种密钥检测方法、装置及电子设备
CN105718795B (zh) Linux下基于特征码的恶意代码取证方法及系统
WO2019148712A1 (zh) 钓鱼网站检测方法、装置、计算机设备和存储介质
CN111988341B (zh) 数据处理方法、装置、计算机系统和存储介质
CN104021179B (zh) 一种大数据集下相似性数据的快速识别算法
WO2020135247A1 (zh) 法律文书解析方法及装置
CN113254935A (zh) 恶意文件识别方法、装置及存储介质
CN106598997B (zh) 一种计算文本主题归属度的方法及装置
US20120197889A1 (en) Information matching apparatus, information matching method, and computer readable storage medium having stored information matching program
CN110929110B (zh) 一种电子文档检测方法、装置、设备及存储介质
KR101724302B1 (ko) 특허분쟁예보장치 및 그 방법
CN115982388B (zh) 案件质控图谱建立、案件文书质检方法、设备及存储介质
CN115437930B (zh) 网页应用指纹信息的识别方法及相关设备
RU2581766C2 (ru) Способ автоматизированного анализа эталонных форм
CN116451175A (zh) 一种多模态数据处理方法、装置、电子设备及存储介质
CN110598115A (zh) 一种基于人工智能多引擎的敏感网页识别方法及系统
US20080140741A1 (en) method for using the fundamental homotopy group in assessing the similarity of sets of data
CN115310087A (zh) 一种基于抽象语法树的网站后门检测方法和系统