RU2395117C2 - Method and system for analysis of printed document for availability of confidential information - Google Patents

Method and system for analysis of printed document for availability of confidential information Download PDF

Info

Publication number
RU2395117C2
RU2395117C2 RU2008130279/09A RU2008130279A RU2395117C2 RU 2395117 C2 RU2395117 C2 RU 2395117C2 RU 2008130279/09 A RU2008130279/09 A RU 2008130279/09A RU 2008130279 A RU2008130279 A RU 2008130279A RU 2395117 C2 RU2395117 C2 RU 2395117C2
Authority
RU
Russia
Prior art keywords
document
server
image
text
confidential information
Prior art date
Application number
RU2008130279/09A
Other languages
Russian (ru)
Other versions
RU2008130279A (en
Inventor
Роман Геннадьевич Варлыгин (RU)
Роман Геннадьевич Варлыгин
Павел Дмитриевич Гражданкин (RU)
Павел Дмитриевич Гражданкин
Максим Васильевич Тугай (RU)
Максим Васильевич Тугай
Original Assignee
Общество с ограниченной ответственностью "Фирма "АРТИ"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество с ограниченной ответственностью "Фирма "АРТИ" filed Critical Общество с ограниченной ответственностью "Фирма "АРТИ"
Priority to RU2008130279/09A priority Critical patent/RU2395117C2/en
Publication of RU2008130279A publication Critical patent/RU2008130279A/en
Application granted granted Critical
Publication of RU2395117C2 publication Critical patent/RU2395117C2/en

Links

Landscapes

  • Accessory Devices And Overall Control Thereof (AREA)
  • Storage Device Security (AREA)

Abstract

FIELD: information technologies. ^ SUBSTANCE: in invention it is automatically detected, which is the category of printed document, and unauthorised printing is prevented. In method printed document is analysed for availability of confidential information, system comprises user device, printing device, server of printing control service, converter unit, server of databases, file storage, unit of recognition, server of context analysis and alarm service. ^ EFFECT: provision of information safety, detection of document flows containing confidential information and requiring high extent of control. ^ 2 cl

Description

Изобретение относится к области сетей передачи данных, а более конкретно - к системе и способу управления документооборотом и процессами печати.The invention relates to the field of data transmission networks, and more specifically to a system and method for managing document management and printing processes.

Известна система учета предоставления почтово-банковских услуг, обеспечивающая автоматическое зачисление пенсий на текущие пенсионные счета, позволяющая ввести электронный документооборот, автоматизацию взаиморасчетов, отчетности и контроля (патент RU 2100841 G06F 17/60, 1997 г.).A well-known accounting system for the provision of postal banking services, providing automatic transfer of pensions to current retirement accounts, allows you to enter electronic document management, automation of mutual settlements, reporting and control (patent RU 2100841 G06F 17/60, 1997).

Также известно устройство для подсчета документов, содержащее направляющую планку, определяющую направляющую поверхность транспортировки документов, правый, центральный и левый датчики, генерирующие соответствующие сигналы в ответ на наличие части документа в соответствующей части направляющей поверхности, цифровые устройства для взятия выборок сигнала левого или правого, или центрального датчиков с получением их соответствующих репрезентативных значений и программируемый контроллер, соединенный с цифровым устройством взятия выборок и запрограммированный на получение результата подсчета документов, управляющих сигналов для управления работой устройства и сигналов состояния для контроля работы устройства в ответ на соответствующие репрезентативные значения (патент RU 2144697 G07D7/04, 2000 г.).It is also known a device for counting documents containing a guide bar defining a guide surface for transporting documents, right, center and left sensors generating appropriate signals in response to the presence of a part of the document in the corresponding part of the guide surface, digital devices for sampling the signal left or right, or central sensors with obtaining their corresponding representative values and a programmable controller connected to a digital device Orok and programmed to receive the count of documents, control signals for controlling operation of the apparatus, and status signals for monitoring the operation in response to the respective representative values (patent RU 2144697 G07D7 / 04, 2000 YG).

Описанные аналоги сложны и не адаптированы к решению задачи определения среднестатистических объемов печати и копирования при наличии нескольких пользователей.The described analogues are complex and not adapted to solve the problem of determining the average print and copy volumes in the presence of several users.

Наиболее близким аналогом предлагаемого изобретения является система управления документооборотом, содержащая, по меньшей мере, один сервер, подключенный к сети передачи данных, причем к упомянутой сети передачи данных подключено, по меньшей мере, одно пользовательское устройство, при этом упомянутый сервер соединен, по меньшей мере, с двумя периферийными устройствами, причем упомянутый сервер соединен, по меньшей мере, с одним устройством вычисления объемов печати и копирования, по меньшей мере, с одним устройством вычисления объемов печати и копирования по каждому периферийному устройству, по меньшей мере, с одним датчиком технического износа периферийного устройства, причем на накопителе данных сервера содержится информация о себестоимости одного отпечатанного или откопированного листа по каждому из, по меньшей мере, двух периферийных устройств (см патент RU 59857 U1, G06F 12/00, 2006 г.).The closest analogue of the present invention is a document management system containing at least one server connected to a data network, and at least one user device is connected to said data network, while said server is connected to at least with two peripheral devices, said server being connected to at least one device for calculating print volumes and copying at least one device for calculating volumes printing and copying for each peripheral device with at least one sensor of technical wear of the peripheral device, and the server data storage device contains information about the cost of one printed or copied sheet for each of at least two peripheral devices (see patent RU 59857 U1, G06F 12/00, 2006).

К недостаткам наиболее близкого аналога данного изобретения следует отнести невозможность определения наличия несанкционированной печати.The disadvantages of the closest analogue of the present invention include the inability to determine the presence of unauthorized printing.

Обеспечение оповещения и предотвращения несанкционированной печати - одна из целей предлагаемого изобретения. Таким образом, целью предлагаемого изобретения является повышение информационной безопасности.Providing alerts and preventing unauthorized printing is one of the objectives of the invention. Thus, the aim of the invention is to increase information security.

Утечка данных через печатно-копировальное оборудование с каждым годом становится все более опасной угрозой информационной безопасности компании.Data leakage through printing and copying equipment is becoming an increasingly dangerous threat to the company's information security every year.

Как показывает статистика, расходы на организацию бумажного документооборота достигают 10% от общих затрат предприятия: это не только прямые (стоимость расходных материалов, запчастей, обслуживания техники), но и косвенные затраты (время сотрудников на производство документов, время простоя оборудования, неликвидные остатки этих материалов на складах и т.д.).According to statistics, the costs of organizing paper workflows reach 10% of the total costs of the enterprise: these are not only direct (the cost of consumables, spare parts, maintenance of equipment), but also indirect costs (time of employees to produce documents, downtime of equipment, illiquid balances of these materials in warehouses, etc.).

Вышеперечисленные проблемы особенно актуальны для крупных предприятий с большими объемами печати.The above problems are especially relevant for large enterprises with large print volumes.

Наиболее эффективным средством по защите от утечек является использование в системах, обеспечивающих документооборот, комплексных информационных продуктов, одно из таких - предлагаемое изобретение -АСУПиМ (Автоматизированная система управления печатью и мониторинга), являющаяся ядром КСУППиК (комплексная система управления процессами печати и копирования.The most effective means of leakage protection is the use of integrated information products in document management systems, one of which is the proposed invention -ASUPiM (Automated Print Management and Monitoring System), which is the core of KSUPPiK (an integrated system for managing printing and copying processes).

Назначением системы является контроль содержимого отпечатанного документа на предмет наличия в нем конфиденциальной информации непосредственно сразу после факта печати, определение прав пользователей на печать данной информации и оповещение сотрудников отдела безопасности в случае обнаружения несанкционированного сеанса печати.The purpose of the system is to control the contents of the printed document for the presence of confidential information immediately after the fact of printing, to determine the rights of users to print this information and to notify the security department if an unauthorized print session is detected.

Таким образом, задачами предлагаемого изобретения являются:Thus, the objectives of the invention are:

1. повышение информационной безопасности предприятия;1. improving the information security of the enterprise;

2. создание централизованной системы мониторинга процессов печати в организации.2. creating a centralized system for monitoring printing processes in the organization.

Поставленные задачи решаются при помощи предлагаемой комплексной системы управления процессами печати (КСОПП), которая позволяет осуществлять:The tasks are solved using the proposed integrated system for managing printing processes (KSOPP), which allows you to:

1. контроль процессов печати документов;1. control of document printing processes;

2. управление процессами печати;2. management of printing processes;

3. управление парком копировально-принтерного оборудования,3. fleet management of copy and printer equipment,

4. полное техническое обслуживание копировально-принтерного4. full maintenance of copy and printer

оборудования.equipment.

Техническими результатами предлагаемого управления процессами печати являются:The technical results of the proposed management of printing processes are:

1. обеспечение информационной безопасности;1. ensuring information security;

2. определение документопотоков, содержащих конфиденциальную информацию и требующих повышенной степени контроля;2. determination of document flows containing confidential information and requiring an increased degree of control;

3. оповещение системой службы безопасности о наличии факта несанкционированной печати;3. notification by the security service system of the presence of an unauthorized seal;

4. определение в автоматическом режиме, к какой из категорий относится распечатываемый документ;4. automatic determination of which category the printed document belongs to;

5. предотвращение несанкционированной печати. Комплексная система управления процессами печати осуществляет автоматический контроль и оптимизированное управление документооборотом.5. Prevention of unauthorized printing. An integrated printing process management system provides automatic control and optimized document management.

Указанные технические результаты достигаются за счет реализации способа анализа распечатанного документа на наличие в нем конфиденциальной информации, включающего этапы:The indicated technical results are achieved by implementing a method for analyzing a printed document for the presence of confidential information in it, including the steps of:

отправки от пользовательского устройства печатающему устройству команды на выполнение печати документа;sending a command from the user device to the printing device to print a document;

создания файла образа документа;create a document image file;

получения печатающим устройством команды на выполнение печати документа;receipt by the printing device of a command to print a document;

печати документа печатающим устройством, при этом после создания файла образа документа, полученный образ документа:printing the document by the printing device, and after creating the document image file, the resulting image of the document:

отправляют посредством сервера службы контроля печати в блок конвертора;send via the server print control services to the converter unit;

сохраняют информацию о нем в базу данных;save information about him in the database;

с помощью блока конвертора конвертируют образ документа, получая содержащийся в образе текст;using the converter block they convert the image of the document, receiving the text contained in the image;

сохраняют полученный текст в файл как текстовый образ документа;save the received text to a file as a text image of the document;

текстовый образ документа сохраняют в файловом хранилище;the text image of the document is stored in the file storage;

направляют текстовый образ документа на сервер контекстного анализа;send a text image of the document to the context analysis server;

производят загрузку ключевых фраз и их последовательный поиск в текстовом образе документа без учета регистра и морфологии;loading key phrases and their sequential search in the text image of the document without regard to case and morphology;

производят последовательный поиск содержимого текста документа среди всех документов, входящих в шаблоны;perform a sequential search of the contents of the text of the document among all documents included in the templates;

определяют морфологические группы и определяют на их основании вероятности содержания в тексте конфиденциальной информации;determine morphological groups and determine on their basis the probability of the content of confidential information in the text;

в случае обнаружения конфиденциальной информации в упомянутом текстовом образе документа, направляют соответствующее сообщение на службу сигнализации на рабочем месте сотрудника отдела безопасности и фиксируют факт в базе данных.in case of detection of confidential information in the said text image of the document, they send a corresponding message to the alarm service at the workplace of an employee of the security department and record the fact in the database.

Способ анализа распечатанного документа на наличие в нем конфиденциальной информации реализуется системой контекстного анализа на наличие в распечатанном документе конфиденциальной информации, причем система содержит пользовательское устройство, печатающее устройство, сервер службы контроля печати, блок конвертора, сервер баз данных, файловое хранилище, блок распознавания, сервер контекстного анализа и службу сигнализации, причем пользовательское устройство соединено с печатающим устройством и сервером службы контроля печати, соединенным с сервером баз данных и блоком конвертора, соединенным с сервером баз данных, файловым хранилищем и блоком распознавания, соединенным с сервером контекстного анализа, соединенным с файловым хранилищем и службой сигнализации.A method for analyzing a printed document for the presence of confidential information is implemented by a context analysis system for the presence of confidential information in the printed document, the system comprising a user device, a printing device, a print control service server, a converter unit, a database server, file storage, a recognition unit, a server context analysis and signaling service, the user device being connected to a printing device and a print control service server, with of the connections to the database server and the converter unit, connected to the database server, file storage and a detection unit coupled to the context analysis server connected to the file storage service and signaling.

Система работает под управлением специального программного обеспечения.The system is running special software.

Функциональность серверов, блоков и устройств, входящих в состав предлагаемой системы, обеспечивается за счет разработанного программного обеспечения по свидетельствам №2008611915, №2008611916 и №2008611917.The functionality of the servers, blocks and devices that make up the proposed system is ensured by the developed software according to certificates No.2008611915, No.2008611916 and No.2008611917.

Программа по свидетельству №2008611915 «Система мониторинга печатного документооборота» предназначена для мониторинга печатного документооборота; организации и анализа статистики произведенной печати за указанные пользователем периоды; вывода результатов анализа в табличном и графическом видах с возможностью проведения дополнительных операций по агрегированию данных; вывода результатов анализа на печать; подготовки сводного отчета о печати в организации за указанный период.The program according to certificate No.2008611915 "The system for monitoring printed documents" is designed to monitor printed documents; organization and analysis of statistics of the print for the periods specified by the user; outputting analysis results in tabular and graphical forms with the possibility of additional data aggregation operations; printing analysis results; preparation of a summary report on the press in the organization for the specified period.

Программа по свидетельству №2008611916 «Служба мониторинга очередей печати» позволяет осуществлять организацию сбора информации о печатающих устройствах, процессах печати в системе, а также образов распечатанных документов и запись информации в базу данных; осуществлять сбор информации от клиентских служб при организации мониторинга печати.The program according to certificate No.2008611916 “Service for monitoring print queues” allows you to organize the collection of information about printing devices, printing processes in the system, as well as images of printed documents and recording information in a database; collect information from customer services when organizing print monitoring.

Программа по свидетельству №2008611917 «Сервер службы контекстного анализа» предназначена для полнотекстового поиска и контекстного анализа данных в соответствии с заданными параметрами искомой информации и пользовательскими правами на печать с использованием функций поиска файлов на платформе Searchlnform, а также организации связи клиентских приложений системы на основе протоколов TCP и UDP.The program according to certificate No.2008611917 “Context analysis service server” is intended for full-text search and contextual analysis of data in accordance with the specified parameters of the information sought and user rights to print using file search functions on the Searchlnform platform, as well as organizing communication of client applications of the system based on protocols TCP and UDP.

Система построена на основе архитектуры клиент-сервер. Разграничение прав доступа к печати осуществляется с использованием категорий документов. Каждая категория представляет собой набор шаблонов документов, объединенных общей тематической направленностью. Для каждого пользователя определяется набор категорий, разрешенных к печати.The system is based on client-server architecture. Differentiation of access rights to the press is carried out using categories of documents. Each category is a set of document templates, united by a common thematic focus. For each user, a set of categories is allowed for printing.

Работа серверной части основана на функционале SDK Searchlnform. Основной функцией серверной части является оценка в процентном выражении степени схожести (релевантности) содержимого данного распечатанного документа с содержимым шаблонных документов каждой из категорий.The server side is based on the Searchlnform SDK functionality. The main function of the server part is to evaluate in percentage terms the degree of similarity (relevance) of the contents of this printed document with the contents of the template documents of each category.

Сервер Searchlnform обеспечивает структуризацию разрозненной информации в рамках предприятия и создание системы поиска и дальнейшей обработки документов.Searchlnform server provides for the structuring of disparate information within the enterprise and the creation of a search system and further processing of documents.

Обмен информацией между клиентской и серверной частью осуществляется по стандартному протоколу UDP.Information exchange between the client and server parts is carried out using the standard UDP protocol.

Клиентской частью является служба оповещения (пользовательское устройство), устанавливаемая на рабочем месте работника отдела безопасности и представляющая собой резидентный модуль, который при получении сообщения от серверной части выводит на экран окно сообщения.The client part is the notification service (user device), which is installed at the workplace of an employee of the security department and is a resident module, which, when a message is received from the server part, displays a message window.

Выявление принадлежности распечатанного документа к одной из существующих категорий является ключевым моментам данного этапа анализа. При отсутствии у пользователя прав на печать документов той категории, к которой по результатам анализа принадлежит распечатанный документ, блоком анализа выдается сообщение для отдела безопасности, информирующее о факте несанкционированной печати.Identification of the belonging of the printed document to one of the existing categories is the key points of this stage of analysis. If the user does not have the right to print documents of the category to which the printed document belongs to the analysis, a message is sent to the security department by the analysis unit informing about the fact of unauthorized printing.

При реализации системы использовались: возможности языка С# на платформе Framework.NET 2.0 с использованием ADO.NET для написания рабочего кода программ; возможности языка C++с использованием MFC для написания рабочего кода программы; Microsoft SQL Server 2005 для создания и управления базами данных, используемыми системой; SDK Searchlnform Server (сервер Searchlnform) для непосредственного доступа к функциям, осуществляющим определение степени сходства содержимого печатаемого документа с содержимым заранее созданных текстовых шаблонов.When implementing the system, the following was used: C # language features on the Framework.NET 2.0 platform using ADO.NET to write working code for programs; C ++ language features using MFC for writing program working code; Microsoft SQL Server 2005 for creating and managing the databases used by the system; Searchlnform Server SDK (Searchlnform server) for direct access to functions that determine the degree of similarity between the contents of a printed document and the contents of pre-created text templates.

Взаимодействие клиентских и серверных приложений реализовано на основе сетевых протоколов TCP и UDP.The interaction of client and server applications is implemented based on the TCP and UDP network protocols.

Данная система анализа распечатанного документа на наличие в нем конфиденциальной информации реализует способ анализа распечатанного документа на наличие в нем конфиденциальной информации, осуществляемый следующим образом.This system for analyzing a printed document for the presence of confidential information in it implements a method for analyzing a printed document for the presence of confidential information in it, as follows.

На пользовательском устройстве подается команда на печать документа, при этом образ документа в формате принтера (в случае использования на пользовательском устройстве операционной системы Windows, файл данного образ будет иметь расширение *.spl), на котором будет производиться печать, поступает как на сам принтер, так и на сервер службы контроля печати (блок SpMS). При этом в имени файла содержится дата и время создания образа документа, его размер, идентификатор и формат.A command is issued to the user device to print the document, while the image of the document is in the printer format (if the user uses the Windows operating system, the file of this image will have the extension * .spl), which will be printed on, it will be sent to the printer itself, and to the print control service server (SpMS block). At the same time, the file name contains the date and time the image of the document was created, its size, identifier and format.

Сервер службы контроля печати направляет упомянутый образ документа в формате драйвера принтера на блок преобразования образов документов, одновременно отправляя на сервер баз данных информацию о том, с какого пользовательского устройства был произведен запрос на печать, имя пользователя, отправившего запрос, и его права доступа, имя распечатываемого документа, время создания образа документа в формате драйвера принтера. При этом на сервере баз данных сохраняется вся полученная информация.The print control server sends the document image in the printer driver format to the document image conversion unit, while sending to the database server information about which user device the print request was made to, the name of the user who sent the request, and its access rights, name printed document, the time of creating the image of the document in the format of the printer driver. At the same time, all received information is stored on the database server.

В блоке преобразования образов документов (блок конвертора) упомянутый образ распечатываемого документа в формате драйвера принтера преобразуется в кроссплатформенный формат электронных документов (предпочтительно в Portable Document Format (PDF), созданный компанией Adobe Systems).In the unit for converting document images (converter unit), the image of the printed document in the format of the printer driver is converted to a cross-platform format for electronic documents (preferably the Portable Document Format (PDF) created by Adobe Systems).

Далее, документ, преобразованный в формат PDF, получает новое имя и поступает в файловое хранилище, где сохраняется.Further, the document converted to PDF receives a new name and enters the file storage, where it is saved.

Также документ поступает на блок распознавания, в котором упомянутый документ в формате PDF с содержимым исходного документа в графическом виде преобразуется в файл в формате PDF с содержимым исходного документа в текстовом виде и отправляется на сервер контекстного анализа.The document also enters the recognition unit, in which the aforementioned document in PDF format with the contents of the original document in graphic form is converted into a PDF file with the contents of the original document in text form and sent to the context analysis server.

Сервер контекстного анализа производит сравнение текста, содержащегося в файле, полученном от блока распознавания, с каждым из файлов, входящих в N шаблонов, получая величину совпадения (релевантности), выраженного в процентном отношении. Категория шаблона, документы которого имеют наибольшую релевантность и превышают допустимый уровень, присваивается анализируемому файлу, полученному от блока распознавания.The context analysis server compares the text contained in the file received from the recognition unit with each of the files included in N templates, obtaining the value of coincidence (relevance), expressed as a percentage. The category of the template, the documents of which are most relevant and exceed the acceptable level, is assigned to the analyzed file received from the recognition unit.

Контекстный анализ содержимого текстового образа документа на факт наличия конфиденциальной информации состоит из трех этапов:A contextual analysis of the contents of a text image of a document on the fact of the availability of confidential information consists of three stages:

предварительного этапа, этапа категоризации и этапа кластеризации. Данные этапы реализуются сервером контекстного анализа.preliminary stage, stage of categorization and stage of clustering. These steps are implemented by the context analysis server.

Предварительный этап:Preliminary Stage:

На данном этапе производится загрузка ключевых фраз и их последовательный поиск в тексте документа без учета регистра. Поиск на данном этапе не учитывает морфологию. Наличие в тексте хотя бы одной фразы из списка говорит об однозначной принадлежности документа к ДСП.At this stage, key phrases are downloaded and searched sequentially in the text of the document, not case sensitive. Search at this stage does not take into account morphology. The presence in the text of at least one phrase from the list indicates the unambiguous belonging of the document to the chipboard.

Этап категоризации.Stage of categorization.

На данном этапе производится последовательный поиск содержимого текста документа среди всех документов, входящих в шаблоны, и определяется степень сходства (релевантность) с каждым из них. Затем определяется значение максимальной релевантности среди выборки, из которого вычисляется пороговое значение. Далее вычисляется среднее значение релевантности внутри каждого шаблона. Превышение среднего значения релевантности над пороговым значением говорит о принадлежности документа к категории данного шаблона. Решение об однозначной принадлежности к определенной категории выносится лишь в случае, когда пороговое значение превышено средним значением релевантности одного шаблона. В остальных случаях необходимо проводить этап кластеризации.At this stage, a sequential search is made for the contents of the text of the document among all documents included in the templates, and the degree of similarity (relevance) with each of them is determined. Then, the maximum relevance value is determined among the sample from which the threshold value is calculated. Next, the average relevance value within each template is calculated. Exceeding the average relevance value over the threshold value indicates that the document belongs to the category of this template. The decision on the unambiguous belonging to a certain category is made only in the case when the threshold value is exceeded by the average relevance value of one template. In other cases, it is necessary to carry out the clustering stage.

Этап кластеризации.Clusterization Stage.

На данном этапе производится разбиение текста документа на слова с определением морфологических групп и определение на их основании вероятности содержания в тексте конфиденциальной информации (например, списка фамилий, телефонов, идентификаторов и пр.).At this stage, the text of the document is divided into words with the definition of morphological groups and the determination on their basis of the probability of containing confidential information in the text (for example, a list of names, phones, identifiers, etc.).

Сервер контекстного анализа определяет, имеет ли пользователь право печати документов присвоенной категории и, в случае отсутствия прав, отправляет команду на сервер баз данных для регистрации события несанкционированной печати, а также выдает соответствующее сообщение службе сигнализации, которая является рабочим местом работника отдела безопасности.The context analysis server determines whether the user has the right to print documents of the assigned category and, in the absence of rights, sends a command to the database server to register the event of unauthorized printing, and also issues a corresponding message to the alarm service, which is the workplace of the security department employee.

Данный способ анализа распечатанного документа на наличие в нем конфиденциальной информации может быть реализован с помощью машиночитаемого носителя информации, содержащего программный продукт, который при исполнении на электронно-вычислительной машине осуществляет управление системой управления документооборотом.This method of analyzing a printed document for the presence of confidential information in it can be implemented using a computer-readable storage medium containing a software product that, when executed on an electronic computer, manages a document management system.

Claims (2)

1. Способ анализа распечатанного документа на наличие в нем конфиденциальной информации, заключающийся в том, что:
отправляют с пользовательского устройства печатающему устройству команду на выполнение печати документа;
создают файл образа документа;
получают печатающим устройством команду на выполнение печати документа;
производят печать документа печатающим устройством, отличающийся тем, что дополнительно содержит этапы на которых:
после создания файла образа документа полученный образ документа отправляют посредством сервера службы контроля печати в блок конвертора;
с помощью блока конвертора конвертируют образ документа, получая содержащийся в образе текст;
записывают информацию о файле в базу данных;
сохраняют полученный текст в файле как текстовый образ документа;
текстовый образ документа сохраняют в файловом хранилище;
направляют текстовый образ документа на сервер контекстного анализа;
производят загрузку ключевых фраз и их последовательный поиск в текстовом образе документа без учета регистра и морфологии;
производят последовательный поиск содержимого текста документа среди всех документов, входящих в шаблоны;
определяют морфологические группы и определяют на их основании вероятности содержания в тексте конфиденциальной информации;
в случае обнаружения конфиденциальной информации в упомянутом текстовом образе документа, направляют соответствующее сообщение на службу сигнализации.
1. The method of analysis of the printed document for the presence of confidential information, which consists in the fact that:
send a command from the user device to the printing device to print a document;
create a document image file;
receive a printing device command to print a document;
produce document printing by a printing device, characterized in that it further comprises the steps of:
after creating the image file of the document, the resulting image of the document is sent via the print control service server to the converter unit;
using the converter block they convert the image of the document, receiving the text contained in the image;
write information about the file to the database;
save the received text in a file as a text image of the document;
the text image of the document is stored in the file storage;
send a text image of the document to the context analysis server;
loading key phrases and their sequential search in the text image of the document without regard to case and morphology;
perform a sequential search of the contents of the text of the document among all documents included in the templates;
determine morphological groups and determine on their basis the probability of the content of confidential information in the text;
in case of detection of confidential information in the said text image of the document, send a corresponding message to the alarm service.
2. Система анализа распечатанного документа на наличие в нем конфиденциальной информации, содержащая пользовательское устройство, печатающее устройство, сервер службы контроля печати, блок конвертора, сервер баз данных, файловое хранилище, блок распознавания, сервер контекстного анализа и службу сигнализации, причем пользовательское устройство соединено с печатающим устройством и сервером службы контроля печати, соединенным с сервером баз данных и блоком конвертора, соединенным с сервером баз данных, файловым хранилищем и блоком распознавания, соединенным с сервером контекстного анализа, соединенным с файловым хранилищем и службой сигнализации. 2. A system for analyzing a printed document for confidential information containing a user device, a printing device, a print control server, a converter unit, a database server, a file storage, a recognition unit, a context analysis server and an alarm service, the user device being connected to a printing device and a print control service server connected to a database server and a converter unit connected to a database server, file storage and a distribution unit awareness connected to the context analysis server connected to the file storage and signaling service.
RU2008130279/09A 2008-07-23 2008-07-23 Method and system for analysis of printed document for availability of confidential information RU2395117C2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2008130279/09A RU2395117C2 (en) 2008-07-23 2008-07-23 Method and system for analysis of printed document for availability of confidential information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2008130279/09A RU2395117C2 (en) 2008-07-23 2008-07-23 Method and system for analysis of printed document for availability of confidential information

Publications (2)

Publication Number Publication Date
RU2008130279A RU2008130279A (en) 2010-01-27
RU2395117C2 true RU2395117C2 (en) 2010-07-20

Family

ID=42121698

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2008130279/09A RU2395117C2 (en) 2008-07-23 2008-07-23 Method and system for analysis of printed document for availability of confidential information

Country Status (1)

Country Link
RU (1) RU2395117C2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2474870C1 (en) * 2011-11-18 2013-02-10 Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" Method for automated analysis of text documents
RU2491622C1 (en) * 2012-01-25 2013-08-27 Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" Method of classifying documents by categories
RU2530713C1 (en) * 2013-03-29 2014-10-10 Общество с ограниченной ответственностью "Фирма "АРТИ" Method for monitoring of documents copying process (versions)
RU2549515C2 (en) * 2013-08-29 2015-04-27 Общество с ограниченной ответственностью "Медиалогия" Method of identifying personal data of open sources of unstructured information
RU2684578C2 (en) * 2017-07-17 2019-04-09 Общество с ограниченной ответственностью "Лаборатория ИнфоВотч" Language independent technology of typos correction, with the possibility of verification result

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2474870C1 (en) * 2011-11-18 2013-02-10 Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" Method for automated analysis of text documents
WO2013073999A3 (en) * 2011-11-18 2013-07-25 Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" Method for the automated analysis of text documents
RU2491622C1 (en) * 2012-01-25 2013-08-27 Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" Method of classifying documents by categories
RU2530713C1 (en) * 2013-03-29 2014-10-10 Общество с ограниченной ответственностью "Фирма "АРТИ" Method for monitoring of documents copying process (versions)
RU2549515C2 (en) * 2013-08-29 2015-04-27 Общество с ограниченной ответственностью "Медиалогия" Method of identifying personal data of open sources of unstructured information
RU2684578C2 (en) * 2017-07-17 2019-04-09 Общество с ограниченной ответственностью "Лаборатория ИнфоВотч" Language independent technology of typos correction, with the possibility of verification result

Also Published As

Publication number Publication date
RU2008130279A (en) 2010-01-27

Similar Documents

Publication Publication Date Title
US9146953B1 (en) Method and system to audit physical copy data leakage
RU2395117C2 (en) Method and system for analysis of printed document for availability of confidential information
US20180225775A1 (en) Remote accounting processing method and system
US9167120B2 (en) Document policies for a document processing unit
US11769010B2 (en) Document management workflow for redacted documents
CN108776671A (en) A kind of network public sentiment monitoring system and method
CN102654874A (en) Bill data management method and system
US11030697B2 (en) Secure document exchange portal system with efficient user access
JP2014178907A (en) Information analysis device, information analysis method, information analysis system and program
RU2759210C1 (en) System and method for protecting electronic documents containing confidential information from unauthorised access
CN112732992B (en) Court network judicial check and control system and method for multi-class resource fusion treatment
US20160132276A1 (en) Copyright infringement prevention
US20180232493A1 (en) Case-level review tool for physicians
CN106815605B (en) Data classification method and equipment based on machine learning
CN108011881B (en) Sensitive data slow leakage detection method and system based on self-adaptive sensing
CN112364145A (en) Work order processing method and device, electronic equipment and storage medium
US20160321578A1 (en) System and method for verifying enterprise resource planning data
US10477043B2 (en) Document processing apparatus and non-transitory computer readable medium for keyword extraction decision
CN117555858A (en) Digital archive safe storage and retrieval system
CN111782481A (en) Universal data interface monitoring system and monitoring method
RU2380744C1 (en) Method for document flow control and comprehensive printing process control system
Mohamad et al. Identifying security-related requirements in regulatory documents based on cross-project classification
CN112000301A (en) Method and device for monitoring printed documents
Pantanowitz et al. Informatics applied to cytology
US20140222762A1 (en) Automated document archive for a document processing unit

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20120724