RU2790938C1 - Method and system for protecting information from leakage when printing documents with implementation of digital marks - Google Patents

Method and system for protecting information from leakage when printing documents with implementation of digital marks Download PDF

Info

Publication number
RU2790938C1
RU2790938C1 RU2022106206A RU2022106206A RU2790938C1 RU 2790938 C1 RU2790938 C1 RU 2790938C1 RU 2022106206 A RU2022106206 A RU 2022106206A RU 2022106206 A RU2022106206 A RU 2022106206A RU 2790938 C1 RU2790938 C1 RU 2790938C1
Authority
RU
Russia
Prior art keywords
uid
digital
document
user
processor
Prior art date
Application number
RU2022106206A
Other languages
Russian (ru)
Inventor
Михаил Артурович Анистратенко
Александр Артурович Анистратенко
Иван Александрович Оболенский
Дмитрий Алексеевич Борисов
Валентин Валерьевич Сысоев
Original Assignee
Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк)
Filing date
Publication date
Application filed by Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) filed Critical Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк)
Priority to PCT/RU2022/000383 priority Critical patent/WO2023172162A1/en
Application granted granted Critical
Publication of RU2790938C1 publication Critical patent/RU2790938C1/en

Links

Images

Abstract

FIELD: information security.
SUBSTANCE: effect is achieved by a method of encoding information to protect it from leaks when printing documents, in which information is received on the user's computer device about printing a digital document containing text, while the computer device is associated with a unique identifier (UID) of the user; the letters contained in the digital document are recognized before the digital document is sent to print; the user’s UID is encoded into a set of digital marks located in the appropriate neighbourhoods on the contours of the letters and/or near the contours of the letters, the UID is encoded on each page of the document; transmitting the digital document to print with the encoded UID of the user.
EFFECT: increased efficiency of data protection against leakage due to the introduction of digital labels into the document, encoding a unique user identifier for its subsequent identification when analysing printed documents, increasing the reliability of information protection.
9 cl, 7 dwg, 10 tbl

Description

ОБЛАСТЬ ТЕХНИКИFIELD OF TECHNOLOGY

[0001] Заявленное решение относится к области защиты информации, в частности к решениям для предотвращения утечки информации при печати документов.[0001] The claimed solution relates to the field of information security, in particular to solutions for preventing information leakage when printing documents.

УРОВЕНЬ ТЕХНИКИBACKGROUND OF THE INVENTION

[0002] Технологии предотвращения утечек (англ. Data Leak Prevention, DLP) представляют собой технологии предотвращения утечек конфиденциальной информации из информационной системы вовне, а также технические устройства (программные или программно-аппаратные) для такого предотвращения утечек.[0002] Data Leak Prevention (DLP) technologies are technologies for preventing leaks of confidential information from an information system outside, as well as technical devices (software or firmware) for such leak prevention.

[0003] Из патентной заявки US 20080091954 A1 (Morris et al., 17.04.2008) известно решение для проверки целостности данных, представленных на печатных документах. Решение базируется на применении уникального идентификатора, с помощью которого осуществляется анализ содержимого документа. Каждому сегменту документа присваивается цифра или группа цифр, и каждой странице или сегменту документа может быть присвоена одна цифра в общем идентификаторе. Совокупность цифр, связанных с документом, объединяется в строку аутентификации. При получении запроса на последующую обработку документа выполняется аутентификация и проверка целостности документа путем считывания представленного документа для получения строки аутентификации, и последующего сравнения новой строки с ранее сохраненной строкой. После успешного сопоставления документ считается действительным, аутентифицированным и неизмененным.[0003] From patent application US 20080091954 A1 (Morris et al., 04/17/2008) a solution is known for checking the integrity of data presented on printed documents. The solution is based on the use of a unique identifier, which is used to analyze the content of the document. Each document segment is assigned a digit or group of digits, and each page or document segment can be assigned one digit in a common identifier. The set of digits associated with the document is combined into an authentication string. Upon receipt of a request for post-processing of the document, the authentication and integrity of the document is performed by reading the submitted document to obtain an authentication string, and then comparing the new string with the previously stored string. After a successful match, the document is considered valid, authenticated, and unchanged.

[0004] Недостатком данного решения является невозможность его использования для предотвращения утечек с целью идентификацию сотрудника, допустившего факт утечки при печати документов. Также, другим недостатком является недостаточная эффективность защиты документов, что обусловлено применением кода для сравнения аутентичности документа, что позволяет только установить факт неизменности и подлинности документа, но не предотвратить утечку информации.[0004] The disadvantage of this solution is the impossibility of using it to prevent leaks in order to identify the employee who made the leak when printing documents. Also, another disadvantage is the insufficient efficiency of document protection, which is due to the use of a code to compare the authenticity of the document, which only allows you to establish the fact of the immutability and authenticity of the document, but not to prevent information leakage.

СУЩНОСТЬ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION

[0005] Заявленное изобретение направлено на решение технической проблемы, заключающейся в создании эффективного средства для защиты цифровой информации от утечки при ее печати.[0005] The claimed invention is directed to solving the technical problem of creating an effective means for protecting digital information from leakage during its printing.

[0006] Технический результат заключается в повышении эффективности защиты данных от утечки, за счет внедрения цифровых меток в документ, кодирующих уникальный идентификатор пользователя, для последующей его идентификации при анализе распечатанных документах.[0006] The technical result consists in increasing the efficiency of data leakage protection by introducing digital labels into the document encoding a unique user identifier for its subsequent identification when analyzing printed documents.

[0007] Заявленный результат достигается за счет способа кодирования информации для защиты от ее утечек при печати документов, выполняемого с помощью процессора компьютерного устройства, при этом способ содержит этапы, на которых:[0007] The claimed result is achieved due to the method of encoding information to protect it from leaks when printing documents, performed using the processor of a computer device, while the method includes the steps of:

получают на компьютерном устройстве пользователя информацию о печати по меньшей мере одного цифрового документа, содержащего по меньшей мере текст, при этом компьютерное устройство связано с уникальным идентификатором (УИД) пользователя;receive on the user's computer device information about printing at least one digital document containing at least text, while the computer device is associated with a unique identifier (UID) of the user;

осуществляют до момента передачи цифрового документа на печать его обработку, в ходе которойcarry out processing until the transfer of a digital document for printing, during which

распознают буквы, содержащиеся в цифровом документе;recognize the letters contained in the digital document;

кодируют УИД пользователя в набор цифровых меток, которые располагаются на контурах букв и/или вблизи контуров букв цифрового документа;encoding the UID of the user into a set of digital labels, which are located on the contours of the letters and/or near the contours of the letters of the digital document;

передают цифровой документ на печать с закодированным УИД пользователя.transmitting the digital document to be printed with the encoded UID of the user.

[0008] В одном из частных примеров реализации способа распознавание цифрового документа выполняется с помощью оптического распознавания символов (OCR).[0008] In one of the particular examples of the implementation of the method, the recognition of a digital document is performed using optical character recognition (OCR).

[0009] В другом частном примере реализации способа распознаются все символы на каждой странице цифрового документа.[0009] In another particular example of the implementation of the method, all characters on each page of a digital document are recognized.

[0010] В другом частном примере реализации способа каждый символ УИД пользователя кодируется в двоичный код.[0010] In another particular example of the implementation of the method, each symbol of the UID of the user is encoded in binary code.

[0011] В другом частном примере реализации способа на основании разряда двоичного кода определяется область размещения цифровых меток.[0011] In another particular example of the implementation of the method, based on the digit of the binary code, the area for placing digital marks is determined.

[0012] Заявленный технический результат также достигается за счет осуществления способа защиты информации от утечек на печатных документах, выполняемого с помощью процессора компьютерного устройства, при этом способ содержит этапы, на которых:[0012] The claimed technical result is also achieved through the implementation of a method for protecting information from leaks on printed documents, performed using the processor of a computer device, while the method includes the steps of:

получают по меньшей мере часть изображения печатного документа с закодированным УИД пользователя вышеуказанным способом;obtaining at least a portion of an image of a printed document encoded by the UID of the user in the above manner;

выполняют распознавание полученного изображения;perform recognition of the received image;

определяют буквы, содержащие цифровые метки в своей окрестности;determine letters containing digital marks in their neighborhood;

выполняют определение и извлечение закодированного УИД.performing the determination and extraction of the encoded UID.

[0013] В одном из частных примеров выполнения способа распознавание цифрового документа выполняется с помощью OCR.[0013] In one of the particular examples of the implementation of the method, the recognition of a digital document is performed using OCR.

[0014] Заявленное решение также осуществляется с помощью соответствующих систем, содержащих процессор и память, которые хранят машиночитаемые инструкции для реализации каждого из вышеописанных способов.[0014] The claimed solution is also implemented using appropriate systems containing a processor and memory that store machine-readable instructions for implementing each of the above methods.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙBRIEF DESCRIPTION OF THE DRAWINGS

[0015] Фиг. 1 иллюстрирует блок-схему способа кодирования цифровой метки.[0015] FIG. 1 illustrates a flowchart of a digital label encoding method.

[0016] Фиг. 2А-2В иллюстрируют примеры размещения цифровых меток в цифровом документе.[0016] FIG. 2A-2B illustrate examples of placement of digital labels in a digital document.

[0017] Фиг. 3 иллюстрирует блок-схему декодирования цифровых меток.[0017] FIG. 3 illustrates a block diagram of digital label decoding.

[0018] Фиг. 4 иллюстрирует диаграмму час раскрытия позиций УИД.[0018] FIG. 4 illustrates a diagram of the opening hours of UID positions.

[0019] Фиг. 5 иллюстрирует общий вид вычислительного устройства.[0019] FIG. 5 illustrates a general view of the computing device.

ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯIMPLEMENTATION OF THE INVENTION

[0020] На Фиг. 1 представлен способ (100) защиты информации в цифровых документах от утечки с помощью кодирования УИД пользователя в виде цифровых меток в документ. На первом этапе (101) получается информация о печати цифрового документа. Выполнение способа (100) осуществляется на компьютерном устройстве пользователя, например, сотрудника, при этом к устройству привязан УИД пользователя, позволяющий его идентифицировать. Исполнение этапа (101) одушевляется с помощью программной логики, исполняемой компьютерным устройством и может быть реализовано, например, в виде программного агента или модуля, обеспечивающего получение сигналов от процессора, свидетельствующих об отправке цифрового документа на печать. Цифровой документ представляет собой, как правило, файл и может содержать текст, графику или их сочетания.[0020] In FIG. 1 shows a method (100) for protecting information in digital documents from leakage by encoding a user's UID as digital labels into the document. In the first step (101), printing information of the digital document is obtained. The method (100) is executed on the computer device of the user, for example, an employee, while the user's UID is attached to the device, allowing him to be identified. The execution of step (101) is animated by software logic executed by a computer device and can be implemented, for example, in the form of a software agent or module that receives signals from the processor indicating that a digital document has been sent for printing. A digital document is usually a file and may contain text, graphics, or combinations thereof.

[0021] После получения на устройстве команды на перехват и анализ документа до его отправки на принтер на этапе (102) выполняется распознавание упомянутого цифрового документа. Обработка документа выполняется с помощью технологии OCR для обеспечения распознавания букв и символов в цифровом документе.[0021] After receiving a command on the device to intercept and analyze the document before sending it to the printer, at step (102) recognition of the said digital document is performed. Document processing is performed using OCR technology to provide recognition of letters and characters in a digital document.

[0022] После этапа распознавания цифрового документа на этапе (103) осуществляется процесс кодирования УИД. УИД представляет собой, например, числовой табельный номер сотрудника - цифровой код TAB, состоящий, например, из 8-ми цифр. Данный код можно представить как массив цифр ТАВ8={n1, n2, …nm}, ТАВ8 ∈ [0…9], m=8. Схематичный вид кода представлен в таблице.[0022] After the digital document recognition step, in step (103), the UID encoding process is performed. UID is, for example, a numerical personnel number of an employee - a TAB digital code, consisting, for example, of 8 digits. This code can be represented as an array of numbers TAB 8 ={n 1 , n 2 , …n m }, TAB 8 ∈ [0…9], m=8. A schematic view of the code is presented in the table.

Figure 00000001
Figure 00000001

[0023] Каждый элемент табельного номера представляет собой число от 0 до 9, соответственно, каждый элемент табельного номера можно отобразить в двоичном виде размерностью в 4 бит, т.е. он будет представлять собой двоичное число от 1 до 1100, являющееся гомоморфизмом со сдвигом, представленным в таблице 2.[0023] Each element of the personnel number is a number from 0 to 9, respectively, each element of the personnel number can be displayed in binary form with a dimension of 4 bits, i.e. it will be a binary number from 1 to 1100, which is the shifted homomorphism shown in Table 2.

Figure 00000002
Figure 00000002

[0024] Отображение 0 в 0001 необходимо для того, чтобы фиксировать наличие 0 в табельном номере. Для кодирования элемента табельного номера в двоичном коде

Figure 00000003
i=8, необходимо 4 разряда bi={с1, с2, с3, с4}, пример которых представлен в Таблице 3.[0024] The mapping of 0 to 0001 is necessary in order to capture the presence of 0 in the personnel number. To encode a personnel number element in binary code
Figure 00000003
i=8, 4 digits are needed b i ={с 1 , с 2 , с 3 , с 4 }, an example of which is presented in Table 3.

Figure 00000004
Figure 00000004

[0025] Таким образом, возможно кодировать любое число в букву посредством двоичного кодирования. Пример такого разделения для последующего кодирования представлено на Фиг. 2А - Фиг. 2В. Каждая распознанная буква (20) делится на 4 четверти в плоскости по часовой стрелке, начиная с левого нижнего угла.[0025] Thus, it is possible to encode any number into a letter by binary encoding. An example of such a split for subsequent encoding is shown in FIG. 2A - Fig. 2B. Each recognized letter (20) is divided into 4 quarters in a clockwise plane, starting from the lower left corner.

[0026] При наличии 1-цы в I разряде двоичного представления цифры табельного номера с1 метка размещается в I четверти. Аналогичные операции проводятся со всеми разрядами двоичного представления цифры.[0026] If there are 1s in the I digit of the binary representation of the personnel number digit from 1 , the label is placed in the I quarter. Similar operations are carried out with all digits of the binary representation of a digit.

[0027] Метод нанесения метки в пространство возле буквы заключается в том, что как по казано на Фиг. 2Б-2В наносится цифровая метка в виде линии (21) на поверхности буквы или точки (22) в окрестности буквы в заданной четверти.[0027] The method of marking the space around the letter is that, as shown in FIG. 2B-2C, a digital mark is applied in the form of a line (21) on the surface of the letter or a dot (22) in the vicinity of the letter in a given quarter.

[0028] Пример кодирования меток в буквы представлен в Таблице 4.[0028] An example of encoding labels into letters is shown in Table 4.

Figure 00000005
Figure 00000005

[0029] Выше представленная таблица 4 означает, что каждую позицию числа в табельном номере возможно кодировать на любую из 4-х букв. Выбор букв для нанесения метки осуществляется постранично. Пусть документ D содержит

Figure 00000006
страниц, тогда документ D - есть массив страниц,
Figure 00000007
[0029] The above table 4 means that each position of the number in the personnel number can be encoded to any of the 4 letters. The choice of letters for labeling is carried out page by page. Let document D contain
Figure 00000006
pages, then document D is an array of pages,
Figure 00000007

[0030] На каждой странице pi,

Figure 00000008
считывается посимвольно текст и записывается в массив символов
Figure 00000009
где
Figure 00000010
- количество символов на странице pi, из них выявляются русские буквы
Figure 00000011
[0030] On each page p i ,
Figure 00000008
read text character by character and write to character array
Figure 00000009
Where
Figure 00000010
- the number of characters on the page p i , Russian letters are detected from them
Figure 00000011

[0031] Далее создаются 8 массивов Pos1, Pos2…Pos8, каждый из которых соответствует каждой позиции табельного номера. Каждый массивов Pos заполняется теми символами из

Figure 00000012
которые соответствуют позиции из таблицы 4. Например, Pos1, заполняется всеми символами из
Figure 00000013
которые имеют значения {а, з, п, ч}, вне зависимости от регистра.[0031] Next, 8 arrays Pos 1 , Pos 2 ...Pos 8 are created, each of which corresponds to each position of the personnel number. Each Pos array is filled with those characters from
Figure 00000012
which correspond to the position from table 4. For example, Pos 1 is filled with all characters from
Figure 00000013
which have the values {a, z, n, h}, case-insensitive.

[0032] Массивы Pos1, Pos2…Pos8 перемешиваются, к примеру, тасованием Кнута. Пусть

Figure 00000014
- размерности полученных массивов, Р - процент символов на внедрение метки Р∈[0,3…0,7], тогда каждый массив из Pos1, Pos2…Pos8 обрезается с конца до размерности
Figure 00000015
[0032] The arrays Pos 1 , Pos 2 ...Pos 8 are shuffled, for example, by Knuth's shuffle. Let
Figure 00000014
- the dimensions of the received arrays, P - the percentage of characters for the introduction of the label Р∈[0.3…0.7], then each array from Pos 1 , Pos 2 ... Pos 8 is cut off from the end to the dimension
Figure 00000015

[0033] Полученные массивы

Figure 00000016
используются для нанесения цифровых меток вышеописанным способом. Внесение цифровых меток осуществляется с помощью вырезания букв с помощью OCR, внесения меток в пиксельные координаты и внесение букв с цифровыми метками обратно в документ, направляемый на печать. После внедрения всех меток (21, 22) на искомой странице pi тоже самое выполняется для следующей страницы pi+1 и так далее до конца документа
Figure 00000017
[0033] Received Arrays
Figure 00000016
are used to apply digital labels in the manner described above. Digital labeling is done by cutting out the letters using OCR, labeling in pixel coordinates, and embedding the digitally labeled letters back into the document to be printed. After all labels (21, 22) have been embedded on the desired page p i, the same is done for the next page p i+1 and so on until the end of the document
Figure 00000017

[0034] В Таблице 5 приведен пример кодирования меток для УИД пользователя - 00013400.[0034] Table 5 shows an example label encoding for user UID 00013400.

Figure 00000018
Figure 00000018

[0035] После внесения в документ, направленный на печать цифровых меток, кодирующих УИД, на этапе (104) выполняется его направление на печать. Распечатанный документ будет содержать закодированный УИД неразличимый для человеческого глаза. Размер цифровых меток может выбираться произвольно (например, метки радиусом от 1-2 пикселей).[0035] After entering the digital labels encoding the UID into the document to be printed, at step (104) it is sent for printing. The printed document will contain an encoded UID that is indistinguishable to the human eye. The size of digital labels can be chosen arbitrarily (for example, labels with a radius of 1-2 pixels).

[0036] На Фиг. 3 приведена последовательность этапов, выполняемых при выполнении способа (300) распознавании УИД на распечатанных документах. На этапе (301) вычислительное устройство, используемое для определения УИД в распечатанном документе, получает изображение такого документа. Изображение может содержать полностью или частично текст, с закодированном УИД, полученный, например, с помощью фотографирования внешним устройством (смартфон, камера и т.п.) или при помощи сканирования с помощью OCR распечатанного документа.[0036] In FIG. 3 shows the sequence of steps performed when performing the method (300) for recognizing UIDs on printed documents. At step (301), the computing device used to determine the UID in the printed document receives an image of such a document. The image may contain all or part of UID-encoded text obtained, for example, by taking a photo with an external device (smartphone, camera, etc.) or by scanning a printed document with OCR.

[0037] Далее на этапе (302) также при помощи технологии OCR выполняется распознавание букв в документе, при этом если страниц в документе несколько, то распознается каждая страница документа. На этапе (303) выполняется считывание цифровых меток в окрестностях распознанных букв. Пример анализа цифровых меток может осуществляться по примеру, приведенному в Таблице 5, которая может применяться как таблица для сопоставления меток соответствующей цифре УИД пользователя.[0037] Next, at step (302), also using OCR technology, letter recognition is performed in the document, and if there are several pages in the document, then each page of the document is recognized. In step (303), the digital marks in the vicinity of the recognized letters are read. An example of parsing digital labels may be as shown in Table 5, which may be used as a table to map labels to the corresponding digit of the user's UID.

[0038] После этого выполняется декодирование УИД на этапе (304) и установление по нему табельного номера сотрудника и соответствующего пользователя, с компьютерного устройства которого была осуществлена печать документа.[0038] After that, the UID is decoded at step (304) and the personnel number of the employee and the corresponding user is established from it, from whose computer device the document was printed.

[0039] Математическое обоснование метода[0039] Mathematical justification of the method

[0040] Для этого убедимся, что частоты раскрытия позиций ТАВ8={n1, n2, … nm}, m=8 равномерно распределены для всех m, что позволяет показать вероятность извлечения табельного номера (УИД) из текста страницы.[0040] To do this, we will make sure that the frequencies of disclosure of positions TAB 8 ={n 1 , n 2 , ... n m }, m=8 are evenly distributed for all m, which allows us to show the probability of extracting a personnel number (UID) from the text of the page.

[0041] Для математического обоснования было проведено исследование по частоте встречающихся букв в тексте с разным содержанием, к примеру, рассмотрим, такое распределение характерное для литературных произведений. Список литературных произведений, участвующих в эксперименте: Сильмариллион. Дж.Р.Р. Толкин, Двадцать тысяч лье под водой. Жюль Г.Верн, Двадцать лет спустя. Александр Дюма, Три мушкетера. Александр Дюма, Унесенные ветром. Маргарет Митчелл, Айвенго. Вальтер Скотт, Герой нашего времени. Н.В. Гоголь, Война и мир. Л.Н. Толстой, Обитаемый остров. Борис и Аркадий Стругацкие, Преступление и наказание. Ф.М. Достоевский, Живые и мертвые. К.М. Симонов, всего 8366594 символов, 3919 страниц. Математическая лингвистика показала следующие вероятности частоты встречи букв русского алфавита в текстах (Таблица 6).[0041] For mathematical justification, a study was conducted on the frequency of occurring letters in a text with different content, for example, consider such a distribution characteristic of literary works. List of literary works participating in the experiment: The Silmarillion. J.R.R. Tolkien, Twenty Thousand Leagues Under the Sea. Jules G. Verne, Twenty years later. Alexandre Dumas, Three Musketeers. Alexandre Dumas, Gone with the Wind. Margaret Mitchell, Ivanhoe. Walter Scott, Hero of Our Time. N.V. Gogol, War and Peace. L.N. Tolstoy, Inhabited Island. Boris and Arkady Strugatsky, Crime and Punishment. F.M. Dostoevsky, The Living and the Dead. K.M. Simonov, total 8366594 characters, 3919 pages. Mathematical linguistics has shown the following probabilities of the frequency of meeting letters of the Russian alphabet in texts (Table 6).

Figure 00000019
Figure 00000019

Figure 00000020
Figure 00000020

[0042] Для получения значения частоты раскрытия позиций ТАВ8={n1, n2, … nm} выполняются следующие действия. Из таблиц 4 и 5 известны буквы, в которые кодируются разряды. Для получения частоты раскрытия разрядов для алгоритма нанесения метки в пространстве возле буквы, частоты букв, в которые кодируются метки, складываются, т.к. позиция выкрывается при обнаружении метки хотя бы в одной из них. В результате вышеописанных действий получается таблица 7.[0042] To obtain the value of the frequency of disclosure of positions TAB 8 ={n 1 , n 2 , ... n m } the following steps are performed. From tables 4 and 5, the letters in which the digits are encoded are known. To obtain the bit expansion frequency for the labeling algorithm in the space near the letter, the frequencies of the letters into which the labels are encoded are added, because the position is opened when a label is found in at least one of them. As a result of the above actions, table 7 is obtained.

Figure 00000021
Figure 00000021

[0043] На основании таблицы 7 формируется диаграмма, представленная на Фиг. 4. Диаграмма показывает, что частота раскрытия всех позиций распределена относительно равномерно.[0043] Based on Table 7, the diagram shown in FIG. 4. The diagram shows that the opening frequency of all positions is distributed relatively evenly.

[0044] Вычислим количество каждой буквы русского алфавита экспериментальной выборки:[0044] Calculate the number of each letter of the Russian alphabet of the experimental sample:

Figure 00000022
Figure 00000022

[0045] Для метода нанесения точки в пространство возле буквы принимается следующее допущение: процент Р символов на внедрение метки Р=0,3, при передаче через мессенджеры теряется определенный процент М=0,7 меток. На основании вышеописанного можно вычислить вероятность распознавания текста, если для дешифрования доступно:[0045] For the method of drawing a dot in the space near the letter, the following assumption is made: the percentage P of symbols for the insertion of the label P=0.3, when transmitted through messengers, a certain percentage M=0.7 labels is lost. Based on the above, you can calculate the probability of recognizing a text if there is available for decryption:

целая страница;whole page;

Figure 00000023
страницы;
Figure 00000023
pages;

Figure 00000024
страницы.
Figure 00000024
pages.

Figure 00000025
Figure 00000025

Figure 00000026
Figure 00000026

[0046] Пример Экспериментального применения.[0046] Experimental Application Example.

[0047] В ходе тестирования было распечатано и анализировано около 500 страниц разного содержания:[0047] During testing, about 500 pages of various content were printed and analyzed:

текст, разреженный текст, текст с таблицами, текст с графиками, текст с формулами;text, sparse text, text with tables, text with graphs, text with formulas;

с разными типами шрифтов: Arial, Calibri, Times New Roman;with different font types: Arial, Calibri, Times New Roman;

разное оформление текста: обычный, курсив, полужирный, подчеркнутый;different text design: regular, italic, bold, underlined;

разной размерности: 12рх, 14рх;different dimensions: 12px, 14px;

разным межстрочным интервалом: 0.5,1.15,1,5;different line spacing: 0.5,1.15,1.5;

разным межзнаковым интервалом: обычный, разреженный, уплотненный;different character intervals: normal, sparse, compacted;

[0048] В каждом случае рассматривалась возможность извлечения метки с:[0048] In each case, the possibility of extracting the label with:

распечатки напрямую;printouts directly;

с фотографии распечатки;from a photo printout;

переданной по мессенджеру распечатки фотографии.a photo printout sent via messenger.

[0049] Печать проводилась на офисном черно белом лазерном принтере Lexmark MX711de на офисной бумаге «Снегурочка» с белизной CIE 146 по ISO 11475.[0049] Printing was carried out on a Lexmark MX711de office black and white laser printer on Snegurochka office paper with whiteness CIE 146 according to ISO 11475.

[0050] Фотографирование производилось на телефон Samsung А51 при офисном освещении, бумага лежит горизонтально на столе, фотографирование случайное под разными, незначительными углами, порядком 2-4% в 3-х измерениях.[0050] Photographing was made on a Samsung A51 phone in office lighting, the paper lies horizontally on the table, photographing is random at different, insignificant angles, on the order of 2-4% in 3 dimensions.

[0051] При передаче фотографий использовался мессенджер Telegram со сжатием изображения при отправлении.[0051] When transferring photos, the Telegram messenger was used with image compression upon sending.

[0052] В ходе эксперимента подбирались параметры, такие как размер меток, их оптимальные места и способы нанесения. Результаты последней фазы эксперимента показаны в таблице 10.[0052] During the experiment, parameters were selected, such as the size of the marks, their optimal places and methods of application. The results of the last phase of the experiment are shown in Table 10.

Figure 00000027
Figure 00000027

Figure 00000028
Figure 00000028

[0053] Вышеописанная таблица показывает хорошие результаты анализа переданных по мессенджеру фотографий распечаток на офисном черно-белом принтере. В результате эксперимента были подобраны оптимальные параметры для внедрения метки, которые с одной стороны, были бы заметны на распечатках как дефекты принтера, с другой стороны, хорошо извлекались из переданных фотографий по мессенджерам.[0053] The above table shows good results in the analysis of sent photos of printouts sent via messenger on an office black and white printer. As a result of the experiment, the optimal parameters for the introduction of the label were selected, which, on the one hand, would be visible on the printouts as printer defects, on the other hand, were well extracted from the transferred photos via instant messengers.

[0054] На Фиг. 5 представлен общий вид вычислительного устройства (500), пригодного для выполнения вышеуказанных способов. Устройство (500) может представлять собой, например, компьютер, сервер или иной тип пригодного вычислительного устройства.[0054] In FIG. 5 is a perspective view of a computing device (500) suitable for performing the above methods. Device (500) may be, for example, a computer, server, or other type of suitable computing device.

[0055] В общем случае вычислительное устройство (500) содержит объединенные общей шиной информационного обмена один или несколько процессоров (501), средства памяти, такие как ОЗУ (502) и ПЗУ (503), интерфейсы ввода/вывода (504), устройства ввода/вывода (505), и устройство для сетевого взаимодействия (506).[0055] In general, the computing device (500) contains one or more processors (501) connected by a common information exchange bus, memory means such as RAM (502) and ROM (503), input/output interfaces (504), input devices / output (505), and a device for networking (506).

[0056] Процессор (501) (или несколько процессоров, многоядерный процессор) могут выбираться из ассортимента устройств, широко применяемых в текущее время, например, компаний Intel™, AMD™, Apple™, Samsung Exynos™, MediaTEK™, Qualcomm Snapdragon™ и т.п. В качестве процессора (501) может также применяться графический процессор, например, Nvidia, AMD, Graphcore и пр.[0056] The processor (501) (or multiple processors, multi-core processor) may be selected from a variety of devices currently widely used, such as Intel™, AMD™, Apple™, Samsung Exynos™, MediaTEK™, Qualcomm Snapdragon™, and etc. The processor (501) can also be a graphics processor such as Nvidia, AMD, Graphcore, etc.

[0057] ОЗУ (502) представляет собой оперативную память и предназначено для хранения исполняемых процессором (501) машиночитаемых инструкций для выполнение необходимых операций по логической обработке данных. ОЗУ (502), как правило, содержит исполняемые инструкции операционной системы и соответствующих программных компонент (приложения, программные модули и т.п.).[0057] RAM (502) is a random access memory and is designed to store machine-readable instructions executable by the processor (501) to perform the necessary data logical processing operations. The RAM (502) typically contains the executable instructions of the operating system and associated software components (applications, program modules, and the like).

[0058] ПЗУ (503) представляет собой одно или более устройств постоянного хранения данных, например, жесткий диск (HDD), твердотельный накопитель данных (SSD), флэш-память (EEPROM, NAND и т.п.), оптические носители информации (CD-R/RW, DVD-R/RW, BlueRay Disc, MD) и др.[0058] A ROM (503) is one or more persistent storage devices such as a hard disk drive (HDD), a solid state drive (SSD), flash memory (EEPROM, NAND, etc.), optical storage media ( CD-R/RW, DVD-R/RW, BlueRay Disc, MD), etc.

[0059] Для организации работы компонентов устройства (500) и организации работы внешних подключаемых устройств применяются различные виды интерфейсов В/В (504).[0059] Various types of I/O interfaces (504) are used to organize the operation of device components (500) and organize the operation of external connected devices.

Выбор соответствующих интерфейсов зависит от конкретного исполнения вычислительного устройства, которые могут представлять собой, не ограничиваясь: PCI, AGP, PS/2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS/Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232 и т.п.The choice of appropriate interfaces depends on the particular design of the computing device, which can be, but not limited to: PCI, AGP, PS/2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS/Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232, etc.

[0060] Для обеспечения взаимодействия пользователя с вычислительным устройством (500) применяются различные средства (505) В/В информации, например, клавиатура, дисплей (монитор), сенсорный дисплей, тач-пад, джойстик, манипулятор мышь, световое перо, стилус, сенсорная панель, трекбол, динамики, микрофон, средства дополненной реальности, оптические сенсоры, планшет, световые индикаторы, проектор, камера, средства биометрической идентификации (сканер сетчатки глаза, сканер отпечатков пальцев, модуль распознавания голоса) и т.п.[0060] To ensure user interaction with the computing device (500), various means (505) of I / O information are used, for example, a keyboard, a display (monitor), a touch screen, a touch pad, a joystick, a mouse, a light pen, a stylus, touch panel, trackball, speakers, microphone, augmented reality, optical sensors, tablet, indicator lights, projector, camera, biometric identification tools (retinal scanner, fingerprint scanner, voice recognition module), etc.

[0061] Средство сетевого взаимодействия (506) обеспечивает передачу данных устройством (500) посредством внутренней или внешней вычислительной сети, например, Интранет, Интернет, ЛВС и т.п. В качестве одного или более средств (506) может использоваться, но не ограничиваться: Ethernet карта, GSM модем, GPRS модем, LTE модем, 5G модем, модуль спутниковой связи, NFC модуль, Bluetooth и/или BLE модуль, Wi-Fi модуль и др.[0061] The networking means (506) enables data communication by the device (500) via an internal or external computer network, such as an Intranet, Internet, LAN, and the like. As one or more means (506) can be used, but not limited to: Ethernet card, GSM modem, GPRS modem, LTE modem, 5G modem, satellite communication module, NFC module, Bluetooth and / or BLE module, Wi-Fi module and others

[0062] Дополнительно могут применяться также средства спутниковой навигации в составе устройства (500), например, GPS, ГЛОНАСС, BeiDou, Galileo.[0062] Additionally, satellite navigation tools in the device (500) can also be used, for example, GPS, GLONASS, BeiDou, Galileo.

[0063] Представленные материалы заявки раскрывают предпочтительные примеры реализации технического решения и не должны трактоваться как ограничивающие иные, частные примеры его воплощения, не выходящие за пределы испрашиваемой правовой охраны, которые являются очевидными для специалистов соответствующей области техники.[0063] The submitted application materials disclose preferred examples of the implementation of the technical solution and should not be construed as limiting other, particular examples of its implementation that do not go beyond the scope of the requested legal protection, which are obvious to specialists in the relevant field of technology.

Claims (20)

1. Способ кодирования информации для защиты от ее утечек при печати документов, выполняемый с помощью процессора компьютерного устройства, при этом способ содержит этапы, на которых:1. A method for encoding information to protect it from leaks when printing documents, performed using a processor of a computer device, the method comprising the steps of: получают на компьютерном устройстве пользователя информацию о печати по меньшей мере одного цифрового документа, содержащего по меньшей мере текст, при этом компьютерное устройство связано с уникальным идентификатором (УИД) пользователя;receive on the user's computer device information about printing at least one digital document containing at least text, while the computer device is associated with a unique identifier (UID) of the user; осуществляют до момента передачи цифрового документа на печать его обработку, в ходе которойcarry out processing until the transfer of a digital document for printing, during which распознают буквы, содержащиеся в цифровом документе;recognize the letters contained in the digital document; кодируют УИД пользователя в набор цифровых меток, при котором УИД переводится в двоичную форму;encoding the UID of the user into a set of digital labels, in which the UID is converted to binary form; выполняется разделение букв на четыре четверти, где каждая четверть содержит часть контура буквы и пространство вблизи контура;the letters are divided into four quarters, where each quarter contains part of the contour of the letter and the space near the contour; вносят цифровые метки в виде точек в соответствующие окрестности вблизи контуров букв, при этом кодирование УИД выполняется на каждой странице документа;make digital marks in the form of dots in the appropriate neighborhood near the contours of the letters, while encoding UID is performed on each page of the document; передают цифровой документ на печать с закодированным УИД пользователя.transmitting the digital document to be printed with the encoded UID of the user. 2. Способ по п. 1, характеризующийся тем, что распознавание цифрового документа выполняется с помощью оптического распознавания символов (OCR).2. The method according to claim. 1, characterized in that the recognition of the digital document is performed using optical character recognition (OCR). 3. Способ по п. 2, характеризующийся тем, что распознаются все символы на каждой странице цифрового документа.3. The method according to claim 2, characterized in that all characters on each page of the digital document are recognized. 4. Способ по п. 1, характеризующийся тем, что каждый символ УИД пользователя кодируется в двоичный код.4. The method of claim. 1, characterized in that each character UID of the user is encoded in binary code. 5. Способ по п. 4, характеризующийся тем, что на основании разряда двоичного кода определяется область размещения цифровых меток.5. The method according to claim 4, characterized in that, based on the bit of the binary code, the area for placing digital marks is determined. 6. Способ защиты информации от утечек на печатных документах, выполняемый с помощью процессора компьютерного устройства, при этом способ содержит этапы, на которых:6. A method for protecting information from leaks on printed documents, performed using a processor of a computer device, the method comprising the steps of: получают по меньшей мере часть изображения печатного документа с закодированным УИД пользователя способом по любому из пп. 1-5;obtaining at least a portion of an image of a printed document encoded by the UID of the user by the method according to any one of paragraphs. 1-5; выполняют распознавание полученного изображения;perform recognition of the received image; определяют буквы, содержащие цифровые метки в своей окрестности;determine letters containing digital marks in their neighborhood; выполняют определение и извлечение закодированного УИД.performing the determination and extraction of the encoded UID. 7. Способ по п. 6, характеризующийся тем, что распознавание цифрового документа выполняется с помощью OCR.7. The method according to claim 6, characterized in that the recognition of the digital document is performed using OCR. 8. Система кодирования информации для защиты от ее утечек при печати документов, содержащая по меньшей мере один процессор, по меньшей мере одну память, связанную с процессором и содержащую машиночитаемые инструкции, которые при их исполнении процессором осуществляют способ по любому из пп. 1-5.8. An information encoding system to protect against information leakage when printing documents, comprising at least one processor, at least one memory associated with the processor and containing machine-readable instructions that, when executed by the processor, carry out the method according to any one of paragraphs. 1-5. 9. Система защиты информации от утечек на печатных документах, содержащая по меньшей мере один процессор, по меньшей мере одну память, связанную с процессором и содержащую машиночитаемые инструкции, которые при их исполнении процессором осуществляют способ по любому из пп. 6, 7.9. A system for protecting information from leaks on printed documents, comprising at least one processor, at least one memory associated with the processor and containing machine-readable instructions that, when executed by the processor, carry out the method according to any one of paragraphs. 6, 7.
RU2022106206A 2022-03-10 2022-03-10 Method and system for protecting information from leakage when printing documents with implementation of digital marks RU2790938C1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/RU2022/000383 WO2023172162A1 (en) 2022-03-10 2022-12-20 Method for protecting information when printing documents

Publications (1)

Publication Number Publication Date
RU2790938C1 true RU2790938C1 (en) 2023-02-28

Family

ID=

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040001606A1 (en) * 2002-06-28 2004-01-01 Levy Kenneth L. Watermark fonts
US20070047818A1 (en) * 2005-08-23 2007-03-01 Hull Jonathan J Embedding Hot Spots in Imaged Documents
US20080205699A1 (en) * 2005-10-25 2008-08-28 Fujitsu Limited Digital watermark embedding and detection
RU2431192C1 (en) * 2010-01-12 2011-10-10 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Method of inserting secret digital message into printed documents and extracting said message
RU2446464C2 (en) * 2010-05-06 2012-03-27 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Method and system for embedding and extracting hidden data in printed documents
US20130028466A1 (en) * 2005-09-16 2013-01-31 Sursen Corp. Embedding and Detecting Hidden Information

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040001606A1 (en) * 2002-06-28 2004-01-01 Levy Kenneth L. Watermark fonts
US20070047818A1 (en) * 2005-08-23 2007-03-01 Hull Jonathan J Embedding Hot Spots in Imaged Documents
US20130028466A1 (en) * 2005-09-16 2013-01-31 Sursen Corp. Embedding and Detecting Hidden Information
US20080205699A1 (en) * 2005-10-25 2008-08-28 Fujitsu Limited Digital watermark embedding and detection
RU2431192C1 (en) * 2010-01-12 2011-10-10 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Method of inserting secret digital message into printed documents and extracting said message
RU2446464C2 (en) * 2010-05-06 2012-03-27 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Method and system for embedding and extracting hidden data in printed documents

Similar Documents

Publication Publication Date Title
US10339378B2 (en) Method and apparatus for finding differences in documents
CN107239666B (en) Method and system for desensitizing medical image data
EP3574449B1 (en) Structured text and pattern matching for data loss prevention in object-specific image domain
US9239952B2 (en) Methods and systems for extraction of data from electronic images of documents
KR102503880B1 (en) Machine readable security mark and process for generating
CN108805787A (en) A kind of method and apparatus that paper document distorts Jianzhen
CN112085643B (en) Image desensitization processing method, verification method and device, equipment and medium
CN114218391A (en) Sensitive information identification method based on deep learning technology
US7596270B2 (en) Method of shuffling text in an Asian document image
US10867170B2 (en) System and method of identifying an image containing an identification document
CN106557733B (en) Information processing unit and information processing method
RU2790938C1 (en) Method and system for protecting information from leakage when printing documents with implementation of digital marks
RU2793611C1 (en) Method and system for protecting information from leaking when printing documents with implementation of symbol shifting
EA044732B1 (en) METHOD AND SYSTEM FOR PROTECTING INFORMATION FROM LEAKAGE WHEN PRINTING DOCUMENTS USING THE IMPLEMENTATION OF DIGITAL MARKS
WO2023172162A1 (en) Method for protecting information when printing documents
CN110942075A (en) Information processing apparatus, storage medium, and information processing method
US20170337165A1 (en) System and method of embedding symbology in alphabetic letters and then linking the letters to a site or sites on the global computer network
CN107016320B (en) Method for improving image security level identification accuracy rate based on Chinese lexicon
WO2023172161A1 (en) Method and system for protecting information when printing documents
EA045968B1 (en) METHOD AND SYSTEM FOR PROTECTING INFORMATION FROM LEAKAGE WHEN PRINTING DOCUMENTS USING CHARACTER SHIFTING
JP2009200794A (en) Document alteration detection program and alteration detection apparatus
KR102646428B1 (en) Method and apparatus for extracting similar letters using artificial intelligence learning model
JP7206644B2 (en) Character recognition device, character recognition method, and program
US11961094B2 (en) Fraud detection via automated handwriting clustering
RU2739936C1 (en) Method of adding digital labels to digital image and apparatus for realizing method