WO2023172162A1 - Method for protecting information when printing documents - Google Patents

Method for protecting information when printing documents Download PDF

Info

Publication number
WO2023172162A1
WO2023172162A1 PCT/RU2022/000383 RU2022000383W WO2023172162A1 WO 2023172162 A1 WO2023172162 A1 WO 2023172162A1 RU 2022000383 W RU2022000383 W RU 2022000383W WO 2023172162 A1 WO2023172162 A1 WO 2023172162A1
Authority
WO
WIPO (PCT)
Prior art keywords
uid
digital
digital document
printing
document
Prior art date
Application number
PCT/RU2022/000383
Other languages
French (fr)
Russian (ru)
Inventor
Михаил Артурович АНИСТРАТЕНКО
Валентин Валерьевич СЫСОЕВ
Иван Александрович ОБОЛЕНСКИЙ
Дмитрий Алексеевич БОРИСОВ
Александр Артурович АНИСТРАТЕНКО
Original Assignee
Публичное Акционерное Общество "Сбербанк России"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from RU2022106206A external-priority patent/RU2790938C1/en
Application filed by Публичное Акционерное Общество "Сбербанк России" filed Critical Публичное Акционерное Общество "Сбербанк России"
Publication of WO2023172162A1 publication Critical patent/WO2023172162A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof

Abstract

The claimed invention relates to solutions for preventing data leakage when printing documents. Implementing the present method includes: receiving, on a user computing device, information about the printing of a digital document (101), wherein said computing device is associated with a unique identifier (UID) of the user; processing said digital document before it is sent for printing, wherein processing entails identifying letters contained in the digital document (102); encoding the user UID into a set of digital watermarks which are disposed on and/or in the vicinity of the edges of the letters of the digital document (103); sending the digital document for printing with the encoded user UID (104). The invention provides more effective data leakage prevention.

Description

СПОСОБ ЗАЩИТЫ ИНФОРМАЦИИ ПРИ ПЕЧАТИ ДОКУМЕНТОВ METHOD FOR PROTECTING INFORMATION WHEN PRINTING DOCUMENTS
ОБЛАСТЬ ТЕХНИКИ TECHNICAL FIELD
[0001] Заявленное решение относится к области защиты информации, в частности к решениям для предотвращения утечки информации при печати документов. [0001] The claimed solution relates to the field of information security, in particular to solutions for preventing information leakage when printing documents.
УРОВЕНЬ ТЕХНИКИ BACKGROUND OF THE ART
[0002] Технологии предотвращения утечек (англ. Data Leak Prevention, DLP) представляют собой технологии предотвращения утечек конфиденциальной информации из информационной системы вовне, а также технические устройства (программные или программно-аппаратные) для такого предотвращения утечек. [0002] Data Leak Prevention (DLP) technologies are technologies for preventing leaks of confidential information from an information system to the outside, as well as technical devices (software or firmware) for such leak prevention.
[0003] Из патентной заявки US 20080091954 Al (Morris et al., 17.04.2008) известно решение для проверки целостности данных, представленных на печатных документах. Решение базируется на применении уникального идентификатора, с помощью которого осуществляется анализ содержимого документа. Каждому сегменту документа присваивается цифра или группа цифр, и каждой странице или сегменту документа может быть присвоена одна цифра в общем идентификаторе. Совокупность цифр, связанных с документом, объединяется в строку аутентификации. При получении запроса на последующую обработку документа выполняется аутентификация и проверка целостности документа путем считывания представленного документа для получения строки аутентификации, и последующего сравнения новой строки с ранее сохраненной строкой. После успешного сопоставления документ считается действительным, аутентифицированным и неизмененным. [0003] From patent application US 20080091954 Al (Morris et al., 04/17/2008) a solution is known for checking the integrity of data presented on printed documents. The solution is based on the use of a unique identifier, which is used to analyze the contents of the document. Each segment of a document is assigned a digit or group of digits, and each page or segment of a document can be assigned a single digit in the common identifier. The collection of digits associated with the document is combined into an authentication string. When a request for subsequent document processing is received, authentication and document integrity are verified by reading the submitted document to obtain an authentication string, and then comparing the new string with the previously stored string. Once successfully matched, the document is considered valid, authenticated, and unaltered.
[0004] Недостатком данного решения является невозможность его использования для предотвращения утечек с целью идентификацию сотрудника, допустившего факт утечки при печати документов. Также, другим недостатком является недостаточная эффективность защиты документов, что обусловлено применением кода для сравнения аутентичности документа, что позволяет только установить факт неизменности и подлинности документа, но не предотвратить утечку информации. [0004] The disadvantage of this solution is the impossibility of using it to prevent leaks in order to identify the employee who committed the leak when printing documents. Also, another disadvantage is the insufficient effectiveness of document protection, which is due to the use of a code to compare the authenticity of a document, which only allows one to establish the fact of the immutability and authenticity of the document, but does not prevent information leakage.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ SUMMARY OF THE INVENTION
[0005] Заявленное изобретение направлено на решение технической проблемы, заключающейся в создании эффективного средства для защиты цифровой информации от утечки при ее печати. [0006] Технический результат заключается в повышении эффективности защиты данных от утечки, за счет внедрения цифровых меток в документ, кодирующих уникальный идентификатор пользователя, для последующей его идентификации при анализе распечатанных документах. [0005] The claimed invention is aimed at solving a technical problem, which is to create an effective means for protecting digital information from leakage during printing. [0006] The technical result is to increase the efficiency of data protection from leakage by introducing digital tags into the document that encode a unique user identifier for subsequent identification when analyzing printed documents.
[0007] Заявленный результат достигается за счет способа кодирования информации для защиты от ее утечек при печати документов, выполняемого с помощью процессора компьютерного устройства, при этом способ содержит этапы, на которых: получают на компьютерном устройстве пользователя информацию о печати по меньшей мере одного цифрового документа, содержащего по меньшей мере текст, при этом компьютерное устройство связано с уникальным идентификатором (УИД) пользователя; осуществляют до момента передачи цифрового документа на печать его обработку, в ходе которой распознают буквы, содержащиеся в цифровом документе; кодируют УИД пользователя в набор цифровых меток, которые располагаются на контурах букв и/или вблизи контуров букв цифрового документа; передают цифровой документ на печать с закодированным УИД пользователя. [0007] The claimed result is achieved through a method of encoding information to protect against leaks when printing documents, performed using a processor of a computer device, wherein the method contains stages in which: information about printing of at least one digital document is received on the user’s computer device containing at least text, wherein the computer device is associated with a unique identifier (UID) of the user; Before the digital document is sent for printing, it is processed, during which the letters contained in the digital document are recognized; encoding the user's UID into a set of digital marks that are located on the outlines of the letters and/or near the outlines of the letters of the digital document; transmitting a digital document for printing with an encoded user UID.
[0008] В одном из частных примеров реализации способа распознавание цифрового документа выполняется с помощью оптического распознавания символов (OCR). [0008] In one of the particular examples of implementation of the method, recognition of a digital document is performed using optical character recognition (OCR).
[0009] В другом частном примере реализации способа распознаются все символы на каждой странице цифрового документа. [0009] In another particular example of a method implementation, all characters on each page of a digital document are recognized.
[0010] В другом частном примере реализации способа каждый символ УИД пользователя кодируется в двоичный код. [0010] In another particular example of the implementation of the method, each user UID character is encoded into binary code.
[0011 ] В другом частном примере реализации способа на основании разряда двоичного кода определяется область размещения цифровых меток. [0011 ] In another particular example of implementing the method, the area of placement of digital marks is determined based on the bit of the binary code.
[0012] Заявленный технический результат также достигается за счет осуществления способа защиты информации от утечек на печатных документах, выполняемого с помощью процессора компьютерного устройства, при этом способ содержит этапы, на которых: получают по меньшей мере часть изображения печатного документа с закодированным УИД пользователя вышеуказанным способом; выполняют распознавание полученного изображения; определяют буквы, содержащие цифровые метки в своей окрестности; выполняют определение и извлечение закодированного УИД. [0013] В одном из частных примеров выполнения способа распознавание цифрового документа выполняется с помощью OCR. [0012] The claimed technical result is also achieved by implementing a method for protecting information from leaks on printed documents, performed using a processor of a computer device, the method comprising the steps of: obtaining at least part of an image of a printed document with an encoded user UID using the above method ; perform recognition of the resulting image; identify letters containing digital marks in their vicinity; performing determination and extraction of the encoded UID. [0013] In one of the particular examples of the method, digital document recognition is performed using OCR.
[0014] Заявленное решение также осуществляется с помощью соответствующих систем, содержащих процессор и память, которые хранят машиночитаемые инструкции для реализации каждого из вышеописанных способов. [0014] The claimed solution is also implemented using corresponding systems comprising a processor and memory that store machine-readable instructions for implementing each of the above methods.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ BRIEF DESCRIPTION OF THE DRAWINGS
[0015] Фиг. 1 иллюстрирует блок-схему способа кодирования цифровой метки. [0015] FIG. 1 illustrates a flowchart of a digital mark encoding method.
[0016] Фиг. 2 А - 2В иллюстрируют примеры размещения цифровых меток в цифровом документе. [0016] FIG. 2A - 2B illustrate examples of the placement of digital marks in a digital document.
[0017] Фиг. 3 иллюстрирует блок-схему декодирования цифровых меток. [0017] FIG. 3 illustrates a block diagram of digital mark decoding.
[0018] Фиг. 4 иллюстрирует диаграмму час раскрытия позиций УИД. [0019] Фиг. 5 иллюстрирует общий вид вычислительного устройства. [0018] FIG. 4 illustrates a diagram of the hour of disclosure of UID positions. [0019] FIG. 5 illustrates a general view of a computing device.
ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ IMPLEMENTATION OF THE INVENTION
[0020] На Фиг. 1 представлен способ (100) защиты информации в цифровых документах от утечки с помощью кодирования УИД пользователя в виде цифровых меток в документ. На первом этапе (101) получается информация о печати цифрового документа. Выполнение способа (100) осуществляется на компьютерном устройстве пользователя, например, сотрудника, при этом к устройству привязан УИД пользователя, позволяющий его идентифицировать. Исполнение этапа (101) одушевляется с помощью программной логики, исполняемой компьютерным устройством и может быть реализовано, например, в виде программного агента или модуля, обеспечивающего получение сигналов от процессора, свидетельствующих об отправке цифрового документа на печать. Цифровой документ представляет собой, как правило, файл и может содержать текст, графику или их сочетания. [0020] In FIG. 1 presents a method (100) for protecting information in digital documents from leakage by encoding the user UID in the form of digital marks into the document. At the first stage (101), information about printing of the digital document is obtained. The method (100) is carried out on a computer device of a user, for example, an employee, and a user UID is associated with the device, allowing him to be identified. The execution of step (101) is animated by software logic executed by a computer device and can be implemented, for example, in the form of a software agent or module that provides signals from the processor indicating that a digital document is being sent for printing. A digital document is typically a file and can contain text, graphics, or a combination of both.
[0021] После получения на устройстве команды на перехват и анализ документа до его отправки на принтер на этапе (102) выполняется распознавание упомянутого цифрового документа. Обработка документа выполняется с помощью технологии OCR для обеспечения распознавания букв и символов в цифровом документе. [0021] After receiving a command on the device to intercept and analyze the document before sending it to the printer, at step (102) recognition of the mentioned digital document is performed. Document processing is done using OCR technology to ensure recognition of letters and symbols in a digital document.
[0022] После этапа распознавания цифрового документа на этапе (103) осуществляется процесс кодирования УИД. УИД представляет собой, например, числовой табельный номер сотрудника - цифровой код TAB, состоящий, например, из 8-ми цифр. Данный код можно представить как массив цифр ТАВ8 = {n1, n2) ... nm , TAB8 G [0 ...9],m = 8. Схематичный вид кода представлен в таблице 1. Таблица 1. Схематичное изображение табельного номера:
Figure imgf000006_0001
[0022] After the digital document recognition step, the UID encoding process is carried out at step (103). The UID is, for example, a numeric personnel number of an employee - a digital TAB code, consisting, for example, of 8 digits. This code can be represented as an array of numbers TAB 8 = {n 1 , n 2) ... n m , TAB 8 G [0 ... 9],m = 8. A schematic view of the code is presented in Table 1. Table 1. Schematic representation of the personnel number:
Figure imgf000006_0001
[0023] Каждый элемент табельного номера представляет собой число от 0 до 9, соответственно, каждый элемент табельного номера можно отобразить в двоичном виде размерностью в 4 бит, т.е. он будет представлять собой двоичное число от 1 до 1100, являющееся гомоморфизмом со сдвигом, представленным в таблице 2. [0023] Each element of the personnel number is a number from 0 to 9, respectively, each element of the personnel number can be displayed in binary form with a dimension of 4 bits, i.e. it will represent a binary number from 1 to 1100, which is a homomorphism with a shift, presented in Table 2.
Таблица 2. Схема гомоморфизма табельного номера из десятичной в двоичную систему счисления.
Figure imgf000006_0002
Table 2. Scheme of homomorphism of the personnel number from the decimal to the binary number system.
Figure imgf000006_0002
[0024] Отображение 0 в 0001 необходимо для того, чтобы фиксировать наличие 0 в табельном номере. Для кодирования элемента табельного номера в двоичном коде TABQIN = {Ьг, Ь2, Ь3, ... , bi}, i = 8, необходимо 4 разряда = {с с2, с3, с4], пример которых представлен в Таблице 3. [0024] The display of 0 in 0001 is necessary in order to record the presence of 0 in the personnel number. To encode a personnel number element in binary code TABQ IN = {b r , b 2 , b 3 , ... , bi}, i = 8, 4 digits are required = {s 1l s 2 , s 3 , s 4 ], example which are presented in Table 3.
Таблица 3. Схематическое деление бинарного числа на разряды.
Figure imgf000006_0003
Table 3. Schematic division of a binary number into digits.
Figure imgf000006_0003
[0025] Таким образом, возможно кодировать любое число в букву посредством двоичного кодирования. Пример такого разделения для последующего кодирования представлено на Фиг. 2 А - Фиг. 2В. Каждая распознанная буква (20) делится на 4 четверти в плоскости по часовой стрелке, начиная с левого нижнего угла. [0026] При наличии 1-цы в I разряде двоичного представления цифры табельного номера С метка размещается в I четверти. Аналогичные операции проводятся со всеми разрядами двоичного представления цифры. [0025] Thus, it is possible to encode any number into a letter through binary encoding. An example of such a division for subsequent encoding is presented in Fig. 2 A - Fig. 2B. Each recognized letter (20) is divided into 4 quarters in a clockwise plane, starting from the lower left corner. [0026] If there is a 1 in the first digit of the binary representation of the digit of the personnel number C, the label is placed in the first quarter. Similar operations are carried out with all bits of the binary representation of a digit.
[0027] Метод нанесения метки в пространство возле буквы заключается в том, что как по казано на Фиг. 2Б-2В наносится цифровая метка в виде линии (21) на поверхности буквы или точки (22) в окрестности буквы в заданной четверти. [0027] The method of marking the space near the letter is that, as shown in FIG. 2B-2B a digital mark is applied in the form of a line (21) on the surface of the letter or a point (22) in the vicinity of the letter in a given quarter.
[0028] Пример кодирования меток в буквы представлен в Таблице 4. [0028] An example of encoding marks into letters is presented in Table 4.
Таблица 4. Схема позиционного кодирования
Figure imgf000007_0002
Table 4. Positional coding scheme
Figure imgf000007_0002
[0029] Выше представленная таблица 4 означает, что каждую позицию числа в табельном номере возможно кодировать на любую из 4-х букв. Выбор букв для нанесения метки осуществляется постранично. Пусть документ D содержит I страниц, тогда документ D - есть массив страниц, D = {plt р2, р3 ... рг], I 6 N. [0029] Table 4 presented above means that each number position in the personnel number can be encoded into any of the 4 letters. The selection of letters for marking is carried out page by page. Let document D contain I pages, then document D is an array of pages, D = {p lt p 2 , p 3 ... p g ], I 6 N.
[0030] На каждой странице pir i Е [1, I] считывается посимвольно текст и записывается в массив символов Sp. где lp.- количество символов на странице Р , из
Figure imgf000007_0001
них выявляются русские буквы Wrusp. Е Sp..
[0030] On each page p ir i E [1, I] the text is read character by character and written to the character array S p . where l p . is the number of characters on page P, from
Figure imgf000007_0001
they reveal the Russian letters Wrus p . E S p ..
[0031] Далее создаются 8 массивов Pos^ Pos2 ... Pos8, каждый из которых соответствует каждой позиции табельного номера. Каждый массивов Pos заполняется теми символами из Wrusp. , которые соответствуют позиции из таблицы 4. Например, Ро5 заполняется всеми символами из Wrusp., которые имеют значения {а, з, п, ч}, вне зависимости от регистра. [0031] Next, 8 arrays Pos^ Pos 2 ... Pos 8 are created, each of which corresponds to each position of the personnel number. Each Pos array is filled with those characters from Wrus p . , which correspond to the position from table 4. For example, Po5 is filled with all the characters from Wrus p ., which have the values {a, z, p, h}, regardless of case.
[0032] Массивы Pos^ Pos2 ... Pos8 перемешиваются, к примеру, тасованием Кнута. Пусть lPoS1, lp0S2, lp0S3 ... lpose - размерности полученных массивов, Р -процент символов на внедрение метки Р Е [0,3 ...0,7], тогда каждый массив из Pos1, Pos2 ... Posa обрезается с конца до размерности
Figure imgf000008_0001
[0032] The arrays Pos^ Pos 2 ... Pos 8 are mixed, for example, by Knuth shuffle. Let l PoS1 , lp 0S2 , lp 0S3 ... lpos e be the dimensions of the resulting arrays, P be the percentage of characters on implementation of the label P E [0,3 ...0,7], then each array of Pos 1 , Pos 2 ... Pos a is trimmed from the end to the dimension
Figure imgf000008_0001
[0033] Полученные массивы Pos , Pos2 ... Pos8 используются для нанесения цифровых меток вышеописанным способом. Внесение цифровых меток осуществляется с помощью вырезания букв с помощью OCR, внесения меток в пиксельные координаты и внесение букв с цифровыми метками обратно в документ, направляемый на печать. После внедрения всех меток (21, 22) на искомой странице pt тоже самое выполняется для следующей страницы pi+1 и так далее до конца документа рг. [0033] The resulting arrays Pos , Pos 2 ... Pos 8 are used to apply digital marks in the manner described above. Digital tagging is done by cutting out letters using OCR, adding the tagging to pixel coordinates, and adding the digitally tagged letters back into the document to be printed. After introducing all the labels (21, 22) on the desired page p t , the same is done for the next page p i+1 and so on until the end of the document p g .
[0034] В Таблице 5 приведен пример кодирования меток для УИД пользователя - 00013400. [0034] Table 5 shows an example of label encoding for the user UID - 00013400.
Таблица 5. Пример кодирования цифровых меток в окрестности букв.
Figure imgf000008_0002
Table 5. Example of encoding digital marks in the vicinity of letters.
Figure imgf000008_0002
[0035] После внесения в документ, направленный на печать цифровых меток, кодирующих УИД, на этапе (104) выполняется его направление на печать. Распечатанный документ будет содержать закодированный УИД неразличимый для человеческого глаза. Размер цифровых меток может выбираться произвольно (например, метки радиусом от 1-2 пикселей). [0035] After digital marks encoding the UID are added to the document sent for printing, at step (104) it is sent for printing. The printed document will contain an encoded UID that is indistinguishable to the human eye. The size of digital marks can be chosen arbitrarily (for example, marks with a radius of 1-2 pixels).
[0036] На Фиг. 3 приведена последовательность этапов, выполняемых при выполнении способа (300) распознавании УИД на распечатанных документах. На этапе (301) вычислительное устройство, используемое для определения УИД в распечатанном документе, получает изображение такого документа. Изображение может содержать полностью или частично текст, с закодированном УИД, полученный, например, с помощью фотографирования внешним устройством (смартфон, камера и т.п.) или при помощи сканирования с помощью OCR распечатанного документа. [0037] Далее на этапе (302) также при помощи технологии OCR выполняется распознавание букв в документе, при этом если страниц в документе несколько, то распознается каждая страница документа. На этапе (303) выполняется считывание цифровых меток в окрестностях распознанных букв. Пример анализа цифровых меток может осуществляться по примеру, приведенному в Таблице 5, которая может применяться как таблица для сопоставления меток соответствующей цифре УИД пользователя. [0036] In FIG. 3 shows the sequence of steps performed when performing the method (300) for recognizing UID on printed documents. At step (301), the computing device used to determine the UID in the printed document obtains an image of such document. The image may contain all or part of the text, with an encoded UID, obtained, for example, by photographing with an external device (smartphone, camera, etc.) or by scanning a printed document using OCR. [0037] Next, at step (302), also using OCR technology, letters in the document are recognized, and if there are several pages in the document, then each page of the document is recognized. At step (303), digital marks in the vicinity of the recognized letters are read. An example of analyzing digital labels can be carried out according to the example given in Table 5, which can be used as a table for matching labels to the corresponding digit of the user UID.
[0038] После этого выполняется декодирование УИД на этапе (304) и установление по нему табельного номера сотрудника и соответствующего пользователя, с компьютерного устройства которого была осуществлена печать документа. [0038] After this, the UID is decoded at step (304) and used to determine the personnel number of the employee and the corresponding user from whose computer device the document was printed.
[0039] Математическое обоснование метода [0039] Mathematical justification of the method
[0040] Для этого убедимся, что частоты раскрытия позиций ТАВ
Figure imgf000009_0001
2i ... nm}, m = 8 равномерно распределены для всех т, что позволяет показать вероятность извлечения табельного номера (УИД) из текста страницы.
[0040] To do this, let’s make sure that the frequencies of disclosure of TAB positions
Figure imgf000009_0001
2i ... n m }, m = 8 are uniformly distributed for all m, which allows us to show the probability of extracting a personnel number (UID) from the text of the page.
[0041] Для математического обоснования было проведено исследование по частоте встречающихся букв в тексте с разным содержанием, к примеру, рассмотрим, такое распределение характерное для литературных произведений. Список литературных произведений, участвующих в эксперименте: Сильмариллион. Дж.Р.Р.Толкин, Двадцать тысяч лье под водой. Жюль Г.Верн, Двадцать лет спустя. Александр Дюма, Три мушкетера. Александр Дюма, Унесенные ветром. Маргарет Митчелл, Айвенго. Вальтер Скотт, Герой нашего времени. Н.В. Гоголь, Война и мир. Л.Н.Толстой, Обитаемый остров. Борис и Аркадий Стругацкие, Преступление и наказание. Ф.М.Достоевский, Живые и мертвые. К.М.Симонов, всего 8 366 594 символов, 3919 страниц. Математическая лингвистика показала следующие вероятности частоты встречи букв русского алфавита в текстах (Таблица 6). [0041] For mathematical substantiation, a study was carried out on the frequency of occurrence of letters in text with different contents, for example, consider such a distribution typical for literary works. List of literary works participating in the experiment: The Silmarillion. J.R.R. Tolkien, Twenty Thousand Leagues Under the Sea. Jules G. Verne, Twenty Years Later. Alexandre Dumas, Three Musketeers. Alexandre Dumas, Gone with the Wind. Margaret Mitchell, Ivanhoe. Walter Scott, Hero of Our Time. N.V. Gogol, War and Peace. L.N. Tolstoy, Inhabited Island. Boris and Arkady Strugatsky, Crime and Punishment. F.M. Dostoevsky, The Living and the Dead. K.M. Simonov, total 8,366,594 characters, 3919 pages. Mathematical linguistics showed the following probabilities of the frequency of occurrence of letters of the Russian alphabet in texts (Table 6).
Таблица 6. Таблица частоты встречи букв русского алфавита в художественной литературе
Figure imgf000009_0002
Figure imgf000010_0002
Table 6. Table of the frequency of occurrence of letters of the Russian alphabet in fiction
Figure imgf000009_0002
Figure imgf000010_0002
[0042] Для получения значения частоты раскрытия позиций ТАВ8 =
Figure imgf000010_0001
n2i ... nm выполняются следующие действия. Из таблиц 4 и 5 известны буквы, в которые кодируются разряды. Для получения частоты раскрытия разрядов для алгоритма нанесения метки в пространстве возле буквы, частоты букв, в которые кодируются метки, складываются, т.к. позиция выкрывается при обнаружении метки хотя бы в одной из них. В результате вышеописанных действий получается таблица 7.
[0042] To obtain the value of the frequency of opening positions TAB 8 =
Figure imgf000010_0001
n 2i ... n m the following actions are performed. From Tables 4 and 5, the letters into which the digits are coded are known. To obtain the frequency of bit opening for the algorithm for applying a mark in the space near a letter, the frequencies of the letters into which the marks are encoded are added up, because The position is opened when a mark is detected in at least one of them. As a result of the above steps, Table 7 is obtained.
Таблица 7. Таблица частоты раскрытия позиций табельного номера. Table 7. Table of frequency of disclosure of personnel number positions.
И i Частота встречи букв Частота раскрытия разряда
Figure imgf000010_0003
[0043] На основании таблицы 7 формируется диаграмма, представленная на Фиг. 4.
And i Frequency of occurrence of letters Frequency of opening of digit
Figure imgf000010_0003
[0043] Based on Table 7, the diagram shown in FIG. 4.
Диаграмма показывает, что частота раскрытия всех позиций распределена относительно равномерно. [0044] Вычислим количество каждой буквы русского алфавита экспериментальной выборки: The diagram shows that the frequency of opening of all positions is distributed relatively evenly. [0044] Let's calculate the number of each letter of the Russian alphabet in the experimental sample:
Таблица 8. Буквенно-позиционная количественная характеристика экспериментальной выборки.
Figure imgf000011_0001
Table 8. Letter-positional quantitative characteristics of the experimental sample.
Figure imgf000011_0001
[0045] Для метода нанесения точки в пространство возле буквы принимается следующее допущение: процент Р символов на внедрение метки Р = 0,3, при передаче через мессенджеры теряется определенный процент М = 0,7 меток. На основании вышеописанного можно вычислить вероятность распознавания текста, если для дешифрования доступно: целая страница; г страницы; [0045] For the method of placing a dot in the space near the letter, the following assumption is made: the percentage P of characters for the implementation of the mark P = 0.3; when transmitted through messengers, a certain percentage M = 0.7 marks are lost. Based on the above, you can calculate the probability of text recognition if the following is available for decryption: a whole page; g pages;
!4 страницы. !4 pages.
Таблица 9. Пояснения и вероятностей распознавания текста, закодированного методом нанесения точки в пространство возле буквы
Figure imgf000011_0002
Figure imgf000012_0001
Table 9. Explanations and probabilities of recognizing text encoded by placing a dot in the space near the letter
Figure imgf000011_0002
Figure imgf000012_0001
[0046] Пример Экспериментального применения. [0046] Experimental Application Example.
[0047] В ходе тестирования было распечатано и анализировано около 500 страниц разного содержания: текст, разреженный текст, текст с таблицами, текст с графиками, текст с формулами; с разными типами шрифтов: Arial, Calibri, Times New Roman; разное оформление текста: обычный, курсив, полужирный, подчеркнутый; разной размерности: 12рх, 14рх; разным межстрочным интервалом: 0.5, 1.15, 1,5; разным межзнаковым интервалом: обычный, разреженный, уплотнённый; [0047] During testing, about 500 pages of different content were printed and analyzed: text, sparse text, text with tables, text with graphs, text with formulas; with different types of fonts: Arial, Calibri, Times New Roman; different text formats: regular, italic, bold, underlined; different sizes: 12px, 14px; different line spacing: 0.5, 1.15, 1.5; different character spacing: regular, sparse, compacted;
[0048] В каждом случае рассматривалась возможность извлечения метки с: распечатки напрямую; с фотографии распечатки; переданной по мессенджеру распечатки фотографии. [0048] In each case, consideration was given to extracting the mark from: printing directly; from a photograph of a printout; a photo printout sent via messenger.
[0049] Печать проводилась на офисном черно белом лазерном принтере Lexmark МХ71 Ide на офисной бумаге «Снегурочка» с белизной CIE 146 по ISO 11475. [0049] Printing was carried out on a Lexmark MX71 Ide office black and white laser printer on “Snow Maiden” office paper with CIE 146 whiteness according to ISO 11475.
[0050] Фотографирование производилось на телефон Samsung А51 при офисном освещении, бумага лежит горизонтально на столе, фотографирование случайное под разными, незначительными углами, порядком 2-4% в 3-х измерениях. [0050] Photographing was done on a Samsung A51 phone under office lighting, the paper lies horizontally on the table, photographing is random at different, slight angles, about 2-4% in 3 dimensions.
[0051] При передаче фотографий использовался мессенджер Telegram со сжатием изображения при отправлении. [0051] When transferring photographs, the Telegram messenger was used with image compression when sending.
[0052] В ходе эксперимента подбирались параметры, такие как размер меток, их оптимальные места и способы нанесения. Результаты последней фазы эксперимента показаны в таблице 10. [0052] During the experiment, parameters were selected, such as the size of the marks, their optimal locations and application methods. The results of the last phase of the experiment are shown in Table 10.
Таблица 10. Результат эксперимента.
Figure imgf000012_0002
Figure imgf000013_0002
Figure imgf000013_0001
Table 10. Experiment result.
Figure imgf000012_0002
Figure imgf000013_0002
Figure imgf000013_0001
[0053] Вышеописанная таблица показывает хорошие результаты анализа переданных по мессенджеру фотографий распечаток на офисном черно-белом принтере. В результате эксперимента были подобраны оптимальные параметры для внедрения метки, которые с одной стороны, были бы заметны на распечатках как дефекты принтера, с другой стороны, хорошо извлекались из переданных фотографий по мессенджерам. [0053] The table described above shows good results from the analysis of photographs of printouts sent via messenger on an office black and white printer. As a result of the experiment, optimal parameters were selected for introducing marks, which, on the one hand, would be noticeable on printouts as printer defects, on the other hand, could be easily extracted from photographs sent via instant messengers.
[0054] На Фиг. 5 представлен общий вид вычислительного устройства (500), пригодного для выполнения вышеуказанных способов. Устройство (500) может представлять собой, например, компьютер, сервер или иной тип пригодного вычислительного устройства. [0054] In FIG. 5 is an overview of a computing device (500) suitable for performing the above methods. The device (500) may be, for example, a computer, a server, or other type of suitable computing device.
[0055] В общем случае вычислительное устройство (500) содержит объединенные общей шиной информационного обмена один или несколько процессоров (501), средства памяти, такие как ОЗУ (502) и ПЗУ (503), интерфейсы ввода/вывода (504), устройства ввода/вывода (505), и устройство для сетевого взаимодействия (506). [0055] In general, a computing device (500) contains one or more processors (501), memory devices such as RAM (502) and ROM (503), input/output interfaces (504), and input devices connected by a common information exchange bus. /output (505), and a device for network communication (506).
[0056] Процессор (501) (или несколько процессоров, многоядерный процессор) могут выбираться из ассортимента устройств, широко применяемых в текущее время, например, компаний Intel™, AMD™, Apple™, Samsung Exynos™, MediaTEK™, Qualcomm Snapdragon™ и т.п. В качестве процессора (501) может также применяться графический процессор, например, Nvidia, AMD, Graphcore и пр. [0056] The processor (501) (or multiple processors, multi-core processor) may be selected from a variety of devices commonly used today, such as those from Intel™, AMD™, Apple™, Samsung Exynos™, MediaTEK™, Qualcomm Snapdragon™ and etc. A graphics processor, for example, Nvidia, AMD, Graphcore, etc., can also be used as a processor (501).
[0057] ОЗУ (502) представляет собой оперативную память и предназначено для хранения исполняемых процессором (501) машиночитаемых инструкций для выполнение необходимых операций по логической обработке данных. ОЗУ (502), как правило, содержит исполняемые инструкции операционной системы и соответствующих программных компонент (приложения, программные модули и т.п.). [0057] RAM (502) is a random access memory and is designed to store machine-readable instructions executable by the processor (501) to perform the necessary logical data processing operations. RAM (502) typically contains executable operating system instructions and related software components (applications, program modules, etc.).
[0058] ПЗУ (503) представляет собой одно или более устройств постоянного хранения данных, например, жесткий диск (HDD), твердотельный накопитель данных (SSD), флэш- память (EEPROM, NAND и т.п.), оптические носители информации (CD-R/RW, DVD- R/RW, BlueRay Disc, MD) и др. [0058] ROM (503) is one or more permanent storage devices, such as a hard disk drive (HDD), a solid state drive (SSD), flash memory (EEPROM, NAND, etc.), optical storage media ( CD-R/RW, DVD-R/RW, BlueRay Disc, MD), etc.
[0059] Для организации работы компонентов устройства (500) и организации работы внешних подключаемых устройств применяются различные виды интерфейсов В/В (504). Выбор соответствующих интерфейсов зависит от конкретного исполнения вычислительного устройства, которые могут представлять собой, не ограничиваясь: PCI, AGP, PS/2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS/Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232 и т.п. [0060] Для обеспечения взаимодействия пользователя с вычислительным устройством (500) применяются различные средства (505) В/В информации, например, клавиатура, дисплей (монитор), сенсорный дисплей, тач-пад, джойстик, манипулятор мышь, световое перо, стилус, сенсорная панель, трекбол, динамики, микрофон, средства дополненной реальности, оптические сенсоры, планшет, световые индикаторы, проектор, камера, средства биометрической идентификации (сканер сетчатки глаза, сканер отпечатков пальцев, модуль распознавания голоса) и т.п. [0059] To organize the operation of device components (500) and organize the operation of external connected devices, various types of I/O interfaces (504) are used. The choice of appropriate interfaces depends on the specific implementation of the computing device, which may be, but is not limited to: PCI, AGP, PS/2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS/Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232, etc. [0060] To ensure user interaction with the computing device (500), various means (505) of I/O information are used, for example, a keyboard, a display (monitor), a touch display, a touch pad, a joystick, a mouse, a light pen, a stylus, touch panel, trackball, speakers, microphone, augmented reality tools, optical sensors, tablet, light indicators, projector, camera, biometric identification tools (retina scanner, fingerprint scanner, voice recognition module), etc.
[0061] Средство сетевого взаимодействия (506) обеспечивает передачу данных устройством (500) посредством внутренней или внешней вычислительной сети, например, Интранет, Интернет, ЛВС и т.п. В качестве одного или более средств (506) может использоваться, но не ограничиваться: Ethernet карта, GSM модем, GPRS модем, LTE модем, 5G модем, модуль спутниковой связи, NFC модуль, Bluetooth и/или BLE модуль, Wi-Fi модуль и др. [0061] The network communication facility (506) enables the device (500) to transmit data via an internal or external computer network, such as an Intranet, the Internet, a LAN, or the like. One or more means (506) may be used, but not limited to: Ethernet card, GSM modem, GPRS modem, LTE modem, 5G modem, satellite communication module, NFC module, Bluetooth and/or BLE module, Wi-Fi module and etc.
[0062] Дополнительно могут применяться также средства спутниковой навигации в составе устройства (500), например, GPS, ГЛОНАСС, BeiDou, Galileo. [0062] Additionally, satellite navigation tools can also be used as part of the device (500), for example, GPS, GLONASS, BeiDou, Galileo.
[0063] Представленные материалы заявки раскрывают предпочтительные примеры реализации технического решения и не должны трактоваться как ограничивающие иные, частные примеры его воплощения, не выходящие за пределы испрашиваемой правовой охраны, которые являются очевидными для специалистов соответствующей области техники. [0063] The submitted application materials disclose preferred examples of implementation of a technical solution and should not be interpreted as limiting other, particular examples of its implementation that do not go beyond the scope of the requested legal protection, which are obvious to specialists in the relevant field of technology.

Claims

ФОРМУЛА FORMULA
1. Способ кодирования информации для защиты от ее утечек при печати документов, выполняемый с помощью процессора компьютерного устройства, при этом способ содержит этапы, на которых: получают на компьютерном устройстве пользователя информацию о печати по меньшей мере одного цифрового документа, содержащего по меньшей мере текст, при этом компьютерное устройство связано с уникальным идентификатором (УИД) пользователя; осуществляют до момента передачи цифрового документа на печать его обработку, в ходе которой распознают буквы, содержащиеся в цифровом документе; кодируют УИД пользователя в набор цифровых меток, которые располагаются на контурах букв и/или вблизи контуров букв цифрового документа; передают цифровой документ на печать с закодированным УИД пользователя. 1. A method for encoding information to protect against leakage when printing documents, performed using a processor of a computer device, wherein the method comprises the steps of: obtaining information on the printing of at least one digital document containing at least text on the user's computer device , wherein the computer device is associated with a unique identifier (UID) of the user; Before the digital document is sent for printing, it is processed, during which the letters contained in the digital document are recognized; encoding the user's UID into a set of digital marks that are located on the outlines of the letters and/or near the outlines of the letters of the digital document; transmitting a digital document for printing with an encoded user UID.
2. Способ по п.1, характеризующийся тем, что распознавание цифрового документа выполняется с помощью оптического распознавания символов (OCR). 2. The method according to claim 1, characterized in that recognition of the digital document is performed using optical character recognition (OCR).
3. Способ по п.2, характеризующийся тем, что распознаются все символы на каждой странице цифрового документа. 3. The method according to claim 2, characterized in that all characters on each page of the digital document are recognized.
4. Способ по п.1, характеризующийся тем, что каждый символ УИД пользователя кодируется в двоичный код. 4. The method according to claim 1, characterized in that each user UID character is encoded into binary code.
5. Способ по п.4, характеризующийся тем, что на основании разряда двоичного кода определяется область размещения цифровых меток. 5. The method according to claim 4, characterized in that based on the bit of the binary code, the area where the digital marks are placed is determined.
6. Способ защиты информации от утечек на печатных документах, выполняемый с помощью процессора компьютерного устройства, при этом способ содержит этапы, на которых: получают по меньшей мере часть изображения печатного документа с закодированным УИД пользователя способом по любому из пп. 1-5; выполняют распознавание полученного изображения; определяют буквы, содержащие цифровые метки в своей окрестности; выполняют определение и извлечение закодированного УИД. 6. A method for protecting information from leaks on printed documents, performed using a processor of a computer device, the method comprising the steps of: obtaining at least part of an image of a printed document with an encoded user UID using the method according to any one of claims. 1-5; perform recognition of the resulting image; identify letters containing digital marks in their vicinity; performing determination and extraction of the encoded UID.
7. Способ по п.6, характеризующийся тем, что распознавание цифрового документа выполняется с помощью OCR. 7. The method according to claim 6, characterized in that recognition of a digital document is performed using OCR.
8. Система кодирования информации для защиты от ее утечек при печати документов, содержащая по меньшей мере один процессор, по меньшей мере одну память, связанную с процессором и содержащую машиночитаемые инструкции, которые при их исполнении процессором осуществляют способ по любому из пп. 1-5. 8. An information encoding system to protect against leaks when printing documents, comprising at least one processor, at least one memory associated with the processor and containing machine-readable instructions, which, when executed by the processor, implement the method according to any one of claims. 1-5.
9. Система защиты информации от утечек на печатных документах, содержащая по меньшей мере один процессор, по меньшей мере одну память, связанную с процессором и содержащую машиночитаемые инструкции, которые при их исполнении процессором осуществляют способ по любому из пп. 6-7. 9. A system for protecting information from leaks on printed documents, comprising at least one processor, at least one memory associated with the processor and containing machine-readable instructions, which, when executed by the processor, implement the method according to any one of claims. 6-7.
PCT/RU2022/000383 2022-03-10 2022-12-20 Method for protecting information when printing documents WO2023172162A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
RU2022106206 2022-03-10
RU2022106206A RU2790938C1 (en) 2022-03-10 Method and system for protecting information from leakage when printing documents with implementation of digital marks

Publications (1)

Publication Number Publication Date
WO2023172162A1 true WO2023172162A1 (en) 2023-09-14

Family

ID=87935599

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/RU2022/000383 WO2023172162A1 (en) 2022-03-10 2022-12-20 Method for protecting information when printing documents

Country Status (1)

Country Link
WO (1) WO2023172162A1 (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040001606A1 (en) * 2002-06-28 2004-01-01 Levy Kenneth L. Watermark fonts
US20070047818A1 (en) * 2005-08-23 2007-03-01 Hull Jonathan J Embedding Hot Spots in Imaged Documents
US20080205699A1 (en) * 2005-10-25 2008-08-28 Fujitsu Limited Digital watermark embedding and detection
RU2446464C2 (en) * 2010-05-06 2012-03-27 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Method and system for embedding and extracting hidden data in printed documents
US20130028466A1 (en) * 2005-09-16 2013-01-31 Sursen Corp. Embedding and Detecting Hidden Information
RU2758666C1 (en) * 2021-03-25 2021-11-01 Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) Method and system for protection of digital information displayed on the screen of electronic apparatuses using dynamic digital tags

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040001606A1 (en) * 2002-06-28 2004-01-01 Levy Kenneth L. Watermark fonts
US20070047818A1 (en) * 2005-08-23 2007-03-01 Hull Jonathan J Embedding Hot Spots in Imaged Documents
US20130028466A1 (en) * 2005-09-16 2013-01-31 Sursen Corp. Embedding and Detecting Hidden Information
US20080205699A1 (en) * 2005-10-25 2008-08-28 Fujitsu Limited Digital watermark embedding and detection
RU2446464C2 (en) * 2010-05-06 2012-03-27 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Method and system for embedding and extracting hidden data in printed documents
RU2758666C1 (en) * 2021-03-25 2021-11-01 Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) Method and system for protection of digital information displayed on the screen of electronic apparatuses using dynamic digital tags

Similar Documents

Publication Publication Date Title
US10339378B2 (en) Method and apparatus for finding differences in documents
CN107239666B (en) Method and system for desensitizing medical image data
US9626555B2 (en) Content-based document image classification
CN112016273B (en) Document catalog generation method, device, electronic equipment and readable storage medium
US20200097713A1 (en) Method and System for Accurately Detecting, Extracting and Representing Redacted Text Blocks in a Document
KR102503880B1 (en) Machine readable security mark and process for generating
CN108805787A (en) A kind of method and apparatus that paper document distorts Jianzhen
JP2016048444A (en) Document identification program, document identification device, document identification system, and document identification method
US20190384971A1 (en) System and method for optical character recognition
CN112102402A (en) Flash lamp light spot position identification method and device, electronic equipment and storage medium
US7596270B2 (en) Method of shuffling text in an Asian document image
US10867170B2 (en) System and method of identifying an image containing an identification document
WO2022103564A1 (en) Fraud detection via automated handwriting clustering
JP2011178075A (en) Apparatus and method for determining authenticity
RU2790938C1 (en) Method and system for protecting information from leakage when printing documents with implementation of digital marks
Eskenazi et al. When document security brings new challenges to document analysis
WO2023172162A1 (en) Method for protecting information when printing documents
US20080279374A1 (en) Pixel-Based Method for Encryption and Decryption of Data
RU2793611C1 (en) Method and system for protecting information from leaking when printing documents with implementation of symbol shifting
EA044732B1 (en) METHOD AND SYSTEM FOR PROTECTING INFORMATION FROM LEAKAGE WHEN PRINTING DOCUMENTS USING THE IMPLEMENTATION OF DIGITAL MARKS
WO2023172161A1 (en) Method and system for protecting information when printing documents
CN110942075A (en) Information processing apparatus, storage medium, and information processing method
US20170337165A1 (en) System and method of embedding symbology in alphabetic letters and then linking the letters to a site or sites on the global computer network
EA045968B1 (en) METHOD AND SYSTEM FOR PROTECTING INFORMATION FROM LEAKAGE WHEN PRINTING DOCUMENTS USING CHARACTER SHIFTING
CN114743209A (en) Prescription identification and verification method, system, electronic equipment and storage medium

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22931154

Country of ref document: EP

Kind code of ref document: A1