WO2023172161A1 - Способ и система защиты информации при печати документов - Google Patents

Способ и система защиты информации при печати документов Download PDF

Info

Publication number
WO2023172161A1
WO2023172161A1 PCT/RU2022/000382 RU2022000382W WO2023172161A1 WO 2023172161 A1 WO2023172161 A1 WO 2023172161A1 RU 2022000382 W RU2022000382 W RU 2022000382W WO 2023172161 A1 WO2023172161 A1 WO 2023172161A1
Authority
WO
WIPO (PCT)
Prior art keywords
printing
uid
processor
digital document
user
Prior art date
Application number
PCT/RU2022/000382
Other languages
English (en)
French (fr)
Inventor
Михаил Артурович АНИСТРАТЕНКО
Валентин Валерьевич СЫСОЕВ
Иван Александрович ОБОЛЕНСКИЙ
Дмитрий Алексеевич БОРИСОВ
Александр Артурович АНИСТРАТЕНКО
Original Assignee
Публичное Акционерное Общество "Сбербанк России"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from RU2022106205A external-priority patent/RU2793611C1/ru
Application filed by Публичное Акционерное Общество "Сбербанк России" filed Critical Публичное Акционерное Общество "Сбербанк России"
Publication of WO2023172161A1 publication Critical patent/WO2023172161A1/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof

Definitions

  • the claimed solution relates to the field of information security, in particular to solutions for preventing information leakage when printing documents.
  • DLP Data Leak Prevention
  • the disadvantage of this solution is the impossibility of using it to prevent leaks in order to identify the employee who committed the leak when printing documents. Also, another disadvantage is the insufficient effectiveness of document protection, which is due to the use of a code to compare the authenticity of a document, which only allows one to establish the fact of the immutability and authenticity of the document, but does not prevent information leakage.
  • the claimed invention is aimed at solving a technical problem, which is to create an effective means for protecting digital information from leakage during printing.
  • the technical result is to increase the efficiency of data protection from leakage by introducing a unique user code into the document for its subsequent identification when analyzing printed documents.
  • the claimed result is achieved through a method of encoding information to protect against leaks when printing documents, performed using a processor of a computer device, wherein the method contains stages in which: information about printing of at least one digital document is received on the user’s computer device containing at least text, wherein the computer device is associated with a UID (unique identifier) of the user; Before the digital document is sent for printing, it is processed, during which the letters contained in the digital document are recognized; encode the user's UID by shifting the letters along the horizontal axis by a specified number of pixels; transmitting a digital document for printing with an encoded user UID.
  • UID unique identifier
  • recognition of a digital document is performed using optical character recognition (OCR).
  • OCR optical character recognition
  • each user UID character is encoded into binary code.
  • letters for their offset are determined based on the digit of the binary code.
  • the claimed technical result is also achieved by implementing a method for protecting information from leaks on printed documents, performed using a processor of a computer device, the method comprising the steps of: obtaining at least part of an image of a printed document with an encoded user UID using the above method ; perform recognition of the resulting image; determine letters offset along the horizontal axis; performing determination and extraction of the encoded UID.
  • digital document recognition is performed using OCR.
  • the claimed solution is also implemented using corresponding systems comprising a processor and memory that store machine-readable instructions for implementing each of the above methods.
  • FIG. 1 illustrates a flowchart of a digital mark encoding method.
  • FIG. 2 illustrates an example of letter offset for UID encoding.
  • FIG. 3 illustrates a block diagram of digital mark decoding.
  • FIG. 4 illustrates a diagram of the frequency of disclosure of UID positions.
  • FIG. 5 illustrates a general view of a computing device.
  • FIG. 1 shows a method (100) for protecting information in digital documents from leakage by encoding the user's UID by shifting letters in the document.
  • the method (100) is carried out on a computer device of a user, for example, an employee, and a user UID is associated with the device, allowing him to be identified.
  • the execution of step (101) is animated by software logic executed by a computer device and can be implemented, for example, in the form of a software agent or module that provides signals from the processor indicating that a digital document is being sent for printing.
  • a digital document is typically a file and can contain text, graphics, or a combination of both.
  • step (102) After receiving a command on the device to intercept and analyze the document before sending it to the printer, at step (102) recognition of the mentioned digital document is performed. Document processing is done using OCR technology to ensure recognition of letters and symbols in a digital document.
  • the UID encoding process is carried out at step (103).
  • the UID is, for example, a numeric personnel number of an employee - a digital TAB code, consisting, for example, of 8 digits.
  • a schematic view of the code is presented in Table 1. Table 1. Schematic representation of the personnel number
  • Each element of the personnel number is a number from 0 to 9, respectively, each element of the personnel number can be displayed in binary form with a dimension of 4 bits, i.e. it will represent a binary number from 1 to 1100, which is a homomorphism with a shift, presented in Table 2.
  • the main feature of the encoding algorithm is that only one digit in the personnel number is assigned to each letter.
  • the coding scheme is schematically presented in Table 3.
  • each array Pos corresponds to each position of the personnel number.
  • Each array Pos is filled with those characters from Wrus Pi that correspond to the position from table 3.
  • Pos r is filled with all characters from Wrus p that have values ⁇ a ⁇ , regardless of case.
  • the arrays Pos ⁇ Pos 2 ... Pos 32 are mixed, for example, by Knuth shuffle. Let l P0S1 , lpos 2 > pos 3 ⁇ Pos 32 ⁇ the dimensions of the resulting arrays, P is the percentage of characters for the implementation of the label P E [0.3 ... 0.7], then each array from Pos ⁇ Pos 2 ... Pos 32 is cut from end to size
  • the UID is converted into binary form for subsequent determination of the digits according to Table 3.
  • the letters corresponding to 1 in the binary code of the UID digit are determined.
  • For UID “00013400” the following letters are obtained: H S T L Y Y Z. These letters are shifted by a specified number of pixels horizontally on each page of the document sent for printing. Changing a document is done using OCR technology by recognizing the letters to be replaced and replacing them in the digital document.
  • FIG. 3 shows the sequence of steps performed when performing the method (300) for recognizing UID on printed documents.
  • the computing device used to determine the UID in the printed document obtains an image of such document.
  • the image may contain all or part of the text, with an encoded UID, obtained, for example, by photographing with an external device (smartphone, camera, etc.) or by scanning a printed document using OCR.
  • step (302) also using OCR technology, letters in the document are recognized, and if there are several pages in the document, then each page of the document is recognized.
  • step (303) a determination is made of letters that are offset horizontally.
  • the array is analyzed next L w and anomaly detection methods find anomalies in , such as, for example, the local outlier level, the k-nearest neighbors method or their analogues, including those built on neural networks.
  • the symbol from W whose indices i coincide will be considered displaced L t -» Chi-
  • decoding of the ID is performed at step (304) in accordance with the examples in Tables 2 and 3. This allows you to establish the personnel number of the employee (user) from whose computer device the document was printed.
  • UID personnel number
  • Table 5 Table of the frequency of occurrence of letters of the Russian alphabet in fiction.
  • Printing was carried out on a Lexmark MX71 Ide office black and white laser printer on “Snow Maiden” office paper with CIE 146 whiteness according to ISO 11475.
  • Photographing was done on a Samsung A51 phone under office lighting, the paper lies horizontally on the table, photographing is random at different, slight angles, about 2-4% in 3 dimensions.
  • the Telegram messenger was used with image compression when sending.
  • FIG. 5 is an overview of a computing device (500) suitable for performing the above methods.
  • the device (500) may be, for example, a computer, a server, or other type of suitable computing device.
  • a computing device contains one or more processors (501), memory devices such as RAM (502) and ROM (503), input/output interfaces (504), and input devices connected by a common information exchange bus. /output (505), and a device for network communication (506).
  • the processor (501) may be selected from a variety of devices commonly used today, such as those from IntelTM, AMDTM, AppleTM, Samsung ExynosTM, MediaTEKTM, Qualcomm SnapdragonTM and etc.
  • a graphics processor for example, Nvidia, AMD, Graphcore, etc., can also be used as a processor (501).
  • RAM (502) is a random access memory and is designed to store machine-readable instructions executable by the processor (501) to perform the necessary logical data processing operations.
  • RAM (502) typically contains executable operating system instructions and related software components (applications, program modules, etc.).
  • ROM (503) is one or more permanent storage devices, such as a hard disk drive (HDD), a solid state drive (SSD), flash memory (EEPROM, NAND, etc.), optical storage media ( CD-R/RW, DVD-RZRW, BlueRay Disc, MD), etc.
  • HDD hard disk drive
  • SSD solid state drive
  • EEPROM electrically erasable programmable read-only memory
  • NAND solid state drive
  • optical storage media CD-R/RW, DVD-RZRW, BlueRay Disc, MD
  • I/O interfaces To organize the operation of device components (500) and organize the operation of external connected devices, various types of I/O interfaces (504) are used.
  • the choice of appropriate interfaces depends on the specific design of the computing device, which can be, but is not limited to: PCI, AGP, PS/2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS/Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232, etc.
  • various means (505) of I/O information are used, for example, a keyboard, a display (monitor), a touch display, a touch pad, a joystick, a mouse, a light pen, a stylus, touch panel, trackball, speakers, microphone, augmented reality tools, optical sensors, tablet, light indicators, projector, camera, biometric identification tools (retina scanner, fingerprint scanner, voice recognition module), etc.
  • the network communication facility (506) enables the device (500) to transmit data via an internal or external computer network, such as an Intranet, the Internet, a LAN, or the like.
  • One or more means (506) may be used, but not limited to: Ethernet card, GSM modem, GPRS modem, LTE modem, 5G modem, satellite communication module, NFC module, Bluetooth and/or BLE module, Wi-Fi module and etc.
  • satellite navigation tools can also be used as part of the device (500), for example, GPS, GLONASS, BeiDou, Galileo.

Abstract

Заявленное решение относится к области защиты информации, в частности к решениям для предотвращения утечки информации при печати документов. Технический результат заключается в повышении эффективности защиты данных от утечки, за счет внедрения уникального кода пользователя в документ для последующей его идентификации при анализе распечатанных документов. Заявленный результат достигается за счет способа кодирования информации для защиты от ее утечек при печати документов, выполняемого с помощью процессора компьютерного устройства, при этом способ содержит этапы, на которых: получают на компьютерном устройстве пользователя информацию о печати по меньшей мере одного цифрового документа, содержащего по меньшей мере текст, при этом компьютерное устройство связано с УИД (уникальный идентификатор) пользователя; осуществляют до момента передачи цифрового документа на печать его обработку, в ходе которой распознают буквы, содержащиеся в цифровом документе; кодируют УИД пользователя путем смещения букв по горизонтальной оси на заданное количество пикселей; передают цифровой документ на печать с закодированным УИД пользователя.

Description

СПОСОБ И СИСТЕМА ЗАЩИТЫ ИНФОРМАЦИИ ПРИ ПЕЧАТИ ДОКУМЕНТОВ
ОБЛАСТЬ ТЕХНИКИ
[0001] Заявленное решение относится к области защиты информации, в частности к решениям для предотвращения утечки информации при печати документов.
УРОВЕНЬ ТЕХНИКИ
[0002] Технологии предотвращения утечек (англ. Data Leak Prevention, DLP) представляют собой технологии предотвращения утечек конфиденциальной информации из информационной системы вовне, а также технические устройства (программные или программно-аппаратные) для такого предотвращения утечек.
[0003] Из патентной заявки US 20080091954 Al (Morris et al., 17.04.2008) известно решение для проверки целостности данных, представленных на печатных документах. Решение базируется на применении уникального идентификатора, с помощью которого осуществляется анализ содержимого документа. Каждому сегменту документа присваивается цифра или группа цифр, и каждой странице или сегменту документа может быть присвоена одна цифра в общем идентификаторе. Совокупность цифр, связанных с документом, объединяется в строку аутентификации. При получении запроса на последующую обработку документа выполняется аутентификация и проверка целостности документа путем считывания представленного документа для получения строки аутентификации, и последующего сравнения новой строки с ранее сохраненной строкой. После успешного сопоставления документ считается действительным, аутентифицированным и неизмененным.
[0004] Недостатком данного решения является невозможность его использования для предотвращения утечек с целью идентификацию сотрудника, допустившего факт утечки при печати документов. Также, другим недостатком является недостаточная эффективность защиты документов, что обусловлено применением кода для сравнения аутентичности документа, что позволяет только установить факт неизменности и подлинности документа, но не предотвратить утечку информации.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
[0005] Заявленное изобретение направлено на решение технической проблемы, заключающейся в создании эффективного средства для защиты цифровой информации от утечки при ее печати. [0006] Технический результат заключается в повышении эффективности защиты данных от утечки, за счет внедрения уникального кода пользователя в документ для последующей его идентификации при анализе распечатанных документов.
[0007] Заявленный результат достигается за счет способа кодирования информации для защиты от ее утечек при печати документов, выполняемого с помощью процессора компьютерного устройства, при этом способ содержит этапы, на которых: получают на компьютерном устройстве пользователя информацию о печати по меньшей мере одного цифрового документа, содержащего по меньшей мере текст, при этом компьютерное устройство связано с УИД (уникальный идентификатор) пользователя; осуществляют до момента передачи цифрового документа на печать его обработку, в ходе которой распознают буквы, содержащиеся в цифровом документе; кодируют УИД пользователя путем смещения букв по горизонтальной оси на заданное количество пикселей; передают цифровой документ на печать с закодированным УИД пользователя.
[0008] В одном из частных примеров реализации способа распознавание цифрового документа выполняется с помощью оптического распознавания символов (OCR).
[0009] В другом частном примере реализации способа распознаются все символы на каждой странице цифрового документа.
[0010] В другом частном примере реализации способа каждый символ УИД пользователя кодируется в двоичный код.
[0011] В другом частном примере реализации способа на основании разряда двоичного кода определяются буквы для их смещения.
[0012] Заявленный технический результат также достигается за счет осуществления способа защиты информации от утечек на печатных документах, выполняемого с помощью процессора компьютерного устройства, при этом способ содержит этапы, на которых: получают по меньшей мере часть изображения печатного документа с закодированным УИД пользователя вышеуказанным способом; выполняют распознавание полученного изображения; определяют смещенные по горизонтальной оси буквы; выполняют определение и извлечение закодированного УИД.
[0013] В одном из частных примеров выполнения способа распознавание цифрового документа выполняется с помощью OCR.
[0014] Заявленное решение также осуществляется с помощью соответствующих систем, содержащих процессор и память, которые хранят машиночитаемые инструкции для реализации каждого из вышеописанных способов.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
[0015] Фиг. 1 иллюстрирует блок-схему способа кодирования цифровой метки.
[0016] Фиг. 2 иллюстрирует пример смещения букв для кодирования УИД.
[0017] Фиг. 3 иллюстрирует блок-схему декодирования цифровых меток.
[0018] Фиг. 4 иллюстрирует диаграмму частоты раскрытия позиций УИД. [0019] Фиг. 5 иллюстрирует общий вид вычислительного устройства.
ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ
[0020] На Фиг. 1 представлен способ (100) защиты информации в цифровых документах от утечки с помощью кодирования УИД пользователя путем смещения букв в документе. На первом этапе (101) получается информация о печати цифрового документа. Выполнение способа (100) осуществляется на компьютерном устройстве пользователя, например, сотрудника, при этом к устройству привязан УИД пользователя, позволяющий его идентифицировать. Исполнение этапа (101) одушевляется с помощью программной логики, исполняемой компьютерным устройством и может быть реализовано, например, в виде программного агента или модуля, обеспечивающего получение сигналов от процессора, свидетельствующих об отправке цифрового документа на печать. Цифровой документ представляет собой, как правило, файл и может содержать текст, графику или их сочетания.
[0021] После получения на устройстве команды на перехват и анализ документа до его отправки на принтер на этапе (102) выполняется распознавание упомянутого цифрового документа. Обработка документа выполняется с помощью технологии OCR для обеспечения распознавания букв и символов в цифровом документе.
[0022] После этапа распознавания цифрового документа на этапе (103) осуществляется процесс кодирования УИД. УИД представляет собой, например, числовой табельный номер сотрудника - цифровой код TAB, состоящий, например, из 8-ми цифр. Данный код можно представить как массив цифр ТАВа = {П1, П2, — nm}, TAB8 G [0 ...9],т = 8. Схематичный вид кода представлен в таблице 1. Таблица 1. Схематичное изображение табельного номера
Figure imgf000006_0002
[0023] Каждый элемент табельного номера представляет собой число от 0 до 9, соответственно, каждый элемент табельного номера можно отобразить в двоичном виде размерностью в 4 бит, т.е. он будет представлять собой двоичное число от 1 до 1100, являющееся гомоморфизмом со сдвигом, представленным в таблице 2.
Таблица 2. Схема гомоморфизма табельного номера из десятичной в двоичную систему счисления.
Figure imgf000006_0003
[0024] Отображение 0 в 0001 необходимо для того, чтобы фиксировать наличие 0 в табельном номере. Для кодирования элемента табельного номера в двоичном коде TABgIN = {blt b2, b3, ... , bi}, i = 8, необходимо 4 разряда
Figure imgf000006_0001
[0025] Главная особенность алгоритма кодировки заключается в том, что на каждую букву навешивается только один разряд в табельном номере. Схематично схема кодирования представлена в таблице 3.
Таблица 3. Схема кодирования
Figure imgf000006_0004
Figure imgf000007_0002
[0026] Таким образом, буквы (20), у которых разряд Cj = 1 в тексте двигаются влево вправо на некоторое количество пикселей как это представлено на Фиг. 2.
[0027] Шифрование текста происходит следующим образом. [0028] Пусть документ D содержит I страниц, тогда документ D - есть массив страниц,
D = {Р1,р2,Рз -Pi}> l е N-
[0029] На каждой странице
Figure imgf000007_0001
i G [1, /] считывается посимвольно текст и записывается в массив символов 5р. = {s1, s2, s3, ... Sip , где lPi- количество символов на странице р^. Символы распознаются с помощью, к примеру, OCR, из них выявляются русские буквы Wrusp. G SPi.
[0030] Далее создаются 32 массива Poslt Pos2 ... Pos32, каждый из которых соответствует каждой позиции табельного номера. Каждый массивов Pos заполняется теми символами из WrusPi , которые соответствуют позиции из таблицы 3. Например, Posr заполняется всеми символами из Wrusp., которые имеют значения {а}, вне зависимости от регистра. [0031] Массивы Pos^ Pos2 ... Pos32 перемешиваются, к примеру, тасованием Кнута. Пусть lP0S1, lpos2> pos3 ^Pos32 ~ размерности полученных массивов, Р - процент символов на внедрение метки Р Е [0,3 ... 0,7], тогда каждый массив из Pos^ Pos2 ... Pos32 обрезается с конца до размерности
Figure imgf000008_0001
[0032] Полученные массивы Posf , Pos2 ... Pos32 используются для смещения символов по вышеописанному способу. После внедрения всех меток на искомой странице
Figure imgf000008_0002
тоже самое проделывается для следующей страницы pi+1 и так далее до конца документа рг.
[0033] Рассмотрим пример с кодированием УИД пользователя - 00013400.
[0034] В соответствии с Таблицей 2 УИД переводится в двоичную форму для последующего определения разрядов по Таблице 3. В соответствии с Таблицей 3 определяются буквы, соответствующие 1 в двоичном коде цифры УИД. Для УИД «00013400» получаются буквы: Ч Ш С Т Л Ы Ю Я. Данные буквы смещаются на заданное количество пикселей по горизонтали на каждой странице документа, направленного на печать. Изменение документа выполняется с помощью технологии OCR путем распознавания букв для замены и их замены в цифровом документе.
[0035] После внесения в документ, направленный на печать цифровых меток, кодирующих УИД, на этапе (104) выполняется его направление на печать. Распечатанный документ будет содержать закодированный УИД практически неразличимый для человеческого глаза.
[0036] На Фиг. 3 приведена последовательность этапов, выполняемых при выполнении способа (300) распознавании УИД на распечатанных документах. На этапе (301) вычислительное устройство, используемое для определения УИД в распечатанном документе, получает изображение такого документа. Изображение может содержать полностью или частично текст, с закодированном УИД, полученный, например, с помощью фотографирования внешним устройством (смартфон, камера и т.п.) или при помощи сканирования с помощью OCR распечатанного документа.
[0037] Далее на этапе (302) также при помощи технологии OCR выполняется распознавание букв в документе, при этом если страниц в документе несколько, то распознается каждая страница документа. На этапе (303) выполняется определение букв, которые смещены по горизонтали.
[0038] Принцип выявления смещенных букв в слове заключается в следующем: пусть W - слово в тексте, W = {Ch^, Ch2, ... , Chn] - слово представляет собой массив символов, п - количество символов в слове. Тогда пусть Lw = {L1( L2, ... Ln-i] массив расстояний меду символами в слове, где Lt = \Cht — Chi+1\, i E [1 ...n — 1]. Далее анализируется массив Lw и методами выявления аномалий находятся аномалии в , таким, как, к примеру, локальный уровень выброса, метод k-ближайших соседей или их аналоги, в том числе построенные на нейронных сетях. Смещённым будет считаться тот символ из W, чьи индексы i будут совпадать Lt -» Chi-
[0039] После этого выполняется декодирование У ИД на этапе (304) в соответствии с примерами в Таблицах 2 и 3. Это позволяет установить табельный номер сотрудника (пользователя), с компьютерного устройства которого была осуществлена печать документа.
[0040] Математическое обоснование метода.
[0041] Частоты раскрытия позиций ТАВ8 = {п1,п2>
Figure imgf000009_0001
= 8 равномерно распределены для всех т, что позволяет показать вероятность извлечения табельного номера (УИД) из текста страницы.
[0042] Для математического обоснования было проведено исследование по частоте встречающихся букв в тексте с разным содержанием, к примеру, рассмотрим, такое распределение характерное для литературных произведений. Список литературных произведений, участвующих в эксперименте: Сильмариллион. Дж.Р.Р. Толкин, Двадцать тысяч лье под водой. Жюль Г.Верн, Двадцать лет спустя. Александр Дюма, Три мушкетера. Александр Дюма, Унесенные ветром. Маргарет Митчелл, Айвенго. Вальтер Скотт, Герой нашего времени. Н.В. Гоголь, Война и мир. Л.Н.Толстой, Обитаемый остров. Борис и Аркадий Стругацкие, Преступление и наказание. Ф.М.Достоевский, Живые и мертвые. К.М.Симонов, всего 8 366 594 символов. Математическая лингвистика показала следующие вероятности частоты встречи букв русского алфавита в текстах (Таблица 6).
Таблица 5. Таблица частоты встречи букв русского алфавита в художественной литературе.
Figure imgf000009_0002
Figure imgf000010_0001
[0043] Для получения значения частоты раскрытия позиций ТАВ8 = {n1,n2i —П-т] выполняются следующие действия. Из таблиц 3 и 4 известны буквы, в которые кодируются разряды. Вычисляется среднее арифметическое частот множества букв, по которым вскрыт разряд, так как для вскрытия разряда нужно иметь все буквы разряда, где есть значение 1 в
TAB8 IN . В результате вышеописанных действий получается таблица 6.
Таблица 6. Таблица частоты раскрытия позиций табельного номера.
Частота встречи букв Частота раскрытия разряда
Figure imgf000010_0002
[0044] На основании таблицы 6 формируется диаграмма, представленная на Фиг. 4. Диаграмма показывает, что частота раскрытия всех позиций распределена относительно равномерно.
[0045] Для метода нанесения точки в пространство возле буквы принимается следующее допущение: процент Р символов на внедрение метки Р = 0,3, при передаче через мессенджеры теряется определенный процент М = 0,7 меток. [0046] Вычислим количество каждой буквы русского алфавита экспериментальной выборки:
Таблица 7. Буквенно-позиционная количественная характеристика экспериментальной выборки.
Figure imgf000011_0001
[0047] Для метода нанесения точки в пространство возле буквы принимается следующее допущение: процент Р символов на внедрение метки Р = 0,3, при передаче через мессенджеры теряется определенный процент М = 0,7 меток. На основании вышеописанного можно вычислить вероятность распознавания текста, если для дешифрования доступно: целая страница; */г страницы; % страницы.
Таблица 8. пояснения и вероятностей распознавания текста, закодированного методом нанесения точки в пространство возле буквы.
Figure imgf000011_0002
Figure imgf000012_0001
[0048] Пример Экспериментального применения.
• В ходе тестирования было распечатано и анализировано около 500 страниц разного содержания: текст, разреженный текст, текст с таблицами, текст с графиками, текст с формулами;
• с разными типами шрифтов: Arial, Calibri, Times New Roman;
• разное оформление текста: обычный, курсив, полужирный, подчеркнутый;
• разной размерности: 12рх, 14рх;
• разным межстрочным интервалом: 0.5, 1.15, 1,5;
• разным межзнаковым интервалом: обычный, разреженный, уплотнённый;
[0049] В каждом случае рассматривалась возможность извлечения метки с:
• распечатки напрямую;
• с фотографии распечатки;
• переданной по мессенджеру распечатки фотографии.
[0050] Печать проводилась на офисном черно белом лазерном принтере Lexmark МХ71 Ide на офисной бумаге «Снегурочка» с белизной CIE 146 по ISO 11475.
[0051] Фотографирование производилось на телефон Samsung А51 при офисном освещении, бумага лежит горизонтально на столе, фотографирование случайное под разными, незначительными углами, порядком 2-4% в 3-х измерениях.
[0052] При передаче фотографий использовался мессенджер Telegram со сжатием изображения при отправлении.
[0053] В ходе эксперимента подбирались параметры, такие как размер меток, их оптимальные места и способы нанесения. Результаты последней фазы эксперимента показаны в таблице 9.
Таблица 9. Результат эксперимента.
Figure imgf000013_0001
[0054] Вышеописанная таблица показывает хорошие результаты анализа переданных по мессенджеру фотографий распечаток на офисном черно-белом принтере. В результате эксперимента были подобраны оптимальные параметры для смещения букв, которые с одной стороны, были бы заметны на распечатках как дефекты принтера, с другой стороны, хорошо извлекались из переданных фотографий по мессенджерам.
[0055] На Фиг. 5 представлен общий вид вычислительного устройства (500), пригодного для выполнения вышеуказанных способов. Устройство (500) может представлять собой, например, компьютер, сервер или иной тип пригодного вычислительного устройства.
[0056] В общем случае вычислительное устройство (500) содержит объединенные общей шиной информационного обмена один или несколько процессоров (501), средства памяти, такие как ОЗУ (502) и ПЗУ (503), интерфейсы ввода/вывода (504), устройства ввода/вывода (505), и устройство для сетевого взаимодействия (506).
[0057] Процессор (501) (или несколько процессоров, многоядерный процессор) могут выбираться из ассортимента устройств, широко применяемых в текущее время, например, компаний Intel™, AMD™, Apple™, Samsung Exynos™, MediaTEK™, Qualcomm Snapdragon™ и т.п. В качестве процессора (501) может также применяться графический процессор, например, Nvidia, AMD, Graphcore и пр.
[0058] ОЗУ (502) представляет собой оперативную память и предназначено для хранения исполняемых процессором (501) машиночитаемых инструкций для выполнение необходимых операций по логической обработке данных. ОЗУ (502), как правило, содержит исполняемые инструкции операционной системы и соответствующих программных компонент (приложения, программные модули и т.п.).
[0059] ПЗУ (503) представляет собой одно или более устройств постоянного хранения данных, например, жесткий диск (HDD), твердотельный накопитель данных (SSD), флэш- память (EEPROM, NAND и т.п.), оптические носители информации (CD-R/RW, DVD- RZRW, BlueRay Disc, MD) и др. [0060] Для организации работы компонентов устройства (500) и организации работы внешних подключаемых устройств применяются различные виды интерфейсов В/В (504). Выбор соответствующих интерфейсов зависит от конкретного исполнения вычислительного устройства, которые могут представлять собой, не ограничиваясь: PCI, AGP, PS/2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS/Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232 и т.п.
[0061] Для обеспечения взаимодействия пользователя с вычислительным устройством (500) применяются различные средства (505) В/В информации, например, клавиатура, дисплей (монитор), сенсорный дисплей, тач-пад, джойстик, манипулятор мышь, световое перо, стилус, сенсорная панель, трекбол, динамики, микрофон, средства дополненной реальности, оптические сенсоры, планшет, световые индикаторы, проектор, камера, средства биометрической идентификации (сканер сетчатки глаза, сканер отпечатков пальцев, модуль распознавания голоса) и т.п.
[0062] Средство сетевого взаимодействия (506) обеспечивает передачу данных устройством (500) посредством внутренней или внешней вычислительной сети, например, Интранет, Интернет, ЛВС и т.п. В качестве одного или более средств (506) может использоваться, но не ограничиваться: Ethernet карта, GSM модем, GPRS модем, LTE модем, 5G модем, модуль спутниковой связи, NFC модуль, Bluetooth и/или BLE модуль, Wi-Fi модуль и др.
[0063] Дополнительно могут применяться также средства спутниковой навигации в составе устройства (500), например, GPS, ГЛОНАСС, BeiDou, Galileo.
[0064] Представленные материалы заявки раскрывают предпочтительные примеры реализации технического решения и не должны трактоваться как ограничивающие иные, частные примеры его воплощения, не выходящие за пределы испрашиваемой правовой охраны, которые являются очевидными для специалистов соответствующей области техники.

Claims

ФОРМУЛА
1. Способ кодирования информации для защиты от ее утечек при печати документов, выполняемый с помощью процессора компьютерного устройства, при этом способ содержит этапы, на которых: получают на компьютерном устройстве пользователя информацию о печати по меньшей мере одного цифрового документа, содержащего по меньшей мере текст, при этом компьютерное устройство связано с УИД пользователя; осуществляют до момента передачи цифрового документа на печать его обработку, в ходе которой распознают буквы, содержащиеся в цифровом документе; кодируют УИД пользователя путем смещения букв по горизонтальной оси на заданное количество пикселей; передают цифровой документ на печать с закодированным УИД пользователя.
2. Способ по п.1, характеризующийся тем, что распознавание цифрового документа выполняется с помощью оптического распознавания символов (OCR).
3. Способ по п.2, характеризующийся тем, что распознаются все символы на каждой странице цифрового документа.
4. Способ по п.1, характеризующийся тем, что каждый символ УИД пользователя кодируется в двоичный код.
5. Способ по п.4, характеризующийся тем, что на основании разряда двоичного кода определяются буквы для их смещения.
6. Способ защиты информации от утечек на печатных документах, выполняемый с помощью процессора компьютерного устройства, при этом способ содержит этапы, на которых: получают по меньшей мере часть изображения печатного документа с закодированным УИД пользователя способом по любому из пп. 1-5; выполняют распознавание полученного изображения; определяют смещенные по горизонтальной оси буквы; выполняют определение и извлечение закодированного УИД.
7. Способ по п. 6, характеризующийся тем, что распознавание полученного изображения выполняется с помощью OCR.
8. Система кодирования информации для защиты от ее утечек при печати документов, содержащая по меньшей мере один процессор, по меньшей мере одну память, связанную с процессором и содержащую машиночитаемые инструкции, которые при их исполнении процессором осуществляют способ по любому из пп. 1-5.
9. Система защиты информации от утечек на печатных документах, содержащая по меньшей мере один процессор, по меньшей мере одну память, связанную с процессором и содержащую машиночитаемые инструкции, которые при их исполнении процессором осуществляют способ по любому из пп. 6-7.
PCT/RU2022/000382 2022-03-10 2022-12-20 Способ и система защиты информации при печати документов WO2023172161A1 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
RU2022106205A RU2793611C1 (ru) 2022-03-10 Способ и система защиты информации от утечки при печати документов с помощью смещения символов
RU2022106205 2022-03-10

Publications (1)

Publication Number Publication Date
WO2023172161A1 true WO2023172161A1 (ru) 2023-09-14

Family

ID=87935658

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/RU2022/000382 WO2023172161A1 (ru) 2022-03-10 2022-12-20 Способ и система защиты информации при печати документов

Country Status (1)

Country Link
WO (1) WO2023172161A1 (ru)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040001606A1 (en) * 2002-06-28 2004-01-01 Levy Kenneth L. Watermark fonts
US20070047818A1 (en) * 2005-08-23 2007-03-01 Hull Jonathan J Embedding Hot Spots in Imaged Documents
US20080205699A1 (en) * 2005-10-25 2008-08-28 Fujitsu Limited Digital watermark embedding and detection
RU2446464C2 (ru) * 2010-05-06 2012-03-27 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ и система встраивания и извлечения скрытых данных в печатаемых документах
US20130028466A1 (en) * 2005-09-16 2013-01-31 Sursen Corp. Embedding and Detecting Hidden Information
RU2758666C1 (ru) * 2021-03-25 2021-11-01 Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) Способ и система защиты цифровой информации, отображаемой на экране электронных устройств, с помощью динамических цифровых меток

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040001606A1 (en) * 2002-06-28 2004-01-01 Levy Kenneth L. Watermark fonts
US20070047818A1 (en) * 2005-08-23 2007-03-01 Hull Jonathan J Embedding Hot Spots in Imaged Documents
US20130028466A1 (en) * 2005-09-16 2013-01-31 Sursen Corp. Embedding and Detecting Hidden Information
US20080205699A1 (en) * 2005-10-25 2008-08-28 Fujitsu Limited Digital watermark embedding and detection
RU2446464C2 (ru) * 2010-05-06 2012-03-27 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ и система встраивания и извлечения скрытых данных в печатаемых документах
RU2758666C1 (ru) * 2021-03-25 2021-11-01 Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) Способ и система защиты цифровой информации, отображаемой на экране электронных устройств, с помощью динамических цифровых меток

Similar Documents

Publication Publication Date Title
US10339378B2 (en) Method and apparatus for finding differences in documents
US20160035060A1 (en) Method for watermarking the text portion of a document
CN108805787B (zh) 一种纸质文档篡改鉴真的方法和装置
KR102503880B1 (ko) 머신 판독 가능 보안 마크 및 이를 생성하는 프로세스
US9098759B2 (en) Image processing apparatus, method, and medium for character recognition
Singh et al. A survey on text based steganography
CN112088378A (zh) 图像隐藏信息检测器
CN112085643B (zh) 图像脱敏处理方法、验证方法及装置、设备及介质
RU2673016C1 (ru) Способы и системы оптического распознавания символов серии изображений
Alkhafaji et al. Payload capacity scheme for quran text watermarking based on vowels with kashida
US7596270B2 (en) Method of shuffling text in an Asian document image
Alanazi et al. Involving spaces of unicode standard within irreversible Arabic text steganography for practical implementations
Al-Wesabi et al. A Reliable NLP Scheme for English Text Watermarking Based on Contents Interrelationship.
US10867170B2 (en) System and method of identifying an image containing an identification document
US10657267B2 (en) Symbol string matching mechanism
Eskenazi et al. When document security brings new challenges to document analysis
RU2793611C1 (ru) Способ и система защиты информации от утечки при печати документов с помощью смещения символов
WO2023172161A1 (ru) Способ и система защиты информации при печати документов
RU2790938C1 (ru) Способ и система защиты информации от утечки при печати документов с помощью внедрения цифровых меток
EA045968B1 (ru) Способ и система защиты информации от утечки при печати документов с помощью смещения символов
WO2023172162A1 (ru) Способ защиты информации при печати документов
CN110942075A (zh) 信息处理装置、存储介质及信息处理方法
EA044732B1 (ru) Способ и система защиты информации от утечки при печати документов с помощью внедрения цифровых меток
CN107016320B (zh) 一种基于中文词库提高图片密级识别准确率的方法
US9747261B2 (en) System and method of embedding symbology in alphabetic letters and then linking the letters to a site or sites on the global computer network

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22931153

Country of ref document: EP

Kind code of ref document: A1