RU2702967C1 - Method and system for checking an electronic set of documents - Google Patents

Method and system for checking an electronic set of documents Download PDF

Info

Publication number
RU2702967C1
RU2702967C1 RU2019109055A RU2019109055A RU2702967C1 RU 2702967 C1 RU2702967 C1 RU 2702967C1 RU 2019109055 A RU2019109055 A RU 2019109055A RU 2019109055 A RU2019109055 A RU 2019109055A RU 2702967 C1 RU2702967 C1 RU 2702967C1
Authority
RU
Russia
Prior art keywords
document
page
signatory
attribute
type
Prior art date
Application number
RU2019109055A
Other languages
Russian (ru)
Inventor
Евгений Сергеевич Латышев
Кирилл Геннадьевич Тарасов
Original Assignee
Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) filed Critical Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк)
Priority to RU2019109055A priority Critical patent/RU2702967C1/en
Priority to EA201990647A priority patent/EA201990647A1/en
Priority to PCT/RU2019/000197 priority patent/WO2020197428A1/en
Application granted granted Critical
Publication of RU2702967C1 publication Critical patent/RU2702967C1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/30Writer recognition; Reading and verifying signatures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Input (AREA)

Abstract

FIELD: image processing means.SUBSTANCE: invention relates to the field of image analysis, and in particular to methods and systems for checking an electronic set of documents. Technical result is achieved by forming a document page vector based on text information obtained at a previous step; determining based on document vector of document of document type and type of its page; determining a list of pages and at least one attribute of a signer, the presence of which is to be checked in a given type of document; checking presence of the list of pages and at least one attribute of the signatory on the obtained image of the document to determine the completeness of the document.EFFECT: technical result consists in improvement of accuracy of automated inspection of documents for completeness thereof.8 cl, 3 dwg

Description

ОБЛАСТЬ ТЕХНИКИFIELD OF TECHNOLOGY

[0001] Представленное техническое решение относится, в общем, к области анализа изображений, а в частности к способам и системам для проверки электронного комплекта документов, например, отсканированных документов корпоративного клиента банка.[0001] The presented technical solution relates, in general, to the field of image analysis, and in particular to methods and systems for checking an electronic set of documents, for example, scanned documents of a bank's corporate client.

УРОВЕНЬ ТЕХНИКИBACKGROUND

[0002] В настоящее время существует проблема оперативной и качественной обработки данных электронного комплекта отсканированных документов с целью проверки наличия обязательных для заранее определенных типов страниц атрибутов, таких как печать и/или подпись и/или комплект подписей.[0002] Currently, there is a problem of efficient and high-quality data processing of an electronic set of scanned documents in order to verify the presence of attributes mandatory for predetermined types of pages, such as printing and / or signature and / or set of signatures.

[0003] Из уровня техники известны различные решения, выполненные с возможностью обработки документов, например, клиента Банка, реализованные на базе ПО ABBYY InfoExtractor и пр. Также известно решение для проведения проверки комплекта документов, раскрытое в заявке US 2011134494 (А1), опубл. 09.06.2011, в котором осуществляют чтение документа, имеющего множество страниц; проверка данных изображения каждой страницы документа, имеющего множество страниц, при этом проверяются определенные области изображения документа на наличие в них информации и ее отсутствие. Данное решение является наиболее близким аналогом.[0003] Various solutions are known from the prior art that are made with the possibility of processing documents, for example, a Bank client, implemented on the basis of ABBYY InfoExtractor software, etc. There is also known a solution for checking a set of documents, disclosed in application US 2011134494 (A1), publ. 06/09/2011, in which the reading of a document having many pages; checking image data of each page of a document having multiple pages, while certain areas of the image of the document are checked for information in it and its absence. This solution is the closest analogue.

[0004] Существенным недостатком известных решений является отсутствие возможности проверить комплект отсканированных документов по следующим критериям:[0004] A significant drawback of the known solutions is the inability to verify a set of scanned documents by the following criteria:

• комплектность пакета документов;• completeness of the package of documents;

• наличие печатей;• the presence of seals;

• наличие и корректность состава подписей.• availability and correctness of the composition of signatures.

РАСКРЫТИЕ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION

[0005] Технической проблемой или задачей, поставленной в данном техническом решении, является создание нового эффективного метода автоматизированной проверки комплекта документов, например, документов корпоративного клиента Банка.[0005] A technical problem or task set in this technical solution is the creation of a new effective method for automated verification of a set of documents, for example, documents of a corporate client of the Bank.

[0006] Техническим результатом является повышение точности проведения автоматизированной проверки документов на их комплектность. Дополнительным техническим результатом является повышение скорости проведения автоматизированной проверки документов на их комплектность.[0006] The technical result is to increase the accuracy of the automated verification of documents for their completeness. An additional technical result is an increase in the speed of automated verification of documents for their completeness.

[0007] Указанный технический результат достигается благодаря осуществлению способа проверки электронного комплекта документов, выполняемого по меньшей мере одним вычислительным устройством, и содержащего этапы, на которых:[0007] The specified technical result is achieved due to the implementation of the method of checking an electronic set of documents performed by at least one computing device, and containing stages in which:

- получают изображение документа, состоящего из по меньшей мере одной страницы;- receive an image of a document consisting of at least one page;

- распознают символы на изображении страницы документа и преобразует их в текстовую информацию;- recognize the characters in the image of the page of the document and converts them into text information;

- формируют вектор страницы документа на основе текстовой информации, полученной на предыдущем этапе;- form a page vector of the document based on text information obtained in the previous step;

- определяют на основе вектора страницы документа тип документа и тип его страницы;- determine, based on the page vector of the document, the type of document and the type of its page;

- определяют перечень страниц и по меньшей мере один атрибут подписанта, наличие которых необходимо проверить в данном типе документа;- determine the list of pages and at least one attribute of the signatory, the presence of which must be checked in this type of document;

- проверяют наличие перечня страниц и по меньшей мере одного атрибута подписанта на полученном изображении документа для определения комплектности документа.- check the availability of the list of pages and at least one attribute of the signatory on the received image of the document to determine the completeness of the document.

[0008] В одном из частных примеров осуществления способа вектор страницы документа формируется на основе значений слов, содержащихся в текстовой информации, структуры зависимостей слов друг от друга и значений веса упомянутых слов.[0008] In one particular example of the method, the page vector of the document is formed based on the values of words contained in the text information, the structure of the dependencies of the words from each other, and the weight values of the words.

[0009] В другом частном примере осуществления способа определение типа документа и типа его страницы на основе вектора страницы документа осуществляется посредством классификации документа по принадлежности к заранее определенным типам страниц и документов, причем математическая модель для классификации реализована посредством алгоритмов машинного обучения «случайный лес».[0009] In another particular example of the method, the determination of the type of document and the type of its page based on the document page vector is carried out by classifying the document by belonging to predefined types of pages and documents, the mathematical model for classification being implemented using random forest machine learning algorithms.

[0010] В другом частном примере осуществления способа этап проверки наличия по меньшей мере одного атрибута подписанта на полученном изображении документа, включает этапы, на которых:[0010] In another particular embodiment of the method, the step of verifying the presence of at least one attribute of the signatory in the received image of the document includes the steps in which:

- детектируют по меньшей мере один атрибут подписанта на изображении страницы документа для определения его расположения;- detect at least one attribute of the signatory on the image of the page of the document to determine its location;

- определяют, где атрибут подписанта должен находиться на данном типе страницы;- determine where the attribute of the signatory should be on this type of page;

причем проверка наличия по меньшей мере одного атрибута подписанта на полученном изображении документа для определения комплектности документа осуществляется посредством сравнения информации о расположении атрибута подписанта на изображении страницы документа с информаций, указывающей на то, где должен находиться атрибут подписанта на данном типе страницы.moreover, checking the presence of at least one attribute of the signatory on the received image of the document to determine the completeness of the document is carried out by comparing information about the location of the attribute of the signatory on the image of the page of the document with information indicating where the attribute of the signatory should be on this type of page.

[0011] В другом частном примере осуществления способа детектирование по меньшей мере одного атрибута подписанта осуществляется только на тех изображениях страниц документов, тип который указывает на то, что данные страницы содержат атрибуты подписанта.[0011] In another particular embodiment of the method, the detection of at least one attribute of the signatory is carried out only on those images of pages of documents, a type which indicates that these pages contain attributes of the signatory.

[0012] В другом частном примере осуществления способа дополнительно классифицируют по меньшей мере один атрибут подписанта, причем классификация осуществляется на основе информации о расположения атрибута подписанта.[0012] In another particular embodiment of the method, at least one signatory attribute is further classified, the classification being based on the location information of the signatory attribute.

[0013] В другом частном примере осуществления способа атрибут подписанта представляют собой подпись и/или печать.[0013] In another particular embodiment of the method, the signatory attribute is a signature and / or seal.

[0014] В другом предпочтительном варианте осуществления заявленного решения представлена система для проверки комплекта документов, содержащая по меньшей мере одно вычислительное устройство и по меньшей мере одну память, содержащую машиночитаемые инструкции, которые при их исполнении по меньшей мере одним вычислительным устройством выполняют вышеуказанный способ.[0014] In another preferred embodiment of the claimed solution, there is provided a system for checking a set of documents comprising at least one computing device and at least one memory containing machine-readable instructions that, when executed by at least one computing device, perform the above method.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙBRIEF DESCRIPTION OF THE DRAWINGS

[0015] Признаки и преимущества настоящего технического решения станут очевидными из приводимого ниже подробного описания изобретения и прилагаемых чертежей, на которых:[0015] The features and advantages of this technical solution will become apparent from the following detailed description of the invention and the accompanying drawings, in which:

[0016] на Фиг. 1 представлена общая схема взаимодействия элементов системы для проверки комплекта документов.[0016] in FIG. 1 presents a general diagram of the interaction of system elements to verify a set of documents.

[0017] на Фиг. 2 представлен пример отсканированного документа.[0017] in FIG. 2 shows an example of a scanned document.

[0018] на Фиг. 3 представлен пример общего вида системы для проверки комплекта документов.[0018] in FIG. Figure 3 shows an example of a general view of a system for checking a set of documents.

ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯDETAILED DESCRIPTION OF THE INVENTION

[0019] Ниже будут описаны понятия и термины, необходимые для понимания данного технического решения.[0019] The concepts and terms necessary for understanding this technical solution will be described below.

[0020] В данном техническом решении под системой подразумевается, в том числе компьютерная система, ЭВМ (электронно-вычислительная машина), ЧПУ (числовое программное управление), ПЛК (программируемый логический контроллер), компьютеризированные системы управления и любые другие устройства, способные выполнять заданную, четко определенную последовательность операций (действий, инструкций).[0020] In this technical solution, a system means, including a computer system, a computer (electronic computer), CNC (numerical control), PLC (programmable logic controller), computerized control systems, and any other devices capable of performing a given , clearly defined sequence of operations (actions, instructions).

[0021] Под устройством обработки команд подразумевается электронный блок либо интегральная схема (микропроцессор), исполняющая машинные инструкции (программы).[0021] An instruction processing device is understood to mean an electronic unit or an integrated circuit (microprocessor) executing machine instructions (programs).

[0022] Устройство обработки команд считывает и выполняет машинные инструкции (программы) с одного или более устройств хранения данных. В роли устройства хранения данных могут выступать, но не ограничиваясь, жесткие диски (HDD), флеш-память, ПЗУ (постоянное запоминающее устройство), твердотельные накопители (SSD), оптические приводы.[0022] The command processing device reads and executes machine instructions (programs) from one or more data storage devices. Hard disk drives (HDD), flash memory, ROM (read only memory), solid state drives (SSD), optical drives can be used as storage devices.

[0023] Программа - последовательность инструкций, предназначенных для исполнения устройством управления вычислительной машины или устройством обработки команд.[0023] A program is a sequence of instructions for execution by a computer control device or an instruction processing device.

[0024] База данных (БД) - совокупность данных, организованных в соответствии с концептуальной структурой, описывающей характеристики этих данных и взаимоотношения между ними, причем такое собрание данных, которое поддерживает одну или более областей применения (ISO/IEC 2382:2015, 2121423 «database»).[0024] A database (DB) is a collection of data organized in accordance with a conceptual structure describing the characteristics of these data and the relationships between them, and such a collection of data that supports one or more applications (ISO / IEC 2382: 2015, 2121423 " database ").

[0025] В соответствии со схемой, приведенной на фиг. 1, система 1 для проверки комплекта документов содержит соединенные между собой: модуль 10 преобразования данных; модуль 20 классификации страниц, модуль 30 проверки атрибутов подписанта, таких как подписи и/или печати и модуль 40 проверки комплекта документов.[0025] In accordance with the circuit of FIG. 1, the system 1 for checking a set of documents comprises interconnected: a data conversion module 10; a page classification module 20; a signature attribute verification module 30, such as signatures and / or prints; and a set of document verification module 40.

[0026] Указанные модули могут быть реализованы на базе программно-аппаратных средств системы 1 для проверки комплекта документов, например, на базе по меньшей мере одно вычислительного устройства, в частности микропроцессора, и по меньшей мере одной памяти, содержащей машиночитаемые инструкции для осуществления приписанных модулям ниже функций. Например, модуль 10 преобразования данных может содержать модуль 11 формирования векторов и модуль 12 фильтрации изображений, и может быть реализован на базе opensource-инструмента Tesseract (Tesseract Open Source OCR Engine) и алгоритма TF-IDF. Модуль 20 классификации страниц может быть реализован на базе заранее обученной математической модели с применением алгоритма обучения математической модели - случайный лес решающих деревьев (random forest). Модуль 30 проверки атрибутов подписанта может быть реализован на базе нейронной сети архитектуры YOLOv3, заранее обученной на типовом наборе подписей и печатей. Модуль 40 проверки комплекта документов может включать по меньшей мере одну БД 41 для хранения информации, которая может потребоваться для проверки комплекта документов.[0026] These modules can be implemented on the basis of the software and hardware of system 1 for checking a set of documents, for example, on the basis of at least one computing device, in particular a microprocessor, and at least one memory containing machine-readable instructions for implementing the assigned modules below features. For example, the data conversion module 10 may include a vector generation module 11 and an image filtering module 12, and may be implemented on the basis of the Tesseract opensource tool (Tesseract Open Source OCR Engine) and the TF-IDF algorithm. The page classification module 20 can be implemented on the basis of a pre-trained mathematical model using the mathematical model learning algorithm - a random forest of decision trees (random forest). The signer attribute verification module 30 can be implemented on the basis of the neural network of the YOLOv3 architecture, pre-trained on a typical set of signatures and seals. Module 40 verification of a set of documents may include at least one database 41 for storing information that may be required to verify a set of documents.

[0027] В общем виде (см. фиг. 3) система (200) для проверки комплекта документов содержит объединенные общей шиной информационного обмена один или несколько процессоров (201), средства памяти, такие как ОЗУ (202) и ПЗУ (203), интерфейсы ввода/вывода (204), устройства ввода/вывода (205), и устройство для сетевого взаимодействия (206).[0027] In a general view (see FIG. 3), the system (200) for checking a set of documents comprises one or more processors (201) connected by a common data bus, memory means such as RAM (202) and ROM (203), I / O interfaces (204), input / output devices (205), and a device for network communication (206).

[0028] Процессор (201) (или несколько процессоров, многоядерный процессор и т.п.) может выбираться из ассортимента устройств, широко применяемых в настоящее время, например, таких производителей, как: Intel™, AMD™, Apple™, Samsung Exynos™, MediaTEK™, Qualcomm Snapdragon™ и т.п. Под процессором или одним из используемых процессоров в системе (200) также необходимо учитывать графический процессор, например, GPU NVIDIA с программной моделью, совместимой с CUDA, или Graphcore, тип которых также является пригодным для полного или частичного выполнения способа, а также может применяться для обучения и применения моделей машинного обучения в различных информационных системах.[0028] The processor (201) (or multiple processors, a multi-core processor, etc.) may be selected from a variety of devices that are currently widely used, for example, manufacturers such as Intel ™, AMD ™, Apple ™, Samsung Exynos ™, MediaTEK ™, Qualcomm Snapdragon ™, etc. Under a processor or one of the processors used in the system (200), it is also necessary to take into account a graphic processor, for example, an NVIDIA GPU with a CUDA-compatible software model, or Graphcore, the type of which is also suitable for complete or partial execution of the method, and can also be used for training and application of machine learning models in various information systems.

[0029] ОЗУ (202) представляет собой оперативную память и предназначено для хранения исполняемых процессором (201) машиночитаемых инструкций для выполнения необходимых операций по логической обработке данных. ОЗУ (202), как правило, содержит исполняемые инструкции операционной системы и соответствующих программных компонент (приложения, программные модули и т.п.). При этом, в качестве ОЗУ (202) может выступать доступный объем памяти графической карты или графического процессора.[0029] RAM (202) is a random access memory and is intended to store machine-readable instructions executed by the processor (201) to perform necessary operations for logical data processing. RAM (202), as a rule, contains executable instructions of the operating system and corresponding software components (applications, program modules, etc.). At the same time, the available memory capacity of the graphics card or graphics processor may act as RAM (202).

[0030] ПЗУ (203) представляет собой одно или более устройств постоянного хранения данных, например, жесткий диск (HDD), твердотельный накопитель данных (SSD), флэш-память (EEPROM, NAND и т.п.), оптические носители информации (CD-R/RW, DVD-R/RW, BlueRay Disc, MD) и др.[0030] The ROM (203) is one or more permanent storage devices, for example, a hard disk drive (HDD), a solid state drive (SSD), flash memory (EEPROM, NAND, etc.), optical storage media ( CD-R / RW, DVD-R / RW, BlueRay Disc, MD), etc.

[0031] Для организации работы компонентов системы (200) и организации работы внешних подключаемых устройств применяются различные виды интерфейсов В/В (204). Выбор соответствующих интерфейсов зависит от конкретного исполнения вычислительного устройства, которые могут представлять собой, не ограничиваясь: PCI, AGP, PS/2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS/Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232 и т.п.[0031] Various types of I / O interfaces (204) are used to organize the operation of system components (200) and organize the operation of external connected devices. The choice of appropriate interfaces depends on the particular computing device, which can be, but not limited to: PCI, AGP, PS / 2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS / Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232, etc.

[0032] Для обеспечения взаимодействия пользователя с вычислительной системой (200) применяются различные средства (205) В/В информации, например, клавиатура, дисплей (монитор), сенсорный дисплей, тач-пад, джойстик, манипулятор мышь, световое перо, стилус, сенсорная панель, трекбол, динамики, микрофон, средства дополненной реальности, оптические сенсоры, планшет, световые индикаторы, проектор, камера, средства биометрической идентификации (сканер сетчатки глаза, сканер отпечатков пальцев, модуль распознавания голоса) и т.п.[0032] Various means (205) of I / O information, for example, a keyboard, a display (monitor), a touch screen, a touch pad, a joystick, a mouse, a light pen, a stylus, are used to provide user interaction with a computing system (200), touch panel, trackball, speakers, microphone, augmented reality, optical sensors, tablet, light indicators, projector, camera, biometric identification tools (retina scanner, fingerprint scanner, voice recognition module), etc.

[0033] Средство сетевого взаимодействия (206) обеспечивает передачу данных посредством внутренней или внешней вычислительной сети, например, Интранет, Интернет, ЛВС и т.п. В качестве одного или более средств (206) может использоваться, но не ограничиваться: Ethernet карта, GSM модем, GPRS модем, LTE модем, 5G модем, модуль спутниковой связи, NFC модуль, Bluetooth и/или BLE модуль, Wi-Fi модуль и др.[0033] The network interaction tool (206) provides data transmission via an internal or external computer network, for example, an Intranet, the Internet, a LAN, and the like. As one or more means (206), it can be used, but not limited to: Ethernet card, GSM modem, GPRS modem, LTE modem, 5G modem, satellite communications module, NFC module, Bluetooth and / or BLE module, Wi-Fi module and other

[0034] Дополнительно могут применяться также средства спутниковой навигации в составе системы (200), например, GPS, ГЛОНАСС, BeiDou, Galileo.[0034] Additionally, satellite navigation systems as part of the system (200), for example, GPS, GLONASS, BeiDou, Galileo, can also be used.

[0035] Конкретный выбор элементов устройства (200) для реализации различных программно-аппаратных архитектурных решений может варьироваться с сохранением обеспечиваемого требуемого функционала.[0035] The specific selection of device elements (200) for implementing various hardware and software architectural solutions may vary while maintaining the required functionality.

[0036] На первом этапе работы системы 1 на модуль 10 преобразования данных поступает по меньшей мере одно изображение документа, в частности отсканированного документа, например, файл в формате многостраничного PDF, JPEG, TIFF или любого другого известного формата, который может использоваться для хранения в нем отсканированного электронного комплекта документа. Изображение документа может поступать от источника данных изображений 50, в частности непосредственно от устройства сканирования документов, например, сканера, либо могут быть извлечены из соответствующей базы данных изображений, в которую данные изображения документов заранее сохранены.[0036] At the first stage of operation of the system 1, at least one image of a document, in particular a scanned document, for example, a file in multi-page PDF, JPEG, TIFF or any other known format that can be used for storage in a scanned electronic document kit. The image of the document may come from the image data source 50, in particular directly from the document scanning device, for example, a scanner, or it can be extracted from the corresponding image database into which the image data of the documents is previously stored.

[0037] Документом, изображение которого поступает на модуль 10 преобразования данных, может быть любой документ, состоящий по меньшей мере из одной страницы, которая может содержать атрибуты подписанта, и заполненный в соответствии с известным шаблоном. Документ может быть, например, договором, заключенным между компаниями «А» и «Б», либо между компанией и физическим лицом, либо между физическими лицами, либо документ может представлять такой вид документа, который подписывается только лишь одним подписантом - компанией или физическим лицом, например, доверенностью от компании или от физического лица; или пр.[0037] The document, the image of which is supplied to the data conversion module 10, can be any document consisting of at least one page, which may contain the attributes of the signatory, and filled in accordance with a known template. A document can be, for example, a contract concluded between companies “A” and “B”, or between a company and an individual, or between individuals, or a document can represent a type of document that is signed by only one signatory - a company or an individual , for example, a power of attorney from a company or from an individual; or other

[0038] Модуль 10 преобразования данных осуществляет распознавание символов на по меньшей мере одном изображении страницы документа и преобразует их в текстовую информацию. Также модуль 10 преобразования данных может быть выполнен с возможностью предобработки полученной текстовой информации для снижения многообразия возможных текстов распознанных изображений документов с целью упростить работу следующим модулям системы. На первом этапе осуществляется токенизация текстовой информации. Этап токенизации, предполагает выделение базовых элементов текста (токенов), ограниченных с двух сторон разделительными символами, пробелами или знаками пунктуации. Элементами здесь выступают слова, числа, даты, сокращения, аббревиатуры, составные предлоги и т.д. Токенизация позволяет выделить дискретные единицы текста, являющиеся основой для дальнейшей работы на этапах морфологического и синтаксического анализа. В результате токенизации каждому элементу присваивается соответствующий тип: слово, число, дата, адрес и т.д.[0038] The data conversion module 10 recognizes characters in at least one image of a document page and converts them into text information. Also, the data conversion module 10 can be configured to pre-process the received text information to reduce the variety of possible texts of recognized document images in order to simplify the work of the following system modules. At the first stage, tokenization of textual information is carried out. The tokenization stage involves the allocation of the basic elements of the text (tokens), limited on both sides by separating characters, spaces or punctuation marks. The elements here are words, numbers, dates, abbreviations, abbreviations, compound prepositions, etc. Tokenization allows you to select discrete units of text, which are the basis for further work at the stages of morphological and syntactic analysis. As a result of tokenization, each element is assigned the corresponding type: word, number, date, address, etc.

[0039] Далее модуль 10 преобразования данных переходит к этапу формирования векторов страницы документа посредством модуля 11 формирования векторов. На данном этапе упомянутый модуль для каждого слова, полученного после обработки текста, определяет значение веса слова с помощью статистической меры TF-IDF.[0039] Next, the data conversion module 10 proceeds to the step of generating the vectors of the document page through the vector generation module 11. At this stage, the module for each word obtained after processing the text determines the value of the word weight using the statistical measure TF-IDF.

[0040] TF-IDF - статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса. Вес некоторого слова пропорционален количеству употребления этого слова в документе, и обратно пропорционален частоте употребления слова в других документах коллекции.[0040] TF-IDF is a statistical measure used to assess the importance of a word in the context of a document that is part of a collection of documents or corpus. The weight of a word is proportional to the amount of use of this word in the document, and inversely proportional to the frequency of use of the word in other documents of the collection.

[0041] Мера TF-IDF часто используется в задачах анализа текстов и информационного поиска, например, как один из критериев релевантности документа поисковому запросу, при расчете меры близости документов при кластеризации.[0041] The TF-IDF measure is often used in text analysis and information retrieval tasks, for example, as one of the criteria for document relevance to a search query, when calculating the measure of proximity of documents during clustering.

[0042] TF (term frequency - частота слова) - отношение числа вхождения некоторого слова к общему количеству слов документа. Значимость слова в пределах отдельного документа может быть определена следующей характеристикой:[0042] TF (term frequency) is the ratio of the number of occurrences of a word to the total number of words in a document. The significance of a word within a single document can be determined by the following characteristic:

Figure 00000001
Figure 00000001

- где ni - число вхождений слова ti в документ d; Σk nk - общее число слов в данном пользовательском запросе и/или документе.- where n i is the number of occurrences of the word t i in document d; Σ k n k is the total number of words in a given user query and / or document.

[0043] IDF (inverse document frequency - обратная частота документа) -величина, обратно пропорциональная частоте, с которой некоторое слово встречается в документах коллекции.[0043] IDF (inverse document frequency) is a value inversely proportional to the frequency with which a certain word occurs in collection documents.

[0044] Учет IDF уменьшает вес широкоупотребительных слов. Для каждого уникального слова в пределах конкретной коллекции документов существует только одно значение IDF. IDF-характеристика определяется следующим отношением:[0044] Accounting for IDF reduces the weight of commonly used words. For each unique word within a particular collection of documents, there is only one IDF value. The IDF characteristic is defined by the following relation:

Figure 00000002
Figure 00000002

- где |D| - количество документов в корпусе;

Figure 00000003
- количество документов, в которых встречается ti.- where | D | - the number of documents in the case;
Figure 00000003
- the number of documents in which t i occurs.

[0045] Таким образом, мера TF-IDF является произведением двух сомножителей:[0045] Thus, the measure TF-IDF is the product of two factors:

Figure 00000004
Figure 00000004

[0046] Большой вес в мере TF-IDF получают слова с высокой частотой в пределах конкретного документа и с низкой частотой употреблений в других документах.[0046] Words with a high frequency within a particular document and with a low frequency of use in other documents receive a large weight in the TF-IDF measure.

[0047] Мера TF-IDF часто используется для представления документов коллекции в виде числовых векторов, отражающих важность использования каждого слова из некоторого набора слов (количество слов набора определяет размерность вектора) в каждом документе. Подобная модель называется векторной моделью и дает возможность сравнивать тексты, сравнивая представляющие их вектора в какой-либо метрике (евклидово расстояние, косинусная мера, манхэттенское расстояние, расстояние Чебышева и др.), то есть, производя кластерный анализ.[0047] The TF-IDF measure is often used to represent collection documents as numerical vectors reflecting the importance of using each word from a certain set of words (the number of words in a set determines the dimension of the vector) in each document. Such a model is called a vector model and makes it possible to compare texts by comparing the vectors representing them in any metric (Euclidean distance, cosine measure, Manhattan distance, Chebyshev distance, etc.), that is, by performing cluster analysis.

[0048] Далее модуль 11 формирования векторов на основе значений слов, полученных после предобработки, структуры зависимостей слов друг от друга в текстовой информации и значений веса упомянутых слов формирует вектор страницы документа. Сформированный вектор страницы документа направляются в модуль 20 классификации страниц для определения типа документа и типа страниц документа, т.е. для классификации документа по принадлежности к заранее определенным типам страниц и документов.[0048] Next, the vector generation module 11, based on the values of words obtained after preprocessing, the structure of the dependencies of words on each other in text information and the weight values of the words, forms a page vector of the document. The generated vector of the document page is sent to the page classification module 20 to determine the type of document and the type of document pages, i.e. to classify a document by belonging to predefined types of pages and documents.

[0049] Соответственно, если отсканированный документ содержит две и более страницы, то модуль 11 формирования векторов формирует аналогичным образом для каждой страницы документа вектор страницы документа, которые также направляются в модуль 20 классификации страниц.[0049] Accordingly, if the scanned document contains two or more pages, then the vector generation module 11 generates in a similar manner for each document page a document page vector, which are also sent to the page classification module 20.

[0050] Модуль 20 классификации страниц для определения типа документа и типов его страниц содержит математическую модель, на вход которой поступают данные о векторах страниц документа. Математическая модель может быть реализована посредством алгоритмов машинного обучения «случайный лес» (Random forest), заключающихся в использовании комитета (ансамбля) решающих деревьев. Классификация объектов проводится путем голосования: каждое дерево комитета относит классифицируемый объект, в данном случае страницу документа, к одному из классов, характеризующий тип страницы и тип документа, и побеждает класс, за который проголосовало наибольшее число деревьев. Оптимальное число деревьев подбирается таким образом, чтобы минимизировать ошибку классификатора на тестовой выборке.[0050] The module 20 page classification for determining the type of document and types of pages contains a mathematical model, the input of which receives data about the vectors of the pages of the document. The mathematical model can be implemented by means of machine learning algorithms "random forest", consisting in the use of a committee (ensemble) of decision trees. The classification of objects is carried out by voting: each committee tree classifies the classified object, in this case a document page, as one of the classes that characterizes the page type and document type, and the class for which the largest number of trees voted wins. The optimal number of trees is selected in such a way as to minimize the error of the classifier on the test sample.

[0051] Соответственно, после обработки данных о векторе страницы документа на выход математической модели поступает от каждого дерева решений указатели типа документа и типа страницы. Модуль 20 классификации страниц анализирует количество упомянутых указателей, полученных на выходе упомянутой модели, и определяет тип документа и тип страницы на основе того указателя типа документа, количество которых на выходе математической модели больше, т.е. за который проголосовало наибольшее число деревьев. Например, если наибольшее число деревьев проголосовало за то, что документ, на основе изображения страницы которого был сформирован вектор страницы документа, является Договором, заключенным между компаниями «А» и «Б», а страница является страницей Договора с атрибутами подписантов, то тип документа будет определяться как «договор», а данные о типе страницы будут указывать на то, что страница на изображении является страницей договора, которая должна содержать атрибуты подписантов в виде подписей и печатей компаний «А» и «Б», расположенных в заданных областях на странице (например, в областях 105 и 106, см. фиг. 2). Также тип документа может быть определен, например, как доверенность от компании «А» или от физического лица, а тип страницы - страница доверенности с атрибутами подписанта, например, в виде подписи и печати в заданной области страницы, например, области 106, если доверенность от компании, или только в виде подписи в заданной области страницы, если доверенность от физического лица.[0051] Accordingly, after processing the data on the document page vector, the output of the mathematical model receives from each decision tree pointers of the document type and page type. The page classification module 20 analyzes the number of said pointers obtained at the output of the said model, and determines the type of document and page type based on that pointer of the document type, the number of which is larger at the output of the mathematical model, i.e. for which the largest number of trees voted. For example, if the largest number of trees voted that the document based on the page image of which the document page vector was formed is the Agreement concluded between companies “A” and “B”, and the page is the page of the Agreement with the attributes of signatories, then the type of document will be defined as a “contract”, and the data on the type of page will indicate that the page on the image is a contract page, which should contain the attributes of signatories in the form of signatures and seals of companies “A” and “B”, located ny in the specified areas on the page (for example, in areas 105 and 106, see Fig. 2). Also, the type of document can be defined, for example, as a power of attorney from company “A” or from an individual, and the page type is a power of attorney page with the attributes of the signatory, for example, in the form of a signature and print in a given area of the page, for example, area 106, if the power of attorney from the company, or only in the form of a signature in a given area of the page, if the power of attorney is from an individual.

[0052] Если отсканированный документ состоит из двух и более страниц, то на вход математической модели поступают данные о двух и более векторах страниц документа. Модуль 20 классификации страниц аналогичным образом анализирует количество упомянутых указателей на выходе математической модели и определяет тип документа и перечень его страниц на основе того указателя типа документа, количество которых на выходе математической модели больше. В данном случае тип документа определяется на основе векторов всех его страниц. Например, на основе векторов страниц документа модуль 20 классификации страниц может определить тип документа как договор между компаниями «А» и «Б», состоящий из 4 станицы, причем данные о типах страниц могут указывать на то, что первая страница является страницей Договора, не содержащей атрибутов подписанта, вторая страница - страница договора с атрибутами подписантов в заданных областях, а 3 и 4 страницы - являются приложениями, не содержащими атрибуты подписантов.[0052] If the scanned document consists of two or more pages, then data on two or more vectors of the document pages are input to the mathematical model. The page classification module 20 similarly analyzes the number of the mentioned indexes at the output of the mathematical model and determines the type of document and the list of its pages based on that index of the document type, the number of which is larger at the output of the mathematical model. In this case, the type of document is determined based on the vectors of all its pages. For example, based on the page vectors of the document, page classification module 20 can determine the type of document as an agreement between companies “A” and “B”, consisting of 4 pages, and the data on page types may indicate that the first page is a page of the Agreement, not containing the attributes of the signatory, the second page is the contract page with the attributes of signatories in the specified areas, and the 3rd and 4th pages are applications that do not contain the attributes of the signers.

[0053] Данные о типах документа и типах его страниц модуль 20 классификации страниц направляет в модуль 40 проверки комплекта документов и в модуль 12 фильтрации изображений, который определяет типы страниц с по меньшей мере одним атрибутом подписанта, извлекает соответствующие изображения страниц с по меньшей мере одним атрибутом подписанта из изображения документа и направляет данные изображения страниц в модуль 30 проверки атрибутов подписанта для дальнейшего анализа. Таким образом, поскольку в модуль 30 проверки атрибутов подписанта направляется не все изображение документа, а только изображения страниц документа, тип которых предполагает наличие на данных страницах по меньшей мере одного атрибута подписанта, снижается вычислительная нагрузка и повышается скорость обработки изображений модулем 30 для детектирования изображений атрибутов подписанта, вследствие чего повышается скорость проведения автоматизированной проверки документов на их комплектность.[0053] The page classification module 20 sends the data about the types of the document and the types of its pages to the document set checking module 40 and to the image filtering module 12, which determines the types of pages with at least one signatory attribute, retrieves the corresponding page images with at least one the attribute of the signatory from the image of the document and sends the image data of the pages to the module 30 of the verification of the attributes of the signer for further analysis. Thus, since not the entire image of the document is sent to the signer attribute verification module 30, but only the image of the document pages, the type of which assumes the presence of at least one signatory attribute on these pages, the computational load is reduced and the image processing speed of the module 30 for detecting attribute images is increased signatory, which increases the speed of automated verification of documents for their completeness.

[0054] Модуль 30 проверки атрибутов подписанта после получения изображений страниц с по меньшей мере одним атрибутом подписанта переходит к этапу детектирования на каждом полученном изображении страницы документа по меньшей мере одного изображения атрибута подписанта для определения его расположение на странице документа. Например, модуль 30 проверки атрибутов подписанта может определить, что изображение атрибута подписанта представляет собой изображение подписи и/или печати в области 105 или 106 документа (см. фиг 2). Соответственно, в области 101 документа 100 может содержаться информация о номере Договора, в области 102 - название города, в области 103 - дата Договора, а в области 104 - текст Договора.[0054] The signer attribute verification module 30, after receiving page images with at least one signatory attribute, proceeds to the step of detecting at least one signer attribute image on each document page image to determine its location on the document page. For example, the signer attribute verification module 30 may determine that the signer's attribute image is a signature and / or print image in the document area 105 or 106 (see FIG. 2). Accordingly, in area 101 of document 100 information on the number of the Agreement may be contained, in area 102 - the name of the city, in area 103 - the date of the Agreement, and in area 104 - the text of the Agreement.

[0055] Для детектирования изображений атрибутов подписанта используются известные алгоритмы работы нейронной сети архитектуры YOLOv3, обученной на отобранном наборе данных подписей и печатей, раскрытые, например, в статье, опубликованной в Интернет по адресу: https://pjreddie.com/media/files/papers/YOLOv3.pdf. Данные о детектированных атрибутах подписанта, в частности информация об их расположении на странице документа, передаются в модуль 40 проверки комплекта документов.[0055] To detect images of signatory attributes, the well-known algorithms of the neural network architecture YOLOv3 trained on a selected set of signature and seal data are used, disclosed, for example, in an article published on the Internet at: https://pjreddie.com/media/files /papers/YOLOv3.pdf. Data on the detected attributes of the signatory, in particular information about their location on the document page, is transmitted to the module 40 verification of a set of documents.

[0056] Модуль 40 проверки комплекта документов в процессе своей работы проверяет наличие обязательных для данного типа документа перечня страниц и атрибутов подписантов, таких как печать и/или подпись и/или комплект подписей, в заданных областях страниц. Для определения атрибутов подписанта, наличие которых необходимо проверить, модуль 40 проверки комплекта документов может быть оснащен соответствующей БД 41 с информацией о шаблонах документов, их перечня страниц, и атрибутах подписантов, наличие которых необходимо проверить в заданной области страниц из перечня страниц данного типа документа. Поскольку составление векторов страниц осуществляется на основе текстовой информации, которая может включать названия одной или нескольких компаний, или имена одного или нескольких физических лиц, то информация о типе страниц также будет определять, в какой области страницы должны располагаться атрибуты подписана на изображении страницы документа.[0056] The module 40 for checking the set of documents in the course of its work checks the availability of the list of pages and attributes of signatories, such as printing and / or signature and / or set of signatures, required for this type of document in the specified areas of the pages. To determine the attributes of the signer, the presence of which must be checked, the module 40 for checking the set of documents can be equipped with the corresponding database 41 with information about the templates of the documents, their list of pages, and the attributes of the signatories, the presence of which must be checked in the specified area of the pages from the list of pages of this type of document. Since page vectors are compiled on the basis of textual information, which may include the names of one or more companies, or the names of one or more individuals, information about the type of pages will also determine in which area of the page the attributes should be located on the image of the document page.

[0057] Например, если информация о типе документа указывает на то, что данный документ является Договором 200 (см. фиг. 2), состоящим из 1 страницы Договора, который должен быть подписан только лишь одним подписантом, то модуль 40 проверки комплекта документов в соответствии с шаблоном документа проверяет область страницы 105 или 106, в зависимости от типа документа и типа страницы, на наличие атрибута подписанта, в частности его подписи и/или печати. Если информация о типе документа указывает на то, что данный документ является договором, состоящим из 2 страниц договора, причем вторая страница Договора в соответствии с шаблоном документа должна быть подписана двумя подписантами, то модуль 40 проверки комплекта документов проверяет области 105 или 106 второй страницы на наличие атрибутов подписантов, причем расположение атрибутов первого и второго подписантов в упомянутых областях определяется типом документа и типами его страниц.[0057] For example, if information about the type of document indicates that this document is an Agreement 200 (see Fig. 2), consisting of 1 page of the Agreement, which should be signed by only one signatory, then the module 40 for checking the set of documents in according to the document template, checks the area of the page 105 or 106, depending on the type of document and the type of page, for the presence of an attribute of the signatory, in particular its signature and / or print. If the information on the type of document indicates that this document is an agreement consisting of 2 pages of the agreement, and the second page of the Agreement must be signed by two signatories in accordance with the document template, then the document set verification module 40 checks areas 105 or 106 of the second page for the presence of attributes of signatories, and the location of the attributes of the first and second signatories in the mentioned areas is determined by the type of document and the types of its pages.

[0058] Для проверки документа модуль 40 проверки комплекта документов на основе данных о типе документа, полученных от модуля 20 классификации страниц, осуществляет поиск в БД 41 шаблона данного типа документа, на основе которого модуль 40 будет выполнять проверку комплекта документа, и извлекает информацию о типах страниц данного шаблона документа. Например, если модуль 20 классификации страниц определил, что отсканированный документ является Договором между компаниями «А» и «Б», то на основе данной информации о типе документа модуль 40 проверки комплекта документов находит в БД шаблон Договора между компаниями «А» и «Б» и извлекает информацию о типах страниц, присутствующих в шаблоне Договора. Если Договор выполнен на 1 листе, то как правило атрибуты подписанта должны быть расположены на первой странице документа. Информация о том, что атрибуты подписанта должны находиться на первой странице, а также их расположение на странице, может содержаться в информации о типе страницы, в соответствии с которой модуль 40 проверки комплекта документов будет осуществлять проверку наличия атрибутов подписантов на первой странице договора.[0058] To verify the document, the module 40 for checking the set of documents based on the type of document received from the page classification module 20, searches the database 41 for a template of this type of document, on the basis of which the module 40 will check the document set, and extracts information about page types of this document template. For example, if the page classification module 20 determines that the scanned document is an Agreement between companies “A” and “B”, then based on this information about the type of document, the document set verification module 40 finds in the database a template for the Agreement between companies “A” and “B” »And extracts information about the types of pages present in the template of the Agreement. If the Agreement is executed on 1 sheet, then as a rule the attributes of the signatory should be located on the first page of the document. The information that the attributes of the signatory should be on the first page, as well as their location on the page, can be contained in the information on the type of page, according to which the module 40 of the verification of a set of documents will verify the presence of attributes of the signers on the first page of the contract.

[0059] Если Договор состоит двух и более страниц, то, например, информация о типе последней страницы документа может содержать информацию о том, что атрибуты подписанта должны находиться в заданной области (например, в областях 105 или 106) на данной странице. Также информация о типе первой страницы или о типе документа может содержать информацию о том, что атрибуты подписанта должны находиться в заданных областях на второй или другой странице в документе.[0059] If the Agreement consists of two or more pages, then, for example, information about the type of the last page of the document may contain information that the attributes of the signatory should be in a given area (for example, in areas 105 or 106) on this page. Also, information about the type of the first page or about the type of the document may contain information that the attributes of the signatory should be in the specified areas on the second or other page in the document.

[0060] Если информация о типе страниц, полученной от модуля 20 классификации страниц, не совпадают с информацией о типе станиц шаблона документа, то модуль 40 проверки комплекта документов принимает решение о том, что комплект документа неполон. Например, согласно шаблону документа данный отсканированный документ является Договором, заключенным с физическим лицом, состоящим из 3 страниц, где первые 2 страницы являются страницами Договора, а третья страница - сканом паспорта. Таким образом, если в отсканированном Договоре будет отсутствовать скан паспорта или вместо скана паспорта будет приложен другой документ, изображение которого будет обработано системой 1, то информация о типе третьей странице, полученная от модуля 20, не будет совпадать с информацией о типе станиц шаблона документа. [0061] Информация о том, что отсканированный комплект документа неполон, например, в виде сообщения «отсутствует скан паспорта», может быть выведена на средства (205) В/В информации.[0060] If the page type information received from the page classification module 20 does not match the page type information of the document template, then the document set checking module 40 decides that the document set is incomplete. For example, according to the document template, this scanned document is an Agreement concluded with an individual consisting of 3 pages, where the first 2 pages are the pages of the Agreement and the third page is a scan of the passport. Thus, if there is no passport scan in the scanned Agreement or another document is attached instead of the passport scan, the image of which will be processed by system 1, then the information on the type of the third page received from module 20 will not coincide with the information about the type of pages of the document template. [0061] Information that the scanned set of the document is incomplete, for example, in the form of a message “missing passport scan”, can be displayed on the means (205) I / O information.

[0062] Если информация о типе страниц, полученной от модуля 20 классификации страниц, совпадают с информацией о типе станиц шаблона документа, то модуль 40 проверки комплекта документов извлекает из БД 41 информацию о расположении по меньшей мере одного атрибута подписанта на по меньшей мере одной странице согласно шаблону документа для тех типов страниц, которые должны содержать по меньшей мере один атрибут подписанта. Упомянутая информация о расположении по меньшей мере одного атрибута подписанта может быть получена экспериментально на основе данных о средних координатах расположения подписей и печатей в шаблонах документов.[0062] If the page type information received from the page classification module 20 matches the page type information of the document template, the document set verification module 40 extracts from the database 41 information about the location of at least one signatory attribute on at least one page according to the document template for those types of pages that should contain at least one signatory attribute. Mentioned information about the location of at least one attribute of the signatory can be obtained experimentally based on data on the average coordinates of the location of signatures and seals in document templates.

[0063] Например, если отсканированный документ является Договором между компаниями «А» и «Б», состоящий из 1 страницы, то модуль 20 классификации данных извлекает из БД 41 информацию о расположении подписей и/или печатях (т.е. о атрибутах подписанта) на данной странице документа в соответствии с шаблоном. В частности, в БД 41 может храниться как тип шаблона документа, в котором информация о расположении будет указывать на то, что атрибуты подписанта компании «А» должны находиться в области страницы 105 Договора 100, а атрибуты подписанта компании «Б» - в области 106 Договора 100, так и тип шаблона документа, в котором атрибуты подписанта компании «Б» должны находиться в области 105 Договора 100, а атрибуты подписанта компании «А» - в области 106 Договора 100.[0063] For example, if the scanned document is an Agreement between companies “A” and “B”, consisting of 1 page, then the data classification module 20 extracts from the database 41 information about the location of signatures and / or seals (ie, about the attributes of the signatory ) on this page of the document in accordance with the template. In particular, in DB 41 it can be stored as a type of document template in which location information will indicate that the attributes of the company “A” signatory should be in the page area 105 of the Agreement 100, and the attributes of the company “B” should be in the area 106 Of the Agreement 100, as well as the type of document template in which the attributes of the company “B” signatory should be in area 105 of the Agreement 100, and the attributes of the company “A” signer should be in area 106 of the Agreement 100.

[0064] Соответственно, извлеченную на предыдущем шаге из БД 41 информацию о расположении по меньшей мере одного атрибута подписанта модуль 40 проверки комплекта документов сравнивает с информацией о расположении по меньшей мере одного атрибута на странице документа, полученной от модуля 30. Если извлеченная из БД 41 упомянутая информация о расположении по меньшей мере одного атрибута подписанта не совпадает с информацией о расположении по меньшей мере одного атрибута на странице документа, полученной от модуля 30, то модуль 40 проверки комплекта документов принимает решение о том, что комплект документа неполон. Информация о том, что отсканированный комплект документа неполон, например, в виде сообщения «отсутствует подпись клиента на 3 странице», может быть выведена на средства (205) В/В информации[0064] Accordingly, the information about the location of at least one attribute of the signer extracted from the DB 41 in the previous step is compared by the document set checking module 40 with the information about the location of the at least one attribute on the document page received from the module 30. If extracted from the DB 41 the information about the location of at least one attribute of the signatory does not coincide with the information about the location of at least one attribute on the page of the document received from the module 30, then the verification module 40 and the documents decide that the set of documents is incomplete. Information that the scanned set of the document is incomplete, for example, in the form of a message “there is no client signature on 3 pages”, can be withdrawn to funds (205) I / O information

[0065] Если извлеченная из БД 41 упомянутая информация о расположении совпадает с информацией о расположении, полученной от модуля 30, то модуль 40 проверки комплекта документов принимает решение о том, что комплект документа соответствует установленным требованиям комплектности. Информация о том, что отсканированный комплект документа полон также может быть выведена на средства (205) В/В информации.[0065] If the location information extracted from the DB 41 coincides with the location information received from the module 30, then the document set checking module 40 decides that the document set complies with the established completeness requirements. Information that the scanned set of the document is full can also be displayed on funds (205) I / O information.

[0066] Таким образом, за счет того, что тип документа и типы страниц документа, входящих в его состав, определяются на основе векторов страниц, сформированных на основе текстовой информации, содержащейся на странице, повышается точность определения типа документа и перечня его станиц, а также перечня страниц и атрибутов подписанта, наличие которых необходимо проверить на изображении документа, т.е. обеспечивается повышение точности проведения автоматизированной проверки документов на их комплектность. Формирование векторов страниц с учетом значений слов, содержащихся в текстовой информации, структуры зависимостей слов друг от друга и значений веса упомянутых слов дополнительно повысит точность при определении типа документа и типов страниц документа, а также перечня страниц и атрибутов подписанта, наличие которых необходимо проверить на изображении документа.[0066] Thus, due to the fact that the type of the document and the types of pages of the document included in its composition are determined based on the vectors of the pages formed on the basis of the text information contained on the page, the accuracy of determining the type of document and the list of its pages is increased, and also a list of pages and attributes of the signatory, the presence of which must be checked on the image of the document, i.e. provides increased accuracy of automated verification of documents for their completeness. The formation of page vectors taking into account the meaning of words contained in textual information, the structure of the dependencies of words on each other and the weight values of the mentioned words will further increase accuracy in determining the type of document and types of document pages, as well as the list of pages and attributes of the signer, the presence of which must be checked in the image document.

[0067] Дополнительно модуль 40 проверки комплекта документов может быть выполнен с возможностью классификации по меньшей мере одного атрибута подписанта, которая осуществляется на основе информации о расположения атрибута подписанта. Для обеспечения данной возможности БД 41 дополнительно содержит информацию о том, к какой стороне Договора относится атрибут подписанта в зависимости от его расположения на странице. Например, в БД 41 может содержаться информация о том, что в области страницы 105 Договора 100 расположен атрибут подписанта клиента, а области страницы 106 -исполнителя Договора. Таким образом, сравнивая информацию о расположении атрибута подписанта, полученную от модуля 30, с информацией о расположении атрибута подписанта из БД 41 модуль 40 проверки комплекта документов классифицирует изображение атрибута подписанта, например, как атрибут подписанта клиент, если атрибут подписанта расположен в области страницы 105, или как атрибут подписанта исполнителя Договора, если атрибут подписанта расположен в области страницы 106.[0067] Additionally, the document set verification module 40 may be configured to classify at least one signatory attribute, which is based on the location information of the signatory attribute. To ensure this opportunity, DB 41 additionally contains information about which side of the Agreement the attribute of the signatory belongs to, depending on its location on the page. For example, the database 41 may contain information that the attribute of the client is located in the area of page 105 of the Agreement 100, and the contractor is located in the area of the page 106. Thus, comparing the information about the location of the attribute of the signatory received from the module 30 with the information about the location of the attribute of the signatory from the database 41, the module 40 for verifying the set of documents classifies the image of the attribute of the signatory, for example, as the attribute of the signatory to the client, if the attribute of the signatory is located in the page area 105, or as an attribute of the signatory to the contractor, if the attribute of the signatory is located in the page area 106.

[0068] Модификации и улучшения вышеописанных вариантов осуществления настоящего технического решения будут ясны специалистам в данной области техники. Предшествующее описание представлено только в качестве примера и не несет никаких ограничений. Таким образом, объем настоящего технического решения ограничен только объемом прилагаемой формулы изобретения.[0068] Modifications and improvements to the above-described embodiments of the present technical solution will be apparent to those skilled in the art. The preceding description is provided as an example only and is not subject to any restrictions. Thus, the scope of the present technical solution is limited only by the scope of the attached claims.

Claims (17)

1. Способ проверки электронного комплекта документов, выполняемый по меньшей мере одним вычислительным устройством, содержащий этапы, на которых:1. A method of checking an electronic set of documents performed by at least one computing device, comprising the steps of: - получают изображение документа, состоящего из по меньшей мере одной страницы;- receive an image of a document consisting of at least one page; - распознают символы на изображении страницы документа и преобразует их в текстовую информацию;- recognize the characters in the image of the page of the document and converts them into text information; - формируют вектор страницы документа на основе текстовой информации, полученной на предыдущем этапе;- form a page vector of the document based on text information obtained in the previous step; - определяют на основе вектора страницы документа тип документа и тип его страницы;- determine, based on the page vector of the document, the type of document and the type of its page; - определяют перечень страниц и по меньшей мере один атрибут подписанта, наличие которых необходимо проверить в данном типе документа;- determine the list of pages and at least one attribute of the signatory, the presence of which must be checked in this type of document; - проверяют наличие перечня страниц и по меньшей мере одного атрибута подписанта на полученном изображении документа для определения комплектности документа.- check the availability of the list of pages and at least one attribute of the signatory on the received image of the document to determine the completeness of the document. 2. Способ по п. 1, отличающийся тем, что вектор страницы документа формируется на основе значений слов, содержащихся в текстовой информации, структуры зависимостей слов друг от друга и значений веса упомянутых слов.2. The method according to p. 1, characterized in that the document page vector is formed on the basis of the values of words contained in the text information, the structure of the dependencies of the words from each other and the weight values of the words. 3. Способ по п. 1, отличающийся тем, что определение типа документа и типа его страницы на основе вектора страницы документа осуществляется посредством классификации документа по принадлежности к заранее определенным типам страниц и документов, причем математическая модель для классификации реализована посредством алгоритмов машинного обучения «случайный лес».3. The method according to p. 1, characterized in that the determination of the type of document and the type of its page on the basis of the document page vector is carried out by classifying the document by belonging to predefined types of pages and documents, and the mathematical model for classification is implemented using machine learning algorithms "random forest". 4. Способ по п. 1, отличающийся тем, что этап проверки наличия по меньшей мере одного атрибута подписанта на полученном изображении документа включает этапы, на которых:4. The method according to p. 1, characterized in that the step of verifying the presence of at least one attribute of the signatory on the received image of the document includes the steps in which: - детектируют по меньшей мере один атрибут подписанта на изображении страницы документа для определения его расположения;- detect at least one attribute of the signatory on the image of the page of the document to determine its location; - определяют, где атрибут подписанта должен находиться на данном типе страницы;- determine where the attribute of the signatory should be on this type of page; причем проверка наличия по меньшей мере одного атрибута подписанта на полученном изображении документа для определения комплектности документа осуществляется посредством сравнения информации о расположении атрибута подписанта на изображении страницы документа с информаций, указывающей на то, где должен находиться атрибут подписанта на данном типе страницы.moreover, checking the presence of at least one attribute of the signatory on the received image of the document to determine the completeness of the document is carried out by comparing information about the location of the attribute of the signatory on the image of the page of the document with information indicating where the attribute of the signatory should be on this type of page. 5. Способ по п. 4, отличающийся тем, что детектирование по меньшей мере одного атрибута подписанта осуществляется только на тех изображениях страниц документов, тип которых указывает на то, что данные страницы содержат атрибуты подписанта.5. The method according to p. 4, characterized in that the detection of at least one attribute of the signatory is carried out only on those images of pages of documents, the type of which indicates that these pages contain attributes of the signatory. 6. Способ по п. 4, отличающийся тем, что содержит этап классификации по меньшей мере одного атрибута подписанта, которая осуществляется на основе информации о расположения атрибута подписанта.6. The method according to p. 4, characterized in that it comprises the step of classifying at least one attribute of the signatory, which is based on information about the location of the attribute of the signatory. 7. Способ по п. 1, отличающийся тем, что атрибут подписанта представляют собой подпись и/или печать.7. The method according to p. 1, characterized in that the attribute of the signatory is a signature and / or seal. 8. Система для проверки комплекта документов, содержащая по меньшей мере одно вычислительное устройство и по меньшей мере одну память, содержащую машиночитаемые инструкции, которые при их исполнении по меньшей мере одним вычислительным устройством выполняют способ по любому из пп. 1-7.8. A system for checking a set of documents containing at least one computing device and at least one memory containing machine-readable instructions that, when executed by at least one computing device, perform the method according to any one of claims. 1-7.
RU2019109055A 2019-03-28 2019-03-28 Method and system for checking an electronic set of documents RU2702967C1 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
RU2019109055A RU2702967C1 (en) 2019-03-28 2019-03-28 Method and system for checking an electronic set of documents
EA201990647A EA201990647A1 (en) 2019-03-28 2019-04-03 METHOD AND SYSTEM FOR VERIFICATION OF ELECTRONIC SET OF DOCUMENTS
PCT/RU2019/000197 WO2020197428A1 (en) 2019-03-28 2019-06-06 Method and system for checking a set of electronic documents

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2019109055A RU2702967C1 (en) 2019-03-28 2019-03-28 Method and system for checking an electronic set of documents

Publications (1)

Publication Number Publication Date
RU2702967C1 true RU2702967C1 (en) 2019-10-14

Family

ID=68280239

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2019109055A RU2702967C1 (en) 2019-03-28 2019-03-28 Method and system for checking an electronic set of documents

Country Status (3)

Country Link
EA (1) EA201990647A1 (en)
RU (1) RU2702967C1 (en)
WO (1) WO2020197428A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11361528B2 (en) * 2020-08-11 2022-06-14 Nationstar Mortgage LLC Systems and methods for stamp detection and classification
WO2024030042A1 (en) * 2022-08-04 2024-02-08 Публичное Акционерное Общество "Сбербанк России" Method and system for processing images of documents

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113553803A (en) * 2021-06-28 2021-10-26 北京来也网络科技有限公司 Electronic file signature method and device based on RPA and AI and electronic equipment

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2229744C2 (en) * 2002-02-28 2004-05-27 ЗАО "НИИИН МНПО "Спектр" Method and device for computerized optical processing of documents
RU56682U1 (en) * 2006-06-08 2006-09-10 Александр Алексеевич Бойко INFORMATION-ANALYTICAL TRADING-OPERATING SYSTEM OF ELECTRONIC TRADING
US20090059261A1 (en) * 2007-08-30 2009-03-05 Canon Kabushiki Kaisha Image processing apparatus and integrated document generating method
US20110134494A1 (en) * 2009-12-08 2011-06-09 Canon Kabushiki Kaisha Image scanning apparatus, control method for image scanning apparatus, and storage medium
US20170212875A1 (en) * 2016-01-27 2017-07-27 Microsoft Technology Licensing, Llc Predictive filtering of content of documents

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10134682B4 (en) * 2001-07-20 2009-07-30 Mediasec Technologies Gmbh Method and device for confirming the authenticity of a document and electronic safe for storing the data
US7904725B2 (en) * 2006-03-02 2011-03-08 Microsoft Corporation Verification of electronic signatures
US20110258150A1 (en) * 2010-01-15 2011-10-20 Copanion, Inc. Systems and methods for training document analysis system for automatically extracting data from documents
US9563926B2 (en) * 2013-03-14 2017-02-07 Applied Materials Technologies Limited System and method of encoding content and an image
RU2014118012A (en) * 2014-05-05 2015-11-10 Галина Эдуардовна Добрякова SYSTEM AND METHOD OF REMOTE CONCLUSION AND REGISTRATION OF ELECTRONIC TRANSACTIONS

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2229744C2 (en) * 2002-02-28 2004-05-27 ЗАО "НИИИН МНПО "Спектр" Method and device for computerized optical processing of documents
RU56682U1 (en) * 2006-06-08 2006-09-10 Александр Алексеевич Бойко INFORMATION-ANALYTICAL TRADING-OPERATING SYSTEM OF ELECTRONIC TRADING
US20090059261A1 (en) * 2007-08-30 2009-03-05 Canon Kabushiki Kaisha Image processing apparatus and integrated document generating method
US20110134494A1 (en) * 2009-12-08 2011-06-09 Canon Kabushiki Kaisha Image scanning apparatus, control method for image scanning apparatus, and storage medium
US20170212875A1 (en) * 2016-01-27 2017-07-27 Microsoft Technology Licensing, Llc Predictive filtering of content of documents

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11361528B2 (en) * 2020-08-11 2022-06-14 Nationstar Mortgage LLC Systems and methods for stamp detection and classification
WO2024030042A1 (en) * 2022-08-04 2024-02-08 Публичное Акционерное Общество "Сбербанк России" Method and system for processing images of documents

Also Published As

Publication number Publication date
WO2020197428A1 (en) 2020-10-01
EA201990647A1 (en) 2020-09-30

Similar Documents

Publication Publication Date Title
US10489439B2 (en) System and method for entity extraction from semi-structured text documents
US10482174B1 (en) Systems and methods for identifying form fields
CN111680490B (en) Cross-modal document processing method and device and electronic equipment
RU2702967C1 (en) Method and system for checking an electronic set of documents
US20160092730A1 (en) Content-based document image classification
US11816138B2 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
US20210366055A1 (en) Systems and methods for generating accurate transaction data and manipulation
CN108170468B (en) Method and system for automatically detecting annotation and code consistency
WO2023279045A1 (en) Ai-augmented auditing platform including techniques for automated document processing
EP4141818A1 (en) Document digitization, transformation and validation
US20170178528A1 (en) Method and System for Providing Automated Localized Feedback for an Extracted Component of an Electronic Document File
CN112464927B (en) Information extraction method, device and system
KR102282025B1 (en) Method for automatically sorting documents and extracting characters by using computer
KR102280490B1 (en) Training data construction method for automatically generating training data for artificial intelligence model for counseling intention classification
RU2739342C1 (en) Method and system for intelligent document processing
WO2021054850A1 (en) Method and system for intelligent document processing
KR102467096B1 (en) Method and apparatus for checking dataset to learn extraction model for metadata of thesis
EA043496B1 (en) METHOD AND SYSTEM FOR CHECKING AN ELECTRONIC SET OF DOCUMENTS
CN111341404B (en) Electronic medical record data set analysis method and system based on ernie model
RU2755606C2 (en) Method and system for classifying data for identifying confidential information in the text
EP3640861A1 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
EA040560B1 (en) METHOD AND SYSTEM FOR INTELLIGENT DOCUMENT PROCESSING
CN112632268B (en) Complaint work order detection processing method, complaint work order detection processing device, computer equipment and storage medium
CN113168527A (en) System and method for extracting information from entity documents
US12014561B2 (en) Image reading systems, methods and storage medium for performing geometric extraction