WO2020197428A1 - Method and system for checking a set of electronic documents - Google Patents

Method and system for checking a set of electronic documents Download PDF

Info

Publication number
WO2020197428A1
WO2020197428A1 PCT/RU2019/000197 RU2019000197W WO2020197428A1 WO 2020197428 A1 WO2020197428 A1 WO 2020197428A1 RU 2019000197 W RU2019000197 W RU 2019000197W WO 2020197428 A1 WO2020197428 A1 WO 2020197428A1
Authority
WO
WIPO (PCT)
Prior art keywords
document
page
signer
attribute
type
Prior art date
Application number
PCT/RU2019/000197
Other languages
French (fr)
Russian (ru)
Inventor
Евгений Сергеевич ЛАТЫШЕВ
Кирилл Геннадьевич ТАРАСОВ
Original Assignee
Публичное Акционерное Общество "Сбербанк России"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Публичное Акционерное Общество "Сбербанк России" filed Critical Публичное Акционерное Общество "Сбербанк России"
Publication of WO2020197428A1 publication Critical patent/WO2020197428A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/30Writer recognition; Reading and verifying signatures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis

Definitions

  • the presented technical solution relates generally to the field of image analysis, and in particular to methods and systems for checking an electronic set of documents, for example, scanned documents of a corporate client of a bank.
  • the technical problem or task posed in this technical solution is the creation of a new effective method for automated verification of a set of documents, for example, documents of a corporate client of the Bank.
  • the technical result is to improve the accuracy of automated verification of documents for completeness.
  • An additional technical result is an increase in the speed of the automated check of documents for their completeness.
  • the document page vector is formed on the basis of the word values contained in the text information, the structure of word dependencies from each other, and the weight values of said words.
  • determining the type of document and the type of its page based on the vector of the document page is carried out by classifying the document according to its belonging to predetermined types of pages and documents, and the mathematical model for classification is implemented by means of machine learning algorithms "random forest”.
  • the step of checking for the presence of at least one attribute of the signer on the resulting image of the document includes the steps in which:
  • checking for the presence of at least one signer's attribute on the obtained document image to determine the completeness of the document is carried out by comparing information about the location of the signer's attribute on the document page image with information indicating where the signer's attribute should be located on this page type.
  • the detection of at least one signer attribute is carried out only on those images of document pages of the type indicating that the page data contains the signer's attributes.
  • At least one signer attribute is additionally classified, and the classification is carried out based on the location information of the signer attribute.
  • the signer attribute is a signature and / or a seal.
  • a system for verifying a set of documents comprising at least one computing device and at least one memory containing machine-readable instructions that, when executed by at least one computing device, perform the above method.
  • FIG. 1 shows a general diagram of the interaction of system elements for checking a set of documents.
  • FIG. 2 shows an example of a scanned document.
  • FIG. 3 shows an example of a general view of a system for checking a set of documents.
  • the system means, including a computer system, a computer (electronic computer), a CNC (numerical control), a PLC (programmable logic controller), computerized control systems and any other devices capable of performing a given , a well-defined sequence of operations (actions, instructions).
  • a computer electronic computer
  • CNC numerical control
  • PLC programmable logic controller
  • computerized control systems any other devices capable of performing a given , a well-defined sequence of operations (actions, instructions).
  • a command processing device means an electronic unit or an integrated circuit (microprocessor) that executes machine instructions (programs).
  • An instruction processor reads and executes machine instructions (programs) from one or more storage devices.
  • Data storage devices can include, but are not limited to, hard drives (HDD), flash memory, ROM (read only memory), solid state drives (SSD), optical drives.
  • a program is a sequence of instructions for execution by a computer control device or command processing device.
  • Database (DB) a collection of data organized in accordance with a conceptual structure describing the characteristics of this data and the relationship between them, and such a collection data that supports one or more application areas (ISO / IEC 2382: 2015, 2121423 "database”).
  • the system 1 for checking a set of documents contains interconnected: a data conversion module 10; a page classification module 20, a signer attributes verification module 30 such as signatures and / or stamps, and a document set verification module 40.
  • These modules can be implemented on the basis of the software and hardware of the system 1 for checking a set of documents, for example, on the basis of at least one computing device, in particular a microprocessor, and at least one memory containing machine-readable instructions for implementing assigned modules below functions.
  • the data transformation module 10 may contain a vector shaping module 11 and an image filtering module 12, and can be implemented based on the Tesseract opensource tool (Tesseract Open Source OCR Engine) and the TF-IDF algorithm.
  • Page classification module 20 can be implemented on the basis of a pre-trained mathematical model using a mathematical model learning algorithm - a random forest of decision trees.
  • Signer attribute verification module 30 may be implemented on the basis of a YOLOv3 neural network pre-trained on a typical set of signatures and seals.
  • the document set verification module 40 may include at least one database 41 for storing information that may be required to verify the document set.
  • the system (200) for checking a set of documents contains one or more processors (201), united by a common bus of information exchange, memory means such as RAM (202) and ROM (203), input / output interfaces (204), input / output devices (205), and a device for networking (206).
  • processors 201
  • memory means such as RAM (202) and ROM
  • input / output interfaces 204
  • input / output devices 205
  • device for networking 206
  • the processor (201) (or multiple processors, multi-core processor, etc.) can be selected from a range of devices currently widely used, for example, such manufacturers as: Intel TM, AMD TM, Apple TM, Samsung Exynos TM, MediaTEK TM, Qualcomm Snapdragon TM, etc. Under the processor or one of the used processors in the system (200), it is also necessary to take into account the GPU, for example, NVIDIA GPU with a CUDA-compatible programming model, or Graphcore, the type of which is also suitable for full or partial execution of the method, and can also be used for training and applying machine learning models in various information systems.
  • the GPU for example, NVIDIA GPU with a CUDA-compatible programming model, or Graphcore, the type of which is also suitable for full or partial execution of the method, and can also be used for training and applying machine learning models in various information systems.
  • the RAM (202) is a random access memory and is intended for storing machine-readable instructions executed by the processor (201) for performing the necessary operations for logical data processing.
  • RAM (202) contains executable instructions of the operating system and corresponding software components (applications, software modules, etc.).
  • the available memory of the graphics card or graphics processor can act as RAM (202).
  • ROM (203) is one or more persistent storage devices such as a hard disk drive (HDD), solid state data storage device (SSD), flash memory (EEPROM, NAND, etc.), optical storage media ( CD-R / RW, DVD-R / RW, BlueRay Disc, MD), etc.
  • HDD hard disk drive
  • SSD solid state data storage device
  • EEPROM electrically erasable programmable read-only memory
  • NAND flash memory
  • optical storage media CD-R / RW, DVD-R / RW, BlueRay Disc, MD, etc.
  • I / O interfaces (204) are used to organize the operation of the system components (200) and to organize the operation of external connected devices.
  • the choice of the appropriate interfaces depends on the specific version of the computing device, which can be, but are not limited to: PCI, AGP, PS / 2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS / Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232, etc.
  • I / O information are used, for example, a keyboard, a display (monitor), a touch display, a touch-pad, a joystick, a mouse manipulator, a light pen, a stylus, touch panel, trackball, speakers, microphone, augmented reality, optical sensors, tablet, light indicators, projector, camera, biometric identification (retina scanner, fingerprint scanner, voice recognition module), etc.
  • the networking tool (206) provides data transmission via an internal or external computer network, for example, Intranet, Internet, LAN, and the like.
  • One or more means (206) can be used, but not limited to: Ethernet card, GSM modem, GPRS modem, LTE modem, 5G modem, satellite communication module, NFC module, Bluetooth and / or BLE module, Wi-Fi module, and dr.
  • satellite navigation means can be used as part of the system (200), for example, GPS, GLONASS, BeiDou, Galileo.
  • the data conversion module 10 receives at least one image of a document, in particular a scanned document, for example, a file in the format of a multipage PDF, JPEG, TIFF or any other known format that can be used for storage in the scanned electronic document set.
  • the document image may come from an image data source 50, in particular directly from a document scanning device such as a scanner, or it may be retrieved from a suitable image database in which the document image data is stored in advance.
  • the document the image of which is supplied to the data conversion module 10, can be any document consisting of at least one page, which may contain the attributes of the signer, and filled in accordance with a known template.
  • the document can be, for example, an agreement concluded between companies "A" and "B", or between a company and an individual, or between individuals, or the document can represent this type of document that is signed by only one signatory - a company or an individual , for example, a power of attorney from a company or from an individual; or etc.
  • the data conversion unit 10 performs character recognition on at least one image of a document page and converts them into text information.
  • the data conversion module 10 can be configured to preprocess the received text information to reduce the variety of possible texts of recognized document images in order to simplify the operation of the following system modules.
  • textual information is tokenized.
  • the tokenization stage involves the selection of basic text elements (tokens), delimited on both sides by separating characters, spaces or punctuation marks.
  • the elements here are words, numbers, dates, abbreviations, abbreviations, compound prepositions, etc. Tokenization allows you to select discrete units of text, which are the basis for further work at the stages of morphological and syntactic analysis. As a result of tokenization, each element is assigned the appropriate type: word, number, date, address, etc.
  • the data conversion unit 10 proceeds to the step of generating document page vectors by the vector generating unit 11.
  • the mentioned module for each word obtained after text processing determines the value of the word weight using the statistical measure TF-IDF.
  • TF-IDF is a statistical measure used to assess the importance of a word in the context of a document that is part of a document collection or corpus.
  • the weight of a word is proportional to the number of times this word is used in a document, and is inversely proportional to the frequency of using a word in other documents in the collection.
  • the TF-IDF measure is often used in text analysis and information retrieval tasks, for example, as one of the criteria for the relevance of a document to a search query, when calculating the measure of document proximity during clustering.
  • TF term frequency
  • u is the number of occurrences of the word t * in document d; , k n k is the total number of words in a given user request and / or document.
  • IDF inverse document frequency
  • IDF accounting reduces the weight of commonly used words. There is only one IDF value for each unique word within a particular collection of documents.
  • the IDF characteristic is defined by the following relationship:
  • a high TF-IDF weight is given to words with high frequency within a particular document and with low frequency in other documents.
  • the TF-IDF measure is often used to represent collection documents as numerical vectors reflecting the importance of using each word from a set of words (the number of words in a set determines the dimension of the vector) in each document.
  • Such a model is called a vector model and makes it possible to compare texts by comparing the vectors that represent them in some metric (Euclidean distance, cosine measure, Manhattan distance, Chebyshev distance, etc.), that is, by performing cluster analysis.
  • the module 11 for generating vectors based on the word values obtained after preprocessing, the structure of the dependence of words on each friend in the text information and the values of the weights of the mentioned words forms the vector of the document page.
  • the generated document page vector is sent to the page classification module 20 to determine the document type and the document page type, i.e. to classify a document as belonging to predefined types of pages and documents.
  • the vector generating unit 11 generates in the same way for each page of the document a document page vector, which are also sent to the page classification unit 20.
  • Module 20 classification of pages for determining the type of document and types of its pages contains a mathematical model, the input of which is received data on the vectors of the pages of the document.
  • the mathematical model can be implemented through machine learning algorithms "random forest", which consists in using a committee (ensemble) of decision trees.
  • the classification of objects is carried out by voting: each committee tree assigns the object to be classified, in this case a document page, to one of the classes characterizing the page type and document type, and the class for which the largest number of trees voted wins.
  • the optimal number of trees is selected in such a way as to minimize the classifier error on the test sample.
  • the output of the mathematical model comes from each decision tree pointers of the document type and the page type.
  • the page classification module 20 analyzes the number of said pointers obtained at the output of said model, and determines the document type and page type based on the document type indicator, the number of which is greater at the output of the mathematical model, i.e. for which the largest number of trees voted.
  • the document type will be determined as a "contract”
  • the data on the page type will indicate that the page in the image is a page of the contract, which must contain the attributes of signers in the form of signatures and seals of companies "A" and "B" located in the specified areas on the page (for example , in areas 105 and 106, see Fig. 2).
  • the document type can be defined, for example, as a power of attorney from company "A" or from an individual
  • the page type is a page of a power of attorney with the signer's attributes, for example, in the form of a signature and a seal in a specified area of the page, for example, area 106, if the power of attorney from the company, or only in the form of a signature in the specified area of the page, if the power of attorney is from an individual.
  • the input of the mathematical model receives data on two or more vectors of document pages.
  • the page classification module 20 similarly analyzes the number of the mentioned pointers at the output of the mathematical model and determines the type of document and the list of its pages based on that document type indicator, the number of which is greater at the output of the mathematical model. In this case, the document type is determined based on the vectors of all its pages.
  • the page classification module 20 can determine the type of the document as an agreement between companies "A" and "B", consisting of 4 pages, and the data on the types of pages may indicate that the first page is a page of the Agreement, not containing the signer's attributes, the second page is the contract page with the signer's attributes in the specified areas, and pages 3 and 4 are applications that do not contain the signer's attributes.
  • the data on the types of the document and the types of its pages is sent by the page classification module 20 to the document set verification module 40 and to the image filtering module 12, which determines the types of pages with at least one signer attribute, extracts the corresponding page images with at least one the signer attribute from the document image, and sends the page image data to the signer attribute validator 30 for further analysis.
  • the module 30 since not the entire image of the document is sent to the module 30 for checking the attributes of the signer, but only images of document pages, the type of which assumes the presence of at least one signer's attribute on these pages, reduces the computational load and increases the speed of image processing by the module 30 for detecting images of the signer's attributes, thereby increasing the speed of automated verification of documents for their completeness.
  • the module 30 for checking the signer's attributes proceeds to the step of detecting at least one image of the signer's attribute on each received image of the document page to determine its location on the document page.
  • the signer attribute validator 30 may determine that the signer's attribute image is a signature and / or seal image in document area 105 or 106 (see FIG. 2).
  • area 101 of document 100 may contain information about the Agreement number, area 102 - the name of the city, area 103 - the date of the Agreement, and area 104 - the text of the Agreement.
  • the well-known algorithms of the neural network of the YOLOv3 architecture trained on a selected dataset of signatures and seals are used to detect images of the signer's attributes, disclosed, for example, in an article published on the Internet at: https://pireddie.com/media/files /papers/YQLOv3.pdf.
  • the data on the detected attributes of the signer, in particular information on their location on the document page, is transmitted to the module 40 for checking the set of documents.
  • Module 40 verification of a set of documents in the course of its work checks for the presence of mandatory for this type of document list of pages and attributes of signers, such as a seal and / or signature and / or a set of signatures, in the specified areas of the pages.
  • the module 40 for checking the set of documents can be equipped with a corresponding database 41 with information about the templates of documents, their list of pages, and the attributes of the signers, the presence of which must be checked in a given area of pages from the list of pages of a given type of document.
  • Page vectors are based on textual information, which may include the names of one or more companies, or the names of one or more individuals, then information about the type of pages will also determine in which area of the page the attributes should be located 5 signed on the image of the document page.
  • the document set verification module 40 checks areas 105 or 106 of the second page for the presence of attributes of signers, and the location of the attributes of the first and second signers in these areas is determined by the type of document and the types of its pages.
  • the module 40 for checking the set of documents based on the data on the type of the document received from the module 20 classifying pages, searches the database 41 for a template of this type of document, on the basis of which the module 40 will check the set of documents, and extracts information about the types of pages of this 25 document template. For example, if the page classification module 20 determines that the scanned document is an Agreement between companies "A" and "B", then based on this information about the type of document, the module 40 for checking the set of documents finds in the database a template of the Agreement between companies "A" and "B” »And retrieves information about the types of pages present in the template of the Agreement.
  • the signer's attributes should be located on the first page of the document.
  • the information that the signer's attributes should be on the first page, as well as their location on the page, can be contained in the page type information, according to which the package verification module 40 will check for the presence of signers' attributes on the first page of the contract.
  • information about the type of the last page of the document may contain information that the attributes of the signer should be in a given area (for example, in areas 105 or 106) on this page.
  • information about the type of the first page or the type of document can contain information that the signer's attributes should be in the specified areas on the second or other page in the document.
  • the document set check unit 40 decides that the document set is incomplete.
  • this scanned document is an Agreement concluded with an individual, consisting of 3 pages, where the first 2 pages are the pages of the Agreement, and the third page is a scan of the passport.
  • the scanned Agreement does not contain a scan of the passport or instead of a scan of the passport another document is attached, the image of which will be processed by system 1, then the information on the type of the third page received from module 20 will not coincide with the information on the type of pages of the document template.
  • Information that the scanned set of documents is incomplete, for example, in the form of a message "missing passport scan”, can be output to the I / O means (205).
  • the document set verification module 40 extracts from the database 41 information about the location of at least one signer's attribute on at least one page according to the document template for those types of pages that must contain at least one signer attribute.
  • the mentioned information about the location of at least one attribute of the signer can be obtained experimentally based on the data on the average coordinates of the location of signatures and seals in document templates.
  • the data classification module 20 extracts from the database 41 information about the location of signatures and / or seals (i.e.
  • DB 41 can be stored as a type of document template, in which the location information will indicate that the attributes of the signer of company "A” should be in the area of page 105 of the Agreement 100, and the attributes of the signer of company B - in the area 106 Agreement 100, and the type of document template, in which the attributes of the signatory of the company "B” should be in area 105 of the Agreement 100, and the attributes of the signer of the company "A" - in area 106 of the Agreement 100.
  • the information about the location of at least one attribute of the signer 15 extracted from the database 41 in the previous step is compared by the module 40 for checking the set of documents with the information about the location of at least one attribute on the document page received from the module 30. If the extracted from the database 41, said location information of at least one signer's attribute does not match the location information of at least one attribute 20 on a document page received from module 30, then the document set verification module 40 decides that the document set is incomplete. Information that the scanned set of documents is incomplete, for example, in the form of a message "there is no client signature on page 3", can be displayed on the means (205) I / O 25 information
  • the document set verification module 40 decides that the document set meets the specified completeness requirements. Information that the scanned document set is complete can also be output to the I / O means (205).
  • the document set verification module 40 may be configured to classify at least one signer attribute based on the signer's attribute location information.
  • DB 41 additionally contains information about which side of the Agreement the signer's attribute belongs to, depending on its location on the page.
  • the database 41 may contain information that in the area of page 105 of the Agreement 100 there is an attribute of the signer of the client, and in the area of page 106 - the executor of the Agreement.
  • the document suite verification module 40 classifies the signer's attribute image, for example, as a signer's attribute client, if the signer's attribute is located in the page area 105. or as an attribute of the signer of the Contractor if the signer attribute is located in the page 106 area.

Abstract

The proposed technical solution relates in general to the field of image analysis, and more particularly to methods and systems for checking a set of electronic documents, for example, scanned documents of a corporate client of a bank. The technical result is an increase in accuracy of the automatic checking of documents for completeness. This technical result is achieved by virtue of a method for checking a set of electronic documents, implemented by at least one computing device and comprising the following steps: obtaining an image of a document consisting of at least one page; recognizing symbols on the image of a page of the document and converting said symbols into textual information; creating a vector of the page of the document on the basis of the textual information obtained in the previous step; determining the document type and document page type on the basis of said vector of the page of the document; determining a list of pages and at least one attribute of the signer that are to be checked for presence in the given document type; checking the list of pages and the at least one attribute of the signer for presence in the document image obtained in order to determine completeness of the document.

Description

СПОСОБ И СИСТЕМА ДЛЯ ПРОВЕРКИ ЭЛЕКТРОННОГО КОМПЛЕКТА METHOD AND SYSTEM FOR CHECKING ELECTRONIC KIT
ДОКУМЕНТОВ DOCUMENTS
ОБЛАСТЬ ТЕХНИКИ FIELD OF TECHNOLOGY
[0001] Представленное техническое решение относится, в общем, к области анализа изображений, а в частности к способам и системам для проверки электронного комплекта документов, например, отсканированных документов корпоративного клиента банка. [0001] The presented technical solution relates generally to the field of image analysis, and in particular to methods and systems for checking an electronic set of documents, for example, scanned documents of a corporate client of a bank.
УРОВЕНЬ ТЕХНИКИ LEVEL OF TECHNOLOGY
[0002] В настоящее время существует проблема оперативной и качественной обработки данных электронного комплекта отсканированных документов с целью проверки наличия обязательных для заранее определенных типов страниц атрибутов, таких как печать и/или подпись и/или комплект подписей. [0002] Currently, there is a problem of prompt and high-quality processing of the data of an electronic set of scanned documents in order to check for the presence of mandatory for predefined types of pages of attributes, such as seal and / or signature and / or set of signatures.
[0003] Из уровня техники известны различные решения, выполненные с возможностью обработки документов, например, клиента Банка, реализованные на базе ПО ABBYY InfoExtractor и пр. Также известно решение для проведения проверки комплекта документов, раскрытое в заявке US 2011134494 (А1 ), опубл. 09.06.2011 , в котором осуществляют чтение документа, имеющего множество страниц; проверка данных изображения каждой страницы документа, имеющего множество страниц, при этом проверяются определенные области изображения документа на наличие в них информации и ее отсутствие. Данное решение является наиболее близким аналогом. [0003] From the prior art, various solutions are known, made with the possibility of processing documents, for example, a client of the Bank, implemented on the basis of ABBYY InfoExtractor software, etc. Also known is a solution for checking a set of documents disclosed in the application US 2011134494 (A1), publ. 06/09/2011, in which read the document having many pages; checking image data of each page of a document having multiple pages, while checking certain areas of the document image for the presence and absence of information. This solution is the closest analogue.
[0004] Существенным недостатком известных решений является отсутствие возможности проверить комплект отсканированных документов по следующим критериям: [0004] A significant drawback of the known solutions is the inability to check a set of scanned documents according to the following criteria:
• комплектность пакета документов; • completeness of the package of documents;
• наличие печатей; • presence of seals;
• наличие и корректность состава подписей. РАСКРЫТИЕ ИЗОБРЕТЕНИЯ • presence and correctness of the composition of signatures. DISCLOSURE OF THE INVENTION
[0005] Технической проблемой или задачей, поставленной в данном техническом решении, является создание нового эффективного метода автоматизированной проверки комплекта документов, например, документов корпоративного клиента Банка. [0005] The technical problem or task posed in this technical solution is the creation of a new effective method for automated verification of a set of documents, for example, documents of a corporate client of the Bank.
[0006] Техническим результатом является повышение точности проведения автоматизированной проверки документов на их комплектность. [0006] The technical result is to improve the accuracy of automated verification of documents for completeness.
Дополнительным техническим результатом является повышение скорости проведения автоматизированной проверки документов на их комплектность. An additional technical result is an increase in the speed of the automated check of documents for their completeness.
[0007] Указанный технический результат достигается благодаря осуществлению способа проверки электронного комплекта документов, выполняемого по меньшей мере одним вычислительным устройством, и содержащего этапы, на которых: [0007] The specified technical result is achieved by implementing a method for checking an electronic set of documents, performed by at least one computing device, and containing the steps in which:
- получают изображение документа, состоящего из по меньшей мере одной страницы; - get an image of the document, consisting of at least one page;
- распознают символы на изображении страницы документа и преобразует их в текстовую информацию; - recognize characters on the image of a page of a document and converts them into text information;
- формируют вектор страницы документа на основе текстовой информации, полученной на предыдущем этапе; - form the vector of the page of the document based on the text information obtained at the previous stage;
- определяют на основе вектора страницы документа тип документа и тип его страницы; - based on the vector of the document page, the type of the document and the type of its page are determined;
- определяют перечень страниц и по меньшей мере один атрибут подписанта, наличие которых необходимо проверить в данном типе документа; - define a list of pages and at least one signer attribute, the presence of which must be checked in this type of document;
- проверяют наличие перечня страниц и по меньшей мере одного атрибута подписанта на полученном изображении документа для определения комплектности документа. - check the presence of the list of pages and at least one attribute of the signer on the resulting image of the document to determine the completeness of the document.
[0008] В одном из частных примеров осуществления способа вектор страницы документа формируется на основе значений слов, содержащихся в текстовой информации, структуры зависимостей слов друг от друга и значений веса упомянутых слов. [0008] In one particular embodiment of the method, the document page vector is formed on the basis of the word values contained in the text information, the structure of word dependencies from each other, and the weight values of said words.
[0009] В другом частном примере осуществления способа определение типа документа и типа его страницы на основе вектора страницы документа осуществляется посредством классификации документа по принадлежности к заранее определенным типам страниц и документов, причем математическая модель для классификации реализована посредством алгоритмов машинного обучения «случайный лес». [0009] In another particular embodiment of the method, determining the type of document and the type of its page based on the vector of the document page is carried out by classifying the document according to its belonging to predetermined types of pages and documents, and the mathematical model for classification is implemented by means of machine learning algorithms "random forest".
[0010] В другом частном примере осуществления способа этап проверки наличия по меньшей мере одного атрибута подписанта на полученном изображении документа, включает этапы, на которых: [0010] In another particular embodiment of the method, the step of checking for the presence of at least one attribute of the signer on the resulting image of the document includes the steps in which:
- детектируют по меньшей мере один атрибут подписанта на изображении страницы документа для определения его расположения; - detecting at least one attribute of the signer on the image of the page of the document to determine its location;
- определяют, где атрибут подписанта должен находиться на данном типе страницы; - define where the signer attribute should be on a given page type;
причем проверка наличия по меньшей мере одного атрибута подписанта на полученном изображении документа для определения комплектности документа осуществляется посредством сравнения информации о расположении атрибута подписанта на изображении страницы документа с информаций, указывающей на то, где должен находиться атрибут подписанта на данном типе страницы. moreover, checking for the presence of at least one signer's attribute on the obtained document image to determine the completeness of the document is carried out by comparing information about the location of the signer's attribute on the document page image with information indicating where the signer's attribute should be located on this page type.
[0011] В другом частном примере осуществления способа детектирование по меньшей мере одного атрибута подписанта осуществляется только на тех изображениях страниц документов, тип который указывает на то, что данные страницы содержат атрибуты подписанта. [0011] In another particular embodiment of the method, the detection of at least one signer attribute is carried out only on those images of document pages of the type indicating that the page data contains the signer's attributes.
[0012] В другом частном примере осуществления способа дополнительно классифицируют по меньшей мере один атрибут подписанта, причем классификация осуществляется на основе информации о расположения атрибута подписанта. [0012] In another particular embodiment of the method, at least one signer attribute is additionally classified, and the classification is carried out based on the location information of the signer attribute.
[0013] В другом частном примере осуществления способа атрибут подписанта представляют собой подпись и/или печать. [0013] In another particular embodiment of the method, the signer attribute is a signature and / or a seal.
[0014] В другом предпочтительном варианте осуществления заявленного решения представлена система для проверки комплекта документов, содержащая по меньшей мере одно вычислительное устройство и по меньшей мере одну память, содержащую машиночитаемые инструкции, которые при их исполнении по меньшей мере одним вычислительным устройством выполняют вышеуказанный способ. КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ [0014] In another preferred embodiment of the claimed solution, a system for verifying a set of documents is provided, comprising at least one computing device and at least one memory containing machine-readable instructions that, when executed by at least one computing device, perform the above method. BRIEF DESCRIPTION OF DRAWINGS
[0015] Признаки и преимущества настоящего технического решения станут очевидными из приводимого ниже подробного описания изобретения и прилагаемых чертежей, на которых: [0015] The features and advantages of the present technical solution will become apparent from the following detailed description of the invention and the accompanying drawings, in which:
[0016] на Фиг. 1 представлена общая схема взаимодействия элементов системы для проверки комплекта документов. [0016] in FIG. 1 shows a general diagram of the interaction of system elements for checking a set of documents.
[0017] на Фиг. 2 представлен пример отсканированного документа. [0017] in FIG. 2 shows an example of a scanned document.
[0018] на Фиг. 3 представлен пример общего вида системы для проверки комплекта документов. [0018] in FIG. 3 shows an example of a general view of a system for checking a set of documents.
ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ CARRYING OUT THE INVENTION
[0019] Ниже будут описаны понятия и термины, необходимые для понимания данного технического решения. [0019] The following will describe the concepts and terms necessary to understand this technical solution.
[0020] В данном техническом решении под системой подразумевается, в том числе компьютерная система, ЭВМ (электронно-вычислительная машина), ЧПУ (числовое программное управление), ПЛК (программируемый логический контроллер), компьютеризированные системы управления и любые другие устройства, способные выполнять заданную, четко определенную последовательность операций (действий, инструкций). [0020] In this technical solution, the system means, including a computer system, a computer (electronic computer), a CNC (numerical control), a PLC (programmable logic controller), computerized control systems and any other devices capable of performing a given , a well-defined sequence of operations (actions, instructions).
[0021] Под устройством обработки команд подразумевается электронный блок либо интегральная схема (микропроцессор), исполняющая машинные инструкции (программы). [0021] A command processing device means an electronic unit or an integrated circuit (microprocessor) that executes machine instructions (programs).
[0022] Устройство обработки команд считывает и выполняет машинные инструкции (программы) с одного или более устройств хранения данных. В роли устройства хранения данных могут выступать, но не ограничиваясь, жесткие диски (HDD), флеш-память, ПЗУ (постоянное запоминающее устройство), твердотельные накопители (SSD), оптические приводы. [0022] An instruction processor reads and executes machine instructions (programs) from one or more storage devices. Data storage devices can include, but are not limited to, hard drives (HDD), flash memory, ROM (read only memory), solid state drives (SSD), optical drives.
[0023] Программа - последовательность инструкций, предназначенных для исполнения устройством управления вычислительной машины или устройством обработки команд. [0023] A program is a sequence of instructions for execution by a computer control device or command processing device.
[0024] База данных (БД) - совокупность данных, организованных в соответствии с концептуальной структурой, описывающей характеристики этих данных и взаимоотношения между ними, причем такое собрание данных, которое поддерживает одну или более областей применения (ISO/IEC 2382:2015, 2121423 «database»). [0024] Database (DB) - a collection of data organized in accordance with a conceptual structure describing the characteristics of this data and the relationship between them, and such a collection data that supports one or more application areas (ISO / IEC 2382: 2015, 2121423 "database").
[0025] В соответствии со схемой, приведенной на фиг. 1 , система 1 для проверки комплекта документов содержит соединенные между собой: модуль 10 преобразования данных; модуль 20 классификации страниц, модуль 30 проверки атрибутов подписанта, таких как подписи и/или печати и модуль 40 проверки комплекта документов. [0025] In accordance with the diagram of FIG. 1, the system 1 for checking a set of documents contains interconnected: a data conversion module 10; a page classification module 20, a signer attributes verification module 30 such as signatures and / or stamps, and a document set verification module 40.
[0026] Указанные модули могут быть реализованы на базе программно- аппаратных средств системы 1 для проверки комплекта документов, например, на базе по меньшей мере одно вычислительного устройства, в частности микропроцессора, и по меньшей мере одной памяти, содержащей машиночитаемые инструкции для осуществления приписанных модулям ниже функций. Например, модуль 10 преобразования данных может содержать модуль 11 формирования векторов и модуль 12 фильтрации изображений, и может быть реализован на базе opensource-инструмента Tesseract (Tesseract Open Source OCR Engine) и алгоритма TF-IDF. Модуль 20 классификации страниц может быть реализован на базе заранее обученной математической модели с применением алгоритма обучения математической модели - случайный лес решающих деревьев (random forest). Модуль 30 проверки атрибутов подписанта может быть реализован на базе нейронной сети архитектуры YOLOv3, заранее обученной на типовом наборе подписей и печатей. Модуль 40 проверки комплекта документов может включать по меньшей мере одну БД 41 для хранения информации, которая может потребоваться для проверки комплекта документов. [0026] These modules can be implemented on the basis of the software and hardware of the system 1 for checking a set of documents, for example, on the basis of at least one computing device, in particular a microprocessor, and at least one memory containing machine-readable instructions for implementing assigned modules below functions. For example, the data transformation module 10 may contain a vector shaping module 11 and an image filtering module 12, and can be implemented based on the Tesseract opensource tool (Tesseract Open Source OCR Engine) and the TF-IDF algorithm. Page classification module 20 can be implemented on the basis of a pre-trained mathematical model using a mathematical model learning algorithm - a random forest of decision trees. Signer attribute verification module 30 may be implemented on the basis of a YOLOv3 neural network pre-trained on a typical set of signatures and seals. The document set verification module 40 may include at least one database 41 for storing information that may be required to verify the document set.
[0027] В общем виде (см. фиг. 3) система (200) для проверки комплекта документов содержит объединенные общей шиной информационного обмена один или несколько процессоров (201 ), средства памяти, такие как ОЗУ (202) и ПЗУ (203), интерфейсы ввода/вывода (204), устройства ввода/вывода (205), и устройство для сетевого взаимодействия (206). [0027] In general (see Fig. 3), the system (200) for checking a set of documents contains one or more processors (201), united by a common bus of information exchange, memory means such as RAM (202) and ROM (203), input / output interfaces (204), input / output devices (205), and a device for networking (206).
[0028] Процессор (201 ) (или несколько процессоров, многоядерный процессор и т.п.) может выбираться из ассортимента устройств, широко применяемых в настоящее время, например, таких производителей, как: Intel™, AMD™, Apple™, Samsung Exynos™, MediaTEK™, Qualcomm Snapdragon™ и т.п. Под процессором или одним из используемых процессоров в системе (200) также необходимо учитывать графический процессор, например, GPU NVIDIA с программной моделью, совместимой с CUDA, или Graphcore, тип которых также является пригодным для полного или частичного выполнения способа, а также может применяться для обучения и применения моделей машинного обучения в различных информационных системах. [0028] The processor (201) (or multiple processors, multi-core processor, etc.) can be selected from a range of devices currently widely used, for example, such manufacturers as: Intel ™, AMD ™, Apple ™, Samsung Exynos ™, MediaTEK ™, Qualcomm Snapdragon ™, etc. Under the processor or one of the used processors in the system (200), it is also necessary to take into account the GPU, for example, NVIDIA GPU with a CUDA-compatible programming model, or Graphcore, the type of which is also suitable for full or partial execution of the method, and can also be used for training and applying machine learning models in various information systems.
[0029] ОЗУ (202) представляет собой оперативную память и предназначено для хранения исполняемых процессором (201 ) машиночитаемых инструкций для выполнения необходимых операций по логической обработке данных. ОЗУ (202), как правило, содержит исполняемые инструкции операционной системы и соответствующих программных компонент (приложения, программные модули и т.п.). При этом, в качестве ОЗУ (202) может выступать доступный объем памяти графической карты или графического процессора. [0029] The RAM (202) is a random access memory and is intended for storing machine-readable instructions executed by the processor (201) for performing the necessary operations for logical data processing. RAM (202), as a rule, contains executable instructions of the operating system and corresponding software components (applications, software modules, etc.). In this case, the available memory of the graphics card or graphics processor can act as RAM (202).
[0030] ПЗУ (203) представляет собой одно или более устройств постоянного хранения данных, например, жесткий диск (HDD), твердотельный накопитель данных (SSD), флэш-память (EEPROM, NAND и т.п.), оптические носители информации (CD-R/RW, DVD-R/RW, BlueRay Disc, MD) и др. [0030] ROM (203) is one or more persistent storage devices such as a hard disk drive (HDD), solid state data storage device (SSD), flash memory (EEPROM, NAND, etc.), optical storage media ( CD-R / RW, DVD-R / RW, BlueRay Disc, MD), etc.
[0031] Для организации работы компонентов системы (200) и организации работы внешних подключаемых устройств применяются различные виды интерфейсов В/В (204). Выбор соответствующих интерфейсов зависит от конкретного исполнения вычислительного устройства, которые могут представлять собой, не ограничиваясь: PCI, AGP, PS/2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1 , micro, mini, type C), TRS/Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232 и т.п. [0031] Various types of I / O interfaces (204) are used to organize the operation of the system components (200) and to organize the operation of external connected devices. The choice of the appropriate interfaces depends on the specific version of the computing device, which can be, but are not limited to: PCI, AGP, PS / 2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS / Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232, etc.
[0032] Для обеспечения взаимодействия пользователя с вычислительной системой (200) применяются различные средства (205) В/В информации, например, клавиатура, дисплей (монитор), сенсорный дисплей, тач-пад, джойстик, манипулятор мышь, световое перо, стилус, сенсорная панель, трекбол, динамики, микрофон, средства дополненной реальности, оптические сенсоры, планшет, световые индикаторы, проектор, камера, средства биометрической идентификации (сканер сетчатки глаза, сканер отпечатков пальцев, модуль распознавания голоса) и т.п. [0033] Средство сетевого взаимодействия (206) обеспечивает передачу данных посредством внутренней или внешней вычислительной сети, например, Интранет, Интернет, ЛВС и т.п. В качестве одного или более средств (206) может использоваться, но не ограничиваться: Ethernet карта, GSM модем, GPRS модем, LTE модем, 5G модем, модуль спутниковой связи, NFC модуль, Bluetooth и/или BLE модуль, Wi-Fi модуль и др. [0032] To ensure the interaction of the user with the computing system (200), various means (205) I / O information are used, for example, a keyboard, a display (monitor), a touch display, a touch-pad, a joystick, a mouse manipulator, a light pen, a stylus, touch panel, trackball, speakers, microphone, augmented reality, optical sensors, tablet, light indicators, projector, camera, biometric identification (retina scanner, fingerprint scanner, voice recognition module), etc. [0033] The networking tool (206) provides data transmission via an internal or external computer network, for example, Intranet, Internet, LAN, and the like. One or more means (206) can be used, but not limited to: Ethernet card, GSM modem, GPRS modem, LTE modem, 5G modem, satellite communication module, NFC module, Bluetooth and / or BLE module, Wi-Fi module, and dr.
[0034] Дополнительно могут применяться также средства спутниковой навигации в составе системы (200), например, GPS, ГЛОНАСС, BeiDou, Galileo. [0034] Additionally, satellite navigation means can be used as part of the system (200), for example, GPS, GLONASS, BeiDou, Galileo.
[0035] Конкретный выбор элементов устройства (200) для реализации различных программно-аппаратных архитектурных решений может варьироваться с сохранением обеспечиваемого требуемого функционала. [0035] The specific choice of elements of the device (200) for the implementation of various software and hardware architectures can vary while maintaining the required functionality.
[0036] На первом этапе работы системы 1 на модуль 10 преобразования данных поступает по меньшей мере одно изображение документа, в частности отсканированного документа, например, файл в формате многостраничного PDF, JPEG, TIFF или любого другого известного формата, который может использоваться для хранения в нем отсканированного электронного комплекта документа. Изображение документа может поступать от источника данных изображений 50, в частности непосредственно от устройства сканирования документов, например, сканера, либо могут быть извлечены из соответствующей базы данных изображений, в которую данные изображения документов заранее сохранены. [0036] At the first stage of the system 1 operation, the data conversion module 10 receives at least one image of a document, in particular a scanned document, for example, a file in the format of a multipage PDF, JPEG, TIFF or any other known format that can be used for storage in the scanned electronic document set. The document image may come from an image data source 50, in particular directly from a document scanning device such as a scanner, or it may be retrieved from a suitable image database in which the document image data is stored in advance.
[0037] Документом, изображение которого поступает на модуль 10 преобразования данных, может быть любой документ, состоящий по меньшей мере из одной страницы, которая может содержать атрибуты подписанта, и заполненный в соответствии с известным шаблоном. Документ может быть, например, договором, заключенным между компаниями «А» и «Б», либо между компанией и физическим лицом, либо между физическими лицами, либо документ может представлять такой вид документа, который подписывается только лишь одним подписантом - компанией или физическим лицом, например, доверенностью от компании или от физического лица; или пр. [0038] Модуль 10 преобразования данных осуществляет распознавание символов на по меньшей мере одном изображении страницы документа и преобразует их в текстовую информацию. Также модуль 10 преобразования данных может быть выполнен с возможностью предобработки полученной текстовой информации для снижения многообразия возможных текстов распознанных изображений документов с целью упростить работу следующим модулям системы. На первом этапе осуществляется токенизация текстовой информации. Этап токенизации, предполагает выделение базовых элементов текста (токенов), ограниченных с двух сторон разделительными символами, пробелами или знаками пунктуации. Элементами здесь выступают слова, числа, даты, сокращения, аббревиатуры, составные предлоги и т.д. Токенизация позволяет выделить дискретные единицы текста, являющиеся основой для дальнейшей работы на этапах морфологического и синтаксического анализа. В результате токенизации каждому элементу присваивается соответствующий тип: слово, число, дата, адрес и т.д. [0037] The document, the image of which is supplied to the data conversion module 10, can be any document consisting of at least one page, which may contain the attributes of the signer, and filled in accordance with a known template. The document can be, for example, an agreement concluded between companies "A" and "B", or between a company and an individual, or between individuals, or the document can represent this type of document that is signed by only one signatory - a company or an individual , for example, a power of attorney from a company or from an individual; or etc. [0038] The data conversion unit 10 performs character recognition on at least one image of a document page and converts them into text information. Also, the data conversion module 10 can be configured to preprocess the received text information to reduce the variety of possible texts of recognized document images in order to simplify the operation of the following system modules. At the first stage, textual information is tokenized. The tokenization stage involves the selection of basic text elements (tokens), delimited on both sides by separating characters, spaces or punctuation marks. The elements here are words, numbers, dates, abbreviations, abbreviations, compound prepositions, etc. Tokenization allows you to select discrete units of text, which are the basis for further work at the stages of morphological and syntactic analysis. As a result of tokenization, each element is assigned the appropriate type: word, number, date, address, etc.
[0039] Далее модуль 10 преобразования данных переходит к этапу формирования векторов страницы документа посредством модуля 11 формирования векторов. На данном этапе упомянутый модуль для каждого слова, полученного после обработки текста, определяет значение веса слова с помощью статистической меры TF-IDF. [0039] Next, the data conversion unit 10 proceeds to the step of generating document page vectors by the vector generating unit 11. At this stage, the mentioned module for each word obtained after text processing determines the value of the word weight using the statistical measure TF-IDF.
[0040] TF-IDF - статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса. Вес некоторого слова пропорционален количеству употребления этого слова в документе, и обратно пропорционален частоте употребления слова в других документах коллекции. [0040] TF-IDF is a statistical measure used to assess the importance of a word in the context of a document that is part of a document collection or corpus. The weight of a word is proportional to the number of times this word is used in a document, and is inversely proportional to the frequency of using a word in other documents in the collection.
[0041] Мера TF-IDF часто используется в задачах анализа текстов и информационного поиска, например, как один из критериев релевантности документа поисковому запросу, при расчёте меры близости документов при кластеризации. [0041] The TF-IDF measure is often used in text analysis and information retrieval tasks, for example, as one of the criteria for the relevance of a document to a search query, when calculating the measure of document proximity during clustering.
[0042] TF (term frequency - частота слова) - отношение числа вхождения некоторого слова к общему количеству слов документа. Значимость слова в пределах отдельного документа может быть определена следующей характеристикой:
Figure imgf000011_0001
[0042] TF (term frequency) is the ratio of the number of occurrences of a word to the total number of words in the document. The significance of a word within a single document can be determined by the following characteristic:
Figure imgf000011_0001
- где щ - число вхождений слова t* в документ d; ,k n k -общее число слов в данном пользовательском запросе и/или документе. - where u is the number of occurrences of the word t * in document d; , k n k is the total number of words in a given user request and / or document.
[0043] IDF (inverse document frequency - обратная частота документа) - величина, обратно пропорциональная частоте, с которой некоторое слово встречается в документах коллекции. [0043] IDF (inverse document frequency) is a value that is inversely proportional to the frequency with which a word occurs in collection documents.
[0044] Учёт IDF уменьшает вес широкоупотребительных слов. Для каждого уникального слова в пределах конкретной коллекции документов существует только одно значение IDF. IDF-характеристика определяется следующим отношением:
Figure imgf000011_0002
[0044] IDF accounting reduces the weight of commonly used words. There is only one IDF value for each unique word within a particular collection of documents. The IDF characteristic is defined by the following relationship:
Figure imgf000011_0002
- где |£>| - количество документов в корпусе;
Figure imgf000011_0003
- количество документов, в которых встречается tt.
- where | £> | - the number of documents in the corpus;
Figure imgf000011_0003
- the number of documents in which t t occurs.
[0045] Таким образом, мера TF-IDF является произведением двух сомножителей: tf · idf(t, d, D) = tf(t, d ) x idf(t, D ). [0045] Thus, the TF-IDF measure is the product of two factors: tf · idf (t, d, D) = tf (t, d) x idf (t, D).
[0046] Большой вес в мере TF-IDF получают слова с высокой частотой в пределах конкретного документа и с низкой частотой употреблений в других документах. [0046] A high TF-IDF weight is given to words with high frequency within a particular document and with low frequency in other documents.
[0047] Мера TF-IDF часто используется для представления документов коллекции в виде числовых векторов, отражающих важность использования каждого слова из некоторого набора слов (количество слов набора определяет размерность вектора) в каждом документе. Подобная модель называется векторной моделью и даёт возможность сравнивать тексты, сравнивая представляющие их вектора в какой-либо метрике (евклидово расстояние, косинусная мера, манхэттенское расстояние, расстояние Чебышева и др.), то есть, производя кластерный анализ. [0047] The TF-IDF measure is often used to represent collection documents as numerical vectors reflecting the importance of using each word from a set of words (the number of words in a set determines the dimension of the vector) in each document. Such a model is called a vector model and makes it possible to compare texts by comparing the vectors that represent them in some metric (Euclidean distance, cosine measure, Manhattan distance, Chebyshev distance, etc.), that is, by performing cluster analysis.
[0048] Далее модуль 11 формирования векторов на основе значений слов, полученных после предобработки, структуры зависимостей слов друг от друга в текстовой информации и значений веса упомянутых слов формирует вектор страницы документа. Сформированный вектор страницы документа направляются в модуль 20 классификации страниц для определения типа документа и типа страниц документа, т.е. для классификации документа по принадлежности к заранее определенным типам страниц и документов. [0048] Next, the module 11 for generating vectors based on the word values obtained after preprocessing, the structure of the dependence of words on each friend in the text information and the values of the weights of the mentioned words forms the vector of the document page. The generated document page vector is sent to the page classification module 20 to determine the document type and the document page type, i.e. to classify a document as belonging to predefined types of pages and documents.
[0049] Соответственно, если отсканированный документ содержит две и более страницы, то модуль 11 формирования векторов формирует аналогичным образом для каждой страницы документа вектор страницы документа, которые также направляются в модуль 20 классификации страниц. [0049] Accordingly, if the scanned document contains two or more pages, the vector generating unit 11 generates in the same way for each page of the document a document page vector, which are also sent to the page classification unit 20.
[0050] Модуль 20 классификации страниц для определения типа документа и типов его страниц содержит математическую модель, на вход которой поступают данные о векторах страниц документа. Математическая модель может быть реализована посредством алгоритмов машинного обучения «случайный лес» (Random forest), заключающихся в использовании комитета (ансамбля) решающих деревьев. Классификация объектов проводится путём голосования: каждое дерево комитета относит классифицируемый объект, в данном случае страницу документа, к одному из классов, характеризующий тип страницы и тип документа, и побеждает класс, за который проголосовало наибольшее число деревьев. Оптимальное число деревьев подбирается таким образом, чтобы минимизировать ошибку классификатора на тестовой выборке. [0050] Module 20 classification of pages for determining the type of document and types of its pages contains a mathematical model, the input of which is received data on the vectors of the pages of the document. The mathematical model can be implemented through machine learning algorithms "random forest", which consists in using a committee (ensemble) of decision trees. The classification of objects is carried out by voting: each committee tree assigns the object to be classified, in this case a document page, to one of the classes characterizing the page type and document type, and the class for which the largest number of trees voted wins. The optimal number of trees is selected in such a way as to minimize the classifier error on the test sample.
[0051] Соответственно, после обработки данных о векторе страницы документа на выход математической модели поступает от каждого дерева решений указатели типа документа и типа страницы. Модуль 20 классификации страниц анализирует количество упомянутых указателей, полученных на выходе упомянутой модели, и определяет тип документа и тип страницы на основе того указателя типа документа, количество которых на выходе математической модели больше, т.е. за который проголосовало наибольшее число деревьев. Например, если наибольшее число деревьев проголосовало за то, что документ, на основе изображения страницы которого был сформирован вектор страницы документа, является Договором, заключенным между компаниями «А» и «Б», а страница является страницей Договора с атрибутами подписантов, то тип документа будет определяться как «договор», а данные о типе страницы будут указывать на то, что страница на изображении является страницей договора, которая должна содержать атрибуты подписантов в виде подписей и печатей компаний «А» и «Б», расположенных в заданных областях на странице (например, в областях 105 и 106, см. фиг. 2). Также тип документа может быть определен, например, как доверенность от компании «А» или от физического лица, а тип страницы - страница доверенности с атрибутами подписанта, например, в виде подписи и печати в заданной области страницы, например, области 106, если доверенность от компании, или только в виде подписи в заданной области страницы, если доверенность от физического лица. [0051] Accordingly, after processing the data on the document page vector, the output of the mathematical model comes from each decision tree pointers of the document type and the page type. The page classification module 20 analyzes the number of said pointers obtained at the output of said model, and determines the document type and page type based on the document type indicator, the number of which is greater at the output of the mathematical model, i.e. for which the largest number of trees voted. For example, if the largest number of trees voted for the fact that the document, on the basis of the page image of which the document page vector was formed, is an Agreement concluded between companies "A" and "B", and the page is a page of the Agreement with the attributes of signers, then the document type will be determined as a "contract", and the data on the page type will indicate that the page in the image is a page of the contract, which must contain the attributes of signers in the form of signatures and seals of companies "A" and "B" located in the specified areas on the page (for example , in areas 105 and 106, see Fig. 2). Also, the document type can be defined, for example, as a power of attorney from company "A" or from an individual, and the page type is a page of a power of attorney with the signer's attributes, for example, in the form of a signature and a seal in a specified area of the page, for example, area 106, if the power of attorney from the company, or only in the form of a signature in the specified area of the page, if the power of attorney is from an individual.
[0052] Если отсканированный документ состоит из двух и более страниц, то на вход математической модели поступают данные о двух и более векторах страниц документа. Модуль 20 классификации страниц аналогичным образом анализирует количество упомянутых указателей на выходе математической модели и определяет тип документа и перечень его страниц на основе того указателя типа документа, количество которых на выходе математической модели больше. В данном случае тип документа определяется на основе векторов всех его страниц. Например, на основе векторов страниц документа модуль 20 классификации страниц может определить тип документа как договор между компаниями «А» и «Б», состоящий из 4 станицы, причем данные о типах страниц могут указывать на то, что первая страница является страницей Договора, не содержащей атрибутов подписанта, вторая страница - страница договора с атрибутами подписантов в заданных областях, а 3 и 4 страницы - являются приложениями, не содержащими атрибуты подписантов. [0052] If the scanned document consists of two or more pages, then the input of the mathematical model receives data on two or more vectors of document pages. The page classification module 20 similarly analyzes the number of the mentioned pointers at the output of the mathematical model and determines the type of document and the list of its pages based on that document type indicator, the number of which is greater at the output of the mathematical model. In this case, the document type is determined based on the vectors of all its pages. For example, based on the vectors of the pages of the document, the page classification module 20 can determine the type of the document as an agreement between companies "A" and "B", consisting of 4 pages, and the data on the types of pages may indicate that the first page is a page of the Agreement, not containing the signer's attributes, the second page is the contract page with the signer's attributes in the specified areas, and pages 3 and 4 are applications that do not contain the signer's attributes.
[0053] Данные о типах документа и типах его страниц модуль 20 классификации страниц направляет в модуль 40 проверки комплекта документов и в модуль 12 фильтрации изображений, который определяет типы страниц с по меньшей мере одним атрибутом подписанта, извлекает соответствующие изображения страниц с по меньшей мере одним атрибутом подписанта из изображения документа и направляет данные изображения страниц в модуль 30 проверки атрибутов подписанта для дальнейшего анализа. Таким образом, поскольку в модуль 30 проверки атрибутов подписанта направляется не все изображение документа, а только изображения страниц документа, тип которых предполагает наличие на данных страницах по меньшей мере одного атрибута подписанта, снижается вычислительная нагрузка и повышается скорость обработки изображений модулем 30 для детектирования изображений атрибутов подписанта, вследствие чего повышается скорость проведения автоматизированной проверки документов на их комплектность. [0053] The data on the types of the document and the types of its pages is sent by the page classification module 20 to the document set verification module 40 and to the image filtering module 12, which determines the types of pages with at least one signer attribute, extracts the corresponding page images with at least one the signer attribute from the document image, and sends the page image data to the signer attribute validator 30 for further analysis. Thus, since not the entire image of the document is sent to the module 30 for checking the attributes of the signer, but only images of document pages, the type of which assumes the presence of at least one signer's attribute on these pages, reduces the computational load and increases the speed of image processing by the module 30 for detecting images of the signer's attributes, thereby increasing the speed of automated verification of documents for their completeness.
[0054] Модуль 30 проверки атрибутов подписанта после получения изображений страниц с по меньшей мере одним атрибутом подписанта переходит к этапу детектирования на каждом полученном изображении страницы документа по меньшей мере одного изображения атрибута подписанта для определения его расположение на странице документа. Например, модуль 30 проверки атрибутов подписанта может определить, что изображение атрибута подписанта представляет собой изображение подписи и/или печати в области 105 или 106 документа (см. фиг 2). Соответственно, в области 101 документа 100 может содержаться информация о номере Договора, в области 102 - название города, в области 103 - дата Договора, а в области 104 - текст Договора. [0054] After receiving images of pages with at least one signer's attribute, the module 30 for checking the signer's attributes proceeds to the step of detecting at least one image of the signer's attribute on each received image of the document page to determine its location on the document page. For example, the signer attribute validator 30 may determine that the signer's attribute image is a signature and / or seal image in document area 105 or 106 (see FIG. 2). Accordingly, area 101 of document 100 may contain information about the Agreement number, area 102 - the name of the city, area 103 - the date of the Agreement, and area 104 - the text of the Agreement.
[0055] Для детектирования изображений атрибутов подписанта используются известные алгоритмы работы нейронной сети архитектуры YOLOv3, обученной на отобранном наборе данных подписей и печатей, раскрытые, например, в статье, опубликованной в Интернет по адресу: https://pireddie.com/media/files/papers/YQLOv3.pdf. Данные о детектированных атрибутах подписанта, в частности информация об их расположении на странице документа, передаются в модуль 40 проверки комплекта документов. [0055] The well-known algorithms of the neural network of the YOLOv3 architecture trained on a selected dataset of signatures and seals are used to detect images of the signer's attributes, disclosed, for example, in an article published on the Internet at: https://pireddie.com/media/files /papers/YQLOv3.pdf. The data on the detected attributes of the signer, in particular information on their location on the document page, is transmitted to the module 40 for checking the set of documents.
[0056] Модуль 40 проверки комплекта документов в процессе своей работы проверяет наличие обязательных для данного типа документа перечня страниц и атрибутов подписантов, таких как печать и/или подпись и/или комплект подписей, в заданных областях страниц. Для определения атрибутов подписанта, наличие которых необходимо проверить, модуль 40 проверки комплекта документов может быть оснащен соответствующей БД 41 с информацией о шаблонах документов, их перечня страниц, и атрибутах подписантов, наличие которых необходимо проверить в заданной области страниц из перечня страниц данного типа документа. Поскольку составление - векторов страниц осуществляется на основе текстовой информации, которая может включать названия одной или нескольких компаний, или имена одного или нескольких физических лиц, то информация о типе страниц также будет определять, в какой области страницы должны располагаться атрибуты 5 подписана на изображении страницы документа. [0056] Module 40 verification of a set of documents in the course of its work checks for the presence of mandatory for this type of document list of pages and attributes of signers, such as a seal and / or signature and / or a set of signatures, in the specified areas of the pages. To determine the attributes of the signer, the presence of which must be checked, the module 40 for checking the set of documents can be equipped with a corresponding database 41 with information about the templates of documents, their list of pages, and the attributes of the signers, the presence of which must be checked in a given area of pages from the list of pages of a given type of document. Since the compilation is Page vectors are based on textual information, which may include the names of one or more companies, or the names of one or more individuals, then information about the type of pages will also determine in which area of the page the attributes should be located 5 signed on the image of the document page.
[0057] Например, если информация о типе документа указывает на то, что данный документ является Договором 200 (см. фиг. 2), состоящим из 1 страницы Договора, который должен быть подписан только лишь одним подписантом, то модуль 40 проверки комплекта документов в соответствии с ю шаблоном документа проверяет область страницы 105 или 106, в зависимости от типа документа и типа страницы, на наличие атрибута подписанта, в частности его подписи и/или печати. Если информация о типе документа указывает на то, что данный документ является договором, состоящим из 2 страниц договора, причем вторая страница Договора в 15 соответствии с шаблоном документа должна быть подписана двумя подписантами, то модуль 40 проверки комплекта документов проверяет области 105 или 106 второй страницы на наличие атрибутов подписантов, причем расположение атрибутов первого и второго подписантов в упомянутых областях определяется типом документа и типами его страниц. [0057] For example, if the document type information indicates that the document is a Contract 200 (see Fig. 2), consisting of 1 page of the Contract, which must be signed by only one signer, then the module 40 for checking the set of documents in In accordance with the document template, checks the area of page 105 or 106, depending on the type of document and the type of page, for the presence of a signer attribute, in particular his signature and / or seal. If the document type information indicates that the document is a contract consisting of 2 contract pages, and the second page of the Contract in accordance with the document template must be signed by two signers, then the document set verification module 40 checks areas 105 or 106 of the second page for the presence of attributes of signers, and the location of the attributes of the first and second signers in these areas is determined by the type of document and the types of its pages.
20 [0058] Для проверки документа модуль 40 проверки комплекта документов на основе данных о типе документа, полученных от модуля 20 классификации страниц, осуществляет поиск в БД 41 шаблона данного типа документа, на основе которого модуль 40 будет выполнять проверку комплекта документа, и извлекает информацию о типах страниц данного 25 шаблона документа. Например, если модуль 20 классификации страниц определил, что отсканированный документ является Договором между компаниями «А» и «Б», то на основе данной информации о типе документа модуль 40 проверки комплекта документов находит в БД шаблон Договора между компаниями «А» и «Б» и извлекает информацию о типах страниц, зо присутствующих в шаблоне Договора. Если Договор выполнен на 1 листе, то как правило атрибуты подписанта должны быть расположены на первой странице документа. Информация о том, что атрибуты подписанта должны находиться на первой странице, а также их расположение на странице, может содержаться в информации о типе страницы, в соответствии с которой модуль 40 проверки комплекта документов будет осуществлять проверку наличия атрибутов подписантов на первой странице договора. 20 [0058] To check the document, the module 40 for checking the set of documents based on the data on the type of the document received from the module 20 classifying pages, searches the database 41 for a template of this type of document, on the basis of which the module 40 will check the set of documents, and extracts information about the types of pages of this 25 document template. For example, if the page classification module 20 determines that the scanned document is an Agreement between companies "A" and "B", then based on this information about the type of document, the module 40 for checking the set of documents finds in the database a template of the Agreement between companies "A" and "B" »And retrieves information about the types of pages present in the template of the Agreement. If the Agreement is executed on 1 sheet, then, as a rule, the signer's attributes should be located on the first page of the document. The information that the signer's attributes should be on the first page, as well as their location on the page, can be contained in the page type information, according to which the package verification module 40 will check for the presence of signers' attributes on the first page of the contract.
[0059] Если Договор состоит двух и более страниц, то, например, информация о типе последней страницы документа может содержать информацию о том, что атрибуты подписанта должны находиться в заданной области (например, в областях 105 или 106) на данной странице. Также информация о типе первой страницы или о типе документа может содержать информацию о том, что атрибуты подписанта должны находиться в заданных областях на второй или другой странице в документе. [0059] If the Contract consists of two or more pages, then, for example, information about the type of the last page of the document may contain information that the attributes of the signer should be in a given area (for example, in areas 105 or 106) on this page. Also, information about the type of the first page or the type of document can contain information that the signer's attributes should be in the specified areas on the second or other page in the document.
[0060] Если информация о типе страниц, полученной от модуля 20 классификации страниц, не совпадают с информацией о типе станиц шаблона документа, то модуль 40 проверки комплекта документов принимает решение о том, что комплект документа неполон. Например, согласно шаблону документа данный отсканированный документ является Договором, заключенным с физическим лицом, состоящим из 3 страниц, где первые 2 страницы являются страницами Договора, а третья страница - сканом паспорта. Таким образом, если в отсканированном Договоре будет отсутствовать скан паспорта или вместо скана паспорта будет приложен другой документ, изображение которого будет обработано системой 1 , то информация о типе третьей странице, полученная от модуля 20, не будет совпадать с информацией о типе станиц шаблона документа. [0060] If the page type information obtained from the page classification unit 20 does not match the page type information of the document template, then the document set check unit 40 decides that the document set is incomplete. For example, according to the document template, this scanned document is an Agreement concluded with an individual, consisting of 3 pages, where the first 2 pages are the pages of the Agreement, and the third page is a scan of the passport. Thus, if the scanned Agreement does not contain a scan of the passport or instead of a scan of the passport another document is attached, the image of which will be processed by system 1, then the information on the type of the third page received from module 20 will not coincide with the information on the type of pages of the document template.
[0061] Информация о том, что отсканированный комплект документа неполон, например, в виде сообщения «отсутствует скан паспорта», может быть выведена на средства (205) В/В информации. [0061] Information that the scanned set of documents is incomplete, for example, in the form of a message "missing passport scan", can be output to the I / O means (205).
[0062] Если информация о типе страниц, полученной от модуля 20 классификации страниц, совпадают с информацией о типе станиц шаблона документа, то модуль 40 проверки комплекта документов извлекает из БД 41 информацию о расположении по меньшей мере одного атрибута подписанта на по меньшей мере одной странице согласно шаблону документа для тех типов страниц, которые должны содержать по меньшей мере один атрибут подписанта. Упомянутая информация о расположении по меньшей мере одного атрибута подписанта может быть получена экспериментально на основе данных о средних координатах расположения подписей и печатей в шаблонах документов. [0063] Например, если отсканированный документ является Договором между компаниями «А» и «Б», состоящий из 1 страницы, то модуль 20 классификации данных извлекает из БД 41 информацию о расположении подписей и/или печатях (т.е. о атрибутах подписанта) на данной странице 5 документа в соответствии с шаблоном. В частности, в БД 41 может храниться как тип шаблона документа, в котором информация о расположении будет указывать на то, что атрибуты подписанта компании «А» должны находиться в области страницы 105 Договора 100, а атрибуты подписанта компании «Б» - в области 106 Договора 100, так и тип шаблона документа, в котором ю атрибуты подписанта компании «Б» должны находиться в области 105 Договора 100, а атрибуты подписанта компании «А» - в области 106 Договора 100. [0062] If the page type information received from the page classification module 20 matches the page type information of the document template, then the document set verification module 40 extracts from the database 41 information about the location of at least one signer's attribute on at least one page according to the document template for those types of pages that must contain at least one signer attribute. The mentioned information about the location of at least one attribute of the signer can be obtained experimentally based on the data on the average coordinates of the location of signatures and seals in document templates. [0063] For example, if the scanned document is an Agreement between companies "A" and "B", consisting of 1 page, then the data classification module 20 extracts from the database 41 information about the location of signatures and / or seals (i.e. about the attributes of the signer ) on this page 5 of the document in accordance with the template. In particular, DB 41 can be stored as a type of document template, in which the location information will indicate that the attributes of the signer of company "A" should be in the area of page 105 of the Agreement 100, and the attributes of the signer of company B - in the area 106 Agreement 100, and the type of document template, in which the attributes of the signatory of the company "B" should be in area 105 of the Agreement 100, and the attributes of the signer of the company "A" - in area 106 of the Agreement 100.
[0064] Соответственно, извлеченную на предыдущем шаге из БД 41 информацию о расположении по меньшей мере одного атрибута подписанта 15 модуль 40 проверки комплекта документов сравнивает с информацией о расположении по меньшей мере одного атрибута на странице документа, полученной от модуля 30. Если извлеченная из БД 41 упомянутая информация о расположении по меньшей мере одного атрибута подписанта не совпадает с информацией о расположении по меньшей мере одного 20 атрибута на странице документа, полученной от модуля 30, то модуль 40 проверки комплекта документов принимает решение о том, что комплект документа неполон. Информация о том, что отсканированный комплект документа неполон, например, в виде сообщения «отсутствует подпись клиента на 3 странице», может быть выведена на средства (205) В/В 25 информации [0064] Accordingly, the information about the location of at least one attribute of the signer 15 extracted from the database 41 in the previous step is compared by the module 40 for checking the set of documents with the information about the location of at least one attribute on the document page received from the module 30. If the extracted from the database 41, said location information of at least one signer's attribute does not match the location information of at least one attribute 20 on a document page received from module 30, then the document set verification module 40 decides that the document set is incomplete. Information that the scanned set of documents is incomplete, for example, in the form of a message "there is no client signature on page 3", can be displayed on the means (205) I / O 25 information
[0065] Если извлеченная из БД 41 упомянутая информация о расположении совпадает с информацией о расположении, полученной от модуля 30, то модуль 40 проверки комплекта документов принимает решение о том, что комплект документа соответствует установленным требованиям зо комплектности. Информация о том, что отсканированный комплект документа полон также может быть выведена на средства (205) В/В информации. [0065] If the location information retrieved from the database 41 matches the location information received from the module 30, then the document set verification module 40 decides that the document set meets the specified completeness requirements. Information that the scanned document set is complete can also be output to the I / O means (205).
[0066] Таким образом, за счет того, что тип документа и типы страниц документа, входящих в его состав, определяются на основе векторов страниц, сформированных на основе текстовой информации, содержащейся на странице, повышается точность определения типа документа и перечня его станиц, а также перечня страниц и атрибутов подписанта, наличие которых необходимо проверить на изображении документа, т.е. обеспечивается повышение точности проведения автоматизированной проверки документов на их комплектность. Формирование векторов страниц с учетом значений слов, содержащихся в текстовой информации, структуры зависимостей слов друг от друга и значений веса упомянутых слов дополнительно повысит точность при определении типа документа и типов страниц документа, а также перечня страниц и атрибутов подписанта, наличие которых необходимо проверить на изображении документа. [0066] Thus, due to the fact that the type of the document and the types of pages of the document included in its composition are determined based on vectors pages formed on the basis of textual information contained on the page, the accuracy of determining the type of document and the list of its pages, as well as the list of pages and attributes of the signer, the presence of which must be checked on the image of the document, increases. the accuracy of the automated check of documents for their completeness is improved. Formation of page vectors, taking into account the meanings of words contained in the text information, the structure of the dependence of words from each other and the values of the weight of the mentioned words will additionally increase the accuracy in determining the type of document and types of document pages, as well as the list of pages and attributes of the signer, the presence of which must be checked on the image document.
[0067] Дополнительно модуль 40 проверки комплекта документов может быть выполнен с возможностью классификации по меньшей мере одного атрибута подписанта, которая осуществляется на основе информации о расположения атрибута подписанта. Для обеспечения данной возможности БД 41 дополнительно содержит информацию о том, к какой стороне Договора относится атрибут подписанта в зависимости от его расположения на странице. Например, в БД 41 может содержаться информация о том, что в области страницы 105 Договора 100 расположен атрибут подписанта клиента, а области страницы 106 - исполнителя Договора. Таким образом, сравнивая информацию о расположении атрибута подписанта, полученную от модуля 30, с информацией о расположении атрибута подписанта из БД 41 модуль 40 проверки комплекта документов классифицирует изображение атрибута подписанта, например, как атрибут подписанта клиент, если атрибут подписанта расположен в области страницы 105, или как атрибут подписанта исполнителя Договора, если атрибут подписанта расположен в области страницы 106. [0067] Additionally, the document set verification module 40 may be configured to classify at least one signer attribute based on the signer's attribute location information. To provide this possibility, DB 41 additionally contains information about which side of the Agreement the signer's attribute belongs to, depending on its location on the page. For example, the database 41 may contain information that in the area of page 105 of the Agreement 100 there is an attribute of the signer of the client, and in the area of page 106 - the executor of the Agreement. Thus, by comparing the signer's attribute location information received from module 30 with the signer's attribute location information from DB 41, the document suite verification module 40 classifies the signer's attribute image, for example, as a signer's attribute client, if the signer's attribute is located in the page area 105. or as an attribute of the signer of the Contractor if the signer attribute is located in the page 106 area.
[0068] Модификации и улучшения вышеописанных вариантов осуществления настоящего технического решения будут ясны специалистам в данной области техники. Предшествующее описание представлено только в качестве примера и не несет никаких ограничений. Таким образом, объем настоящего технического решения ограничен только объемом прилагаемой формулы изобретения. [0068] Modifications and improvements to the above-described embodiments of the present technical solution will be clear to those skilled in the art. The foregoing description is provided by way of example only and is not intended to be limiting. Thus, the scope of the present technical solution is limited only by the scope of the attached claims.

Claims

Формула изобретения. Claim.
1. Способ проверки электронного комплекта документов, выполняемый по меньшей мере одним вычислительным устройством, содержащий этапы, на которых: 1. A method for checking an electronic set of documents, performed by at least one computing device, comprising the steps at which:
- получают изображение документа, состоящего из по меньшей мере одной страницы; - get an image of the document, consisting of at least one page;
- распознают символы на изображении страницы документа и преобразует их в текстовую информацию; - recognize characters on the image of a page of a document and converts them into text information;
- формируют вектор страницы документа на основе текстовой информации, полученной на предыдущем этапе; - form the vector of the page of the document based on the text information obtained at the previous stage;
- определяют на основе вектора страницы документа тип документа и тип его страницы; - based on the vector of the document page, the type of the document and the type of its page are determined;
- определяют перечень страниц и по меньшей мере один атрибут подписанта, наличие которых необходимо проверить в данном типе документа; - define a list of pages and at least one signer attribute, the presence of which must be checked in this type of document;
- проверяют наличие перечня страниц и по меньшей мере одного атрибута подписанта на полученном изображении документа для определения комплектности документа. - check the presence of the list of pages and at least one attribute of the signer on the resulting image of the document to determine the completeness of the document.
2. Способ по п. 1 , отличающийся тем, что вектор страницы документа формируется на основе значений слов, содержащихся в текстовой информации, структуры зависимостей слов друг от друга и значений веса упомянутых слов. 2. The method according to claim 1, characterized in that the vector of the document page is formed on the basis of the values of the words contained in the text information, the structure of the dependencies of words from each other and the values of the weight of said words.
3. Способ по п. 1, отличающийся тем, что определение типа документа и типа его страницы на основе вектора страницы документа осуществляется посредством классификации документа по принадлежности к заранее определенным типам страниц и документов, причем математическая модель для классификации реализована посредством алгоритмов машинного обучения «случайный лес». 3. The method according to claim 1, characterized in that the definition of the type of the document and the type of its page based on the vector of the document page is carried out by classifying the document according to its belonging to predetermined types of pages and documents, and the mathematical model for classification is implemented using machine learning algorithms "random forest".
4. Способ по п. 1 , отличающийся тем, что этап проверки наличия по меньшей мере одного атрибута подписанта на полученном изображении документа включает этапы, на которых: - детектируют по меньшей мере один атрибут подписанта на изображении страницы документа для определения его расположения; 4. The method according to claim 1, characterized in that the step of checking for the presence of at least one attribute of the signer on the obtained image of the document includes the steps at which: - detecting at least one attribute of the signer on the image of the page of the document to determine its location;
- определяют, где атрибут подписанта должен находиться на данном типе страницы; - define where the signer attribute should be on a given page type;
причем проверка наличия по меньшей мере одного атрибута подписанта на полученном изображении документа для определения комплектности документа осуществляется посредством сравнения информации о расположении атрибута подписанта на изображении страницы документа с информаций, указывающей на то, где должен находиться атрибут подписанта на данном типе страницы. moreover, checking for the presence of at least one signer's attribute on the obtained document image to determine the completeness of the document is carried out by comparing information about the location of the signer's attribute on the document page image with information indicating where the signer's attribute should be located on this page type.
5. Способ по п. 4, отличающийся тем, что детектирование по меньшей мере одного атрибута подписанта осуществляется только на тех изображениях страниц документов, тип который указывает на то, что данные страницы содержат атрибуты подписанта. 5. The method according to claim. 4, characterized in that the detection of at least one attribute of the signer is carried out only on those images of pages of documents, the type that indicates that the page data contains the attributes of the signer.
6. Способ по п.4, отличающийся тем, что содержит этап классификации по меньшей мере одного атрибута подписанта, которая осуществляется на основе информации о расположения атрибута подписанта. 6. The method according to claim 4, characterized in that it comprises the step of classifying at least one attribute of the signer, which is carried out on the basis of information about the location of the attribute of the signer.
7. Способ по п. 1 , отличающийся тем, что атрибут подписанта представляют собой подпись и/или печать. 7. A method according to claim 1, characterized in that the signer attribute is a signature and / or a seal.
8. Система для проверки комплекта документов, содержащая по меньшей мере одно вычислительное устройство и по меньшей мере одну память, содержащую машиночитаемые инструкции, которые при их исполнении по меньшей мере одним вычислительным устройством выполняют способ по любому из пп. 1-7. 8. A system for checking a set of documents containing at least one computing device and at least one memory containing machine-readable instructions, which, when executed by at least one computing device, perform the method according to any one of claims. 1-7.
PCT/RU2019/000197 2019-03-28 2019-06-06 Method and system for checking a set of electronic documents WO2020197428A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
RU2019109055 2019-03-28
RU2019109055A RU2702967C1 (en) 2019-03-28 2019-03-28 Method and system for checking an electronic set of documents

Publications (1)

Publication Number Publication Date
WO2020197428A1 true WO2020197428A1 (en) 2020-10-01

Family

ID=68280239

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/RU2019/000197 WO2020197428A1 (en) 2019-03-28 2019-06-06 Method and system for checking a set of electronic documents

Country Status (3)

Country Link
EA (1) EA201990647A1 (en)
RU (1) RU2702967C1 (en)
WO (1) WO2020197428A1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11361528B2 (en) * 2020-08-11 2022-06-14 Nationstar Mortgage LLC Systems and methods for stamp detection and classification
WO2024030042A1 (en) * 2022-08-04 2024-02-08 Публичное Акционерное Общество "Сбербанк России" Method and system for processing images of documents

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050066172A1 (en) * 2001-07-20 2005-03-24 Vorbruggen Dr Jan C Method and device for confirming the authenticity of a document and a safe for storing data
US20070220259A1 (en) * 2006-03-02 2007-09-20 Microsoft Corporation Verification of electronic signatures
US20110255788A1 (en) * 2010-01-15 2011-10-20 Copanion, Inc. Systems and methods for automatically extracting data from electronic documents using external data
US20140281946A1 (en) * 2013-03-14 2014-09-18 Yossi Avni System and method of encoding content and an image
RU2014118012A (en) * 2014-05-05 2015-11-10 Галина Эдуардовна Добрякова SYSTEM AND METHOD OF REMOTE CONCLUSION AND REGISTRATION OF ELECTRONIC TRANSACTIONS
US20170212875A1 (en) * 2016-01-27 2017-07-27 Microsoft Technology Licensing, Llc Predictive filtering of content of documents

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2229744C2 (en) * 2002-02-28 2004-05-27 ЗАО "НИИИН МНПО "Спектр" Method and device for computerized optical processing of documents
RU56682U1 (en) * 2006-06-08 2006-09-10 Александр Алексеевич Бойко INFORMATION-ANALYTICAL TRADING-OPERATING SYSTEM OF ELECTRONIC TRADING
JP5207688B2 (en) * 2007-08-30 2013-06-12 キヤノン株式会社 Image processing apparatus and integrated document generation method
JP5448766B2 (en) * 2009-12-08 2014-03-19 キヤノン株式会社 Image processing apparatus, image processing apparatus control method, and program

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050066172A1 (en) * 2001-07-20 2005-03-24 Vorbruggen Dr Jan C Method and device for confirming the authenticity of a document and a safe for storing data
US20070220259A1 (en) * 2006-03-02 2007-09-20 Microsoft Corporation Verification of electronic signatures
US20110255788A1 (en) * 2010-01-15 2011-10-20 Copanion, Inc. Systems and methods for automatically extracting data from electronic documents using external data
US20140281946A1 (en) * 2013-03-14 2014-09-18 Yossi Avni System and method of encoding content and an image
RU2014118012A (en) * 2014-05-05 2015-11-10 Галина Эдуардовна Добрякова SYSTEM AND METHOD OF REMOTE CONCLUSION AND REGISTRATION OF ELECTRONIC TRANSACTIONS
US20170212875A1 (en) * 2016-01-27 2017-07-27 Microsoft Technology Licensing, Llc Predictive filtering of content of documents

Also Published As

Publication number Publication date
EA201990647A1 (en) 2020-09-30
RU2702967C1 (en) 2019-10-14

Similar Documents

Publication Publication Date Title
US10482174B1 (en) Systems and methods for identifying form fields
US11816138B2 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
US20220004878A1 (en) Systems and methods for synthetic document and data generation
WO2007080642A1 (en) Sheet slip processing program and sheet slip program device
US11507901B1 (en) Apparatus and methods for matching video records with postings using audiovisual data processing
RU2702967C1 (en) Method and system for checking an electronic set of documents
EP4141818A1 (en) Document digitization, transformation and validation
JP2019212115A (en) Inspection device, inspection method, program, and learning device
CN112464927B (en) Information extraction method, device and system
KR102280490B1 (en) Training data construction method for automatically generating training data for artificial intelligence model for counseling intention classification
CN113221570A (en) Processing method, device, equipment and storage medium based on-line inquiry information
RU2732071C1 (en) Method and system for automatic legal decision-making
RU2739342C1 (en) Method and system for intelligent document processing
JP2016110256A (en) Information processing device and information processing program
WO2021054850A1 (en) Method and system for intelligent document processing
US20230138491A1 (en) Continuous learning for document processing and analysis
EA043496B1 (en) METHOD AND SYSTEM FOR CHECKING AN ELECTRONIC SET OF DOCUMENTS
CN114064893A (en) Abnormal data auditing method, device, equipment and storage medium
US20220044048A1 (en) System and method to recognise characters from an image
CN111341404B (en) Electronic medical record data set analysis method and system based on ernie model
EP3640861A1 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
EA040560B1 (en) METHOD AND SYSTEM FOR INTELLIGENT DOCUMENT PROCESSING
WO2021075998A1 (en) System for classifying data in order to detect confidential information in a text
US20220319216A1 (en) Image reading systems, methods and storage medium for performing geometric extraction
US20230359826A1 (en) Computer-implemented system and method to perform natural language processing entity research and resolution

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19920686

Country of ref document: EP

Kind code of ref document: A1