WO2021054850A1 - Method and system for intelligent document processing - Google Patents

Method and system for intelligent document processing Download PDF

Info

Publication number
WO2021054850A1
WO2021054850A1 PCT/RU2019/000641 RU2019000641W WO2021054850A1 WO 2021054850 A1 WO2021054850 A1 WO 2021054850A1 RU 2019000641 W RU2019000641 W RU 2019000641W WO 2021054850 A1 WO2021054850 A1 WO 2021054850A1
Authority
WO
WIPO (PCT)
Prior art keywords
document
entities
results
module
processing
Prior art date
Application number
PCT/RU2019/000641
Other languages
French (fr)
Russian (ru)
Inventor
Кирилл Геннадьевич ТАРАСОВ
Антон Юрьевич КОЛЕСОВ
Original Assignee
Публичное Акционерное Общество "Сбербанк России"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Публичное Акционерное Общество "Сбербанк России" filed Critical Публичное Акционерное Общество "Сбербанк России"
Priority to PCT/RU2019/000641 priority Critical patent/WO2021054850A1/en
Publication of WO2021054850A1 publication Critical patent/WO2021054850A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists

Definitions

  • the presented technical solution relates generally to the field of image analysis, and in particular to methods and systems for intelligent processing of an electronic set of documents, for example, scanned documents of bank customers.
  • the technical result is to improve efficiency and ensure high accuracy in detecting errors during automated intelligent document processing.
  • the results of document processing are generated.
  • the document is an agreement on individual credit conditions (ICC) or a surety agreement (DP).
  • ICC individual credit conditions
  • DP surety agreement
  • the following steps are additionally performed, at which: detecting the signer's attribute on the received image of the document; determine the location of at least one attribute of the signer on the page of the document; the results of processing the document are formed taking into account the information about the location of at least one attribute of the signer on the page of the document.
  • the step is additionally performed, at which the status of the person to whom the detected attributes of the signer belongs is determined.
  • the following steps are additionally performed, at which: a process identifier is obtained; define a set of text classification models based on the process identifier; transform the received text information into a set of vectors; process the set of vectors using a previously defined set of text classification models to determine the type of document.
  • the steps are additionally performed, at which: the set of entities is divided into simple entities, consisting of 1-3 words, and complex entities, consisting of less than four words; moreover, if, as a result of comparing the above sets of entities, the threshold values of matching words for simple and complex entities are reached, then the results of the reconciliation are generated, which include information on the successful completion of the reconciliation of the data; if the aforementioned threshold values of matching words for simple and complex entities are not reached, then the reconciliation results are generated, which include information about entities in the set of entities that have not passed the reconciliation; in this case, the results of document processing are formed taking into account the results of the reconciliation.
  • a step is additionally performed, at which the quality of scanning of the document is determined; moreover, the results of processing the document are formed taking into account the quality of scanning the document.
  • an intelligent document processing system comprising at least one computing device and at least one memory device containing machine-readable instructions that, when executed by at least one computing device, perform the above method.
  • FIG. 1 shows a general diagram of the interaction of the elements of an intelligent document processing system.
  • FIG. 2 shows an example of a scanned document.
  • FIG. 3 shows an example of a general view of an intelligent document processing system.
  • a system means, including a computer system, a computer (electronic computer), a CNC (numerical control), a PLC (programmable logic controller), computerized control systems and any other devices capable of performing a given , a well-defined sequence of operations (actions, instructions).
  • a computer electronic computer
  • CNC numerical control
  • PLC programmable logic controller
  • command processing device an electronic unit, a computing device, or an integrated circuit (microprocessor) that executes machine instructions (programs).
  • a command processor reads and executes machine instructions (programs) from one or more storage devices.
  • the role of data storage devices can be, but are not limited to, hard disks (HDD), flash memory, ROM (read only memory), solid state drives (SSD), optical drives.
  • a program is a sequence of instructions for execution by a computer control device or command processing device.
  • Database (DB) a collection of data organized in accordance with a conceptual structure describing the characteristics of this data and the relationship between them, and such a collection of data that supports one or more areas of application (ISO / IEC 2382: 2015, 2121423 " database ").
  • the intelligent document processing system 10 comprises interconnected: a data conversion unit 11; a signature detection module 12, a data extraction module 13, a package document classification module 17, and a module 18 business rules, consisting of a data reconciliation module 14, a document properties analysis module 15, a decision module 16 and a legal validity analysis module 19.
  • modules can be implemented on the basis of the software and hardware of the intelligent document processing system 10, for example, on the basis of at least one computing device, in particular a microprocessor, and at least one memory device containing machine-readable instructions written in the language Python programming to implement functions performed by modules.
  • the data conversion module 11 may be implemented based on an optical character recognition (OCR) tool.
  • OCR optical character recognition
  • the signature detection module 12 can be implemented on the basis of a neural network of the YOLOv3 architecture, pre-trained on a typical set of signatures and seals.
  • the package document classification module 17 may be implemented in firmware of system 10 configured to represent text as vectors (eg, TFIDF), and include a set of text classification models, eg, SVM or Random Fields.
  • the data extraction module 13 can be implemented on the basis of the hardware and software of system 10 and include a set of models for analyzing the semantics of natural languages word2vec, a pre-trained mathematical model - Conditional Random Fields and computational tools for natural language processing (Natural Language Processing , NLP).
  • the business rules module 18, consisting of a data reconciliation module 14, a document properties analysis module 15, a decision module 16 and a legal validity analysis module 19, can be implemented on the basis of the system 10 firmware, configured in the firmware in this way to perform the functions assigned to them below.
  • the data conversion module 11 and the signature detection module 12 receive at least one image of a document, in particular a scanned document, for example, a file in the multi-page PDF, JPEG, TIFF format or any other known format, which can be used to store the scanned document image in it.
  • the document image can come from an image data source 1, in particular directly from a document scanning device such as a scanner, or can be retrieved from a corresponding image database in which the document image data is stored in advance.
  • the data on the process identifier from the automated system (AS) 2 of the Bank is sent to the module 17 for classifying documents in the package and to the module 18 of business rules.
  • the process identifier from the AC 2 Bank can be supplied to the mentioned modules by methods well known in the art, for example, before submitting a document to a scanner or before extracting an image of a document from a database, according to the process in which the document is checked.
  • a set of possible types of documents is subsequently determined, which may be on the document image received in the data conversion unit 11; a set of entities to be extracted by module 13, and data on the location of signatures in documents.
  • the data on the process identifier may indicate that 2 types of documents can come to the input to the module 17 for classifying documents: an agreement on individual credit terms (ILC) or a surety agreement (DP), so the corresponding classifier is triggered.
  • ILC individual credit terms
  • DP surety agreement
  • the document can be any document consisting of at least one page, which can contain the attributes of the signer, and filled in accordance with a known template.
  • the document can be, for example, a document / IUC agreement signed by a bank client or a surety agreement (DP).
  • the document may contain fields that contain information about the signer, for example, the signer's full name, the signer's address, the signer's card number, passport data, etc., as well as information about the terms of the agreement, for example, the terms of credit.
  • the area 101 of the document 100 may contain a field with information about the number of the said application, in the area 102 - the field with the name of the city, in the area 103 - the field with the date of the application, in the area 104 - the fields with information about the signer and credit conditions, in the area 105 or 106 of the document - images of the attributes of the signer, for example, the image of the signature.
  • the data conversion unit 11 performs character recognition on the document image and converts them into text information.
  • the signature detection module 12 detects the signer's attribute on the received image of the document, determining its location on the document page.
  • the signer attribute can be absent on the page, this information is also transmitted further according to the scheme shown in FIG. 1.
  • module 12 may determine that the signer's attribute image is a signature image in the document area 105 or 106 (see FIG. 2) by automatically indicating the coordinates of the found boxes 105 and 106. Accordingly, the data on the location of the signer's attributes on the document page or about their absence, module 12 sends to module 19 of the analysis of legal validity.
  • the legal validity analysis module 19 may be configured to determine the status of the person to whom the detected signer attributes belong. For this, in the memory of the module 19, the user of the system 10 can preset a list of the statuses of persons and information about the location of their attributes of the signer on the document image based on the process identifier, the data about which came from the AC 2 Bank to the module 18, and the information on the status of persons can indicate to which person the signer's attribute belongs to, in particular, for example, a client of the Bank or an employee of the Bank. For example, for Bank customer face, location data may indicate that its signer attributes should be located in area 105 of the document, and for Bank employee face status, location data may indicate that its signatory attributes are located in area 106. document.
  • the module 19 analysis of legal validity compares the data on the location of the image of the signer's attribute on the page of the document, received from the module 12, with the above-mentioned stored in memory with data, in particular data on the location of the signer's attributes according to the type of process determined by the module 19 based on the previously obtained data on the process identifier, and based on the comparison result determines the status of the person to whom the detected signer attribute belongs, i.e. based on information about the location of the signer's attribute on the image of the document page.
  • the data on the status of the person and the data on the location of the images of the signers' attributes on the page of the document are sent by the module 19 to the module 16 for making decisions. If module 19 receives information about the absence of signer attributes on the image, then module 19 redirects this information to module 16.
  • the data conversion unit 11 forwards it to the data extraction unit 13 and to the package document classification unit 17.
  • Module 17, based on the data on the process identifier received from the AC 2, determines a set of text classification models that can be predefined in said module 17 for each type of process by the user of the system 10, after which the received text information is converted by the module 17 into a set of vectors, which a previously defined set of text classification models is processed to determine the type of document.
  • the module 17 transmits data on the type of the document to the module 13, which extracts from the received text information from the module 11 a set of entities in accordance with the type of the document.
  • a set of entities can include name, address, card number, document date, card number, passport data, credit conditions, etc.
  • the module 13 tokenizes the text information and feeds the tokenized text information to the input to the word2vec model set, at the output of which the module 13 receives a sequence of vectors.
  • a trained machine learning model CRF (Conditional Random Fields) is defined based on the document type data, and the sequence of vectors is processed by said trained model that defines a set of entities.
  • the trained CRF machine learning models for each type of document can be predefined in the mentioned module 13 by the user of the system 10.
  • Machine learning models trained by the CRF method are widely used in various fields of AI, in particular, in speech and image recognition, processing textual information, as well as in other subject areas: bioinformatics, computer graphics, etc.
  • entities can be retrieved using Natural Language Processing (NLP) technology.
  • NLP Natural Language Processing
  • This technology is widely known from the prior art (see, for example, the article "NLP. Basics. Techniques. Self-development. Part 2: NER”, published on the Internet at: https://habr.com/ru/company/abbyy/blog / 449514 /) and, additionally, will not be disclosed in more detail in this application.
  • the algorithm for processing a sequence of vectors can also be selected depending on the type of document.
  • the obtained set of entities is sent by the data extraction module 13 to the data reconciliation module 14. Also, module 14 is fed a reference set of entities by module 18 of business rules. The reference set of entities by the module 18 is determined on the basis of the previously received data on the process identifier from the AS 2 of the Bank. The reference set of entities for each type of process can be predefined in the above-mentioned module 18 by the user of the system 10. The module 14 divides the obtained data of the sets of entities into simple entities, consisting of 1-3 words, and complex entities, consisting of less than four words.
  • simple entities will be, for example, full name, credit amount, contract start date, passport number, passport issue date, etc.
  • complex entities will be, for example, address, place of issue passports, etc.
  • the data validation unit 14 proceeds to the step of comparing the entity set obtained from the unit 13 with the reference entity set.
  • the data of simple entities, the data reconciliation module 14 leads to one format, and then compares them. In these complex entities, before comparing them, generally recognized abbreviations are deciphered, words that do not contain names are excluded. If the threshold values of matching words for simple and complex entities set by the user of the system 10 are reached, then the set of entities received from module 13 is validated. If the matching word thresholds for simple and / or complex entities are not met, then the entity set fails the validation.
  • the data reconciliation module 14 As a result of comparing the sets of entities, the data reconciliation module 14 generates reconciliation results, which include information about the successful completion of the reconciliation, or if the set of entities has not passed the reconciliation, information about the entities in the set of entities that have not passed the reconciliation.
  • the information about the set of entities obtained from the module 13, together with the text information and the results of the reconciliation by the module 14 of the reconciliation of data, are sent to the module 15 for analyzing the properties of the document.
  • module 15 All information collected by module 15 during the operation of all previous modules, in particular text information and verification results from module 14 and document images from source 1, is checked by module 15 to ensure that all necessary document items (or document fields) are contained in the text of the document. For this, module 15 processes the received text information using NLP methods (fuzzy entry of keywords for each paragraph), according to the results of which module 15 determines the integrity of the document.
  • NLP processing algorithm can also be selected on the basis of the process identifier data that were previously received by the module 18 from the AC 2 Bank.
  • the unit 15 determines the scan quality of the document image. For example, if the data check is successful and the document integrity data indicates that the document contains all items, then module 15 assigns a high scan quality score to the document image. If the matching results indicate that the matching word thresholds for simple and / or complex entities are not achieved, and the data on the integrity of the document indicates that the document does not contain all the items, then the module 15 assigns the document image a low scan quality index. The module 15 transmits information about the scan quality index to the decision module 16.
  • the document property analysis module 15 is configured to check if a document is attached from another person. This verification is performed on the basis of document integrity data and data on unique entities of a set of entities that differ from client to client or which may coincide among different clients with a very low probability (for example, entities that identify a signer).
  • unique entities can be TIN, SNILS, passport serial number, etc.
  • module 15 determines that the document, the image of which entered the system 10 belongs to another person. If module 15 has determined that the integrity of the document is incomplete, while the unique entities of the set of entities, for example, identifying the signer, indicate that the document whose image entered the system 10 is a document of this person, then module 15 generates a list of entities that have not been verified.
  • module 15 determines that the said document is a document of this person.
  • the algorithms of the property analysis module 15 are parameterized by the process identifier.
  • the module 16 writes to the said storage of the web service 20 information about the successful passage of the document verification, as well as information about the decision, in particular, that it is possible to issue a loan.
  • information about the set of entities and the results of reconciliation are entered into the results of document processing generated and recorded in the storage by module 16. If the data received from the module 19 indicates that the signer's attribute is not present in the image of the document in the corresponding area, then the decision module 16 generates information that the document should be checked by a person, which also includes information about the verification results.
  • Corresponding areas can be determined by module 18 based on the document type, which is determined based on the process identifier data received from the AC 2 of the Bank, and subsequently supplied to module 16. [0045] If the results of the reconciliation are negative, then the decision-making module 16 extracts from the received data information about all entities from the set of entities that have not passed the reconciliation of the data, and determines the types of these entities. If the entity type indicates that the entity is a simple entity, and the scan quality information from unit 15 indicates that a high scan quality score has been assigned to the document image, then decision unit 16 generates information that the document is not passed the audit, which also includes information on the results of the reconciliation, and that the loan should be refused. At the same time, if the information on the scan quality indicates that a low scan quality indicator is assigned to the document image, then the unit 16 generates and writes information about the the fact that the document should be checked by a person, which also includes information about the results of the reconciliation.
  • the decision module 16 determines whether the entity that has not passed the data reconciliation is a complex entity. If the entity that has not passed the data reconciliation is a complex entity, then the decision module 16, regardless of the quality index of scanning the document, generates and records in the storage of the results of processing documents of the web service 20 information that the document should be checked by a person, which also includes information on the results of the reconciliation. The generated document processing results in case of negative reconciliation results also include information about the presence or absence of the signer's attributes.
  • the document processing results generated by the decision making module 16 can be obtained via the web service 20 interface or its API.
  • Web service 20 generates a json response with the results of document processing.
  • These results of document processing can be output to a data display device, for example, a display of a computing device such as a laptop or desktop computer, a communication terminal, a mobile phone or a smartphone, a tablet, etc.
  • a data display device for example, if the document was an IAC document, then to the data display device in addition, a decision can be made to issue a loan, to refuse to issue it, or to check the document manually.
  • results of document processing are formed on the basis of the results of comparing the set of entities extracted from the text information, taking into account the type of the document, with the reference set of entities for this document, high accuracy is provided in identifying errors during automated intelligent processing documents, as well as its effectiveness, i.e. the achievement of the specified technical result is ensured. Also, due to the use of machine learning algorithms and NLP-methods disclosed in this application, and data typing, the efficiency and accuracy in identifying errors during automated intelligent document processing are additionally increased.
  • the presented technical solution has enhanced functionality in comparison with the known solutions, in particular: it provides the ability to automatically make a decision on the issuance of a loan, identify the reason for the refusal, or justification of the transfer of the document for verification to a person; provides a mechanism for checking the legal validity and completeness of documents.
  • the system (200) of intelligent document processing comprises one or more processors (201) united by a common bus of information exchange, memory means such as RAM (202) and ROM (203), interfaces input / output (204), input / output (205), and a device for networking (206).
  • processors (201) united by a common bus of information exchange
  • memory means such as RAM (202) and ROM (203)
  • input / output (205) input / output
  • 206 device for networking
  • the processor (201) (or multiple processors, multi-core processor, etc.) can be selected from a range of devices currently widely used, for example, from manufacturers such as: Intel TM, AMD TM, Apple TM, Samsung Exynos TM, MediaTEK TM, Qualcomm Snapdragon TM, etc. Under the processor or one of the processors used in the system (200), it is also necessary to take into account the graphics processor, for example, NVIDIA GPU with a CUDA-compatible programming model, or Graphcore, the type of which is also suitable for full or partial execution of the method, and can also be used for training and application of machine learning models in various information systems.
  • the graphics processor for example, NVIDIA GPU with a CUDA-compatible programming model, or Graphcore, the type of which is also suitable for full or partial execution of the method, and can also be used for training and application of machine learning models in various information systems.
  • RAM (202) is a random access memory and is intended for storing machine-readable instructions executed by the processor (201) for performing the necessary operations for logical data processing.
  • RAM (202) contains executable instructions of the operating system and corresponding software components (applications, software modules, etc.).
  • the available memory of a graphics card or a graphics processor can act as RAM (202).
  • ROM (203) is one or more persistent storage devices such as a hard disk drive (HDD), solid state data storage device (SSD), flash memory (EEPROM, NAND, etc.), optical storage media ( CD-R / RW, DVD-R / RW, BlueRay Disc, MD), etc.
  • HDD hard disk drive
  • SSD solid state data storage device
  • EEPROM electrically erasable programmable read-only memory
  • NAND flash memory
  • optical storage media CD-R / RW, DVD-R / RW, BlueRay Disc, MD, etc.
  • I / O interfaces (204) are used to organize the operation of the system components (200) and to organize the operation of external connected devices.
  • the choice of the appropriate interfaces depends on the specific version of the computing device, which can be, but are not limited to: PCI, AGP, PS / 2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS / Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232, etc.
  • I / O information are used, for example, a keyboard, display (monitor), touch display, touch pad, joystick, mouse manipulator, light pen, stylus, touch panel, trackball, speakers, microphone, augmented reality, optical sensors, tablet, light indicators, projector, camera, biometric identification (retina scanner, fingerprint scanner, voice recognition module), etc.
  • the networking tool (206) provides data transmission via an internal or external computer network, for example, Intranet, Internet, LAN, and the like.
  • One or more means (206) may be used, but not limited to: Ethernet card, GSM modem, GPRS modem, LTE modem, 5G modem, satellite communication module, NFC module, Bluetooth and / or BLE module, Wi-Fi module, and others.
  • satellite navigation means can be used as part of the system (200), for example, GPS, GLONASS, BeiDou, Galileo.
  • the specific choice of elements of the device (200) for the implementation of various software and hardware architectures can vary while maintaining the required functionality provided.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The proposed technical solution relates, in general, to the field of image analysis, and more particularly to methods and systems for intelligently processing an electronic set of documents, for example scanned documents of bank clients. The technical result is increasing the efficiency and providing high accuracy in the detection of errors when carrying out automated intelligent document processing. The aforementioned technical result is achieved on account of an intelligent document processing method which is carried out by at least one computing device and comprises steps in which: at least one image of a document is obtained; symbols in the image of the document are identified and transformed into textual information; the document type is determined on the basis of the textual information; an entity set is extracted from the textual information while taking into account the document type; the entity set is compared with a reference entity set for such a document; and the results of the document processing are produced on the basis of the results of the comparison of the above-mentioned entity sets.

Description

СПОСОБ И СИСТЕМА ИНТЕЛЛЕКТУАЛЬНОЙ ОБРАБОТКИ ДОКУМЕНТА ОБЛАСТЬ ТЕХНИКИ METHOD AND SYSTEM FOR INTELLIGENT DOCUMENT PROCESSING FIELD OF TECHNOLOGY
[0001] Представленное техническое решение относится, в общем, к области анализа изображений, а в частности к способам и системам интеллектуальной обработки электронного комплекта документов, например, отсканированных документов клиентов банка. [0001] The presented technical solution relates generally to the field of image analysis, and in particular to methods and systems for intelligent processing of an electronic set of documents, for example, scanned documents of bank customers.
УРОВЕНЬ ТЕХНИКИ LEVEL OF TECHNOLOGY
[0002] В настоящее время существует проблема оперативной и качественной обработки данных электронного комплекта отсканированных документов с целью проверки наличия обязательных заполненных полей документа из структурированных и неструктурированных документов, а также атрибутов подписанта, таких как подпись. Из уровня техники известны различные решения, выполненные с возможностью обработки документов, например, клиента Банка, реализованные на базе ПО ABBYY FlexiCapture и пр. Также известно решение для проведения проверки комплекта документов, раскрытое в заявке US 2011134494 (А1), опубл. 09.06.2011, в котором осуществляют чтение документа, имеющего множество страниц; проверку данных изображения каждой страницы документа, имеющего множество страниц, при этом проверяются определенные области изображения документа на наличие в них информации и ее отсутствие. Данное решение является наиболее близким аналогом. [0002] Currently, there is a problem of prompt and high-quality processing of data from an electronic set of scanned documents in order to check for the presence of mandatory filled document fields from structured and unstructured documents, as well as signer attributes such as a signature. From the prior art, various solutions are known, made with the possibility of processing documents, for example, a client of the Bank, implemented on the basis of ABBYY FlexiCapture software, etc. Also known is a solution for checking a set of documents disclosed in the application US 2011134494 (A1), publ. 06/09/2011, in which the reading of a document having many pages is carried out; checking the image data of each page of a document having a plurality of pages, while checking certain areas of the document image for the presence and absence of information. This solution is the closest analogue.
[0003] Существенным недостатком известных решений является низкая эффективность в выявлении ошибок при проверке документов на корректность их заполнения, поскольку в очень большом количестве случаев известные решения выдают результат “ошибка есть”, хотя ее на самом деле нет, все поля заполнены верно, но известные решение попросту не смогло найти их в тексте из-за того, что текст слабоструктурирован. Также в известных решениях отсутствует механизм автоматизированного принятия решений по итогу упомянутой проверки. РАСКРЫТИЕ ИЗОБРЕТЕНИЯ [0003] A significant drawback of the known solutions is the low efficiency in detecting errors when checking documents for the correctness of their filling, since in a very large number of cases the known solutions give the result “there is an error”, although there is actually no error, all fields are filled in correctly, but known the solution simply could not find them in the text due to the fact that the text is weakly structured. Also in the known solutions there is no mechanism for automated decision-making on the basis of the above-mentioned check. DISCLOSURE OF THE INVENTION
[0004] Технической проблемой или задачей, поставленной в данном техническом решении, является создание нового эффективного, простого и надежного метода автоматизированной интеллектуальной обработки любых видов документов на корректность их заполнения. [0004] The technical problem or task posed in this technical solution is the creation of a new effective, simple and reliable method for automated intelligent processing of any types of documents for the correctness of their filling.
[0005] Техническим результатом является повышение эффективности и обеспечение высокой точности в выявлении ошибок при проведении автоматизированной интеллектуальной обработки документов. [0005] The technical result is to improve efficiency and ensure high accuracy in detecting errors during automated intelligent document processing.
[0006] Указанный технический результат достигается благодаря осуществлению способа интеллектуальной обработки документов, выполняемого по меньшей мере одним вычислительным устройством, и содержащего этапы, на которых: [0006] The specified technical result is achieved through the implementation of a method for intelligent processing of documents, performed by at least one computing device, and containing the steps in which:
- получают по меньшей мере одно изображение документа; - get at least one image of the document;
- распознают символы на изображении документа и преобразуют их в текстовую информацию; - recognize characters in the image of the document and convert them into text information;
- на основе текстовой информации определяют тип документа; - on the basis of text information determine the type of document;
- извлекают из текстовой информации набор сущностей с учетом типа документа; - extract from the text information a set of entities, taking into account the type of document;
- сравнивают набор сущностей с эталонным набором сущностей для данного документа; - compare the set of entities with the reference set of entities for this document;
- на основе результатов сравнения упомянутых наборов сущностей формируют результаты обработки документа. - based on the results of comparison of the mentioned sets of entities, the results of document processing are generated.
[0007] В одном из частных примеров осуществления способа документ представляет собой договор об индивидуальных условиях кредитования (ИУК) или договор поручительства (ДП). [0007] In one of the particular examples of the implementation of the method, the document is an agreement on individual credit conditions (ICC) or a surety agreement (DP).
[0008] В другом частном примере осуществления способа дополнительно выполняют этапы, на которых: осуществляют детектирование на поступившем изображении документа атрибута подписанта; определяют расположение по меньшей мере одного атрибута подписанта на странице документа; при этом результаты обработки документа формируют с учетом информации о расположении по меньшей мере одного атрибута подписанта на странице документа. [0009] В другом частном примере осуществления способа дополнительно выполняют этап, на котором определяют статус лица, которому принадлежит детектированный атрибуты подписанта. [0008] In another particular embodiment of the method, the following steps are additionally performed, at which: detecting the signer's attribute on the received image of the document; determine the location of at least one attribute of the signer on the page of the document; the results of processing the document are formed taking into account the information about the location of at least one attribute of the signer on the page of the document. [0009] In another particular embodiment of the method, the step is additionally performed, at which the status of the person to whom the detected attributes of the signer belongs is determined.
[0010] В другом частном примере осуществления способа дополнительно выполняют этапы, на которых: получают идентификатор процесса; определяют набор моделей классификации текста на основе идентификатора процесса; преобразуют полученную текстовую информацию в набор векторов; обрабатывают набор векторов с помощью определенного ранее набора моделей классификации текста для определения типа документа. [0010] In another particular embodiment of the method, the following steps are additionally performed, at which: a process identifier is obtained; define a set of text classification models based on the process identifier; transform the received text information into a set of vectors; process the set of vectors using a previously defined set of text classification models to determine the type of document.
[0011] В другом частном примере осуществления способа дополнительно выполняют этапы, на которых: делят набор сущностей на простые сущности, состоящие из 1-3 слов, и сложные сущности, состоящие из по меньше четырех слов; причем если в результате сравнения упомянутых наборов сущностей пороговые значения совпадающих слов по простым и сложным сущностям достигнуты, то формируют результаты сверки, в которые включается информация о успешном прохождении сверки данных; если упомянутые пороговые значения совпадающих слов по простым и сложным сущностям не достигнуты, то формируют результаты сверки, в которые включается информация о сущностях в наборе сущностей, не прошедших сверку; при этом результаты обработки документа формируют с учетом результатов сверки. [0012] В другом частном примере осуществления способа дополнительно выполняют этап, на котором определяют качество сканирования документа; причем результаты обработки документа формируют с учетом качества сканирования документа. [0011] In another particular embodiment of the method, the steps are additionally performed, at which: the set of entities is divided into simple entities, consisting of 1-3 words, and complex entities, consisting of less than four words; moreover, if, as a result of comparing the above sets of entities, the threshold values of matching words for simple and complex entities are reached, then the results of the reconciliation are generated, which include information on the successful completion of the reconciliation of the data; if the aforementioned threshold values of matching words for simple and complex entities are not reached, then the reconciliation results are generated, which include information about entities in the set of entities that have not passed the reconciliation; in this case, the results of document processing are formed taking into account the results of the reconciliation. [0012] In another particular embodiment of the method, a step is additionally performed, at which the quality of scanning of the document is determined; moreover, the results of processing the document are formed taking into account the quality of scanning the document.
[0013] В другом предпочтительном варианте осуществления заявленного решения представлена система интеллектуальной обработки документов, содержащая по меньшей мере одно вычислительное устройство, и по меньшей мере одно устройство памяти, содержащее машиночитаемые инструкции, которые при их исполнении по меньшей мере одним вычислительным устройством выполняют вышеуказанный способ. [0013] In another preferred embodiment of the claimed solution, an intelligent document processing system is provided comprising at least one computing device and at least one memory device containing machine-readable instructions that, when executed by at least one computing device, perform the above method.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ BRIEF DESCRIPTION OF DRAWINGS
[0014] Признаки и преимущества настоящего технического решения станут очевидными из приводимого ниже подробного описания изобретения и прилагаемых чертежей, на которых: [0015] на Фиг. 1 представлена общая схема взаимодействия элементов системы интеллектуальной обработки документов. [0014] The features and advantages of the present technical solution will become apparent from the following detailed description of the invention and the accompanying drawings, in which: [0015] in FIG. 1 shows a general diagram of the interaction of the elements of an intelligent document processing system.
[0016] на Фиг. 2 представлен пример отсканированного документа. [0016] in FIG. 2 shows an example of a scanned document.
[0017] на Фиг. 3 представлен пример общего вида системы интеллектуальной обработки документов. [0017] in FIG. 3 shows an example of a general view of an intelligent document processing system.
ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ CARRYING OUT THE INVENTION
[0018] Ниже будут описаны понятия и термины, необходимые для понимания данного технического решения. [0018] The following will describe the concepts and terms necessary to understand this technical solution.
[0019] В данном техническом решении под системой подразумевается, в том числе компьютерная система, ЭВМ (электронно-вычислительная машина), ЧПУ (числовое программное управление), ПЛК (программируемый логический контроллер), компьютеризированные системы управления и любые другие устройства, способные выполнять заданную, четко определенную последовательность операций (действий, инструкций). [0019] In this technical solution, a system means, including a computer system, a computer (electronic computer), a CNC (numerical control), a PLC (programmable logic controller), computerized control systems and any other devices capable of performing a given , a well-defined sequence of operations (actions, instructions).
[0020] Под устройством обработки команд подразумевается электронный блок, вычислительное устройство, либо интегральная схема (микропроцессор), исполняющая машинные инструкции (программы). [0020] By a command processing device is meant an electronic unit, a computing device, or an integrated circuit (microprocessor) that executes machine instructions (programs).
[0021] Устройство обработки команд считывает и выполняет машинные инструкции (программы) с одного или более устройств хранения данных. В роли устройства хранения данных могут выступать, но не ограничиваясь, жесткие диски (HDD), флеш-память, ПЗУ (постоянное запоминающее устройство), твердотельные накопители (SSD), оптические приводы. [0021] A command processor reads and executes machine instructions (programs) from one or more storage devices. The role of data storage devices can be, but are not limited to, hard disks (HDD), flash memory, ROM (read only memory), solid state drives (SSD), optical drives.
[0022] Программа - последовательность инструкций, предназначенных для исполнения устройством управления вычислительной машины или устройством обработки команд. [0022] A program is a sequence of instructions for execution by a computer control device or command processing device.
[0023] База данных (БД) - совокупность данных, организованных в соответствии с концептуальной структурой, описывающей характеристики этих данных и взаимоотношения между ними, причем такое собрание данных, которое поддерживает одну или более областей применения (ISO/IEC 2382:2015, 2121423 «database»). [0023] Database (DB) - a collection of data organized in accordance with a conceptual structure describing the characteristics of this data and the relationship between them, and such a collection of data that supports one or more areas of application (ISO / IEC 2382: 2015, 2121423 " database ").
[0024] В соответствии со схемой, приведенной на фиг. 1, система 10 интеллектуальной обработки документов содержит соединенные между собой: модуль 11 преобразования данных; модуль 12 детекции подписей, модуль 13 извлечения данных, модуль 17 классификации документов пакета и модуль 18 бизнес-правил, состоящий из модуля 14 сверки данных, модуля 15 анализа свойств документа, модуля 16 принятия решения и модуля 19 анализа юридической валидности. [0024] In accordance with the diagram of FIG. 1, the intelligent document processing system 10 comprises interconnected: a data conversion unit 11; a signature detection module 12, a data extraction module 13, a package document classification module 17, and a module 18 business rules, consisting of a data reconciliation module 14, a document properties analysis module 15, a decision module 16 and a legal validity analysis module 19.
[0025] Указанные модули могут быть реализованы на базе программно- аппаратных средств системы 10 интеллектуальной обработки документов, например, на базе по меньшей мере одно вычислительного устройства, в частности микропроцессора, и по меньшей мере одного устройства памяти, содержащего машиночитаемые инструкции, написанные на языке программирования Python, для осуществления выполняемых модулями функций. Например, модуль 11 преобразования данных может быть реализован на базе инструмента для оптического распознавания символов (англ optical character recognition, OCR). Модуль 12 детекции подписей может быть реализован на базе нейронной сети архитектуры YOLOv3, заранее обученной на типовом наборе подписей и печатей. Модуль 17 классификации документов пакета может быть реализован на базе программно-аппаратных средств системы 10, сконфигурированных для представления текста в виде векторов (например, TFIDF), и включать набор моделей классификации текста, например, SVM или Random Fields. Модуль 13 извлечения данных может быть реализован на базе программно-аппаратных средств системы 10 и включать набор моделей для анализа семантики естественных языков word2vec, заранее обученную математическую модель - условные случайные поля (Conditional Random Fields) и вычислительные средства для обработки естественного языка (Natural Language Processing, NLP). Модуль 18 бизнес-правил, состоящий из модуля 14 сверки данных, модуля 15 анализа свойств документа, модуля 16 принятия решения и модуля 19 анализа юридической валидности, может быть реализован на базе программно-аппаратных средств системы 10, сконфигурированных в программно-аппаратной части таким образом, чтобы выполнять приписанные им ниже функции. [0025] These modules can be implemented on the basis of the software and hardware of the intelligent document processing system 10, for example, on the basis of at least one computing device, in particular a microprocessor, and at least one memory device containing machine-readable instructions written in the language Python programming to implement functions performed by modules. For example, the data conversion module 11 may be implemented based on an optical character recognition (OCR) tool. The signature detection module 12 can be implemented on the basis of a neural network of the YOLOv3 architecture, pre-trained on a typical set of signatures and seals. The package document classification module 17 may be implemented in firmware of system 10 configured to represent text as vectors (eg, TFIDF), and include a set of text classification models, eg, SVM or Random Fields. The data extraction module 13 can be implemented on the basis of the hardware and software of system 10 and include a set of models for analyzing the semantics of natural languages word2vec, a pre-trained mathematical model - Conditional Random Fields and computational tools for natural language processing (Natural Language Processing , NLP). The business rules module 18, consisting of a data reconciliation module 14, a document properties analysis module 15, a decision module 16 and a legal validity analysis module 19, can be implemented on the basis of the system 10 firmware, configured in the firmware in this way to perform the functions assigned to them below.
[0026] На первом этапе работы системы 10 на модуль 11 преобразования данных и модуль 12 детекции подписей поступает по меньшей мере одно изображение документа, в частности отсканированного документа, например, файл в формате многостраничного PDF, JPEG, TIFF или любого другого известного формата, который может использоваться для хранения в нем изображения отсканированного документа. Изображение документа может поступать от источника данных изображений 1 , в частности непосредственно от устройства сканирования документов, например, сканера, либо могут быть извлечены из соответствующей базы данных изображений, в которую данные изображения документов заранее сохранены. [0026] At the first stage of the system 10 operation, the data conversion module 11 and the signature detection module 12 receive at least one image of a document, in particular a scanned document, for example, a file in the multi-page PDF, JPEG, TIFF format or any other known format, which can be used to store the scanned document image in it. The document image can come from an image data source 1, in particular directly from a document scanning device such as a scanner, or can be retrieved from a corresponding image database in which the document image data is stored in advance.
[0027] Также в соответствии с заранее заданным программно-аппаратным алгоритмом в модуль 17 классификации документов пакета и в модуль 18 бизнес-правил поступают данные об идентификаторе процесса от автоматизированной системы (АС) 2 Банка. Идентификатор процесса от АС 2 Банка может подаваться в упомянутые модули широко известными из уровня техники методами, например, перед подачей документа на сканер или перед извлечением изображения документа из БД, согласно процессу, в рамках которого осуществляется проверка документа. На основе данных об идентификаторе процесса в дальнейшем определяется набор возможных типов документов, которые могут быть на изображении документа, поступившем в модуль 11 преобразования данных; набор сущностей, которые следует извлекать модулем 13, и данные о расположении подписей в документах. Например, данные о идентификаторе процесса могут указывать на то, что на вход модулю 17 классификации документов может приходить 2 типа документов: договор об индивидуальных условиях кредитования (ИУК) или договор поручительства (ДП), поэтому срабатывает соответствующий классификатор. [0027] Also, in accordance with a predetermined software and hardware algorithm, the data on the process identifier from the automated system (AS) 2 of the Bank is sent to the module 17 for classifying documents in the package and to the module 18 of business rules. The process identifier from the AC 2 Bank can be supplied to the mentioned modules by methods well known in the art, for example, before submitting a document to a scanner or before extracting an image of a document from a database, according to the process in which the document is checked. Based on the data on the process identifier, a set of possible types of documents is subsequently determined, which may be on the document image received in the data conversion unit 11; a set of entities to be extracted by module 13, and data on the location of signatures in documents. For example, the data on the process identifier may indicate that 2 types of documents can come to the input to the module 17 for classifying documents: an agreement on individual credit terms (ILC) or a surety agreement (DP), so the corresponding classifier is triggered.
[0028] Документом, изображение которого поступает на модуль 11 преобразования данных, может быть любой документ, состоящий по меньшей мере из одной страницы, которая может содержать атрибуты подписанта, и заполненный в соответствии с известным шаблоном. Документом может быть, например, документ/договор ИУК, подписанное клиентом банка или договор поручительства (ДП). Документ может содержать поля, в которых указана информация о подписанте, например, ФИО подписанта, адрес подписанта, номер карты подписанта, данные паспорта и пр., а также информацию о условиях договора, например, условиях кредитования. В частности, согласно схеме, представленной на фиг. 2, в области 101 документа 100 может содержаться поле с информацией о номере упомянутого заявления, в области 102 - поле с названием города, в области 103 - поле с датой заявления, в области 104 - поля с информацией о подписанте и условиях кредитования, в области 105 или 106 документа - изображения атрибутов подписанта, например, изображение подписи. [0029] Модуль 11 преобразования данных осуществляет распознавание символов на изображении документа и преобразует их в текстовую информацию. Вместе с этим модуль 12 детекции подписей осуществляет детектирование на поступившем изображении документа атрибута подписанта, определяя его расположения на странице документа. Атрибут подписанта может отсутствовать на странице, эта информация также передается далее по схеме, приведенной на фиг. 1. Например, модуль 12 может определить, что изображение атрибута подписанта представляет собой изображение подписи в области 105 или 106 документа (см. фиг 2), автоматически указав координаты найденных боксов 105 и 106. Соответственно, данные о расположении атрибутов подписанта на странице документа или об их отсутствии модуль 12 направляет в модуль 19 анализа юридической валидности. [0028] The document, the image of which arrives at the data conversion module 11, can be any document consisting of at least one page, which can contain the attributes of the signer, and filled in accordance with a known template. The document can be, for example, a document / IUC agreement signed by a bank client or a surety agreement (DP). The document may contain fields that contain information about the signer, for example, the signer's full name, the signer's address, the signer's card number, passport data, etc., as well as information about the terms of the agreement, for example, the terms of credit. In particular, according to the diagram shown in FIG. 2, the area 101 of the document 100 may contain a field with information about the number of the said application, in the area 102 - the field with the name of the city, in the area 103 - the field with the date of the application, in the area 104 - the fields with information about the signer and credit conditions, in the area 105 or 106 of the document - images of the attributes of the signer, for example, the image of the signature. [0029] The data conversion unit 11 performs character recognition on the document image and converts them into text information. Along with this, the signature detection module 12 detects the signer's attribute on the received image of the document, determining its location on the document page. The signer attribute can be absent on the page, this information is also transmitted further according to the scheme shown in FIG. 1. For example, module 12 may determine that the signer's attribute image is a signature image in the document area 105 or 106 (see FIG. 2) by automatically indicating the coordinates of the found boxes 105 and 106. Accordingly, the data on the location of the signer's attributes on the document page or about their absence, module 12 sends to module 19 of the analysis of legal validity.
[0030] Для детектирования изображений атрибутов подписанта используются известные алгоритмы работы нейронной сети архитектуры YOLOv3, обученной на отобранном наборе данных подписей и печатей, раскрытые, например, в статье, опубликованной в Интернет по адресу: https://pireddie.com/media/files/papers/YOLOv3.pdf. [0030] To detect images of the signer's attributes, the well-known algorithms of the neural network of the YOLOv3 architecture are used, trained on a selected set of signatures and seals data, disclosed, for example, in an article published on the Internet at: https://pireddie.com/media/files /papers/YOLOv3.pdf.
[0031] Если изображение документа содержит атрибуты более одного подписанта, например, изображение подписи клиента Банка и изображение подписи сотрудника Банка, то модуль 19 анализа юридической валидности может быть выполнен с возможностью определения статуса лица, которому принадлежит детектированные атрибуты подписанта. Для этого в памяти модуля 19 пользователем системы 10 может быть заранее задан перечень статусов лиц и информация о местоположении их атрибутов подписанта на изображении документа исходя из идентификатора процесса, данные о котором поступили от АС 2 Банка в модуль 18, причем информация о статусе лиц может указывать на то, какому лицу принадлежит атрибут подписанта, в частности, например, клиенту Банка или сотруднику Банка. Например, для статуса лица - клиент Банка данные о местоположении могут указывать на то, что его атрибуты подписанта должны располагаться в области 105 документа, а для статуса лица - сотрудник Банка данные о местоположении могут указывать на то, что его атрибуты подписанта располагаются в области 106 документа. [0031] If the document image contains attributes of more than one signer, for example, an image of a signature of a Bank client and an image of a signature of a Bank employee, then the legal validity analysis module 19 may be configured to determine the status of the person to whom the detected signer attributes belong. For this, in the memory of the module 19, the user of the system 10 can preset a list of the statuses of persons and information about the location of their attributes of the signer on the document image based on the process identifier, the data about which came from the AC 2 Bank to the module 18, and the information on the status of persons can indicate to which person the signer's attribute belongs to, in particular, for example, a client of the Bank or an employee of the Bank. For example, for Bank customer face, location data may indicate that its signer attributes should be located in area 105 of the document, and for Bank employee face status, location data may indicate that its signatory attributes are located in area 106. document.
[0032] Соответственно, модуль 19 анализа юридической валидности сравнивает данные о расположении изображения атрибута подписанта на странице документа, полученные от модуля 12, с упомянутыми сохраненными в памяти данными, в частности данными о местоположении атрибутов подписанта согласно типу процесса, определенного модулем 19 на основе полученных ранее данных о идентификаторе процесса, и на основе результата сравнения определяет статус лица, которому принадлежит детектированный атрибут подписанта, т.е. на основе информации о расположении атрибута подписанта на изображении страницы документа. Данные о статусе лица и данные о расположении изображений атрибутов подписантов на странице документа модуль 19 направляет в модуль 16 принятия решений. Если в модуль 19 поступила информация об отсутствии атрибутов подписанта на изображении, то эту информацию модуль 19 перенаправляет в модуль 16. [0032] Accordingly, the module 19 analysis of legal validity compares the data on the location of the image of the signer's attribute on the page of the document, received from the module 12, with the above-mentioned stored in memory with data, in particular data on the location of the signer's attributes according to the type of process determined by the module 19 based on the previously obtained data on the process identifier, and based on the comparison result determines the status of the person to whom the detected signer attribute belongs, i.e. based on information about the location of the signer's attribute on the image of the document page. The data on the status of the person and the data on the location of the images of the signers' attributes on the page of the document are sent by the module 19 to the module 16 for making decisions. If module 19 receives information about the absence of signer attributes on the image, then module 19 redirects this information to module 16.
[0033] Что касается текстовой информации, то ее модуль 11 преобразования данных направляет в модуль 13 извлечения данных и в модуль 17 классификации документов пакета. Модуль 17 на основе данных о идентификаторе процесса, поступивших от АС 2, определяет набор моделей классификации текста, который могут быть заранее заданы в упомянутом модуле 17 для каждого типа процесса пользователем системы 10, после чего полученную текстовую информацию модуль 17 преобразует в набор векторов, который обрабатывается определенным ранее набор моделей классификации текста для определения типа документа. Данные о типе документа модуль 17 передает в модуль 13, который извлекает из полученной текстовой информации от модуля 11 набор сущностей в соответствии с типом документа. Набор сущностей может включать ФИО, адрес, номер карты, дату документа, номер карты, данные паспорта, условия кредитования и т.д. Для извлечения из полученной текстовой информации набора сущностей модуль 13 выполняет токенизацию текстовой информации и подает токенизированную текстовую информацию на вход набору моделей word2vec, на выходе которого модуль 13 получает последовательность векторов. [0033] As for the text information, the data conversion unit 11 forwards it to the data extraction unit 13 and to the package document classification unit 17. Module 17, based on the data on the process identifier received from the AC 2, determines a set of text classification models that can be predefined in said module 17 for each type of process by the user of the system 10, after which the received text information is converted by the module 17 into a set of vectors, which a previously defined set of text classification models is processed to determine the type of document. The module 17 transmits data on the type of the document to the module 13, which extracts from the received text information from the module 11 a set of entities in accordance with the type of the document. A set of entities can include name, address, card number, document date, card number, passport data, credit conditions, etc. To extract a set of entities from the received text information, the module 13 tokenizes the text information and feeds the tokenized text information to the input to the word2vec model set, at the output of which the module 13 receives a sequence of vectors.
[0034] Далее внутри модуля 13 определяется обученная модель машинного обучения CRF (Conditional Random Fields) на основе данных о типе документа и последовательность векторов обрабатывается упомянутой обученной моделью, которая определяет набор сущностей. Обученные модели машинного обучения CRF для каждого типа документа могут быть заранее заданы в упомянутом модуле 13 пользователем системы 10. Модели машинного обучения, обученные методом CRF, широко используются в различных областях ИИ, в частности, в задачах распознавания речи и образов, обработки текстовой информации, а также и в других предметных областях: биоинформатике, компьютерной графике и пр. [0034] Next, within the module 13, a trained machine learning model CRF (Conditional Random Fields) is defined based on the document type data, and the sequence of vectors is processed by said trained model that defines a set of entities. The trained CRF machine learning models for each type of document can be predefined in the mentioned module 13 by the user of the system 10. Machine learning models trained by the CRF method are widely used in various fields of AI, in particular, in speech and image recognition, processing textual information, as well as in other subject areas: bioinformatics, computer graphics, etc.
[0035] В альтернативном варианте реализации заявленного решения сущности могут быть извлечены при помощи технологии обработки естественного языка (Natural Language Processing, NLP). Данная технология широко известна из уровня техники (см., например, статью «NLP. Основы. Техники. Саморазвитие. Часть 2: NER», опубликованную в Интернет по адресу: https://habr.com/ru/company/abbyy/blog/449514/) и дополнительно более подробно не будет раскрываться в настоящей заявке. Алгоритм обработки последовательности векторов также может выбираться в зависимости от типа документа. [0035] In an alternative embodiment of the claimed solution, entities can be retrieved using Natural Language Processing (NLP) technology. This technology is widely known from the prior art (see, for example, the article "NLP. Basics. Techniques. Self-development. Part 2: NER", published on the Internet at: https://habr.com/ru/company/abbyy/blog / 449514 /) and, additionally, will not be disclosed in more detail in this application. The algorithm for processing a sequence of vectors can also be selected depending on the type of document.
[0036] Полученный набор сущностей модуль 13 извлечения данных направляет в модуль 14 сверки данных. Также в модуль 14 подается эталонный набор сущностей модулем 18 бизнес-правил. Эталонный набор сущностей модулем 18 определяется на основе поступивших ранее данных об идентификаторе процесса из АС 2 Банка. Эталонный набор сущностей для каждого типа процесса может быть заранее задан в упомянутом модуле 18 пользователем системы 10. Полученные данные наборов сущностей модуль 14 делит на простые сущности, состоящие из 1-3 слов, и сложные сущности, состоящие из по меньше четырех слов. Например, если на вход системе 10 поступил документ ИУК, то простыми сущностями будут являться, например, ФИО, сумма кредитования, дата начала договора, номер паспорта, дата выдачи паспорта и пр., а сложными сущностями будут являться, например, адрес, место выдачи паспорта и пр. [0036] The obtained set of entities is sent by the data extraction module 13 to the data reconciliation module 14. Also, module 14 is fed a reference set of entities by module 18 of business rules. The reference set of entities by the module 18 is determined on the basis of the previously received data on the process identifier from the AS 2 of the Bank. The reference set of entities for each type of process can be predefined in the above-mentioned module 18 by the user of the system 10. The module 14 divides the obtained data of the sets of entities into simple entities, consisting of 1-3 words, and complex entities, consisting of less than four words. For example, if an IUC document is received at the entrance to system 10, then simple entities will be, for example, full name, credit amount, contract start date, passport number, passport issue date, etc., and complex entities will be, for example, address, place of issue passports, etc.
[0037] Далее модуль 14 сверки данных переходит к этапу сравнения набора сущностей, полученного от модуля 13, с эталонным набором сущностей. Данные простых сущностей модуль 14 сверки данных приводит к одному формату, после чего сравнивает их. В данных сложных сущностей перед их сравнением расшифровываются общепризнанные сокращения, исключаются слова, не содержащие названия. Если установленные пользователем системы 10 пороговые значения совпадающих слов по простым и сложным сущностям достигнуты, то набор сущностей, полученный от модуля 13, проходит сверку данных. Если пороговые значения совпадающих слов по простым и/или сложным сущностям не достигнуты, то набор сущностей не проходит проверку. По итогу сравнения наборов сущностей модуль 14 сверки данных формирует результаты сверки, в которые включается информация о успешном прохождении сверки, либо в случае, если набор сущностей не прошел сверку, информация о сущностях в наборе сущностей, не прошедших сверку. Информация о наборе сущностей, полученная от модуля 13, вместе с текстовой информации и результатами сверки модулем 14 сверки данных направляются в модуль 15 анализа свойств документа. [0037] Next, the data validation unit 14 proceeds to the step of comparing the entity set obtained from the unit 13 with the reference entity set. The data of simple entities, the data reconciliation module 14 leads to one format, and then compares them. In these complex entities, before comparing them, generally recognized abbreviations are deciphered, words that do not contain names are excluded. If the threshold values of matching words for simple and complex entities set by the user of the system 10 are reached, then the set of entities received from module 13 is validated. If the matching word thresholds for simple and / or complex entities are not met, then the entity set fails the validation. As a result of comparing the sets of entities, the data reconciliation module 14 generates reconciliation results, which include information about the successful completion of the reconciliation, or if the set of entities has not passed the reconciliation, information about the entities in the set of entities that have not passed the reconciliation. The information about the set of entities obtained from the module 13, together with the text information and the results of the reconciliation by the module 14 of the reconciliation of data, are sent to the module 15 for analyzing the properties of the document.
[0038] Вся собранная модулем 15 в ходе работы всех предыдущих модулей информация, в частности текстовая информация и результаты сверки от модуля 14 и изображения документа от источника 1, модулем 15 проверяется на то, что все необходимые пункты документа (или поля документа) содержатся в тексте документа. Для этого модуль 15 осуществляет обработку полученной текстовой информации методами NLP (нечеткое вхождение ключевых слов для каждого абзаца), по результатам которой модуль 15 определяет целостность документа. Алгоритм обработки NLP также может быть выбран на основе данных об идентификаторе процесса, которые ранее поступили в модуль 18 от АС 2 Банка. [0038] All information collected by module 15 during the operation of all previous modules, in particular text information and verification results from module 14 and document images from source 1, is checked by module 15 to ensure that all necessary document items (or document fields) are contained in the text of the document. For this, module 15 processes the received text information using NLP methods (fuzzy entry of keywords for each paragraph), according to the results of which module 15 determines the integrity of the document. The NLP processing algorithm can also be selected on the basis of the process identifier data that were previously received by the module 18 from the AC 2 Bank.
[0039] Для обработки полученной текстовой информации методами NLP был проанализирован набор типовых документов на распределение слов в абзацах документа и были найдены характерные слова и/или фразы для каждого абзаца документа, причем из разных его частей (начало, середина, конец). Таким образом, стало известно для каждого значимого (который должен присутствовать в документе для проверки целостности) абзаца документа его характерные слова. Далее было создано правило, согласно которому: если определенная доля слов или фраз встречается (fuzzy search) в абзаце документа, то данный значимый абзац найден. Если все необходимые абзацы (пункты) документа найдены в тексте, то целостность проверена успешно. В альтернативном варианте реализации заявленного решения целостность документа может быть проверена с помощью средств и методов, раскрытых в заявке US 2011134494 (А1 ). [0039] To process the received text information using NLP methods, a set of typical documents was analyzed for the distribution of words in paragraphs of the document and characteristic words and / or phrases were found for each paragraph of the document, and from its different parts (beginning, middle, end). Thus, it became known for each significant (which must be present in the document to check the integrity) paragraph of the document, its characteristic words. Further, a rule was created according to which: if a certain proportion of words or phrases occurs (fuzzy search) in a paragraph of the document, then this significant paragraph is found. If all the necessary paragraphs (points) of the document are found in the text, then the integrity is checked successfully. In an alternative embodiment of the claimed solution, the integrity of the document can be checked using the means and methods disclosed in the application US 2011134494 (A1).
[0040] На основе данных о целостности документа и данных сверки модуль 15 определяет качества сканирования изображения документа. Например, если сверка данных прошла успешно и данные о целостности документа указывают на то, что документ содержит все пункты, то модуль 15 присваивает изображению документа высокий показатель качества сканирования. Если результаты сверки указывают на то, что пороговые значения совпадающих слов по простым и/или сложным сущностям не достигнуты, причем данные о целостности документа указывают на то, что документ содержит не все пункты, то модуль 15 присваивает изображению документа низкий показатель качества сканирования. Информация о показателе качества сканирования модуль 15 передает в модуль 16 принятия решения. [0040] Based on the document integrity data and the reconciliation data, the unit 15 determines the scan quality of the document image. For example, if the data check is successful and the document integrity data indicates that the document contains all items, then module 15 assigns a high scan quality score to the document image. If the matching results indicate that the matching word thresholds for simple and / or complex entities are not achieved, and the data on the integrity of the document indicates that the document does not contain all the items, then the module 15 assigns the document image a low scan quality index. The module 15 transmits information about the scan quality index to the decision module 16.
[0041] Также модуль 15 анализа свойств документа выполнен с возможностью проверки не приложен ли документ от другого лица. Упомянутая проверка выполняется на основе данных о целостности документа и данных о уникальных сущностях набора сущностей, которые у различных клиентов отличаются или которые могут совпасть у различных клиентов с очень маленькой вероятностью (например, сущности, идентифицирующие подписанта). Анализ только лишь уникальных сущностей позволяет исключить те сущности, которые у разных клиентов могут повторяться, например, валюта кредита, которая чаще всего бывает в рублях и прочие сущности в зависимости от типа документа. Например, для документа ИУК или ПД уникальной сущностью является ФИО заемщика. Также уникальными сущностями могут быть ИНН, СНИЛС, серийный номер паспорта и т.д. [0041] Also, the document property analysis module 15 is configured to check if a document is attached from another person. This verification is performed on the basis of document integrity data and data on unique entities of a set of entities that differ from client to client or which may coincide among different clients with a very low probability (for example, entities that identify a signer). The analysis of only unique entities allows you to exclude those entities that may be repeated for different clients, for example, the loan currency, which is most often in rubles, and other entities depending on the type of document. For example, for an ICC or PD document, the name of the borrower is a unique entity. Also, unique entities can be TIN, SNILS, passport serial number, etc.
[0042] Если уникальные сущности не совпадают (например, в отношении документа ИУК - ФИО заемщика), при этом данные о целостности документа указывают на то, что все пункты в документе присутствуют, то модуль 15 определяет, что документ, изображение которого поступило в систему 10, принадлежит другому лицу. Если модулем 15 было определено, что целостность документа неполная, при этом уникальные сущности набора сущностей, например, идентифицирующие подписанта, указывают на то, что документ, изображение которого поступило в систему 10, является документом данного лица, то модуль 15 формирует список сущностей, которые не прошли сверку. Соответственно, если уникальные сущности набора сущностей, идентифицирующие подписанта, совпадают с эталонным набором сущностей и данные о целостности документа указывают на то, что все пункты в документе присутствуют, то модуль 15 определяет, что упомянутый документ является документом данного лица. Алгоритмы модуля 15 анализа свойств параметризованы идентификатором процесса. [0042] If the unique entities do not match (for example, in relation to the ICC document - the name of the borrower), and the data on the integrity of the document indicates that all items in the document are present, then module 15 determines that the document, the image of which entered the system 10 belongs to another person. If module 15 has determined that the integrity of the document is incomplete, while the unique entities of the set of entities, for example, identifying the signer, indicate that the document whose image entered the system 10 is a document of this person, then module 15 generates a list of entities that have not been verified. Accordingly, if the unique entities of the set of entities identifying the signer match the reference entity set and the document integrity data indicates that all items in the document are present, then module 15 determines that the said document is a document of this person. The algorithms of the property analysis module 15 are parameterized by the process identifier.
[0043] Вся собранная в ходе работы всех предыдущих модулей документа информация, за исключением изображений документа, направляется в модуль 16 принятия решения. Если результаты сверки, полученные от модуля 14, являются положительными и данные, полученные от модуля 19, указывают на то, что все необходимые атрибуты подписантов присутствуют на изображении документа в соответствующих его областях (т.е. правило расположения всех подписей выполнено; в данном случае определяется количеству найденных подписей, по взаимному расположению их, исключая места где заведомо не может быть подписи), то модуль 16 записывает в хранилище результатов веб- сервиса 20 обработки документов информацию об успешном прохождении проверки документа. Например, если в пакете документов был только документ ИУК и ДП не требовался, то модуль 16 записывает в упомянутое хранилище веб-сервиса 20 информацию об успешном прохождении проверки документа, а также информацию о решении, в частности, о том, что можно выдавать кредит. Дополнительно в генерируемые и записываемые в хранилище результаты обработки документов модулем 16 заносится информация о наборе сущностей и результаты сверки. Если данные, полученные от модуля 19, указывают на то, что атрибут подписанта отсутствует на изображении документа в соответствующей области, то модуль 16 принятия решения генерирует информацию о том, что что документ следует проверить человеком, в которую также включается информация о результатах сверки. [0043] All information collected during the operation of all previous document modules, with the exception of document images, is sent to decision module 16. If the reconciliation results from Module 14 are positive and the data received from module 19 indicates that all the necessary attributes of signers are present on the image of the document in its respective areas (i.e. the rule for the location of all signatures is fulfilled; in this case, it is determined by the number of found signatures, by their relative position , excluding the places where the signature cannot be known), then the module 16 writes information about the successful passage of the document verification into the results storage of the document processing web service 20. For example, if the package of documents contained only the IAC document and the DP was not required, then the module 16 writes to the said storage of the web service 20 information about the successful passage of the document verification, as well as information about the decision, in particular, that it is possible to issue a loan. In addition, information about the set of entities and the results of reconciliation are entered into the results of document processing generated and recorded in the storage by module 16. If the data received from the module 19 indicates that the signer's attribute is not present in the image of the document in the corresponding area, then the decision module 16 generates information that the document should be checked by a person, which also includes information about the verification results.
[0044] Соответствующие области (допустимый диапазон координат для атрибутов подписанта) могут быть определены модулем 18 на основе типа документа, который определяется на основе данных о идентификаторе процесса, поступивших от АС 2 Банка, и в дальнейшем поступают в модуль 16. [0045] Если результаты сверки являются отрицательными, то модуль 16 принятия решений извлекает из полученных данных информацию о всех сущностях из набора сущностей, которые не прошли сверку данных, и определяет типы этих сущностей. Если тип сущности указывает на то, что сущность является простой сущностью, а информация о качестве сканирования, полученная от модуля 15, указывает на то, что изображению документа назначен высокий показатель качества сканирования, то модуль 16 принятия решения генерирует информацию о том, что документ не прошел проверку, в которую также включается информация о результатах сверки, и что в выдаче кредита следует отказать. В то же время если информация о качестве сканирования указывает на то, что изображению документа назначен низкий показатель качества сканирования, то модуль 16 генерирует и записывает в хранилище результатов обработки документов веб-сервиса 20 информацию о том, что документ следует проверить человеком, в которую также включается информация о результатах сверки. [0044] Corresponding areas (acceptable range of coordinates for the signer's attributes) can be determined by module 18 based on the document type, which is determined based on the process identifier data received from the AC 2 of the Bank, and subsequently supplied to module 16. [0045] If the results of the reconciliation are negative, then the decision-making module 16 extracts from the received data information about all entities from the set of entities that have not passed the reconciliation of the data, and determines the types of these entities. If the entity type indicates that the entity is a simple entity, and the scan quality information from unit 15 indicates that a high scan quality score has been assigned to the document image, then decision unit 16 generates information that the document is not passed the audit, which also includes information on the results of the reconciliation, and that the loan should be refused. At the same time, if the information on the scan quality indicates that a low scan quality indicator is assigned to the document image, then the unit 16 generates and writes information about the the fact that the document should be checked by a person, which also includes information about the results of the reconciliation.
[0046] Если сущность, не прошедшая сверку данных, является сложной сущностью, то модуль 16 принятия решения, независимо от показателя качества сканирования документа, генерирует и записывает в хранилище результатов обработки документов веб-сервиса 20 информацию о том, что документ следует проверить человеком, в которую также включается информация о результатах сверки. В сгенерированные результаты обработки документов при отрицательных результатах сверки также включается информация о наличии или отсутствии атрибутов подписанта. [0046] If the entity that has not passed the data reconciliation is a complex entity, then the decision module 16, regardless of the quality index of scanning the document, generates and records in the storage of the results of processing documents of the web service 20 information that the document should be checked by a person, which also includes information on the results of the reconciliation. The generated document processing results in case of negative reconciliation results also include information about the presence or absence of the signer's attributes.
[0047] Сгенерированные модулем 16 принятия решений результаты обработки документов могут быть получены через интерфейс веб-сервиса 20 или его API. Веб-сервис 20 формирует ответ в виде json с результатами обработки документа. Данные результаты обработки документов могут быть выведены на устройство отображения данных, например, дисплей вычислительного устройства, такого как портативный или стационарный компьютер, терминал связи, мобильный телефон или смартфон, планшет и пр. Например, если документом являлся документ ИУК, то на устройство отображения данных дополнительно может быть выведено решение о выдаче кредита, в отказе в выдаче или о необходимости проверить документ вручную. [0048] Таким образом, за счет того, что результаты обработки документа формируют на основе результатов сравнения набора сущностей, извлеченного из текстовой информации с учетом типа документа, с эталонным набором сущностей для данного документа, обеспечивается высокая точность в выявлении ошибок при проведении автоматизированной интеллектуальной обработки документов, а также ее эффективность, т.е. обеспечивается достижение указанного технического результата. Также за счет использования алгоритмов машинного обучения и NLP-методов, раскрытых в настоящей заявке, и типизации данных дополнительно повышается эффективность и точность в выявлении ошибок при проведении автоматизированной интеллектуальной обработки документов. [0047] The document processing results generated by the decision making module 16 can be obtained via the web service 20 interface or its API. Web service 20 generates a json response with the results of document processing. These results of document processing can be output to a data display device, for example, a display of a computing device such as a laptop or desktop computer, a communication terminal, a mobile phone or a smartphone, a tablet, etc. For example, if the document was an IAC document, then to the data display device in addition, a decision can be made to issue a loan, to refuse to issue it, or to check the document manually. [0048] Thus, due to the fact that the results of document processing are formed on the basis of the results of comparing the set of entities extracted from the text information, taking into account the type of the document, with the reference set of entities for this document, high accuracy is provided in identifying errors during automated intelligent processing documents, as well as its effectiveness, i.e. the achievement of the specified technical result is ensured. Also, due to the use of machine learning algorithms and NLP-methods disclosed in this application, and data typing, the efficiency and accuracy in identifying errors during automated intelligent document processing are additionally increased.
[0049] Кроме того, представленное техническое решение обладает расширенными функциональными возможностями по сравнению с известными решениями, в частности: обеспечивает возможность автоматизированного принятия решения о выдаче кредита, выявления причины отказа либо обоснования передачи документа на проверку человеку; обеспечивает механизм проверки юридической валидности и комплектности документов. [0049] In addition, the presented technical solution has enhanced functionality in comparison with the known solutions, in particular: it provides the ability to automatically make a decision on the issuance of a loan, identify the reason for the refusal, or justification of the transfer of the document for verification to a person; provides a mechanism for checking the legal validity and completeness of documents.
[0050] В общем виде (см. фиг. 3) система (200) интеллектуальной обработки документов содержит объединенные общей шиной информационного обмена один или несколько процессоров (201), средства памяти, такие как ОЗУ (202) и ПЗУ (203), интерфейсы ввода/вывода (204), устройства ввода/вывода (205), и устройство для сетевого взаимодействия (206). [0050] In general terms (see Fig. 3), the system (200) of intelligent document processing comprises one or more processors (201) united by a common bus of information exchange, memory means such as RAM (202) and ROM (203), interfaces input / output (204), input / output (205), and a device for networking (206).
[0051] Процессор (201) (или несколько процессоров, многоядерный процессор и т.п.) может выбираться из ассортимента устройств, широко применяемых в настоящее время, например, таких производителей, как: Intel™, AMD™, Apple™, Samsung Exynos™, MediaTEK™, Qualcomm Snapdragon™ и т.п. Под процессором или одним из используемых процессоров в системе (200) также необходимо учитывать графический процессор, например, GPU NVIDIA с программной моделью, совместимой с CUDA, или Graphcore, тип которых также является пригодным для полного или частичного выполнения способа, а также может применяться для обучения и применения моделей машинного обучения в различных информационных системах. [0051] The processor (201) (or multiple processors, multi-core processor, etc.) can be selected from a range of devices currently widely used, for example, from manufacturers such as: Intel ™, AMD ™, Apple ™, Samsung Exynos ™, MediaTEK ™, Qualcomm Snapdragon ™, etc. Under the processor or one of the processors used in the system (200), it is also necessary to take into account the graphics processor, for example, NVIDIA GPU with a CUDA-compatible programming model, or Graphcore, the type of which is also suitable for full or partial execution of the method, and can also be used for training and application of machine learning models in various information systems.
[0052] ОЗУ (202) представляет собой оперативную память и предназначено для хранения исполняемых процессором (201) машиночитаемых инструкций для выполнения необходимых операций по логической обработке данных. ОЗУ (202), как правило, содержит исполняемые инструкции операционной системы и соответствующих программных компонент (приложения, программные модули и т.п.). При этом, в качестве ОЗУ (202) может выступать доступный объем памяти графической карты или графического процессора. [0052] RAM (202) is a random access memory and is intended for storing machine-readable instructions executed by the processor (201) for performing the necessary operations for logical data processing. RAM (202), as a rule, contains executable instructions of the operating system and corresponding software components (applications, software modules, etc.). In this case, the available memory of a graphics card or a graphics processor can act as RAM (202).
[0053] ПЗУ (203) представляет собой одно или более устройств постоянного хранения данных, например, жесткий диск (HDD), твердотельный накопитель данных (SSD), флэш-память (EEPROM, NAND и т.п.), оптические носители информации (CD-R/RW, DVD-R/RW, BlueRay Disc, MD) и др. [0053] ROM (203) is one or more persistent storage devices such as a hard disk drive (HDD), solid state data storage device (SSD), flash memory (EEPROM, NAND, etc.), optical storage media ( CD-R / RW, DVD-R / RW, BlueRay Disc, MD), etc.
[0054] Для организации работы компонентов системы (200) и организации работы внешних подключаемых устройств применяются различные виды интерфейсов В/В (204). Выбор соответствующих интерфейсов зависит от конкретного исполнения вычислительного устройства, которые могут представлять собой, не ограничиваясь: PCI, AGP, PS/2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS/Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232 и т.п. [0055] Для обеспечения взаимодействия пользователя с вычислительной системой (200) применяются различные средства (205) В/В информации, например, клавиатура, дисплей (монитор), сенсорный дисплей, тач-пад, джойстик, манипулятор мышь, световое перо, стилус, сенсорная панель, трекбол, динамики, микрофон, средства дополненной реальности, оптические сенсоры, планшет, световые индикаторы, проектор, камера, средства биометрической идентификации (сканер сетчатки глаза, сканер отпечатков пальцев, модуль распознавания голоса) и т.п. [0054] Various types of I / O interfaces (204) are used to organize the operation of the system components (200) and to organize the operation of external connected devices. The choice of the appropriate interfaces depends on the specific version of the computing device, which can be, but are not limited to: PCI, AGP, PS / 2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS / Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232, etc. [0055] To ensure user interaction with the computing system (200), various means (205) I / O information are used, for example, a keyboard, display (monitor), touch display, touch pad, joystick, mouse manipulator, light pen, stylus, touch panel, trackball, speakers, microphone, augmented reality, optical sensors, tablet, light indicators, projector, camera, biometric identification (retina scanner, fingerprint scanner, voice recognition module), etc.
[0056] Средство сетевого взаимодействия (206) обеспечивает передачу данных посредством внутренней или внешней вычислительной сети, например, Интранет, Интернет, ЛВС и т.п. В качестве одного или более средств (206) может использоваться, но не ограничиваться: Ethernet карта, GSM модем, GPRS модем, LTE модем, 5G модем, модуль спутниковой связи, NFC модуль, Bluetooth и/или BLE модуль, Wi-Fi модуль и др. [0057] Дополнительно могут применяться также средства спутниковой навигации в составе системы (200), например, GPS, ГЛОНАСС, BeiDou, Galileo. [0058] Конкретный выбор элементов устройства (200) для реализации различных программно-аппаратных архитектурных решений может варьироваться с сохранением обеспечиваемого требуемого функционала. [0059] Модификации и улучшения вышеописанных вариантов осуществления настоящего технического решения будут ясны специалистам в данной области техники. Предшествующее описание представлено только в качестве примера и не несет никаких ограничений. Таким образом, объем настоящего технического решения ограничен только объемом прилагаемой формулы изобретения. [0056] The networking tool (206) provides data transmission via an internal or external computer network, for example, Intranet, Internet, LAN, and the like. One or more means (206) may be used, but not limited to: Ethernet card, GSM modem, GPRS modem, LTE modem, 5G modem, satellite communication module, NFC module, Bluetooth and / or BLE module, Wi-Fi module, and others. [0057] Additionally, satellite navigation means can be used as part of the system (200), for example, GPS, GLONASS, BeiDou, Galileo. [0058] The specific choice of elements of the device (200) for the implementation of various software and hardware architectures can vary while maintaining the required functionality provided. [0059] Modifications and improvements to the above-described embodiments of the present technical solution will be apparent to those skilled in the art. The foregoing description is provided by way of example only and is not intended to be limiting in any way. Thus, the scope of the present technical solution is limited only by the scope of the attached claims.

Claims

Формула изобретения. Claim.
1. Способ интеллектуальной обработки документов, выполняемый по меньшей мере одним вычислительным устройством, содержащий этапы, на которых: 1. A method for intelligent processing of documents, performed by at least one computing device, comprising the steps of:
- получают по меньшей мере одно изображение документа; - get at least one image of the document;
- распознают символы на изображении документа и преобразуют их в текстовую информацию; - recognize characters in the image of the document and convert them into text information;
- на основе текстовой информации определяют тип документа; - on the basis of text information determine the type of document;
- извлекают из текстовой информации набор сущностей с учетом типа документа; - extract from the text information a set of entities, taking into account the type of document;
- сравнивают набор сущностей с эталонным набором сущностей для данного документа; - compare the set of entities with the reference set of entities for this document;
- на основе результатов сравнения упомянутых наборов сущностей формируют результаты обработки документа. - based on the results of comparison of the mentioned sets of entities, the results of document processing are generated.
2. Способ по п. 1, характеризующийся тем, что документ представляет собой договор об индивидуальных условиях кредитования (ИУК) или договор поручительства (ДП). 2. A method according to claim 1, characterized in that the document is an agreement on individual credit conditions (ILC) or a surety agreement (DP).
3. Способ по п. 1, характеризующийся тем, что дополнительно содержит этапы, на которых: 3. The method according to claim 1, characterized in that it further comprises the stages at which:
- осуществляют детектирование на поступившем изображении документа атрибута подписанта; - carry out the detection of the signer's attribute on the received image of the document;
- определяют расположение по меньшей мере одного атрибута подписанта на странице документа; при этом результаты обработки документа формируют с учетом информации о расположении по меньшей мере одного атрибута подписанта на странице документа. - determine the location of at least one attribute of the signer on the page of the document; the results of processing the document are formed taking into account the information about the location of at least one attribute of the signer on the page of the document.
4. Способ по п. 3, характеризующийся тем, что дополнительно содержит этап, на котором определяют статус лица, которому принадлежит детектированный атрибуты подписанта. 4. The method according to claim 3, further comprising the step of determining the status of the person to whom the detected attributes of the signer belongs.
5. Способ по п. 1, характеризующийся тем, что этап, на котором определяют тип документа на основе текстовой информации, содержит этапы, на которых: 5. The method according to claim 1, characterized in that the stage at which the document type is determined based on the text information contains the stages at which:
- получают идентификатор процесса; - определяют набор моделей классификации текста на основе идентификатора процесса; - get the process identifier; - define a set of text classification models based on the process identifier;
- преобразуют полученную текстовую информацию в набор векторов; - transform the received text information into a set of vectors;
- обрабатывают набор векторов с помощью определенного ранее набора моделей классификации текста для определения типа документа. - process a set of vectors using a previously defined set of text classification models to determine the type of document.
5. Способ по п. 1, характеризующийся тем, что этап, на котором сравнивают набор сущностей с эталонным набором сущностей, содержит этапы, на которых: 5. The method according to claim 1, characterized in that the stage at which the set of entities is compared with the reference set of entities comprises the stages at which:
- делят набор сущностей на простые сущности, состоящие из 1-3 слов, и сложные сущности, состоящие из по меньше четырех слов; причем если в результате сравнения упомянутых наборов сущностей пороговые значения совпадающих слов по простым и сложным сущностям достигнуты, то формируют результаты сверки, в которые включается информация о успешном прохождении сверки данных; если упомянутые пороговые значения совпадающих слов по простым и сложным сущностям не достигнуты, то формируют результаты сверки, в которые включается информация о сущностях в наборе сущностей, не прошедших сверку; при этом результаты обработки документа формируют с учетом результатов сверки. - the set of entities is divided into simple entities, consisting of 1-3 words, and complex entities, consisting of less than four words; moreover, if, as a result of comparing the above sets of entities, the threshold values of matching words for simple and complex entities are reached, then the results of the reconciliation are generated, which include information on the successful completion of the reconciliation of the data; if the aforementioned threshold values of matching words for simple and complex entities are not reached, then the reconciliation results are generated, which include information about entities in the set of entities that have not passed the reconciliation; in this case, the results of document processing are formed taking into account the results of the reconciliation.
6. Способ по п. 1, характеризующийся тем, что дополнительно содержит этап, на котором определяют качество сканирования документа; причем результаты обработки документа формируют с учетом качества сканирования документа. 6. The method according to claim 1, characterized in that it further comprises a stage, which determines the quality of scanning the document; moreover, the results of processing the document are formed taking into account the quality of scanning the document.
7. Система интеллектуальной обработки документов, содержащая по меньшей мере одного вычислительное устройство и по меньшей мере одно устройство памяти, содержащее машиночитаемые инструкции, которые при их исполнении по меньшей мере одним вычислительным устройством выполняют способ по любому из пп. 1-6. 7. An intelligent document processing system comprising at least one computing device and at least one memory device containing machine-readable instructions that, when executed by at least one computing device, execute the method according to any one of claims. 1-6.
PCT/RU2019/000641 2019-09-17 2019-09-17 Method and system for intelligent document processing WO2021054850A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/RU2019/000641 WO2021054850A1 (en) 2019-09-17 2019-09-17 Method and system for intelligent document processing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/RU2019/000641 WO2021054850A1 (en) 2019-09-17 2019-09-17 Method and system for intelligent document processing

Publications (1)

Publication Number Publication Date
WO2021054850A1 true WO2021054850A1 (en) 2021-03-25

Family

ID=74883123

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/RU2019/000641 WO2021054850A1 (en) 2019-09-17 2019-09-17 Method and system for intelligent document processing

Country Status (1)

Country Link
WO (1) WO2021054850A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114266267A (en) * 2021-12-20 2022-04-01 武汉烽火众智智慧之星科技有限公司 Automatic identification method and device for collecting two-dimensional codes, documents, certificates and human faces and storage medium

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030113016A1 (en) * 1996-01-09 2003-06-19 Fujitsu Limited Pattern recognizing apparatus
US20060164682A1 (en) * 2005-01-25 2006-07-27 Dspv, Ltd. System and method of improving the legibility and applicability of document pictures using form based image enhancement
US20110044547A1 (en) * 2004-02-15 2011-02-24 King Martin T method and system for character recognition
US20150199581A1 (en) * 2012-09-21 2015-07-16 Alibaba Group Holding Limited Detecting a label from an image

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030113016A1 (en) * 1996-01-09 2003-06-19 Fujitsu Limited Pattern recognizing apparatus
US20110044547A1 (en) * 2004-02-15 2011-02-24 King Martin T method and system for character recognition
US20060164682A1 (en) * 2005-01-25 2006-07-27 Dspv, Ltd. System and method of improving the legibility and applicability of document pictures using form based image enhancement
US20150199581A1 (en) * 2012-09-21 2015-07-16 Alibaba Group Holding Limited Detecting a label from an image

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114266267A (en) * 2021-12-20 2022-04-01 武汉烽火众智智慧之星科技有限公司 Automatic identification method and device for collecting two-dimensional codes, documents, certificates and human faces and storage medium
CN114266267B (en) * 2021-12-20 2024-03-19 武汉烽火众智智慧之星科技有限公司 Automatic identification method, device and storage medium for integrating two-dimension codes, documents, certificates and faces

Similar Documents

Publication Publication Date Title
CN110597964B (en) Double-recording quality inspection semantic analysis method and device and double-recording quality inspection system
US11769008B2 (en) Predictive analysis systems and methods using machine learning
US11853339B2 (en) Techniques and components to find new instances of text documents and identify known response templates
US20180349776A1 (en) Data reconciliation
US11769341B2 (en) System and method to extract information from unstructured image documents
CN110147540B (en) Method and system for generating business security requirement document
EP4141818A1 (en) Document digitization, transformation and validation
RU2702967C1 (en) Method and system for checking an electronic set of documents
RU2739342C1 (en) Method and system for intelligent document processing
CA3140455A1 (en) Information extraction method, apparatus, and system
EP4244761A1 (en) Fraud detection via automated handwriting clustering
WO2021054850A1 (en) Method and system for intelligent document processing
US20140279642A1 (en) Systems and methods for enrollment and identity management using mobile imaging
CN117195319A (en) Verification method and device for electronic part of file, electronic equipment and medium
CN110555212A (en) Document verification method and device based on natural language processing and electronic equipment
WO2021112704A1 (en) Method and system for automatic legal decision making
US11900705B2 (en) Intelligent engineering data digitization
EA040560B1 (en) METHOD AND SYSTEM FOR INTELLIGENT DOCUMENT PROCESSING
CN113887911A (en) Abnormal identity recognition method and device
CN114443834A (en) Method and device for extracting license information and storage medium
US10891475B2 (en) Systems and methods for enrollment and identity management using mobile imaging
EA043496B1 (en) METHOD AND SYSTEM FOR CHECKING AN ELECTRONIC SET OF DOCUMENTS
WO2021075998A1 (en) System for classifying data in order to detect confidential information in a text
US20220319216A1 (en) Image reading systems, methods and storage medium for performing geometric extraction
US20240112486A1 (en) Fake Signature Detection

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19945653

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19945653

Country of ref document: EP

Kind code of ref document: A1