RU2702967C1 - Method and system for checking an electronic set of documents - Google Patents
Method and system for checking an electronic set of documents Download PDFInfo
- Publication number
- RU2702967C1 RU2702967C1 RU2019109055A RU2019109055A RU2702967C1 RU 2702967 C1 RU2702967 C1 RU 2702967C1 RU 2019109055 A RU2019109055 A RU 2019109055A RU 2019109055 A RU2019109055 A RU 2019109055A RU 2702967 C1 RU2702967 C1 RU 2702967C1
- Authority
- RU
- Russia
- Prior art keywords
- document
- page
- signatory
- attribute
- type
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/30—Writer recognition; Reading and verifying signatures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Input (AREA)
Abstract
Description
ОБЛАСТЬ ТЕХНИКИFIELD OF TECHNOLOGY
[0001] Представленное техническое решение относится, в общем, к области анализа изображений, а в частности к способам и системам для проверки электронного комплекта документов, например, отсканированных документов корпоративного клиента банка.[0001] The presented technical solution relates, in general, to the field of image analysis, and in particular to methods and systems for checking an electronic set of documents, for example, scanned documents of a bank's corporate client.
УРОВЕНЬ ТЕХНИКИBACKGROUND
[0002] В настоящее время существует проблема оперативной и качественной обработки данных электронного комплекта отсканированных документов с целью проверки наличия обязательных для заранее определенных типов страниц атрибутов, таких как печать и/или подпись и/или комплект подписей.[0002] Currently, there is a problem of efficient and high-quality data processing of an electronic set of scanned documents in order to verify the presence of attributes mandatory for predetermined types of pages, such as printing and / or signature and / or set of signatures.
[0003] Из уровня техники известны различные решения, выполненные с возможностью обработки документов, например, клиента Банка, реализованные на базе ПО ABBYY InfoExtractor и пр. Также известно решение для проведения проверки комплекта документов, раскрытое в заявке US 2011134494 (А1), опубл. 09.06.2011, в котором осуществляют чтение документа, имеющего множество страниц; проверка данных изображения каждой страницы документа, имеющего множество страниц, при этом проверяются определенные области изображения документа на наличие в них информации и ее отсутствие. Данное решение является наиболее близким аналогом.[0003] Various solutions are known from the prior art that are made with the possibility of processing documents, for example, a Bank client, implemented on the basis of ABBYY InfoExtractor software, etc. There is also known a solution for checking a set of documents, disclosed in application US 2011134494 (A1), publ. 06/09/2011, in which the reading of a document having many pages; checking image data of each page of a document having multiple pages, while certain areas of the image of the document are checked for information in it and its absence. This solution is the closest analogue.
[0004] Существенным недостатком известных решений является отсутствие возможности проверить комплект отсканированных документов по следующим критериям:[0004] A significant drawback of the known solutions is the inability to verify a set of scanned documents by the following criteria:
• комплектность пакета документов;• completeness of the package of documents;
• наличие печатей;• the presence of seals;
• наличие и корректность состава подписей.• availability and correctness of the composition of signatures.
РАСКРЫТИЕ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION
[0005] Технической проблемой или задачей, поставленной в данном техническом решении, является создание нового эффективного метода автоматизированной проверки комплекта документов, например, документов корпоративного клиента Банка.[0005] A technical problem or task set in this technical solution is the creation of a new effective method for automated verification of a set of documents, for example, documents of a corporate client of the Bank.
[0006] Техническим результатом является повышение точности проведения автоматизированной проверки документов на их комплектность. Дополнительным техническим результатом является повышение скорости проведения автоматизированной проверки документов на их комплектность.[0006] The technical result is to increase the accuracy of the automated verification of documents for their completeness. An additional technical result is an increase in the speed of automated verification of documents for their completeness.
[0007] Указанный технический результат достигается благодаря осуществлению способа проверки электронного комплекта документов, выполняемого по меньшей мере одним вычислительным устройством, и содержащего этапы, на которых:[0007] The specified technical result is achieved due to the implementation of the method of checking an electronic set of documents performed by at least one computing device, and containing stages in which:
- получают изображение документа, состоящего из по меньшей мере одной страницы;- receive an image of a document consisting of at least one page;
- распознают символы на изображении страницы документа и преобразует их в текстовую информацию;- recognize the characters in the image of the page of the document and converts them into text information;
- формируют вектор страницы документа на основе текстовой информации, полученной на предыдущем этапе;- form a page vector of the document based on text information obtained in the previous step;
- определяют на основе вектора страницы документа тип документа и тип его страницы;- determine, based on the page vector of the document, the type of document and the type of its page;
- определяют перечень страниц и по меньшей мере один атрибут подписанта, наличие которых необходимо проверить в данном типе документа;- determine the list of pages and at least one attribute of the signatory, the presence of which must be checked in this type of document;
- проверяют наличие перечня страниц и по меньшей мере одного атрибута подписанта на полученном изображении документа для определения комплектности документа.- check the availability of the list of pages and at least one attribute of the signatory on the received image of the document to determine the completeness of the document.
[0008] В одном из частных примеров осуществления способа вектор страницы документа формируется на основе значений слов, содержащихся в текстовой информации, структуры зависимостей слов друг от друга и значений веса упомянутых слов.[0008] In one particular example of the method, the page vector of the document is formed based on the values of words contained in the text information, the structure of the dependencies of the words from each other, and the weight values of the words.
[0009] В другом частном примере осуществления способа определение типа документа и типа его страницы на основе вектора страницы документа осуществляется посредством классификации документа по принадлежности к заранее определенным типам страниц и документов, причем математическая модель для классификации реализована посредством алгоритмов машинного обучения «случайный лес».[0009] In another particular example of the method, the determination of the type of document and the type of its page based on the document page vector is carried out by classifying the document by belonging to predefined types of pages and documents, the mathematical model for classification being implemented using random forest machine learning algorithms.
[0010] В другом частном примере осуществления способа этап проверки наличия по меньшей мере одного атрибута подписанта на полученном изображении документа, включает этапы, на которых:[0010] In another particular embodiment of the method, the step of verifying the presence of at least one attribute of the signatory in the received image of the document includes the steps in which:
- детектируют по меньшей мере один атрибут подписанта на изображении страницы документа для определения его расположения;- detect at least one attribute of the signatory on the image of the page of the document to determine its location;
- определяют, где атрибут подписанта должен находиться на данном типе страницы;- determine where the attribute of the signatory should be on this type of page;
причем проверка наличия по меньшей мере одного атрибута подписанта на полученном изображении документа для определения комплектности документа осуществляется посредством сравнения информации о расположении атрибута подписанта на изображении страницы документа с информаций, указывающей на то, где должен находиться атрибут подписанта на данном типе страницы.moreover, checking the presence of at least one attribute of the signatory on the received image of the document to determine the completeness of the document is carried out by comparing information about the location of the attribute of the signatory on the image of the page of the document with information indicating where the attribute of the signatory should be on this type of page.
[0011] В другом частном примере осуществления способа детектирование по меньшей мере одного атрибута подписанта осуществляется только на тех изображениях страниц документов, тип который указывает на то, что данные страницы содержат атрибуты подписанта.[0011] In another particular embodiment of the method, the detection of at least one attribute of the signatory is carried out only on those images of pages of documents, a type which indicates that these pages contain attributes of the signatory.
[0012] В другом частном примере осуществления способа дополнительно классифицируют по меньшей мере один атрибут подписанта, причем классификация осуществляется на основе информации о расположения атрибута подписанта.[0012] In another particular embodiment of the method, at least one signatory attribute is further classified, the classification being based on the location information of the signatory attribute.
[0013] В другом частном примере осуществления способа атрибут подписанта представляют собой подпись и/или печать.[0013] In another particular embodiment of the method, the signatory attribute is a signature and / or seal.
[0014] В другом предпочтительном варианте осуществления заявленного решения представлена система для проверки комплекта документов, содержащая по меньшей мере одно вычислительное устройство и по меньшей мере одну память, содержащую машиночитаемые инструкции, которые при их исполнении по меньшей мере одним вычислительным устройством выполняют вышеуказанный способ.[0014] In another preferred embodiment of the claimed solution, there is provided a system for checking a set of documents comprising at least one computing device and at least one memory containing machine-readable instructions that, when executed by at least one computing device, perform the above method.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙBRIEF DESCRIPTION OF THE DRAWINGS
[0015] Признаки и преимущества настоящего технического решения станут очевидными из приводимого ниже подробного описания изобретения и прилагаемых чертежей, на которых:[0015] The features and advantages of this technical solution will become apparent from the following detailed description of the invention and the accompanying drawings, in which:
[0016] на Фиг. 1 представлена общая схема взаимодействия элементов системы для проверки комплекта документов.[0016] in FIG. 1 presents a general diagram of the interaction of system elements to verify a set of documents.
[0017] на Фиг. 2 представлен пример отсканированного документа.[0017] in FIG. 2 shows an example of a scanned document.
[0018] на Фиг. 3 представлен пример общего вида системы для проверки комплекта документов.[0018] in FIG. Figure 3 shows an example of a general view of a system for checking a set of documents.
ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯDETAILED DESCRIPTION OF THE INVENTION
[0019] Ниже будут описаны понятия и термины, необходимые для понимания данного технического решения.[0019] The concepts and terms necessary for understanding this technical solution will be described below.
[0020] В данном техническом решении под системой подразумевается, в том числе компьютерная система, ЭВМ (электронно-вычислительная машина), ЧПУ (числовое программное управление), ПЛК (программируемый логический контроллер), компьютеризированные системы управления и любые другие устройства, способные выполнять заданную, четко определенную последовательность операций (действий, инструкций).[0020] In this technical solution, a system means, including a computer system, a computer (electronic computer), CNC (numerical control), PLC (programmable logic controller), computerized control systems, and any other devices capable of performing a given , clearly defined sequence of operations (actions, instructions).
[0021] Под устройством обработки команд подразумевается электронный блок либо интегральная схема (микропроцессор), исполняющая машинные инструкции (программы).[0021] An instruction processing device is understood to mean an electronic unit or an integrated circuit (microprocessor) executing machine instructions (programs).
[0022] Устройство обработки команд считывает и выполняет машинные инструкции (программы) с одного или более устройств хранения данных. В роли устройства хранения данных могут выступать, но не ограничиваясь, жесткие диски (HDD), флеш-память, ПЗУ (постоянное запоминающее устройство), твердотельные накопители (SSD), оптические приводы.[0022] The command processing device reads and executes machine instructions (programs) from one or more data storage devices. Hard disk drives (HDD), flash memory, ROM (read only memory), solid state drives (SSD), optical drives can be used as storage devices.
[0023] Программа - последовательность инструкций, предназначенных для исполнения устройством управления вычислительной машины или устройством обработки команд.[0023] A program is a sequence of instructions for execution by a computer control device or an instruction processing device.
[0024] База данных (БД) - совокупность данных, организованных в соответствии с концептуальной структурой, описывающей характеристики этих данных и взаимоотношения между ними, причем такое собрание данных, которое поддерживает одну или более областей применения (ISO/IEC 2382:2015, 2121423 «database»).[0024] A database (DB) is a collection of data organized in accordance with a conceptual structure describing the characteristics of these data and the relationships between them, and such a collection of data that supports one or more applications (ISO / IEC 2382: 2015, 2121423 " database ").
[0025] В соответствии со схемой, приведенной на фиг. 1, система 1 для проверки комплекта документов содержит соединенные между собой: модуль 10 преобразования данных; модуль 20 классификации страниц, модуль 30 проверки атрибутов подписанта, таких как подписи и/или печати и модуль 40 проверки комплекта документов.[0025] In accordance with the circuit of FIG. 1, the
[0026] Указанные модули могут быть реализованы на базе программно-аппаратных средств системы 1 для проверки комплекта документов, например, на базе по меньшей мере одно вычислительного устройства, в частности микропроцессора, и по меньшей мере одной памяти, содержащей машиночитаемые инструкции для осуществления приписанных модулям ниже функций. Например, модуль 10 преобразования данных может содержать модуль 11 формирования векторов и модуль 12 фильтрации изображений, и может быть реализован на базе opensource-инструмента Tesseract (Tesseract Open Source OCR Engine) и алгоритма TF-IDF. Модуль 20 классификации страниц может быть реализован на базе заранее обученной математической модели с применением алгоритма обучения математической модели - случайный лес решающих деревьев (random forest). Модуль 30 проверки атрибутов подписанта может быть реализован на базе нейронной сети архитектуры YOLOv3, заранее обученной на типовом наборе подписей и печатей. Модуль 40 проверки комплекта документов может включать по меньшей мере одну БД 41 для хранения информации, которая может потребоваться для проверки комплекта документов.[0026] These modules can be implemented on the basis of the software and hardware of
[0027] В общем виде (см. фиг. 3) система (200) для проверки комплекта документов содержит объединенные общей шиной информационного обмена один или несколько процессоров (201), средства памяти, такие как ОЗУ (202) и ПЗУ (203), интерфейсы ввода/вывода (204), устройства ввода/вывода (205), и устройство для сетевого взаимодействия (206).[0027] In a general view (see FIG. 3), the system (200) for checking a set of documents comprises one or more processors (201) connected by a common data bus, memory means such as RAM (202) and ROM (203), I / O interfaces (204), input / output devices (205), and a device for network communication (206).
[0028] Процессор (201) (или несколько процессоров, многоядерный процессор и т.п.) может выбираться из ассортимента устройств, широко применяемых в настоящее время, например, таких производителей, как: Intel™, AMD™, Apple™, Samsung Exynos™, MediaTEK™, Qualcomm Snapdragon™ и т.п. Под процессором или одним из используемых процессоров в системе (200) также необходимо учитывать графический процессор, например, GPU NVIDIA с программной моделью, совместимой с CUDA, или Graphcore, тип которых также является пригодным для полного или частичного выполнения способа, а также может применяться для обучения и применения моделей машинного обучения в различных информационных системах.[0028] The processor (201) (or multiple processors, a multi-core processor, etc.) may be selected from a variety of devices that are currently widely used, for example, manufacturers such as Intel ™, AMD ™, Apple ™, Samsung Exynos ™, MediaTEK ™, Qualcomm Snapdragon ™, etc. Under a processor or one of the processors used in the system (200), it is also necessary to take into account a graphic processor, for example, an NVIDIA GPU with a CUDA-compatible software model, or Graphcore, the type of which is also suitable for complete or partial execution of the method, and can also be used for training and application of machine learning models in various information systems.
[0029] ОЗУ (202) представляет собой оперативную память и предназначено для хранения исполняемых процессором (201) машиночитаемых инструкций для выполнения необходимых операций по логической обработке данных. ОЗУ (202), как правило, содержит исполняемые инструкции операционной системы и соответствующих программных компонент (приложения, программные модули и т.п.). При этом, в качестве ОЗУ (202) может выступать доступный объем памяти графической карты или графического процессора.[0029] RAM (202) is a random access memory and is intended to store machine-readable instructions executed by the processor (201) to perform necessary operations for logical data processing. RAM (202), as a rule, contains executable instructions of the operating system and corresponding software components (applications, program modules, etc.). At the same time, the available memory capacity of the graphics card or graphics processor may act as RAM (202).
[0030] ПЗУ (203) представляет собой одно или более устройств постоянного хранения данных, например, жесткий диск (HDD), твердотельный накопитель данных (SSD), флэш-память (EEPROM, NAND и т.п.), оптические носители информации (CD-R/RW, DVD-R/RW, BlueRay Disc, MD) и др.[0030] The ROM (203) is one or more permanent storage devices, for example, a hard disk drive (HDD), a solid state drive (SSD), flash memory (EEPROM, NAND, etc.), optical storage media ( CD-R / RW, DVD-R / RW, BlueRay Disc, MD), etc.
[0031] Для организации работы компонентов системы (200) и организации работы внешних подключаемых устройств применяются различные виды интерфейсов В/В (204). Выбор соответствующих интерфейсов зависит от конкретного исполнения вычислительного устройства, которые могут представлять собой, не ограничиваясь: PCI, AGP, PS/2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS/Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232 и т.п.[0031] Various types of I / O interfaces (204) are used to organize the operation of system components (200) and organize the operation of external connected devices. The choice of appropriate interfaces depends on the particular computing device, which can be, but not limited to: PCI, AGP, PS / 2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS / Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232, etc.
[0032] Для обеспечения взаимодействия пользователя с вычислительной системой (200) применяются различные средства (205) В/В информации, например, клавиатура, дисплей (монитор), сенсорный дисплей, тач-пад, джойстик, манипулятор мышь, световое перо, стилус, сенсорная панель, трекбол, динамики, микрофон, средства дополненной реальности, оптические сенсоры, планшет, световые индикаторы, проектор, камера, средства биометрической идентификации (сканер сетчатки глаза, сканер отпечатков пальцев, модуль распознавания голоса) и т.п.[0032] Various means (205) of I / O information, for example, a keyboard, a display (monitor), a touch screen, a touch pad, a joystick, a mouse, a light pen, a stylus, are used to provide user interaction with a computing system (200), touch panel, trackball, speakers, microphone, augmented reality, optical sensors, tablet, light indicators, projector, camera, biometric identification tools (retina scanner, fingerprint scanner, voice recognition module), etc.
[0033] Средство сетевого взаимодействия (206) обеспечивает передачу данных посредством внутренней или внешней вычислительной сети, например, Интранет, Интернет, ЛВС и т.п. В качестве одного или более средств (206) может использоваться, но не ограничиваться: Ethernet карта, GSM модем, GPRS модем, LTE модем, 5G модем, модуль спутниковой связи, NFC модуль, Bluetooth и/или BLE модуль, Wi-Fi модуль и др.[0033] The network interaction tool (206) provides data transmission via an internal or external computer network, for example, an Intranet, the Internet, a LAN, and the like. As one or more means (206), it can be used, but not limited to: Ethernet card, GSM modem, GPRS modem, LTE modem, 5G modem, satellite communications module, NFC module, Bluetooth and / or BLE module, Wi-Fi module and other
[0034] Дополнительно могут применяться также средства спутниковой навигации в составе системы (200), например, GPS, ГЛОНАСС, BeiDou, Galileo.[0034] Additionally, satellite navigation systems as part of the system (200), for example, GPS, GLONASS, BeiDou, Galileo, can also be used.
[0035] Конкретный выбор элементов устройства (200) для реализации различных программно-аппаратных архитектурных решений может варьироваться с сохранением обеспечиваемого требуемого функционала.[0035] The specific selection of device elements (200) for implementing various hardware and software architectural solutions may vary while maintaining the required functionality.
[0036] На первом этапе работы системы 1 на модуль 10 преобразования данных поступает по меньшей мере одно изображение документа, в частности отсканированного документа, например, файл в формате многостраничного PDF, JPEG, TIFF или любого другого известного формата, который может использоваться для хранения в нем отсканированного электронного комплекта документа. Изображение документа может поступать от источника данных изображений 50, в частности непосредственно от устройства сканирования документов, например, сканера, либо могут быть извлечены из соответствующей базы данных изображений, в которую данные изображения документов заранее сохранены.[0036] At the first stage of operation of the
[0037] Документом, изображение которого поступает на модуль 10 преобразования данных, может быть любой документ, состоящий по меньшей мере из одной страницы, которая может содержать атрибуты подписанта, и заполненный в соответствии с известным шаблоном. Документ может быть, например, договором, заключенным между компаниями «А» и «Б», либо между компанией и физическим лицом, либо между физическими лицами, либо документ может представлять такой вид документа, который подписывается только лишь одним подписантом - компанией или физическим лицом, например, доверенностью от компании или от физического лица; или пр.[0037] The document, the image of which is supplied to the data conversion module 10, can be any document consisting of at least one page, which may contain the attributes of the signatory, and filled in accordance with a known template. A document can be, for example, a contract concluded between companies “A” and “B”, or between a company and an individual, or between individuals, or a document can represent a type of document that is signed by only one signatory - a company or an individual , for example, a power of attorney from a company or from an individual; or other
[0038] Модуль 10 преобразования данных осуществляет распознавание символов на по меньшей мере одном изображении страницы документа и преобразует их в текстовую информацию. Также модуль 10 преобразования данных может быть выполнен с возможностью предобработки полученной текстовой информации для снижения многообразия возможных текстов распознанных изображений документов с целью упростить работу следующим модулям системы. На первом этапе осуществляется токенизация текстовой информации. Этап токенизации, предполагает выделение базовых элементов текста (токенов), ограниченных с двух сторон разделительными символами, пробелами или знаками пунктуации. Элементами здесь выступают слова, числа, даты, сокращения, аббревиатуры, составные предлоги и т.д. Токенизация позволяет выделить дискретные единицы текста, являющиеся основой для дальнейшей работы на этапах морфологического и синтаксического анализа. В результате токенизации каждому элементу присваивается соответствующий тип: слово, число, дата, адрес и т.д.[0038] The data conversion module 10 recognizes characters in at least one image of a document page and converts them into text information. Also, the data conversion module 10 can be configured to pre-process the received text information to reduce the variety of possible texts of recognized document images in order to simplify the work of the following system modules. At the first stage, tokenization of textual information is carried out. The tokenization stage involves the allocation of the basic elements of the text (tokens), limited on both sides by separating characters, spaces or punctuation marks. The elements here are words, numbers, dates, abbreviations, abbreviations, compound prepositions, etc. Tokenization allows you to select discrete units of text, which are the basis for further work at the stages of morphological and syntactic analysis. As a result of tokenization, each element is assigned the corresponding type: word, number, date, address, etc.
[0039] Далее модуль 10 преобразования данных переходит к этапу формирования векторов страницы документа посредством модуля 11 формирования векторов. На данном этапе упомянутый модуль для каждого слова, полученного после обработки текста, определяет значение веса слова с помощью статистической меры TF-IDF.[0039] Next, the data conversion module 10 proceeds to the step of generating the vectors of the document page through the
[0040] TF-IDF - статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса. Вес некоторого слова пропорционален количеству употребления этого слова в документе, и обратно пропорционален частоте употребления слова в других документах коллекции.[0040] TF-IDF is a statistical measure used to assess the importance of a word in the context of a document that is part of a collection of documents or corpus. The weight of a word is proportional to the amount of use of this word in the document, and inversely proportional to the frequency of use of the word in other documents of the collection.
[0041] Мера TF-IDF часто используется в задачах анализа текстов и информационного поиска, например, как один из критериев релевантности документа поисковому запросу, при расчете меры близости документов при кластеризации.[0041] The TF-IDF measure is often used in text analysis and information retrieval tasks, for example, as one of the criteria for document relevance to a search query, when calculating the measure of proximity of documents during clustering.
[0042] TF (term frequency - частота слова) - отношение числа вхождения некоторого слова к общему количеству слов документа. Значимость слова в пределах отдельного документа может быть определена следующей характеристикой:[0042] TF (term frequency) is the ratio of the number of occurrences of a word to the total number of words in a document. The significance of a word within a single document can be determined by the following characteristic:
- где ni - число вхождений слова ti в документ d; Σk nk - общее число слов в данном пользовательском запросе и/или документе.- where n i is the number of occurrences of the word t i in document d; Σ k n k is the total number of words in a given user query and / or document.
[0043] IDF (inverse document frequency - обратная частота документа) -величина, обратно пропорциональная частоте, с которой некоторое слово встречается в документах коллекции.[0043] IDF (inverse document frequency) is a value inversely proportional to the frequency with which a certain word occurs in collection documents.
[0044] Учет IDF уменьшает вес широкоупотребительных слов. Для каждого уникального слова в пределах конкретной коллекции документов существует только одно значение IDF. IDF-характеристика определяется следующим отношением:[0044] Accounting for IDF reduces the weight of commonly used words. For each unique word within a particular collection of documents, there is only one IDF value. The IDF characteristic is defined by the following relation:
- где |D| - количество документов в корпусе; - количество документов, в которых встречается ti.- where | D | - the number of documents in the case; - the number of documents in which t i occurs.
[0045] Таким образом, мера TF-IDF является произведением двух сомножителей:[0045] Thus, the measure TF-IDF is the product of two factors:
[0046] Большой вес в мере TF-IDF получают слова с высокой частотой в пределах конкретного документа и с низкой частотой употреблений в других документах.[0046] Words with a high frequency within a particular document and with a low frequency of use in other documents receive a large weight in the TF-IDF measure.
[0047] Мера TF-IDF часто используется для представления документов коллекции в виде числовых векторов, отражающих важность использования каждого слова из некоторого набора слов (количество слов набора определяет размерность вектора) в каждом документе. Подобная модель называется векторной моделью и дает возможность сравнивать тексты, сравнивая представляющие их вектора в какой-либо метрике (евклидово расстояние, косинусная мера, манхэттенское расстояние, расстояние Чебышева и др.), то есть, производя кластерный анализ.[0047] The TF-IDF measure is often used to represent collection documents as numerical vectors reflecting the importance of using each word from a certain set of words (the number of words in a set determines the dimension of the vector) in each document. Such a model is called a vector model and makes it possible to compare texts by comparing the vectors representing them in any metric (Euclidean distance, cosine measure, Manhattan distance, Chebyshev distance, etc.), that is, by performing cluster analysis.
[0048] Далее модуль 11 формирования векторов на основе значений слов, полученных после предобработки, структуры зависимостей слов друг от друга в текстовой информации и значений веса упомянутых слов формирует вектор страницы документа. Сформированный вектор страницы документа направляются в модуль 20 классификации страниц для определения типа документа и типа страниц документа, т.е. для классификации документа по принадлежности к заранее определенным типам страниц и документов.[0048] Next, the
[0049] Соответственно, если отсканированный документ содержит две и более страницы, то модуль 11 формирования векторов формирует аналогичным образом для каждой страницы документа вектор страницы документа, которые также направляются в модуль 20 классификации страниц.[0049] Accordingly, if the scanned document contains two or more pages, then the
[0050] Модуль 20 классификации страниц для определения типа документа и типов его страниц содержит математическую модель, на вход которой поступают данные о векторах страниц документа. Математическая модель может быть реализована посредством алгоритмов машинного обучения «случайный лес» (Random forest), заключающихся в использовании комитета (ансамбля) решающих деревьев. Классификация объектов проводится путем голосования: каждое дерево комитета относит классифицируемый объект, в данном случае страницу документа, к одному из классов, характеризующий тип страницы и тип документа, и побеждает класс, за который проголосовало наибольшее число деревьев. Оптимальное число деревьев подбирается таким образом, чтобы минимизировать ошибку классификатора на тестовой выборке.[0050] The
[0051] Соответственно, после обработки данных о векторе страницы документа на выход математической модели поступает от каждого дерева решений указатели типа документа и типа страницы. Модуль 20 классификации страниц анализирует количество упомянутых указателей, полученных на выходе упомянутой модели, и определяет тип документа и тип страницы на основе того указателя типа документа, количество которых на выходе математической модели больше, т.е. за который проголосовало наибольшее число деревьев. Например, если наибольшее число деревьев проголосовало за то, что документ, на основе изображения страницы которого был сформирован вектор страницы документа, является Договором, заключенным между компаниями «А» и «Б», а страница является страницей Договора с атрибутами подписантов, то тип документа будет определяться как «договор», а данные о типе страницы будут указывать на то, что страница на изображении является страницей договора, которая должна содержать атрибуты подписантов в виде подписей и печатей компаний «А» и «Б», расположенных в заданных областях на странице (например, в областях 105 и 106, см. фиг. 2). Также тип документа может быть определен, например, как доверенность от компании «А» или от физического лица, а тип страницы - страница доверенности с атрибутами подписанта, например, в виде подписи и печати в заданной области страницы, например, области 106, если доверенность от компании, или только в виде подписи в заданной области страницы, если доверенность от физического лица.[0051] Accordingly, after processing the data on the document page vector, the output of the mathematical model receives from each decision tree pointers of the document type and page type. The
[0052] Если отсканированный документ состоит из двух и более страниц, то на вход математической модели поступают данные о двух и более векторах страниц документа. Модуль 20 классификации страниц аналогичным образом анализирует количество упомянутых указателей на выходе математической модели и определяет тип документа и перечень его страниц на основе того указателя типа документа, количество которых на выходе математической модели больше. В данном случае тип документа определяется на основе векторов всех его страниц. Например, на основе векторов страниц документа модуль 20 классификации страниц может определить тип документа как договор между компаниями «А» и «Б», состоящий из 4 станицы, причем данные о типах страниц могут указывать на то, что первая страница является страницей Договора, не содержащей атрибутов подписанта, вторая страница - страница договора с атрибутами подписантов в заданных областях, а 3 и 4 страницы - являются приложениями, не содержащими атрибуты подписантов.[0052] If the scanned document consists of two or more pages, then data on two or more vectors of the document pages are input to the mathematical model. The
[0053] Данные о типах документа и типах его страниц модуль 20 классификации страниц направляет в модуль 40 проверки комплекта документов и в модуль 12 фильтрации изображений, который определяет типы страниц с по меньшей мере одним атрибутом подписанта, извлекает соответствующие изображения страниц с по меньшей мере одним атрибутом подписанта из изображения документа и направляет данные изображения страниц в модуль 30 проверки атрибутов подписанта для дальнейшего анализа. Таким образом, поскольку в модуль 30 проверки атрибутов подписанта направляется не все изображение документа, а только изображения страниц документа, тип которых предполагает наличие на данных страницах по меньшей мере одного атрибута подписанта, снижается вычислительная нагрузка и повышается скорость обработки изображений модулем 30 для детектирования изображений атрибутов подписанта, вследствие чего повышается скорость проведения автоматизированной проверки документов на их комплектность.[0053] The
[0054] Модуль 30 проверки атрибутов подписанта после получения изображений страниц с по меньшей мере одним атрибутом подписанта переходит к этапу детектирования на каждом полученном изображении страницы документа по меньшей мере одного изображения атрибута подписанта для определения его расположение на странице документа. Например, модуль 30 проверки атрибутов подписанта может определить, что изображение атрибута подписанта представляет собой изображение подписи и/или печати в области 105 или 106 документа (см. фиг 2). Соответственно, в области 101 документа 100 может содержаться информация о номере Договора, в области 102 - название города, в области 103 - дата Договора, а в области 104 - текст Договора.[0054] The signer
[0055] Для детектирования изображений атрибутов подписанта используются известные алгоритмы работы нейронной сети архитектуры YOLOv3, обученной на отобранном наборе данных подписей и печатей, раскрытые, например, в статье, опубликованной в Интернет по адресу: https://pjreddie.com/media/files/papers/YOLOv3.pdf. Данные о детектированных атрибутах подписанта, в частности информация об их расположении на странице документа, передаются в модуль 40 проверки комплекта документов.[0055] To detect images of signatory attributes, the well-known algorithms of the neural network architecture YOLOv3 trained on a selected set of signature and seal data are used, disclosed, for example, in an article published on the Internet at: https://pjreddie.com/media/files /papers/YOLOv3.pdf. Data on the detected attributes of the signatory, in particular information about their location on the document page, is transmitted to the
[0056] Модуль 40 проверки комплекта документов в процессе своей работы проверяет наличие обязательных для данного типа документа перечня страниц и атрибутов подписантов, таких как печать и/или подпись и/или комплект подписей, в заданных областях страниц. Для определения атрибутов подписанта, наличие которых необходимо проверить, модуль 40 проверки комплекта документов может быть оснащен соответствующей БД 41 с информацией о шаблонах документов, их перечня страниц, и атрибутах подписантов, наличие которых необходимо проверить в заданной области страниц из перечня страниц данного типа документа. Поскольку составление векторов страниц осуществляется на основе текстовой информации, которая может включать названия одной или нескольких компаний, или имена одного или нескольких физических лиц, то информация о типе страниц также будет определять, в какой области страницы должны располагаться атрибуты подписана на изображении страницы документа.[0056] The
[0057] Например, если информация о типе документа указывает на то, что данный документ является Договором 200 (см. фиг. 2), состоящим из 1 страницы Договора, который должен быть подписан только лишь одним подписантом, то модуль 40 проверки комплекта документов в соответствии с шаблоном документа проверяет область страницы 105 или 106, в зависимости от типа документа и типа страницы, на наличие атрибута подписанта, в частности его подписи и/или печати. Если информация о типе документа указывает на то, что данный документ является договором, состоящим из 2 страниц договора, причем вторая страница Договора в соответствии с шаблоном документа должна быть подписана двумя подписантами, то модуль 40 проверки комплекта документов проверяет области 105 или 106 второй страницы на наличие атрибутов подписантов, причем расположение атрибутов первого и второго подписантов в упомянутых областях определяется типом документа и типами его страниц.[0057] For example, if information about the type of document indicates that this document is an Agreement 200 (see Fig. 2), consisting of 1 page of the Agreement, which should be signed by only one signatory, then the
[0058] Для проверки документа модуль 40 проверки комплекта документов на основе данных о типе документа, полученных от модуля 20 классификации страниц, осуществляет поиск в БД 41 шаблона данного типа документа, на основе которого модуль 40 будет выполнять проверку комплекта документа, и извлекает информацию о типах страниц данного шаблона документа. Например, если модуль 20 классификации страниц определил, что отсканированный документ является Договором между компаниями «А» и «Б», то на основе данной информации о типе документа модуль 40 проверки комплекта документов находит в БД шаблон Договора между компаниями «А» и «Б» и извлекает информацию о типах страниц, присутствующих в шаблоне Договора. Если Договор выполнен на 1 листе, то как правило атрибуты подписанта должны быть расположены на первой странице документа. Информация о том, что атрибуты подписанта должны находиться на первой странице, а также их расположение на странице, может содержаться в информации о типе страницы, в соответствии с которой модуль 40 проверки комплекта документов будет осуществлять проверку наличия атрибутов подписантов на первой странице договора.[0058] To verify the document, the
[0059] Если Договор состоит двух и более страниц, то, например, информация о типе последней страницы документа может содержать информацию о том, что атрибуты подписанта должны находиться в заданной области (например, в областях 105 или 106) на данной странице. Также информация о типе первой страницы или о типе документа может содержать информацию о том, что атрибуты подписанта должны находиться в заданных областях на второй или другой странице в документе.[0059] If the Agreement consists of two or more pages, then, for example, information about the type of the last page of the document may contain information that the attributes of the signatory should be in a given area (for example, in
[0060] Если информация о типе страниц, полученной от модуля 20 классификации страниц, не совпадают с информацией о типе станиц шаблона документа, то модуль 40 проверки комплекта документов принимает решение о том, что комплект документа неполон. Например, согласно шаблону документа данный отсканированный документ является Договором, заключенным с физическим лицом, состоящим из 3 страниц, где первые 2 страницы являются страницами Договора, а третья страница - сканом паспорта. Таким образом, если в отсканированном Договоре будет отсутствовать скан паспорта или вместо скана паспорта будет приложен другой документ, изображение которого будет обработано системой 1, то информация о типе третьей странице, полученная от модуля 20, не будет совпадать с информацией о типе станиц шаблона документа. [0061] Информация о том, что отсканированный комплект документа неполон, например, в виде сообщения «отсутствует скан паспорта», может быть выведена на средства (205) В/В информации.[0060] If the page type information received from the
[0062] Если информация о типе страниц, полученной от модуля 20 классификации страниц, совпадают с информацией о типе станиц шаблона документа, то модуль 40 проверки комплекта документов извлекает из БД 41 информацию о расположении по меньшей мере одного атрибута подписанта на по меньшей мере одной странице согласно шаблону документа для тех типов страниц, которые должны содержать по меньшей мере один атрибут подписанта. Упомянутая информация о расположении по меньшей мере одного атрибута подписанта может быть получена экспериментально на основе данных о средних координатах расположения подписей и печатей в шаблонах документов.[0062] If the page type information received from the
[0063] Например, если отсканированный документ является Договором между компаниями «А» и «Б», состоящий из 1 страницы, то модуль 20 классификации данных извлекает из БД 41 информацию о расположении подписей и/или печатях (т.е. о атрибутах подписанта) на данной странице документа в соответствии с шаблоном. В частности, в БД 41 может храниться как тип шаблона документа, в котором информация о расположении будет указывать на то, что атрибуты подписанта компании «А» должны находиться в области страницы 105 Договора 100, а атрибуты подписанта компании «Б» - в области 106 Договора 100, так и тип шаблона документа, в котором атрибуты подписанта компании «Б» должны находиться в области 105 Договора 100, а атрибуты подписанта компании «А» - в области 106 Договора 100.[0063] For example, if the scanned document is an Agreement between companies “A” and “B”, consisting of 1 page, then the
[0064] Соответственно, извлеченную на предыдущем шаге из БД 41 информацию о расположении по меньшей мере одного атрибута подписанта модуль 40 проверки комплекта документов сравнивает с информацией о расположении по меньшей мере одного атрибута на странице документа, полученной от модуля 30. Если извлеченная из БД 41 упомянутая информация о расположении по меньшей мере одного атрибута подписанта не совпадает с информацией о расположении по меньшей мере одного атрибута на странице документа, полученной от модуля 30, то модуль 40 проверки комплекта документов принимает решение о том, что комплект документа неполон. Информация о том, что отсканированный комплект документа неполон, например, в виде сообщения «отсутствует подпись клиента на 3 странице», может быть выведена на средства (205) В/В информации[0064] Accordingly, the information about the location of at least one attribute of the signer extracted from the
[0065] Если извлеченная из БД 41 упомянутая информация о расположении совпадает с информацией о расположении, полученной от модуля 30, то модуль 40 проверки комплекта документов принимает решение о том, что комплект документа соответствует установленным требованиям комплектности. Информация о том, что отсканированный комплект документа полон также может быть выведена на средства (205) В/В информации.[0065] If the location information extracted from the
[0066] Таким образом, за счет того, что тип документа и типы страниц документа, входящих в его состав, определяются на основе векторов страниц, сформированных на основе текстовой информации, содержащейся на странице, повышается точность определения типа документа и перечня его станиц, а также перечня страниц и атрибутов подписанта, наличие которых необходимо проверить на изображении документа, т.е. обеспечивается повышение точности проведения автоматизированной проверки документов на их комплектность. Формирование векторов страниц с учетом значений слов, содержащихся в текстовой информации, структуры зависимостей слов друг от друга и значений веса упомянутых слов дополнительно повысит точность при определении типа документа и типов страниц документа, а также перечня страниц и атрибутов подписанта, наличие которых необходимо проверить на изображении документа.[0066] Thus, due to the fact that the type of the document and the types of pages of the document included in its composition are determined based on the vectors of the pages formed on the basis of the text information contained on the page, the accuracy of determining the type of document and the list of its pages is increased, and also a list of pages and attributes of the signatory, the presence of which must be checked on the image of the document, i.e. provides increased accuracy of automated verification of documents for their completeness. The formation of page vectors taking into account the meaning of words contained in textual information, the structure of the dependencies of words on each other and the weight values of the mentioned words will further increase accuracy in determining the type of document and types of document pages, as well as the list of pages and attributes of the signer, the presence of which must be checked in the image document.
[0067] Дополнительно модуль 40 проверки комплекта документов может быть выполнен с возможностью классификации по меньшей мере одного атрибута подписанта, которая осуществляется на основе информации о расположения атрибута подписанта. Для обеспечения данной возможности БД 41 дополнительно содержит информацию о том, к какой стороне Договора относится атрибут подписанта в зависимости от его расположения на странице. Например, в БД 41 может содержаться информация о том, что в области страницы 105 Договора 100 расположен атрибут подписанта клиента, а области страницы 106 -исполнителя Договора. Таким образом, сравнивая информацию о расположении атрибута подписанта, полученную от модуля 30, с информацией о расположении атрибута подписанта из БД 41 модуль 40 проверки комплекта документов классифицирует изображение атрибута подписанта, например, как атрибут подписанта клиент, если атрибут подписанта расположен в области страницы 105, или как атрибут подписанта исполнителя Договора, если атрибут подписанта расположен в области страницы 106.[0067] Additionally, the document set
[0068] Модификации и улучшения вышеописанных вариантов осуществления настоящего технического решения будут ясны специалистам в данной области техники. Предшествующее описание представлено только в качестве примера и не несет никаких ограничений. Таким образом, объем настоящего технического решения ограничен только объемом прилагаемой формулы изобретения.[0068] Modifications and improvements to the above-described embodiments of the present technical solution will be apparent to those skilled in the art. The preceding description is provided as an example only and is not subject to any restrictions. Thus, the scope of the present technical solution is limited only by the scope of the attached claims.
Claims (17)
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2019109055A RU2702967C1 (en) | 2019-03-28 | 2019-03-28 | Method and system for checking an electronic set of documents |
EA201990647A EA201990647A1 (en) | 2019-03-28 | 2019-04-03 | METHOD AND SYSTEM FOR VERIFICATION OF ELECTRONIC SET OF DOCUMENTS |
PCT/RU2019/000197 WO2020197428A1 (en) | 2019-03-28 | 2019-06-06 | Method and system for checking a set of electronic documents |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2019109055A RU2702967C1 (en) | 2019-03-28 | 2019-03-28 | Method and system for checking an electronic set of documents |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2702967C1 true RU2702967C1 (en) | 2019-10-14 |
Family
ID=68280239
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2019109055A RU2702967C1 (en) | 2019-03-28 | 2019-03-28 | Method and system for checking an electronic set of documents |
Country Status (3)
Country | Link |
---|---|
EA (1) | EA201990647A1 (en) |
RU (1) | RU2702967C1 (en) |
WO (1) | WO2020197428A1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11361528B2 (en) * | 2020-08-11 | 2022-06-14 | Nationstar Mortgage LLC | Systems and methods for stamp detection and classification |
WO2024030042A1 (en) * | 2022-08-04 | 2024-02-08 | Публичное Акционерное Общество "Сбербанк России" | Method and system for processing images of documents |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113553803A (en) * | 2021-06-28 | 2021-10-26 | 北京来也网络科技有限公司 | Electronic file signature method and device based on RPA and AI and electronic equipment |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2229744C2 (en) * | 2002-02-28 | 2004-05-27 | ЗАО "НИИИН МНПО "Спектр" | Method and device for computerized optical processing of documents |
RU56682U1 (en) * | 2006-06-08 | 2006-09-10 | Александр Алексеевич Бойко | INFORMATION-ANALYTICAL TRADING-OPERATING SYSTEM OF ELECTRONIC TRADING |
US20090059261A1 (en) * | 2007-08-30 | 2009-03-05 | Canon Kabushiki Kaisha | Image processing apparatus and integrated document generating method |
US20110134494A1 (en) * | 2009-12-08 | 2011-06-09 | Canon Kabushiki Kaisha | Image scanning apparatus, control method for image scanning apparatus, and storage medium |
US20170212875A1 (en) * | 2016-01-27 | 2017-07-27 | Microsoft Technology Licensing, Llc | Predictive filtering of content of documents |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10134682B4 (en) * | 2001-07-20 | 2009-07-30 | Mediasec Technologies Gmbh | Method and device for confirming the authenticity of a document and electronic safe for storing the data |
US7904725B2 (en) * | 2006-03-02 | 2011-03-08 | Microsoft Corporation | Verification of electronic signatures |
US20110258150A1 (en) * | 2010-01-15 | 2011-10-20 | Copanion, Inc. | Systems and methods for training document analysis system for automatically extracting data from documents |
US9563926B2 (en) * | 2013-03-14 | 2017-02-07 | Applied Materials Technologies Limited | System and method of encoding content and an image |
RU2014118012A (en) * | 2014-05-05 | 2015-11-10 | Галина Эдуардовна Добрякова | SYSTEM AND METHOD OF REMOTE CONCLUSION AND REGISTRATION OF ELECTRONIC TRANSACTIONS |
-
2019
- 2019-03-28 RU RU2019109055A patent/RU2702967C1/en active
- 2019-04-03 EA EA201990647A patent/EA201990647A1/en unknown
- 2019-06-06 WO PCT/RU2019/000197 patent/WO2020197428A1/en active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2229744C2 (en) * | 2002-02-28 | 2004-05-27 | ЗАО "НИИИН МНПО "Спектр" | Method and device for computerized optical processing of documents |
RU56682U1 (en) * | 2006-06-08 | 2006-09-10 | Александр Алексеевич Бойко | INFORMATION-ANALYTICAL TRADING-OPERATING SYSTEM OF ELECTRONIC TRADING |
US20090059261A1 (en) * | 2007-08-30 | 2009-03-05 | Canon Kabushiki Kaisha | Image processing apparatus and integrated document generating method |
US20110134494A1 (en) * | 2009-12-08 | 2011-06-09 | Canon Kabushiki Kaisha | Image scanning apparatus, control method for image scanning apparatus, and storage medium |
US20170212875A1 (en) * | 2016-01-27 | 2017-07-27 | Microsoft Technology Licensing, Llc | Predictive filtering of content of documents |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11361528B2 (en) * | 2020-08-11 | 2022-06-14 | Nationstar Mortgage LLC | Systems and methods for stamp detection and classification |
WO2024030042A1 (en) * | 2022-08-04 | 2024-02-08 | Публичное Акционерное Общество "Сбербанк России" | Method and system for processing images of documents |
Also Published As
Publication number | Publication date |
---|---|
WO2020197428A1 (en) | 2020-10-01 |
EA201990647A1 (en) | 2020-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10489439B2 (en) | System and method for entity extraction from semi-structured text documents | |
US10482174B1 (en) | Systems and methods for identifying form fields | |
CN111680490B (en) | Cross-modal document processing method and device and electronic equipment | |
RU2702967C1 (en) | Method and system for checking an electronic set of documents | |
US20160092730A1 (en) | Content-based document image classification | |
US11816138B2 (en) | Systems and methods for parsing log files using classification and a plurality of neural networks | |
US20210366055A1 (en) | Systems and methods for generating accurate transaction data and manipulation | |
CN108170468B (en) | Method and system for automatically detecting annotation and code consistency | |
WO2023279045A1 (en) | Ai-augmented auditing platform including techniques for automated document processing | |
EP4141818A1 (en) | Document digitization, transformation and validation | |
US20170178528A1 (en) | Method and System for Providing Automated Localized Feedback for an Extracted Component of an Electronic Document File | |
CN112464927B (en) | Information extraction method, device and system | |
KR102282025B1 (en) | Method for automatically sorting documents and extracting characters by using computer | |
KR102280490B1 (en) | Training data construction method for automatically generating training data for artificial intelligence model for counseling intention classification | |
RU2739342C1 (en) | Method and system for intelligent document processing | |
WO2021054850A1 (en) | Method and system for intelligent document processing | |
KR102467096B1 (en) | Method and apparatus for checking dataset to learn extraction model for metadata of thesis | |
EA043496B1 (en) | METHOD AND SYSTEM FOR CHECKING AN ELECTRONIC SET OF DOCUMENTS | |
CN111341404B (en) | Electronic medical record data set analysis method and system based on ernie model | |
RU2755606C2 (en) | Method and system for classifying data for identifying confidential information in the text | |
EP3640861A1 (en) | Systems and methods for parsing log files using classification and a plurality of neural networks | |
EA040560B1 (en) | METHOD AND SYSTEM FOR INTELLIGENT DOCUMENT PROCESSING | |
CN112632268B (en) | Complaint work order detection processing method, complaint work order detection processing device, computer equipment and storage medium | |
CN113168527A (en) | System and method for extracting information from entity documents | |
US12014561B2 (en) | Image reading systems, methods and storage medium for performing geometric extraction |