RU2744769C1 - Method for image processing using adaptive technologies based on neural networks and computer vision - Google Patents
Method for image processing using adaptive technologies based on neural networks and computer vision Download PDFInfo
- Publication number
- RU2744769C1 RU2744769C1 RU2020122196A RU2020122196A RU2744769C1 RU 2744769 C1 RU2744769 C1 RU 2744769C1 RU 2020122196 A RU2020122196 A RU 2020122196A RU 2020122196 A RU2020122196 A RU 2020122196A RU 2744769 C1 RU2744769 C1 RU 2744769C1
- Authority
- RU
- Russia
- Prior art keywords
- document
- neural network
- image
- recognized
- type
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
Abstract
Description
Область техники, к которой относится изобретениеThe technical field to which the invention relates
Настоящее изобретение относится к обработке изображений неквалифицированным пользователем. В частности, изобретение относится к распознаванию и классификации документов из потока произвольных изображений на основе алгоритмов компьютерного зрения и нейронных сетей.The present invention relates to image processing by an unskilled user. In particular, the invention relates to the recognition and classification of documents from a stream of arbitrary images based on computer vision algorithms and neural networks.
Уровень техникиState of the art
Современные смартфоны позволяют быстро делать изображения и сохранять их в большом количестве. Зачастую в количестве гораздо большем, чем пользователь способен рассортировать, обработать. Функциональные возможности таких устройств все время увеличиваются, количество необработанных фотографий растет, пользователю становится практически невозможно найти фотографию, которую он сделал несколько месяцев или год назад.Modern smartphones allow you to quickly capture images and save them in large quantities. Often in quantities much larger than the user is able to sort, process. The functionality of such devices is constantly increasing, the number of raw photos is growing, and it becomes almost impossible for the user to find a photo that he took a few months or a year ago.
Отдельная задача заключается в учете фотографий каких-либо документов, или информационных материалов. Необходимость более строгой классификации и извлечения информации из фотографий такого рода очевидна.A separate task is to take into account photographs of any documents or information materials. The need for stricter classification and information extraction from such photographs is obvious.
Например, чек на товар становится нечитаемым через некоторое время из-за того, что он напечатан на термобумаге, и чтобы избежать ситуаций рекомендуется делать копии чеков, как бумажные, так и электронные, которые можно в любой момент распечатать. Однако из-за большого количества изображений поиск фотографии чека, сделанной больше года назад, представляется трудоемкой, а часто неразрешимой задачей.For example, a receipt for a product becomes unreadable after a while due to the fact that it is printed on thermal paper, and in order to avoid situations, it is recommended to make copies of receipts, both paper and electronic, which can be printed out at any time. However, due to the large number of images, finding a photo of a receipt taken more than a year ago seems to be a time consuming and often insoluble task.
Кроме того, вероятность использования копии каждого чека или другого документа или материала невелика, поэтому пользователь не готов самостоятельно вводить различные атрибуты и параметры сфотографированного документа.In addition, the likelihood of using a copy of each receipt or other document or material is small, so the user is not ready to independently enter various attributes and parameters of the photographed document.
В связи с этим возникает необходимость в наличии виртуального помощника на телефоне, реализованного, например, в виде мобильного приложения, который бы самостоятельно, без привлечения пользователя обнаруживал бы документы, определял бы их тип, распознавал текст и другие важные характеристики (QR код и другие).In this regard, there is a need for a virtual assistant on the phone, implemented, for example, in the form of a mobile application, which would independently, without involving the user, detect documents, determine their type, recognize text and other important characteristics (QR code and others) ...
Такой помощник мог бы не только выделять из потока изображений документы и материалы, но и принимал бы решение за пользователя по ряду полей, обнаруженных в документе: ставил напоминания без его участия по дате окончания действия ОСАГО, заграничного паспорта и другие.Such an assistant could not only select documents and materials from the stream of images, but also make a decision for the user on a number of fields found in the document: set reminders without his participation by the expiration date of the CTP, foreign passport and others.
В настоящей момент у пользователя есть набор различных программ и технических средств, которые способны выполнить некоторые из указанных действий. В частности, известно применение нейросетей либо для узнавания образа на изображении, либо для распознавания текста. Однако отсутствует возможность поручить выполнение указаных действий виртуальному помощнику. At the moment, the user has a set of various programs and technical means that are capable of performing some of the indicated actions. In particular, it is known to use neural networks either for recognizing an image in an image, or for text recognition. However, there is no way to instruct the virtual assistant to perform these actions.
Кроме того, технологии классификации и извлечения информации из изображений востребованы не только на смартфоне, но и на других мобильных персональных устройствах, таких как очки дополненной реальности, и, кроме того, на немобильных и не персональных устройствах, таких как корпоративный сканер, камеры CCTV `осуществляющие захват и фиксацию документов.In addition, technologies for classifying and extracting information from images are in demand not only on a smartphone, but also on other mobile personal devices, such as augmented reality glasses, and, in addition, on non-mobile and non-personal devices such as a corporate scanner, CCTV cameras ` carrying out the capture and fixation of documents.
Раскрытие сущности изобретенияDisclosure of the essence of the invention
Предметом изобретения является информационная система, обрабатывающая изображение документов. На входе данная информационная система получает изображение в электронном виде, а на выходе – блок информации, содержащий: улучшенное изображение с исправленной геометрией и цветокоррекцией; тип документа, определенный на основе алгоритмов машинного обучения; содержание полей документа, зависящих от определенного ранее типа документа, дополненное информацией из других источников, если это необходимо. Информационная система обладает способностью определять тип документа на основе алгоритмов нейросетей, а также исправлять ошибки распознавания текста за счет каскадной обработки изображения. Данная способность реализована с помощью методики обучения нейросети; в частности, нейросеть самостоятельно выводит формулу, по которой определяет степень схожести анализируемого изображения с документом того или иного типа.The subject of the invention is an information system that processes the image of documents. At the input, this information system receives an image in electronic form, and at the output - a block of information containing: an improved image with corrected geometry and color correction; document type determined based on machine learning algorithms; the content of the fields of the document, depending on the previously defined type of document, supplemented with information from other sources, if necessary. The information system has the ability to determine the type of document based on neural network algorithms, as well as correct text recognition errors through cascade image processing. This ability is realized using the neural network training method; in particular, the neural network independently deduces a formula by which it determines the degree of similarity of the analyzed image with a document of one type or another.
Сущность данного изобретения заключается в использовании каскада технологий распознавания для обеспечения полной автоматизации процесса и автономии от пользователя. Данные технологии являются адаптивными и решения принимается на основе учета множества параметров, включая, но не ограничиваясь:The essence of this invention lies in the use of a cascade of recognition technologies to ensure complete automation of the process and autonomy from the user. These technologies are adaptive and decisions are made based on many parameters, including but not limited to:
- общий внешний вид документов того или иного вида; - the general appearance of documents of one kind or another;
- способы фотографирования или фиксации в более широком понимании, вида документов того или иного вида;- ways of photographing or fixing, in a broader sense, the type of documents of one type or another;
- текст документа, поддающийся распознаванию;- the text of the document amenable to recognition;
- штрих-коды, QR коды, другая машиночитаемая информация на документе;- barcodes, QR codes, other machine-readable information on the document;
- информация, извлеченная из документов других типов, но принадлежащих тому же пользователю;- information extracted from documents of other types, but belonging to the same user;
- контекст, в котором было сделано изображение, включая предыдущие изображения;- the context in which the image was taken, including previous images;
- различные проверочные базы данных, полученных из открытых источников, включая концепцию открытого доступа к государственным данным.- various verification databases obtained from open sources, including the concept of open access to government data.
Краткое описание чертежейBrief Description of Drawings
Сопроводительные чертежи иллюстрируют принцип работы виртуального помощника и способы обнаружения документов в потоке изображений. На чертежах:The accompanying drawings illustrate how the virtual assistant works and how to detect documents in an image stream. In the drawings:
фиг.1 - блок-схема, изображающая виртуального помощника и некоторые примеры источников контекста, которые он может обрабатывать;1 is a block diagram depicting a virtual assistant and some examples of context sources that it can handle;
фиг.2 - блок-схема обнаружения и обработки документа;Fig. 2 is a block diagram of document detection and processing;
Осуществление изобретенияImplementation of the invention
Ниже представлены предпочтительные варианты осуществления изобретения.Preferred embodiments of the invention are presented below.
В одном варианте осуществления заявленное изобретения реализовано на смартфоне в виде виртуального помощника. Общие принципы работы виртуального помощника представлены на фиг. 1. In one embodiment, the claimed invention is implemented on a smartphone as a virtual assistant. The general operating principles of the virtual assistant are shown in FIG. one.
Виртуальный помощник обрабатывает изображения документов, полученное либо напрямую от пользователя (фотографирование), либо самостоятельно при наличии соответствующего разрешения от пользователя. После произведенной обработки виртуальный помощник классифицирует обработанные изображения по типу содержащегося в них документа (чеки, билеты, договоры, страховые полисы и т. п.).The virtual assistant processes the images of documents received either directly from the user (photographing), or independently with the appropriate permission from the user. After processing, the virtual assistant classifies the processed images by the type of document they contain (checks, tickets, contracts, insurance policies, etc.).
На фиг. 2 представлен общий алгоритм распознавания типа и параметров документа в одном варианте осуществления изобретения.FIG. 2 shows a general algorithm for recognizing the type and parameters of a document in one embodiment of the invention.
Обработка изображения документа начинается на этапе 1. Document image processing begins in step 1.
Вначале выполняется предварительная обработка документа. На этапе 2 производится проверка, что данное изображение не является ранее распознанным документом. В случае, если изображение представляет собой дубликат уже распознанного документа, то документ игнорируется.First, preprocessing of the document is performed. At
Если документ не является дубликатом, то на этапе 3 выполнятся определение границ документа, то есть бумажного листа или другой основы, на котором напечатан/изображен документ. После отсечения изображения за границами основы документа происходит на этапе 4 коррекция геометрии изображения, например, исправление трапециевидных искажений или коррекция ракурса.If the document is not a duplicate, then at
На этапе 5 выполняет сохранение начальных ключевых параметров цвета, чтобы на этапе 6 выполнить, при необходимости, выполнить цветокоррекцию, а также оптимизацию контрастности и яркости для обеспечения лучшего распознавания текста. Также производится настройка резкости изображения.In
После этого на этапе 7 происходит первичная попытка распознавания текста на изображении и определяется ориентация «верх-низ» (этап 8). На этапе 9 определяется, удалось ли определить верх и низ документа. В случае неудачи в распознавании текста происходит последовательно попытки найти строки текста без попытки прочитать их (этап 10), а также принимается решение о том, является предыдущая обработка документа от того же пользователя схожей по параметрам и какое решение об ориентации документа было принято в результате предыдущей обработки (этап 11). Далее на основе собранной информации происходит поворот документа в соответствии с определенной ориентацией (этап 12).Thereafter, at
Затем на этапе 13 сверточная нейронная сеть выполняет первичное распознавание типа документа. Сверточная сеть выставляет степень схожести данного изображения со всеми известными типами документов на основании известного ей заранее типичных образов документов этого типа.Then, in
Затем сверточная сеть пытается найти известные ей образы (нетекстовые признаки) на документе, включая изображение лица (этап 14), QR-код или штрихкод (этап 15), герб, логотип (этапе 16) и другую нетекстовую информацию, а также извлечь информацию о координатах и пропорциях такой информации.The convolutional network then tries to find images it knows (non-textual features) on the document, including a face image (step 14), a QR code or barcode (step 15), a coat of arms, a logo (step 16), and other non-textual information, as well as extract information about coordinates and proportions of such information.
На следующем этапе происходит упаковка вся полученной о документе информации и передаче ее рекуррентной нейросети, включая At the next stage, all information received about the document is packed and transmitted to a recurrent neural network, including
- «мнение» сверточной сети в виде кортежа с определенными значениями вероятности схожести, - "opinion" of a convolutional network in the form of a tuple with certain values of the likelihood of similarity,
- извлеченный неструктурированный текст, полученный при первичной обработке, - extracted unstructured text obtained during primary processing,
- наличие стоп-слов и их потенциальных модификаций, связанных с низким качеством изображения,- the presence of stop words and their potential modifications associated with low image quality,
- информация о дате, времени, месте фотографирования, - information about the date, time, place of photographing,
- информация о ключевых цветовых параметрах изображения- information about the key color parameters of the image
- информация о наличии нетекстовых элементов и их характеристиках- information about the presence of non-text elements and their characteristics
На этапе 17 рекуррентная нейросеть выставляет свои оценки степени похожести документа на документ определенного типа на основе алгоритмов машинного обучения.At
На этапе 18 для распознавания документа применяется шаблон, соответствующий типу документа.In
На этапе 19 определяется, достаточно ли качество распознанного текста. Если качество недостаточно, то на этапе 20 выполняют поворот документа и проверяют качество распознанного текста еще раз.At
На этапе 21 применяется уточненный шаблон для качественного распознавания текста, основанный на типе документа, учитывающий взаимное положение текстовых элементов, их цвет, шрифт и другие особенности. Этот этап, в частности, позволяет отделить шрифт от фонового рисунка, чего было нельзя сделать на предыдущем этапе. Извлеченные блоки текста сохраняются в виде структуры «поле-значение».At
Далее для некоторых видов документов происходит обогащение информации, извлеченной из документа (этап 22). Дополнительная информация может быть получена от внешних источников. Так, например, для получения информации о кассовом чеке происходит обращение в «Открытое API ФНС России». Для других документов, например СНИЛС осуществляется сравнение ФИО владельца телефона с ФИО на документе и если отличия заключаются в небольшом количестве символов, причем которые по статистике для данного шрифта относятся к схожим, то ФИО владельца смартфона добавляется как претендент на исправление.Further, for some types of documents, the information extracted from the document is enriched (step 22). Additional information can be obtained from external sources. So, for example, to obtain information about a cashier's check, an appeal is made to the Open API of the Federal Tax Service of Russia. For other documents, for example SNILS, the full name of the owner of the phone is compared with the full name on the document, and if the differences are in a small number of characters, and which, according to statistics for this font, are similar, then the full name of the owner of the smartphone is added as a candidate for correction.
Далее на этапе 22 документ анализируется на предмет того, является ли он многостраничным за счет наличия признаков, характерных для вида документов, таких как номера страниц, связанность текста, наличия одного и того же номера паспорта на изображениях разных страниц паспорта. Для этого анализируются ранее введенные изображения. Further, at step 22, the document is analyzed for whether it is multi-page due to the presence of features characteristic of the type of documents, such as page numbers, text concatenation, the presence of the same passport number on images of different passport pages. For this, previously entered images are analyzed.
Если определено, что изображения относятся к одному и тому же документу, то на этапе 24 выполняется анализ, не является ли это изображение одной и той же страницы документа. Если обнаруживается, что это та же самая страница многостраничного документа, то выбирается страница, у которой лучше произошло распознавание текста и общая резкость изображения выше. Изображения из который был составлен многостраничный документ удаляются (этап 26).If it is determined that the images refer to the same document, then at
Если обнаружено, что это другая страница многостраничного документа, то на этапе 25 определяется, следует ли создать многостраничных документ или склеить несколько изображений в одно. Например, кассовый чек может быть очень длинным и пользователю требуется сделать несколько фотографий, чтобы целиком его внести. В первом случае к многостраничному документу добавляется новая страница (этап 27), а во втором случае выполняется склейка нескольких изображений в одно.If it is found that this is another page of a multi-page document, then at
Свёрточная нейронная сеть CNN обученная использует архитектуру InceptionV3. Эта сеть анализирует изображение и, на основе хранящихся в ней весовых коэффициентов, определяет визуальное сходство текущего изображения с массивом изображений документов того или иного типа. Сеть выдает кортеж, состоящий из скалярных значений вероятностей совпадения изображения. Данные вероятности колеблются от 0% до 100%.CNN trained convolutional neural network uses InceptionV3 architecture. This network analyzes the image and, based on the weighting factors stored in it, determines the visual similarity of the current image with an array of document images of one type or another. The network produces a tuple consisting of scalar values of the probabilities of the image coincidence. These probabilities range from 0% to 100%.
В одном варианте осуществления сверточная нейронная сеть может определять вероятность, что документ принадлежит к определенному типу, по пользуясь следующими значениями параметров, представленными в таблице 1:In one embodiment, a convolutional neural network can determine the probability that a document is of a particular type using the following parameter values shown in Table 1:
Таблица 1Table 1
Рекуррентная нейронная сеть (RNN), также базирующаяся на базе TensorFlow Inception, анализирует множество параметров данного изображения, в том числе и решения о визуальном сходстве, принятые нейросетью CNN. На вход данной нейросети поступает набор числовых и строчных значений, в том числе данные, полученные в результате первого прохода модуля распознавания текста. Далее за счет использования многоклассового классификатора (multi-class classifier) и алгоритма мультиномиальной логистической регрессии (multinomial logistic regression algorithm) происходит сравнение с коэффициентами, полученными ранее методикой машинного обучения.A recurrent neural network (RNN), also based on TensorFlow Inception, analyzes many parameters of a given image, including the visual similarity decisions made by the CNN neural network. The input of this neural network is a set of numeric and string values, including the data obtained as a result of the first pass of the text recognition module. Further, through the use of a multi-class classifier and a multinomial logistic regression algorithm, a comparison is made with the coefficients previously obtained by machine learning.
В одном варианте осуществления рекуррентная нейронная сеть определяет вероятностный тип документа по следующей формуле:In one embodiment, the recurrent neural network determines the probabilistic document type using the following formula:
, ,
где Where
- T – вероятностное значение приоритетного типа документа- T - the probabilistic value of the priority document type
- Max U[] – функция поиска максимума в массиве скалярных значений, каждый из которых представлен суммой N весов.- Max U [] - function of finding the maximum in an array of scalar values, each of which is represented by the sum of N weights.
- Wik*Fik - скалярное значение вероятности для k-того параметра i-того типа документа- W ik * F ik - scalar probability value for the k-th parameter of the i-th document type
- Wik – весовой коэффициент для для k-того параметра i-того типа документа- W ik - the weighting factor for the k-th parameter of the i-th document type
- Fik – k-тый параметр (фактор) i-того типа документа, представленный функцией свертки соответствующего входного параметра- F ik - the k-th parameter (factor) of the i-th document type, represented by the convolution function of the corresponding input parameter
Пример параметров весовых коэффициентов представлен в таблице 2.An example of the parameters of the weighting factors is presented in Table 2.
Таблица 2table 2
Пример значений весовых коэффициентов представлен в таблице 3An example of the values of the weighting factors is presented in Table 3.
Таблица 3Table 3
В одном варианте осуществления обучение нейронной сети происходит не в режиме реального времени, а в периоды технологического обслуживания. При этом могут выполняться следующие этапы:In one embodiment, the training of the neural network occurs not in real time, but during maintenance periods. In this case, the following steps can be performed:
- Выполняют первоначальную разметку в базе документов и изображений, в отношении которых в течение работы были жалобы на некорректное распознавание или ряд косвенных параметров выбивается из статистической погрешности.- Perform initial markup in the database of documents and images, in respect of which during the work there were complaints about incorrect recognition or a number of indirect parameters are knocked out of the statistical error.
- Изучают проблемные документы в ручном режиме- Study problem documents in manual mode
- Осуществляют подготовку очищенного набора данных- Prepare the cleaned dataset
- Выполняют обучение нейросети на очищенном наборе данных- Carry out training of a neural network on a cleaned dataset
- Выполняют анализ результатов обучения- Analyze learning outcomes
- Загружают уточненные коэффициенты в базу данных и переключают поток пользователей на обновленную логику распознавания- Upload the updated coefficients to the database and switch the user flow to the updated recognition logic
Пример применения изобретенияExample of application of the invention
Пользователь запускает приложение на смартфоне и фотографирует кассовые чек средствами, встроенными в приложение. Приложение самостоятельно обрабатывает изображения по способу в соответствии с настоящим изобретением. Если через некоторое время пользователю понадобился данный чек, он может запустить приложение и подать, например, голосовую команду "найти чек на утюг". Приложение выполняет поиск всех кассовых чеков, в которых в качестве товара указан утюг. Пользователь распечатывает чек и прикладывает копию чек, например, к направляемой в магазин претензии. При этом пользователь не выполняет никаких иных действий, кроме фотографирования чека и подачи команды приложению. Всю остальную обработку приложение выполняет самостоятельно.The user launches the application on a smartphone and photographs the cashier's receipt using the means built into the application. The application independently processes the images according to the method in accordance with the present invention. If after some time the user needs this check, he can launch the application and give, for example, a voice command "find a check on the iron". The application searches for all receipts with an iron specified as the item. The user prints out the receipt and attaches a copy of the receipt, for example, to a claim sent to a store. In this case, the user does not perform any other actions, except for photographing the receipt and giving a command to the application. The application does the rest of the processing itself.
Настоящее изобретение позволяет надежно распознать и классифицировать документ из потока произвольных изображений.The present invention makes it possible to reliably recognize and classify a document from an arbitrary image stream.
Claims (67)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2020122196A RU2744769C1 (en) | 2020-07-04 | 2020-07-04 | Method for image processing using adaptive technologies based on neural networks and computer vision |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2020122196A RU2744769C1 (en) | 2020-07-04 | 2020-07-04 | Method for image processing using adaptive technologies based on neural networks and computer vision |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2744769C1 true RU2744769C1 (en) | 2021-03-15 |
Family
ID=74874342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2020122196A RU2744769C1 (en) | 2020-07-04 | 2020-07-04 | Method for image processing using adaptive technologies based on neural networks and computer vision |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2744769C1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113128490A (en) * | 2021-04-28 | 2021-07-16 | 湖南荣冠智能科技有限公司 | Prescription information scanning and automatic identification method |
RU2768544C1 (en) * | 2021-07-16 | 2022-03-24 | Общество С Ограниченной Ответственностью "Инновационный Центр Философия.Ит" | Method for recognition of text in images of documents |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2656708C1 (en) * | 2017-06-29 | 2018-06-06 | Самсунг Электроникс Ко., Лтд. | Method for separating texts and illustrations in images of documents using a descriptor of document spectrum and two-level clustering |
CN109685065A (en) * | 2018-12-11 | 2019-04-26 | 中国科学院自动化研究所 | Printed page analysis method, the system of paper automatic content classification |
RU2697649C1 (en) * | 2018-10-23 | 2019-08-15 | Общество с ограниченной ответственностью "Аби Продакшн" | Methods and systems of document segmentation |
US10387531B1 (en) * | 2015-08-18 | 2019-08-20 | Google Llc | Processing structured documents using convolutional neural networks |
RU2699687C1 (en) * | 2018-06-18 | 2019-09-09 | Общество с ограниченной ответственностью "Аби Продакшн" | Detecting text fields using neural networks |
CN111079511A (en) * | 2019-10-25 | 2020-04-28 | 湖北富瑞尔科技有限公司 | Document automatic classification and optical character recognition method and system based on deep learning |
-
2020
- 2020-07-04 RU RU2020122196A patent/RU2744769C1/en active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10387531B1 (en) * | 2015-08-18 | 2019-08-20 | Google Llc | Processing structured documents using convolutional neural networks |
RU2656708C1 (en) * | 2017-06-29 | 2018-06-06 | Самсунг Электроникс Ко., Лтд. | Method for separating texts and illustrations in images of documents using a descriptor of document spectrum and two-level clustering |
RU2699687C1 (en) * | 2018-06-18 | 2019-09-09 | Общество с ограниченной ответственностью "Аби Продакшн" | Detecting text fields using neural networks |
RU2697649C1 (en) * | 2018-10-23 | 2019-08-15 | Общество с ограниченной ответственностью "Аби Продакшн" | Methods and systems of document segmentation |
CN109685065A (en) * | 2018-12-11 | 2019-04-26 | 中国科学院自动化研究所 | Printed page analysis method, the system of paper automatic content classification |
CN111079511A (en) * | 2019-10-25 | 2020-04-28 | 湖北富瑞尔科技有限公司 | Document automatic classification and optical character recognition method and system based on deep learning |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113128490A (en) * | 2021-04-28 | 2021-07-16 | 湖南荣冠智能科技有限公司 | Prescription information scanning and automatic identification method |
CN113128490B (en) * | 2021-04-28 | 2023-12-05 | 湖南荣冠智能科技有限公司 | Prescription information scanning and automatic identification method |
RU2768544C1 (en) * | 2021-07-16 | 2022-03-24 | Общество С Ограниченной Ответственностью "Инновационный Центр Философия.Ит" | Method for recognition of text in images of documents |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2020200251B2 (en) | Label and field identification without optical character recognition (OCR) | |
US8538184B2 (en) | Systems and methods for handling and distinguishing binarized, background artifacts in the vicinity of document text and image features indicative of a document category | |
US8897563B1 (en) | Systems and methods for automatically processing electronic documents | |
US9910829B2 (en) | Automatic document separation | |
US9256783B2 (en) | Systems and methods for tax data capture and use | |
CA3088686C (en) | Automated document extraction and classification | |
US20130236111A1 (en) | Method and System for Commercial Document Image Classification | |
CN112101367A (en) | Text recognition method, image recognition and classification method and document recognition processing method | |
RU2744769C1 (en) | Method for image processing using adaptive technologies based on neural networks and computer vision | |
US11023720B1 (en) | Document parsing using multistage machine learning | |
JP6435934B2 (en) | Document image processing program, image processing apparatus and character recognition apparatus using the program | |
Misgar et al. | Recognition of offline handwritten Urdu characters using RNN and LSTM models | |
CN111414917A (en) | Identification method of low-pixel-density text | |
US20220398399A1 (en) | Optical character recognition systems and methods for personal data extraction | |
US11715288B2 (en) | Optical character recognition using specialized confidence functions | |
Chen et al. | Design and Implementation of Second-generation ID Card Number Identification Model based on TensorFlow | |
Slavin et al. | Matching Digital Copies of Documents Based on OCR | |
Slavin et al. | Method for Analyzing the Structure of Noisy Images of Administrative Documents | |
CN115116079A (en) | Image-based official document element information extraction method and device | |
CN117351501A (en) | Information input method, device, equipment and storage medium | |
CN116414987A (en) | Text classification method based on artificial intelligence and related equipment | |
CN111539605A (en) | Enterprise portrait construction method and device |