RU2672395C1 - Method for training a classifier designed for determining the category of a document - Google Patents
Method for training a classifier designed for determining the category of a document Download PDFInfo
- Publication number
- RU2672395C1 RU2672395C1 RU2017133846A RU2017133846A RU2672395C1 RU 2672395 C1 RU2672395 C1 RU 2672395C1 RU 2017133846 A RU2017133846 A RU 2017133846A RU 2017133846 A RU2017133846 A RU 2017133846A RU 2672395 C1 RU2672395 C1 RU 2672395C1
- Authority
- RU
- Russia
- Prior art keywords
- category
- classifier
- document
- documents
- objects
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/418—Document matching, e.g. of document images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Изобретение относится к области предотвращения утечек информации.The invention relates to the field of preventing information leakage.
Уровень техникиState of the art
В связи с возросшим в последнее время числом киберпреступлений и увеличившимся количеством краж информации все более востребованными становятся системы предотвращения утечек информации (англ. DLP - Data Leak Prevention). Одной из основных задач систем DLP является предотвращение утечек электронных копий персональных и конфиденциальных документов, таких как: паспорт, свидетельство о рождении, водительское удостоверение, конфиденциальный договор и др.Due to the recent increase in the number of cybercrimes and an increase in the number of information thefts, Data Leak Prevention systems are becoming more and more in demand. One of the main tasks of DLP systems is to prevent leakage of electronic copies of personal and confidential documents, such as: passport, birth certificate, driver's license, confidential agreement, etc.
Для обнаружения персональных и конфиденциальных документов широкое применение нашли технологии машинного обучения, в частности технологии распознавания образов, а также технологии оптического распознавания символов (англ. optical character recognition, OCR). Для этого на вход классификатору подается набор похожих документов интересующих категорий, на основании данного набора документов формируются признаки, по которым затем выполняется отнесение новых документов к одной из категорий.To detect personal and confidential documents, machine learning technologies have been widely used, in particular, pattern recognition technologies, as well as optical character recognition (OCR) technologies. To this end, the classifier receives a set of similar documents of interest to the input, based on this set of documents signs are generated, which then assigns new documents to one of the categories.
Однако существующие технологии зачастую показывают хорошее качество классификации только для фиксированного набора категорий документов. При добавлении новой категории документов необходимо заново выполнить обучение классификатора на большом массиве похожих документов. К тому же, если новый документ не может быть отнесен ни к одной из категорий, он все равно может содержать конфиденциальные данные. Кроме того, при построении большинства классификаторов существенную роль играет настройка классификатора аналитиком, однако зачастую это не позволяет достичь высокого качества классификации.However, existing technologies often show good classification quality only for a fixed set of document categories. When adding a new category of documents, it is necessary to re-train the classifier on a large array of similar documents. In addition, if a new document cannot be assigned to any of the categories, it can still contain confidential data. In addition, when constructing most classifiers, an analyst plays an important role in setting the classifier, but often this does not allow achieving a high classification quality.
Таким образом, возникает техническая проблема, заключающаяся в сложности построения классификатора, обеспечивающего высокое качество классификации.Thus, a technical problem arises, consisting in the complexity of constructing a classifier that provides high quality classification.
Из уровня техники известна технология классификации изображений документов на основании их содержимого, описанная в заявке US 20160092730. С использованием технологий OCR из цифровой копии документа извлекается различная текстовая информация и графическая информация. Затем на основании содержимого документа формируется набор признаков, использующийся далее для классификации документов. В то же время упомянутое изобретение не решает заявленную техническую проблему, т.к. в ряде случаев не обеспечивает высокое качество классификации, в частности, не позволяет классифицировать документы, содержащие конфиденциальные данные и не относящиеся ни к одной из известных категорий и, кроме того, для определения признаков в упомянутом изобретении необходимо распознать содержащийся в документе текст.The prior art technology for the classification of images of documents based on their contents, described in the application US 20160092730. Using OCR technology from a digital copy of the document is extracted various text information and graphic information. Then, based on the contents of the document, a set of features is formed, which is used further to classify documents. At the same time, the aforementioned invention does not solve the claimed technical problem, because in some cases it does not provide high quality classification, in particular, it does not allow classification of documents containing confidential data and not belonging to any of the well-known categories, and, in addition, to determine the features in the aforementioned invention, it is necessary to recognize the text contained in the document.
Раскрытие сущности изобретенияDisclosure of the invention
Первый технический результат заключается в повышении качества определения категории документа классификатором.The first technical result is to improve the quality of determining the category of a document by a classifier.
Второй технический результат заключается в реализации назначения.The second technical result is the implementation of the appointment.
Согласно варианту реализации, используется реализуемый компьютером способ обучения классификатора, предназначенного для определения категории документа, в котором: получают документы, которые принадлежат, в частности, к одной категории; для каждого полученного документа определяют содержащиеся в нем объекты, в частности, являющиеся графическими элементами; для каждого полученного документа формируют набор признаков, состоящий из определенных объектов, при этом упомянутые признаки включают, в частности, следующие: наличие объекта; местоположение объекта; количество объектов; расположение одного объекта по отношению к другому объекту; размеры объекта; угол наклона объекта; выполняют построение классификатора на основании значений сформированных признаков для полученных документов.According to an embodiment, a computer-implemented method of training a classifier is used to determine the category of a document, in which: receive documents that belong, in particular, to one category; for each received document, the objects contained in it are determined, in particular, which are graphic elements; for each document received, a set of features is formed, consisting of certain objects, while the mentioned features include, in particular, the following: the presence of an object; object location; number of objects; the location of one object in relation to another object; object dimensions; the angle of the object; constructing a classifier based on the values of the generated characteristics for the received documents.
Согласно одному из частных вариантов реализации получают дополнительные документы, принадлежащие к каждой сформированной категории классификатора, и рассчитывают ошибку классификации упомянутых дополнительных документов с использованием упомянутого классификатора, при этом если ошибка классификации превышает заданное значение, повторяют построение классификатора с учетом дополнительных документов.According to one particular embodiment, additional documents are received that belong to each generated classifier category, and the classification error of the mentioned additional documents is calculated using the said classifier, and if the classification error exceeds a predetermined value, the construction of the classifier is repeated taking into account additional documents.
Согласно другому частному варианту реализации дополнительно получают документы, принадлежащие к каждой сформированной категории классификатора и по меньшей мере к одной другой категории, и рассчитывают ошибку классификации дополнительных документов с использованием упомянутого классификатора, при этом, если ошибка классификации превышает заданное значение, повторяют шаги а)-г), с тем отличием, что на шаге а) получают документы, одна часть указанных документов принадлежит к одной из сформированных категорий, а другая часть указанных документов принадлежит по меньшей мере к одной другой категории.According to another particular embodiment, documents additionally receive that belong to each generated classifier category and at least one other category, and the classification error of the additional documents is calculated using the classifier, while if the classification error exceeds a predetermined value, repeat steps a) - d), with the difference that at step a) documents are received, one part of the indicated documents belongs to one of the generated categories, and the other part of the indicated Document belongs to at least one other category.
Согласно еще одному частному варианту реализации ошибку классификации рассчитывают с использованием, в частности, одного из алгоритмов: минимизация эмпирического риска; скользящий контроль.According to another particular embodiment, the classification error is calculated using, in particular, one of the algorithms: minimization of empirical risk; sliding control.
Согласно одному из частных вариантов реализации построение классификатора на основании сформированных признаков включает: выбор модели классификации; обучение классификатора согласно выбранной модели классификации, где в качестве признакового описания документа выступают сформированные признаки, а в качестве классов - в частности, одна категория документа.According to one particular implementation option, the construction of a classifier based on the generated features includes: the choice of a classification model; training the classifier according to the selected classification model, where the formed attributes act as a characteristic description of the document, and in particular, one category of the document acts as classes.
Согласно другому частному варианту реализации выбирают одну из следующих моделей классификации: Байесовский классификатор; нейронная сеть; Вейвлет Хаара; Локальные бинарные шаблоны; Гистограмма направленных градиентов.According to another particular embodiment, one of the following classification models is selected: Bayesian classifier; neural network; Wavelet haar; Local binary patterns; Bar graph of directional gradients.
Согласно еще одному частному варианту реализации содержатся, в частности, следующие категории документов: паспорт; водительское удостоверение; свидетельство о рождении.According to another particular embodiment, the following categories of documents are contained, in particular: passport; driver's license; birth certificate.
Согласно одному из частных вариантов реализации объектами дополнительно являются графические элементы - распознанные изображения по меньшей мере одного из следующих: лица человека; герба страны; флага страны; печати; логотипа; всего документа.According to one particular embodiment, the objects are additionally graphic elements — recognized images of at least one of the following: human faces; coat of arms of the country; country flag; printing; logo; entire document.
Согласно другому частному варианту реализации упомянутые объектами являются композицией следующих объектов: отрезок; точка; сплайн; эллипс.According to another particular embodiment, the objects mentioned are a composition of the following objects: segment; point; spline; ellipse.
Согласно еще одному частному вариантов реализации категорией документа дополнительно является совокупность из двух и более категорий, а также подкатегория известной категории.According to another particular embodiment, the category of the document is additionally a combination of two or more categories, as well as a subcategory of a known category.
Согласно одному из частных вариантов реализации добавляют новую категорию, включающую, в частности, две и более существующих категорий, при этом при построении классификатора из числа сформированных признаков выбирают признаки, свойственные для новой категории.According to one particular implementation variant, a new category is added, including, in particular, two or more existing categories, while when constructing a classifier from among the generated attributes, the attributes characteristic of the new category are selected.
Согласно другому частному варианту реализации объекты дополнительно являются текстовыми элементами.According to another particular embodiment, the objects are additionally text elements.
Согласно еще одному частному варианту реализации признаки дополнительно включают следующие: гистограмма цветов объекта; метаданные объекта; множество объектов, объединенных по определенному признаку; количество одинаковых объектов; соответствие гистограммы цветов объекта заданному шаблону; соответствие заданной комбинации объектов шаблону взаимного расположения; преобразование Фурье гистограммы цветов объекта; наличие искажений на изображении объекта; тип искажений на изображении объекта.According to another particular embodiment, the features further include the following: a histogram of the colors of the object; Object metadata a lot of objects united by a certain attribute; number of identical objects; correspondence of the histogram of the object colors to the given pattern; compliance of a given combination of objects with a pattern of relative positioning; Fourier transform of the histogram of the colors of the object; the presence of distortion in the image of the object; type of distortion in the image of the object.
Краткое описание чертежейBrief Description of the Drawings
Дополнительные цели, признаки и преимущества настоящего изобретения будут очевидными из прочтения последующего описания осуществления изобретения со ссылкой на прилагаемые чертежи, на которых:Additional objectives, features and advantages of the present invention will be apparent from reading the following description of an embodiment of the invention with reference to the accompanying drawings, in which:
На Фиг. 1 представлена система обучения классификатора, предназначенного для определения категории документа.In FIG. 1 shows a classifier training system designed to determine the category of a document.
На Фиг. 2 представлен способ обучения классификатора.In FIG. 2 presents a method for training the classifier.
На Фиг. 3а-3в изображен пример документа и различные примеры определения содержащихся на документе объектов.In FIG. 3a-3c show an example of a document and various examples of determining the objects contained in a document.
На Фиг. 4а-4б изображен еще один пример документа и различные примеры определения содержащихся на документе объектов.In FIG. 4a-4b show another example of a document and various examples of determining the objects contained in a document.
Фиг. 5 представляет пример компьютерной системы общего назначения.FIG. 5 is an example of a general purpose computer system.
Осуществление изобретенияThe implementation of the invention
Объекты и признаки настоящего изобретения, способы для достижения этих объектов и признаков станут очевидными посредством отсылки к примерным вариантам осуществления. Однако настоящее изобретение не ограничивается примерными вариантами осуществления, раскрытыми ниже, оно может воплощаться в различных видах. Сущность, приведенная в описании, является ничем иным, как конкретными деталями, обеспеченными для помощи специалисту в области техники в исчерпывающем понимании изобретения, и настоящее изобретение определяется в объеме приложенной формулы.The objects and features of the present invention, methods for achieving these objects and features will become apparent by reference to exemplary embodiments. However, the present invention is not limited to the exemplary embodiments disclosed below, it can be embodied in various forms. The essence described in the description is nothing more than the specific details provided to assist the specialist in the field of technology in a comprehensive understanding of the invention, and the present invention is defined in the scope of the attached claims.
На Фиг. 1 представлена система обучения классификатора, предназначенного для определения категории документа. Под электронным документом (далее - документ) понимается любой компьютерный файл, содержащий графическую и/или текстовую информацию. Такой файл может иметь графический формат данных (JPEG, PNG, TIFF и др.) или формат электронных документов (PDF, DOC, DOCX и др.). Настоящее изобретение служит для построения классификатора, предназначенного для определения категории документа. В частном варианте реализации рассматриваются документы, которые потенциально могут содержать персональные данные, конфиденциальные данные или любые другие данные, представляющие ценность. Некоторым документам может быть заранее задана категория, характеризующая их принадлежность к настоящим бумажным документам (паспорт, водительское удостоверение, свидетельство о рождении и пр.). Категория документа может быть задана, например, аналитиком, пользователем или компьютерной системой.In FIG. 1 shows a classifier training system designed to determine the category of a document. An electronic document (hereinafter referred to as a document) is understood to mean any computer file containing graphic and / or text information. Such a file can have a graphic data format (JPEG, PNG, TIFF, etc.) or an electronic document format (PDF, DOC, DOCX, etc.). The present invention serves to construct a classifier designed to determine the category of a document. In a particular embodiment, documents are considered that could potentially contain personal data, confidential data, or any other data of value. Some documents may be pre-assigned with a category that characterizes their belonging to these paper documents (passport, driver’s license, birth certificate, etc.). The category of a document may be defined, for example, by an analyst, user, or computer system.
Средство анализа 110 служит для получения документов 101, которые принадлежат к одной категории 106. Документы 101 служат обучающей выборкой для построения классификатора 140 (средство, реализующее модель классификации для определения категории произвольного документа). Для реализации изобретения средству анализа 110 достаточно получить один документ 101. Однако, качество классификации будет выше, если обучающая выборка будет содержать достаточно большое количество документов 101. Для каждого полученного документа 101 средство анализа 110 определяет содержащиеся в нем объекты 104, являющиеся, в частности, графическими и/или текстовыми элементами. В частном варианте реализации объектами 104 могут быть, например, следующие: изображение лица человека, рамки фотографии лица, герба или флага страны, печати, логотипа или всего документа 101, если формат документа 101 является графическим. В другом частном варианте реализации объекты 104 могут также являться композицией таких объектов, как отрезок, точка, сплайн, эллипс или других примитивов.The
Так, например, для документов категории «паспорт» характерно наличие таких объектов 104, как фотографии, изображения герба, текстовых полей, например, «фамилия», «имя», «отчество», «дата рождения», «место рождения», «дата выдачи», «подразделение выдачи» и др. Стоит отметить, что в одном варианте реализации текстовые объекты могут быть распознаны с использованием технологий OCR средством обработки 111.So, for example, for documents of the “passport” category, the presence of
В другом примере реализации текстовые поля не распознаются как текст, но распознаются как область, в которой находится текст. В этом случае текстовые поля могут быть определены как отдельные прямоугольные графические объекты - это незначительно снизит качество классификации, но в то же время существенно повысит скорость работы классификатора, так как средство обработки 111 не будет выполнять трудоемкую задачу распознавания текста.In another example implementation, text fields are not recognized as text, but are recognized as the area in which the text is located. In this case, text fields can be defined as separate rectangular graphic objects - this will slightly reduce the quality of classification, but at the same time they will significantly increase the speed of the classifier, since the
В еще одном частном примере реализации может быть использован гибридный подход - в части текстовых полей текст распознается (например, поля «фамилия», «имя» и пр.), а в части текстовых полей текст не распознается, и эти текстовые поля определяются как прямоугольные объекты. При этом напротив поля «фамилия», вероятно, будет прямоугольный объект, обозначающий конкретную фамилию. В этом случае в качестве дополнительного признака может быть выбрана ширина этого прямоугольного объекта. Большинство российских фамилий, например, обычно содержит от 3 до 8 букв. Поэтому в качестве признака для упомянутого прямоугольного объекта может быть выбран флаг, указывающий на выполнение или невыполнения условия, что ширина объекта находится в диапазоне, соответствующему 3-8 буквам.In another particular implementation example, a hybrid approach can be used - in the part of text fields, the text is recognized (for example, the “last name”, “first”, etc. fields), and in the part of the text fields the text is not recognized, and these text fields are defined as rectangular objects. Moreover, in front of the "last name" field, there will probably be a rectangular object designating a specific last name. In this case, the width of this rectangular object can be selected as an additional feature. Most Russian surnames, for example, usually contain from 3 to 8 letters. Therefore, a flag indicating the fulfillment or non-fulfillment of the condition that the width of the object is in the range corresponding to 3-8 letters may be selected as a feature for the said rectangular object.
В частном варианте реализации, в системе содержится средство обработки 111, необходимое для предварительной обработки документов 101. Например, в одном графическом файле может содержаться несколько документов 101. В этом случае средство обработки 111 выделит все документы, содержащиеся в графическом файле, и передаст их средству анализа 110 для определения содержащихся в выделенных документах объектов. В другом примере изображение документа 101 может содержать искажения или дефекты изображения, такие как дисторсию, поворот, искажение перспективы, блики и другие дефекты, свойственные, например, при фотографировании или сканировании документа.In a particular embodiment, the system contains processing means 111 necessary for preliminary processing of documents 101. For example, several documents 101 may be contained in one graphic file. In this case, processing means 111 will select all documents contained in the graphic file and transfer them to the
В одном примере реализации, средство обработки 111 может выполнить исправление искажений с использованием известных из уровня техники способов прежде, чем документы 101 будут переданы для последующего анализа средством анализа 110. В этом примере средство обработки 111 может также выполнить исправление искажений на новом документе 102 прежде, чем построенный классификатор 140 определит категорию этого нового документа 102, для которого не задана категория (подробнее о классификаторе 140 будет описано далее). В другом примере реализации средство обработки 111 не будет выполнять исправление искажений документа 101. В этом примере средство обработки 111 также не будет выполнять исправление искажений на новом документе 102 перед тем, как определить его категорию построенным классификатором 140.In one implementation example, the processing means 111 may perform the correction of distortions using methods known from the prior art before the documents 101 are transmitted for subsequent analysis by the analysis means 110. In this example, the processing means 111 may also perform the correction of distortions on the new document 102 before, than the constructed
В еще одном частном варианте реализации средство анализа 110 изначально получает обработанные документы 101.In yet another particular embodiment, the
Для каждого документа 101 средство формирования признаков 120 формирует набор признаков 105, состоящий из определенных объектов 104. Признаки являются характеристиками документа 101. Признаки могут быть бинарными, номинальными, порядковыми или количественными. Признаки могут включать, в частности, следующие:For each document 101, the
- наличие объекта;- the presence of an object;
- местоположение объекта (например, координаты);- location of the object (for example, coordinates);
- количество объектов;- number of objects;
- расположение одного объекта по отношению к другому объекту (например, расстояние между объектами, угол между центрами объектов и пр.);- the location of one object in relation to another object (for example, the distance between objects, the angle between the centers of objects, etc.);
- размеры объекта (например, площадь);- the size of the object (for example, area);
- угол наклона объекта.- the angle of the object.
Числовые признаки из указанных могут принимать как абсолютные значения, так и относительные - по отношению к соответствующим параметрам всего документа.The numerical signs from the indicated ones can take both absolute values and relative values with respect to the corresponding parameters of the entire document.
В частном примере реализации в качестве признака может выступать результат работы алгоритма классификации.In a particular example of implementation, the result of the classification algorithm may act as a feature.
В еще одном частном примере реализации в качестве признака могут выступать наличие искажения изображения объекта, а также его тип (дисторсия, поворот, искажение перспективы, наличие блика и др.).In another particular example of implementation, the presence of distortion of the image of the object, as well as its type (distortion, rotation, distortion of perspective, the presence of glare, etc.) can act as a sign.
Кроме того, при наличии искажения изображения объекта другие признаки могут быть ослаблены. Т.к., например, блик изображения всего документа может закрыть один или несколько объектов, и, следовательно, присутствие одного или нескольких таких объектов может быть необязательным.In addition, if there is distortion in the image of an object, other features may be attenuated. Since, for example, the flare of the image of the entire document may close one or more objects, and therefore, the presence of one or more of such objects may be optional.
В итоге средство построения классификатора 130 выполняет построение классификатора 140 на основании значений сформированных признаков 105 для документов 101 и, в частности, одной категории 106, к которой принадлежат упомянутые документы 101.As a result, the tool for constructing the
Построенный классификатор 140 далее используется для выполнения классификации (то есть присвоения категории) документов, которым ранее не была присвоена категория.The constructed
В частном варианте реализации средство анализа 110 получает дополнительные документы 102-103, часть из которых принадлежит к категории 106 (документы 102), а другая часть принадлежит к другой категории 107 (документы 103), и рассчитывает ошибку классификации дополнительных документов с использованием классификатора 140. В качестве ошибки классификации может выступать, например, вероятность неправильной классификации документов (например, документы из категории 107 были классифицированы как принадлежащие к категории 106, а документы из категории 106 были классифицированы, как не принадлежащие к категории 106). При этом, если ошибка классификации превышает заданное значение (например, более 5%), построение классификатора повторяется (т.е. повторяется работа средства анализа 110, средства формирования признаков 120 и средства построения классификатора 130) с тем отличием, что средство анализа получает документы 101, 102 и 103, одна часть которых принадлежат к категории 106 (документы 101 и 102), а другая часть принадлежит категории 107 (документы 103). В противном случае средство построение классификатора 130 завершает построение классификатора 140. В еще одном частном варианте реализации, кроме категорий 106-107, могут быть дополнительные категории. В другом частном варианте реализации ошибка классификации рассчитывается с использованием, в частности, одного из алгоритмов: минимизации эмпирического риска, скользящего контроля.In a particular embodiment, the
В еще одном частном примере реализации получают дополнительные документы, принадлежащие к каждой сформированной категории классификатора, и рассчитывают ошибку классификации упомянутых дополнительных документов с использованием упомянутого классификатора, при этом, если ошибка классификации превышает заданное значение, повторяют построение классификатора с учетом дополнительных документов, иначе - завершают построение классификатора.In another particular implementation example, additional documents that belong to each generated classifier category are obtained, and the classification error of the mentioned additional documents is calculated using the said classifier; in this case, if the classification error exceeds a predetermined value, the construction of the classifier is repeated taking into account additional documents, otherwise they complete classifier construction.
Средство построения классификатора 130 выполняет построение классификатора 140 путем выбора модели (алгоритма) классификации и последующего обучения классификатора 140, где в качестве признакового описания документа выступают сформированные признаки, а в качестве классов - в частности, одна категория документа.The tool for constructing the
В частном варианте реализации выбирают одну из следующих моделей (алгоритмов) классификации:In a particular embodiment, one of the following classification models (algorithms) is selected:
- Байесовский классификатор;- Bayesian classifier;
- нейронная сеть;- neural network;
- Вейвлет Хаара;- Wavelet Haar;
- локальные бинарные шаблоны;- local binary patterns;
- логистическая регрессия;- logistic regression;
- гистограмма направленных градиентов.- a histogram of directional gradients.
Обучение классификатора 140 осуществляется с использованием известных из уровня техники методов.
В качестве примера, положим, что документы принадлежат к одной категории у (у=1, если документ принадлежит к указанной категории и у=0 в противном случае). Такой категорией может быть, например, паспорт или удостоверение личности, или любая другая категория.As an example, we assume that the documents belong to the same category y (y = 1 if the document belongs to the specified category and y = 0 otherwise). Such a category may be, for example, a passport or an identity card, or any other category.
Допустим, средством построения классификатора 130 была выбрана модель логистической регрессии. В этом случае, построение классификатора 140 заключается в построении модели вероятности P(у=1|x)=f(z), z=ΘTx, где х и Θ - векторы значений сформированных признаков х и параметров регрессии, f(z) - логистическая функция, f(z)=1/(1+e-z).Suppose, a logistic regression model was chosen as a means of constructing
Для подбора параметров Θ, средство построения классификатора 130 использует метод максимального правдоподобия, заключающийся в нахождении таких параметров Θ, которые максимизируют функцию правдоподобия на обучающей выборке (т.е. на сформированном наборе признаков и значений, которые принимают эти признаки для документов 101, про которые известно, что они принадлежат к указанной категории).To select the parameters Θ, the tool for constructing the
В итоге, с использованием классификатора 140 для произвольного нового документа, которому не задана категория, может быть определено, что он относится или не относится к указанной категории. Для этого, в новом документе будут определены содержащиеся в нем объекты, а затем определены значения сформированных признаков и рассчитана вероятность Р(у=1|х). И, если рассчитанное значение вероятности выше 0.5, то будет определено, что новый документ относится к указанной категории. Иначе, новый документ не будет определен к данной категории.As a result, using the
В частном варианте реализации выбор той или иной модели классификации может быть задан аналитиком. В еще одном частном варианте реализации, способ обучения классификатора (см. Фиг. 2) может быть применен для одинакового набора документов для различных моделей, и, в итоге, будет выбран классификатор 140, обеспечивающий наименьшую ошибку классификации на наборе дополнительных документов (тестовая выборка), для которых известна категория.In a particular embodiment, the choice of one or another classification model can be specified by the analyst. In yet another particular embodiment, the classifier training method (see Fig. 2) can be applied for the same set of documents for different models, and, as a result,
В еще одном частном варианте реализации категорией документа дополнительно является совокупность из двух и более категорий, а также подкатегория известной категории. Например, у категории «паспорт» могут быть следующие подкатегории: «внутренний паспорт», «заграничный паспорт», «дипломатический паспорт», паспорта различных стран мира. Данные подкатегории, очевидно, сами по себе являются категориями в указанном варианте реализации.In yet another particular embodiment, the category of the document is additionally a combination of two or more categories, as well as a subcategory of a known category. For example, the “passport” category may have the following subcategories: “internal passport”, “foreign passport”, “diplomatic passport”, passports of various countries of the world. These subcategories, obviously, are themselves categories in this embodiment.
В итоге будет решена заявленная техническая проблема и достигнут заявленный технический результат, заключающийся в повышении качества определения категории документа классификатором. Таким способом, например, документ «вид на жительство» может быть определен к большой категории «удостоверение личности», т.к. содержит все упомянутые выше признаки, хотя он не является ни «паспортом» ни «водительскими правами» и не может быть определен ни к одной из этих двух категорий.As a result, the claimed technical problem will be solved and the claimed technical result achieved, consisting in improving the quality of determining the category of a document by a classifier. In this way, for example, the document "residence permit" can be defined in the large category of "identity card", because It contains all the features mentioned above, although it is neither a “passport” nor a “driver’s license” and cannot be assigned to either of these two categories.
В частном варианте реализации признаки дополнительно включают следующие:In a particular embodiment, the features further include the following:
- гистограмма цветов объекта;- a histogram of the colors of the object;
- метаданные объекта (например, EXIF файла изображения документа);- object metadata (for example, EXIF document image file);
- множество объектов, объединенных по определенному признаку;- a lot of objects united by a certain attribute;
- количество одинаковых объектов;- the number of identical objects;
- соответствие гистограммы цветов объекта заданному шаблону;- correspondence of the histogram of the object colors to the given pattern;
- соответствие заданной комбинации объектов шаблону взаимного расположения;- compliance of a given combination of objects with a pattern of relative positioning;
- преобразование Фурье гистограммы цветов объекта;- Fourier transform of the histogram of the colors of the object;
- наличие искажений на изображении объекта (как геометрических, так и оптических);- the presence of distortion in the image of the object (both geometric and optical);
- тип искажений на изображении объекта (например, дисторсия, поворот, искажение перспективы, наличие блика и др.).- the type of distortion in the image of the object (for example, distortion, rotation, distortion of perspective, the presence of glare, etc.).
На Фиг. 2 представлен способ обучения классификатора. Средство анализа 110 на шаге 201 получает документы 101, которые принадлежат к одной категории 106 и, затем, на шаге 202 для каждого полученного документа определяет содержащиеся в нем объекты. На шаге 203 для каждого документа средство формирования признаков 120 формирует набор признаков, состоящий из определенных объектов. В итоге, на шаге 204 средство построения классификатора 130 выполняет построение классификатора 140 на основании сформированных признаков для документов. При этом, ввиду того, что категория может содержать документы разных подкатегорий (например, паспорт и водительское удостоверение), решается заявленная техническая проблема и достигается технический результат, заключающийся в повышении качества определения категории документа классификатором.In FIG. 2 presents a method for training the classifier. The
В частном варианте реализации на шаге 204 средство анализа 110 получает дополнительные документы 102, принадлежащие к категории 106 и рассчитывает ошибку классификации дополнительных документов с использованием классификатора 140. При этом, если ошибка классификации превышает заданное значение, шаги 201-204 будут повторены с тем отличием, что на шаге 201 будут получены документы, которые принадлежат к одной из двух (или более) категорий - например категория 106 и новая категория 107, отличная от категории 106. В противном случае - построение классификатора завершают. Стоит отметить, что заявленный способ будет работать аналогичным образом, если категорий больше двух. В этом случае, шаги способа 201-204 будут повторены соответствующее число раз.In a particular embodiment, at
На Фиг. 3а-3в изображен пример документа и различные примеры определения содержащихся на документе объектов. На Фиг. 3а представлен внутренний паспорт Российской Федерации 300. Средство анализа 110 может определить содержащиеся в документе 300 объекты, например, представленные на Фиг. 3б и 3в.In FIG. 3a-3c show an example of a document and various examples of determining the objects contained in a document. In FIG. 3a shows the internal passport of the
В первом примере, на Фиг. 3б, объектами могут быть, например, фотография 311, текстовые поля 312 и отрезок 313. При этом содержащиеся символы в текстовых полях 312 или в части текстовых полей 312 могут быть распознаны с использованием OCR или не распознаны в зависимости от варианта реализации. В одном варианте реализации, текстовые поля 312 будут определены как прямоугольные области, в которых содержится текст документа 310 (документ 300 с выделенными объектами). В рассматриваемом примере всего было выделено 16 текстовых полей 312, а также 9 отрезков 313.In the first example, in FIG. 3b, the objects may be, for example,
В качестве признаков могут быть сформированы, например, следующие:As signs, for example, the following can be formed:
- наличие объектов: фотографии 311, текстовых полей 312, отрезков 313;- the presence of objects:
- местоположения объектов: координаты объектов 311-313 относительно границ документа 310;- locations of objects: coordinates of objects 311-313 relative to the borders of
- количество объектов 311-313 (в данном примере, одна фотография 311, шестнадцать текстовых полей 312 и девять отрезков 313);- the number of objects 311-313 (in this example, one
- взаимное расположение объектов, например, расстояние между отрезками 313, расстояние и угол между отрезками 313 и фотографией 311, расстояние и угол между фотографией 311 и текстовыми полями 312 и т.д.;- the relative position of objects, for example, the distance between
- размеры объекта, например, отношение площади фотографии 311 к площади всего документа 310, отношение площади всех текстовых полей 312 к площади документа 310 и пр.;- the size of the object, for example, the ratio of the area of the
- угол наклона объекта, например, угол наклона отрезков 313 по отношению к рамкам документа 310.- the angle of inclination of the object, for example, the angle of inclination of the
Еще один возможный пример того, как средство анализа 110 может определить объекты, содержащиеся на документе 310, приведен на Фиг. 3в. Так, дополнительно к фотографии 311, текстовым полям 312 и отрезкам 313 будут определены такие объекты, как: узоры 314 и узоры 315, надпись РФ 316. Дополнительными признаками, в данном примере могут быть, например, следующие:Another possible example of how
- количество узоров 314 (всего 21), количество узоров 315 (всего 25);- the number of patterns 314 (total 21), the number of patterns 315 (total 25);
- угол наклона узоров 314 по отношению к рамкам документа 320 (10 объектов под углом 0 градусов, 1 под углом 45 градусов, 10 под углом 90 градусов);- the angle of inclination of the
- местоположение надписи РФ 316 (правый верхний угол);- location of the inscription of the Russian Federation 316 (upper right corner);
- взаимное расположение узоров 314 (в виде буквы Г на равном расстоянии друг от друга) и узоров 315 (в виде горизонтальной линии на равном расстоянии друг от друга).- the mutual arrangement of patterns 314 (in the form of the letter G at an equal distance from each other) and patterns 315 (in the form of a horizontal line at an equal distance from each other).
В еще одном частном примере реализации, символы в части или всех текстовых полях 312 могут быть распознаны с использованием OCR. В этом примере могут быть дополнительно сформирован признак наличия текстовых полей: фамилии, имени, отчества, пола, даты рождения, места рождения. Также может быть сформирован признак наличия числа, удовлетворяющего требования к номеру паспорта и другие признаки.In yet another particular embodiment, characters in part or all of the text fields 312 may be recognized using OCR. In this example, a feature for the presence of text fields can be additionally generated: last name, first name, middle name, gender, date of birth, place of birth. Also, a sign of the presence of a number satisfying the requirements for the passport number and other signs may be generated.
Стоит отметить, что два нижних текстовых поля являются машиночитаемым текстом (например, в соответствии со стандартом ИКАО 9303) и могут быть быстро распознаны с использованием существующих алгоритмов. В этом случае, наличие машиночитаемого текста может быть дополнительным признаком.It is worth noting that the two lower text fields are machine-readable text (for example, in accordance with the ICAO standard 9303) and can be quickly recognized using existing algorithms. In this case, the presence of machine-readable text may be an additional feature.
Зачастую, документы, удостоверяющие личность, например, паспорт 300, имеют характерный сетчатый фон определенного цвета. В этом примере, в качестве дополнительного признака может быть выбран преобладающий цвет на гистограмме цветов всего документа 300.Often, identification documents, for example,
На Фиг. 4а и 4б изображен еще один пример документа и различные примеры определения содержащихся на документе объектов. На Фиг. 4а представлены водительское удостоверение Российской Федерации 400. Средство анализа 110 может определить содержащиеся в документе 400 объекты, например, представленные на Фиг. 4б.In FIG. 4a and 4b show another example of a document and various examples of determining the objects contained in a document. In FIG. 4a shows a driver’s license of the
В примере на Фиг. 4б объектами могут быть, например, фотография 406, текстовые поля 402, текстовые поля 403, название (код) страны 401, подпись 404 и категория 405. При этом содержащиеся символы в текстовых полях 402-403 или в части текстовых полей 402-403 могут быть распознаны с использованием OCR или не распознаны в зависимости от варианта реализации. В одном варианте реализации, текстовые поля 402-403 будут определены как прямоугольные области, в которых содержится текст документа 410 (документ 400 с выделенными объектами). В рассматриваемом примере всего было выделено 11 текстовых полей 403 и 14 текстовых полей 402.In the example of FIG. 4b objects can be, for example,
В качестве признаков могут быть сформированы, например, следующие:As signs, for example, the following can be formed:
- наличие объектов: фотографии 406, текстовых полей 402-403, названия страны 401, подписи 404, категории 405;- the presence of objects:
- местоположения объектов: фотографии 406, текстовых полей 402-403, названия страны 401, подписи 404, категории 405;- location of objects:
- количество объектов 401-406 (в данном примере, одна фотография 406, 11 текстовых полей 403, 14 текстовых полей 402, одна подпись 404, одна категория 405, одно название страны 401);- the number of objects 401-406 (in this example, one
- взаимное расположение объектов, например, расстояние и угол между фотографией 406 и текстовыми полями 402 и т.д.;- the relative position of objects, for example, the distance and angle between the
- размеры объекта, например, отношение площади фотографии 406 к площади всего документа 410, отношение площади всех текстовых полей 402-403 к площади документа 410 и пр.;- the size of the object, for example, the ratio of the area of the
- угол наклона объекта, например, угол наклона текстовых полей 402 по отношению к рамкам документа 410.- the angle of inclination of the object, for example, the angle of inclination of the text fields 402 with respect to the frames of the
В частном примере реализации, категории «паспорт» и «водительские права» могут быть объединены в одну большую категорию «удостоверение личности». Упомянутые две категории содержат множество одинаковых объектов 104 (например, фотография, название страны, текстовые поля: фамилия, имя, отчество, дата рождения) и для них может быть сформирован набор одинаковых признаков и, таким образом, с использованием заявленного изобретения может быть построен классификатор 140, позволяющий определить категорию новых документов, для которых не задана категория.In a particular implementation example, the categories “passport” and “driver’s license” can be combined into one large category “identity card”. The two categories mentioned contain many identical objects 104 (for example, photograph, country name, text fields: last name, first name, middle name, date of birth) and for them a set of identical signs can be formed and, thus, using the claimed invention, a classifier can be constructed 140, which allows you to determine the category of new documents for which a category is not defined.
Такими признаками в данном примере могут быть, например, наличие таких объектов, как, фотография (311 для паспорта и 406 для водительского удостоверения), название страны (316 для паспорта и 401 для водительского удостоверения), наличие текстовых полей, таких как, фамилия, имя, отчество, дата рождения (часть полей 313 для паспорта и часть полей 402 для водительского удостоверения).Such features in this example may be, for example, the presence of such objects as a photograph (311 for a passport and 406 for a driver’s license), country name (316 for a passport and 401 for a driver’s license), the presence of text fields, such as, last name, name, patronymic, date of birth (part of the
Таким образом, с использованием упомянутых выше признаков, будет построен классификатор, определяющий категорию «удостоверение личность» как для паспорта 300, так и для водительского удостоверения 400. Кроме того, построенный классификатор также определит к категории «удостоверение личности» другие аналогичные документы, имеющие такие же значения сформированного набора признаков. Такими документами, будут, в частности, вид на жительство, заграничный паспорт, паспорт других стран и другие документы, у которых присутствует фотография, название страны, наличие текстовых полей (фамилия, имя, отчество, дата рождения).Thus, using the aforementioned features, a classifier will be constructed that defines the category of “identity card” for both
В итоге будет решена заявленная техническая проблема и достигнут заявленный технический результат, заключающийся в повышении качества определения категории документа классификатором.As a result, the claimed technical problem will be solved and the claimed technical result achieved, consisting in improving the quality of determining the category of a document by a classifier.
Фиг. 5 представляет пример компьютерной системы общего назначения, персональный компьютер или сервер 20, содержащий центральный процессор 21, системную память 22 и системную шину 23, которая содержит разные системные компоненты, в том числе память, связанную с центральным процессором 21. Системная шина 23 реализована, как любая известная из уровня техники шинная структура, содержащая в свою очередь память шины или контроллер памяти шины, периферийную шину и локальную шину, которая способна взаимодействовать с любой другой шинной архитектурой. Системная память содержит постоянное запоминающее устройство (ПЗУ) 24, память с произвольным доступом (ОЗУ) 25. Основная система ввода/вывода (BIOS) 26, содержит основные процедуры, которые обеспечивают передачу информации между элементами персонального компьютера 20, например, в момент загрузки операционной системы с использованием ПЗУ 24.FIG. 5 is an example of a general purpose computer system, a personal computer or
Персональный компьютер 20 в свою очередь содержит жесткий диск 27 для чтения и записи данных, привод магнитных дисков 28 для чтения и записи на сменные магнитные диски 29 и оптический привод 30 для чтения и записи на сменные оптические диски 31, такие как CD-ROM, DVD-ROM и иные оптические носители информации. Жесткий диск 27, привод магнитных дисков 28, оптический привод 30 соединены с системной шиной 23 через интерфейс жесткого диска 32, интерфейс магнитных дисков 33 и интерфейс оптического привода 34 соответственно. Приводы и соответствующие компьютерные носители информации представляют собой энергонезависимые средства хранения компьютерных инструкций, структур данных, программных модулей и прочих данных персонального компьютера 20.The
Настоящее описание раскрывает реализацию системы, которая использует жесткий диск 27, сменный магнитный диск 29 и сменный оптический диск 31, но следует понимать, что возможно применение иных типов компьютерных носителей информации 56, которые способны хранить данные в доступной для чтения компьютером форме (твердотельные накопители, флеш-карты памяти, цифровые диски, память с произвольным доступом (ОЗУ) и т.п.), которые подключены к системной шине 23 через контроллер 55.The present description discloses an implementation of a system that uses a
Компьютер 20 имеет файловую систему 36, где хранится записанная операционная система 35, а также дополнительные программные приложения 37, другие программные модули 38 и данные программ 39. Пользователь имеет возможность вводить команды и информацию в персональный компьютер 20 посредством устройств ввода (клавиатуры 40, манипулятора «мышь» 42). Могут использоваться другие устройства ввода (не отображены): микрофон, джойстик, игровая консоль, сканер и т.п. Подобные устройства ввода по своему обычаю подключают к компьютерной системе 20 через последовательный порт 46, который, в свою очередь, подсоединен к системной шине, но могут быть подключены иным способом, например, при помощи параллельного порта, игрового порта или универсальной последовательной шины (USB). Монитор 47 или иной тип устройства отображения также подсоединен к системной шине 23 через интерфейс, такой как видеоадаптер 48. В дополнение к монитору 47, персональный компьютер может быть оснащен другими периферийными устройствами вывода (не отображены), например, колонками, принтером и т.п.
Персональный компьютер 20 способен работать в сетевом окружении, при этом используется сетевое соединение с другим или несколькими удаленными компьютерами 49. Удаленный компьютер (или компьютеры) 49 являются такими же персональными компьютерами или серверами, которые имеют большинство или все упомянутые элементы, отмеченные ранее при описании существа персонального компьютера 20, представленного на Фиг. 5. В вычислительной сети могут присутствовать также и другие устройства, например, маршрутизаторы, сетевые станции, пиринговые устройства или иные сетевые узлы.The
Сетевые соединения могут образовывать локальную вычислительную сеть (LAN) 50 и глобальную вычислительную сеть (WAN). Такие сети применяются в корпоративных компьютерных сетях, внутренних сетях компаний и, как правило, имеют доступ к сети Интернет. В LAN- или WAN-сетях персональный компьютер 20 подключен к локальной сети 50 через сетевой адаптер или сетевой интерфейс 51. При использовании сетей персональный компьютер 20 может использовать модем 54 или иные средства обеспечения связи с глобальной вычислительной сетью, такой как Интернет. Модем 54, который является внутренним или внешним устройством, подключен к системной шине 23 посредством последовательного порта 46. Следует уточнить, что сетевые соединения являются лишь примерными и не обязаны отображать точную конфигурацию сети, т.е. в действительности существуют иные способы установления соединения техническими средствами связи одного компьютера с другим.Network connections can form a local area network (LAN) 50 and a wide area network (WAN). Such networks are used in corporate computer networks, internal networks of companies and, as a rule, have access to the Internet. In LAN or WAN networks, the
В соответствии с описанием, компоненты, этапы исполнения, структура данных, описанные выше, могут быть выполнены, используя различные типы операционных систем, компьютерных платформ, программ.In accordance with the description, components, execution steps, data structure described above can be performed using various types of operating systems, computer platforms, programs.
В заключение следует отметить, что приведенные в описании сведения являются примерами, которые не ограничивают объем настоящего изобретения, определенного формулой.In conclusion, it should be noted that the information provided in the description are examples that do not limit the scope of the present invention defined by the claims.
Claims (52)
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2017133846A RU2672395C1 (en) | 2017-09-29 | 2017-09-29 | Method for training a classifier designed for determining the category of a document |
US15/958,431 US11176363B2 (en) | 2017-09-29 | 2018-04-20 | System and method of training a classifier for determining the category of a document |
EP18171883.4A EP3462378B1 (en) | 2017-09-29 | 2018-05-11 | System and method of training a classifier for determining the category of a document |
CN201810553167.9A CN109583463B (en) | 2017-09-29 | 2018-05-31 | System and method for training a classifier for determining a category of a document |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2017133846A RU2672395C1 (en) | 2017-09-29 | 2017-09-29 | Method for training a classifier designed for determining the category of a document |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2672395C1 true RU2672395C1 (en) | 2018-11-14 |
Family
ID=64328019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2017133846A RU2672395C1 (en) | 2017-09-29 | 2017-09-29 | Method for training a classifier designed for determining the category of a document |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2672395C1 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144114A (en) * | 2019-12-19 | 2020-05-12 | 广联达科技股份有限公司 | Text recognition method and device |
RU2759887C1 (en) * | 2020-12-29 | 2021-11-18 | федеральное государственное казенное военное образовательное учреждение высшего образования "Краснодарское высшее военное орденов Жукова и Октябрьской Революции Краснознаменное училище имени генерала армии С.М. Штеменко" Министерства обороны Российской Федерации | Method for automatic classification of formalized electronic graphic and text documents in the electronic document circulation system with automatic formation of electronic cases |
US11816909B2 (en) | 2021-08-04 | 2023-11-14 | Abbyy Development Inc. | Document clusterization using neural networks |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009061917A1 (en) * | 2007-11-06 | 2009-05-14 | Copanion, Inc. | Systems and methods to automatically organize electronic jobs by automatically classifying electronic documents using extracted image and text features and using a machine-learning recognition subsystem |
US20120310864A1 (en) * | 2011-05-31 | 2012-12-06 | Shayok Chakraborty | Adaptive Batch Mode Active Learning for Evolving a Classifier |
US20140241622A1 (en) * | 2011-06-10 | 2014-08-28 | Microsoft Corpotation | Image Type Classifier For Improved Remote Presentation Session Compression |
RU2571545C1 (en) * | 2014-09-30 | 2015-12-20 | Общество с ограниченной ответственностью "Аби Девелопмент" | Content-based document image classification |
US20170278015A1 (en) * | 2016-03-24 | 2017-09-28 | Accenture Global Solutions Limited | Self-learning log classification system |
-
2017
- 2017-09-29 RU RU2017133846A patent/RU2672395C1/en active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009061917A1 (en) * | 2007-11-06 | 2009-05-14 | Copanion, Inc. | Systems and methods to automatically organize electronic jobs by automatically classifying electronic documents using extracted image and text features and using a machine-learning recognition subsystem |
US20120310864A1 (en) * | 2011-05-31 | 2012-12-06 | Shayok Chakraborty | Adaptive Batch Mode Active Learning for Evolving a Classifier |
US20140241622A1 (en) * | 2011-06-10 | 2014-08-28 | Microsoft Corpotation | Image Type Classifier For Improved Remote Presentation Session Compression |
RU2571545C1 (en) * | 2014-09-30 | 2015-12-20 | Общество с ограниченной ответственностью "Аби Девелопмент" | Content-based document image classification |
US20170278015A1 (en) * | 2016-03-24 | 2017-09-28 | Accenture Global Solutions Limited | Self-learning log classification system |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144114A (en) * | 2019-12-19 | 2020-05-12 | 广联达科技股份有限公司 | Text recognition method and device |
RU2759887C1 (en) * | 2020-12-29 | 2021-11-18 | федеральное государственное казенное военное образовательное учреждение высшего образования "Краснодарское высшее военное орденов Жукова и Октябрьской Революции Краснознаменное училище имени генерала армии С.М. Штеменко" Министерства обороны Российской Федерации | Method for automatic classification of formalized electronic graphic and text documents in the electronic document circulation system with automatic formation of electronic cases |
US11816909B2 (en) | 2021-08-04 | 2023-11-14 | Abbyy Development Inc. | Document clusterization using neural networks |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10504202B2 (en) | Method and device for identifying whether standard picture contains watermark | |
US9754164B2 (en) | Systems and methods for classifying objects in digital images captured using mobile devices | |
US11663817B2 (en) | Automated signature extraction and verification | |
JP4718841B2 (en) | Index and load documents based on images | |
US9760788B2 (en) | Mobile document detection and orientation based on reference object characteristics | |
JP2023502584A (en) | System and method for authentication of documents | |
US20190304066A1 (en) | Synthesis method of chinese printed character images and device thereof | |
US9626555B2 (en) | Content-based document image classification | |
Bulatovich et al. | MIDV-2020: a comprehensive benchmark dataset for identity document analysis | |
EP3642756B1 (en) | Detecting artificial facial images using facial landmarks | |
JPWO2004051575A1 (en) | Feature region extraction apparatus, feature region extraction method, and feature region extraction program | |
RU2672395C1 (en) | Method for training a classifier designed for determining the category of a document | |
US11144752B1 (en) | Physical document verification in uncontrolled environments | |
KR102090973B1 (en) | Information processing apparatus, information processing method, and storage medium | |
US11176363B2 (en) | System and method of training a classifier for determining the category of a document | |
US10867170B2 (en) | System and method of identifying an image containing an identification document | |
RU2603495C1 (en) | Classification of document images based on parameters of colour layers | |
KR102319492B1 (en) | AI Deep learning based senstive information management method and system from images | |
EP3316173A1 (en) | System and method for cheque image data masking | |
EP2156373A2 (en) | Applying a segmentation engine to different mappings of a digital image | |
Wang et al. | Ultra-Fast Mini License Plate Recognition System Based-on Vision Processing Unit | |
US20240144711A1 (en) | Reliable determination of field values in documents with removal of static field elements | |
EP4266264A1 (en) | Unconstrained and elastic id document identification in an rgb image | |
JP4974794B2 (en) | Document recognition apparatus, document recognition method, and computer program | |
CN116740398A (en) | Target detection and matching method, device and readable storage medium |