RU2672395C1 - Method for training a classifier designed for determining the category of a document - Google Patents

Method for training a classifier designed for determining the category of a document Download PDF

Info

Publication number
RU2672395C1
RU2672395C1 RU2017133846A RU2017133846A RU2672395C1 RU 2672395 C1 RU2672395 C1 RU 2672395C1 RU 2017133846 A RU2017133846 A RU 2017133846A RU 2017133846 A RU2017133846 A RU 2017133846A RU 2672395 C1 RU2672395 C1 RU 2672395C1
Authority
RU
Russia
Prior art keywords
category
classifier
document
documents
objects
Prior art date
Application number
RU2017133846A
Other languages
Russian (ru)
Inventor
Дмитрий Сергеевич Дорогой
Александр Валерьевич Шаров
Александр Александрович Тузовский
Илья Анатольевич Терещенко
Original Assignee
Акционерное общество "Лаборатория Касперского"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Акционерное общество "Лаборатория Касперского" filed Critical Акционерное общество "Лаборатория Касперского"
Priority to RU2017133846A priority Critical patent/RU2672395C1/en
Priority to US15/958,431 priority patent/US11176363B2/en
Priority to EP18171883.4A priority patent/EP3462378B1/en
Priority to CN201810553167.9A priority patent/CN109583463B/en
Application granted granted Critical
Publication of RU2672395C1 publication Critical patent/RU2672395C1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

FIELD: information technology.
SUBSTANCE: invention relates to prevention of information leaks, in particular to the prevention of leaks of electronic copies of personal and confidential documents. In the method of training a classifier intended for determining the category of a document, documents that belong to the category are received. For each document received, the objects contained in it are defined, which are graphic elements. For each document received, a set of characteristics consisting of certain objects is formed. In this case, the mentioned characteristics are the characteristics characterizing the presence of an object, the location of an object, the number of objects, the location of one object relatively to another object, the size of an object, the angle of object's inclination. Construction of a classifier based on the values of the generated characteristics for the received documents is created.
EFFECT: technical result is higher quality of a category definition of a document by a classifier.
13 cl, 8 dwg

Description

Изобретение относится к области предотвращения утечек информации.The invention relates to the field of preventing information leakage.

Уровень техникиState of the art

В связи с возросшим в последнее время числом киберпреступлений и увеличившимся количеством краж информации все более востребованными становятся системы предотвращения утечек информации (англ. DLP - Data Leak Prevention). Одной из основных задач систем DLP является предотвращение утечек электронных копий персональных и конфиденциальных документов, таких как: паспорт, свидетельство о рождении, водительское удостоверение, конфиденциальный договор и др.Due to the recent increase in the number of cybercrimes and an increase in the number of information thefts, Data Leak Prevention systems are becoming more and more in demand. One of the main tasks of DLP systems is to prevent leakage of electronic copies of personal and confidential documents, such as: passport, birth certificate, driver's license, confidential agreement, etc.

Для обнаружения персональных и конфиденциальных документов широкое применение нашли технологии машинного обучения, в частности технологии распознавания образов, а также технологии оптического распознавания символов (англ. optical character recognition, OCR). Для этого на вход классификатору подается набор похожих документов интересующих категорий, на основании данного набора документов формируются признаки, по которым затем выполняется отнесение новых документов к одной из категорий.To detect personal and confidential documents, machine learning technologies have been widely used, in particular, pattern recognition technologies, as well as optical character recognition (OCR) technologies. To this end, the classifier receives a set of similar documents of interest to the input, based on this set of documents signs are generated, which then assigns new documents to one of the categories.

Однако существующие технологии зачастую показывают хорошее качество классификации только для фиксированного набора категорий документов. При добавлении новой категории документов необходимо заново выполнить обучение классификатора на большом массиве похожих документов. К тому же, если новый документ не может быть отнесен ни к одной из категорий, он все равно может содержать конфиденциальные данные. Кроме того, при построении большинства классификаторов существенную роль играет настройка классификатора аналитиком, однако зачастую это не позволяет достичь высокого качества классификации.However, existing technologies often show good classification quality only for a fixed set of document categories. When adding a new category of documents, it is necessary to re-train the classifier on a large array of similar documents. In addition, if a new document cannot be assigned to any of the categories, it can still contain confidential data. In addition, when constructing most classifiers, an analyst plays an important role in setting the classifier, but often this does not allow achieving a high classification quality.

Таким образом, возникает техническая проблема, заключающаяся в сложности построения классификатора, обеспечивающего высокое качество классификации.Thus, a technical problem arises, consisting in the complexity of constructing a classifier that provides high quality classification.

Из уровня техники известна технология классификации изображений документов на основании их содержимого, описанная в заявке US 20160092730. С использованием технологий OCR из цифровой копии документа извлекается различная текстовая информация и графическая информация. Затем на основании содержимого документа формируется набор признаков, использующийся далее для классификации документов. В то же время упомянутое изобретение не решает заявленную техническую проблему, т.к. в ряде случаев не обеспечивает высокое качество классификации, в частности, не позволяет классифицировать документы, содержащие конфиденциальные данные и не относящиеся ни к одной из известных категорий и, кроме того, для определения признаков в упомянутом изобретении необходимо распознать содержащийся в документе текст.The prior art technology for the classification of images of documents based on their contents, described in the application US 20160092730. Using OCR technology from a digital copy of the document is extracted various text information and graphic information. Then, based on the contents of the document, a set of features is formed, which is used further to classify documents. At the same time, the aforementioned invention does not solve the claimed technical problem, because in some cases it does not provide high quality classification, in particular, it does not allow classification of documents containing confidential data and not belonging to any of the well-known categories, and, in addition, to determine the features in the aforementioned invention, it is necessary to recognize the text contained in the document.

Раскрытие сущности изобретенияDisclosure of the invention

Первый технический результат заключается в повышении качества определения категории документа классификатором.The first technical result is to improve the quality of determining the category of a document by a classifier.

Второй технический результат заключается в реализации назначения.The second technical result is the implementation of the appointment.

Согласно варианту реализации, используется реализуемый компьютером способ обучения классификатора, предназначенного для определения категории документа, в котором: получают документы, которые принадлежат, в частности, к одной категории; для каждого полученного документа определяют содержащиеся в нем объекты, в частности, являющиеся графическими элементами; для каждого полученного документа формируют набор признаков, состоящий из определенных объектов, при этом упомянутые признаки включают, в частности, следующие: наличие объекта; местоположение объекта; количество объектов; расположение одного объекта по отношению к другому объекту; размеры объекта; угол наклона объекта; выполняют построение классификатора на основании значений сформированных признаков для полученных документов.According to an embodiment, a computer-implemented method of training a classifier is used to determine the category of a document, in which: receive documents that belong, in particular, to one category; for each received document, the objects contained in it are determined, in particular, which are graphic elements; for each document received, a set of features is formed, consisting of certain objects, while the mentioned features include, in particular, the following: the presence of an object; object location; number of objects; the location of one object in relation to another object; object dimensions; the angle of the object; constructing a classifier based on the values of the generated characteristics for the received documents.

Согласно одному из частных вариантов реализации получают дополнительные документы, принадлежащие к каждой сформированной категории классификатора, и рассчитывают ошибку классификации упомянутых дополнительных документов с использованием упомянутого классификатора, при этом если ошибка классификации превышает заданное значение, повторяют построение классификатора с учетом дополнительных документов.According to one particular embodiment, additional documents are received that belong to each generated classifier category, and the classification error of the mentioned additional documents is calculated using the said classifier, and if the classification error exceeds a predetermined value, the construction of the classifier is repeated taking into account additional documents.

Согласно другому частному варианту реализации дополнительно получают документы, принадлежащие к каждой сформированной категории классификатора и по меньшей мере к одной другой категории, и рассчитывают ошибку классификации дополнительных документов с использованием упомянутого классификатора, при этом, если ошибка классификации превышает заданное значение, повторяют шаги а)-г), с тем отличием, что на шаге а) получают документы, одна часть указанных документов принадлежит к одной из сформированных категорий, а другая часть указанных документов принадлежит по меньшей мере к одной другой категории.According to another particular embodiment, documents additionally receive that belong to each generated classifier category and at least one other category, and the classification error of the additional documents is calculated using the classifier, while if the classification error exceeds a predetermined value, repeat steps a) - d), with the difference that at step a) documents are received, one part of the indicated documents belongs to one of the generated categories, and the other part of the indicated Document belongs to at least one other category.

Согласно еще одному частному варианту реализации ошибку классификации рассчитывают с использованием, в частности, одного из алгоритмов: минимизация эмпирического риска; скользящий контроль.According to another particular embodiment, the classification error is calculated using, in particular, one of the algorithms: minimization of empirical risk; sliding control.

Согласно одному из частных вариантов реализации построение классификатора на основании сформированных признаков включает: выбор модели классификации; обучение классификатора согласно выбранной модели классификации, где в качестве признакового описания документа выступают сформированные признаки, а в качестве классов - в частности, одна категория документа.According to one particular implementation option, the construction of a classifier based on the generated features includes: the choice of a classification model; training the classifier according to the selected classification model, where the formed attributes act as a characteristic description of the document, and in particular, one category of the document acts as classes.

Согласно другому частному варианту реализации выбирают одну из следующих моделей классификации: Байесовский классификатор; нейронная сеть; Вейвлет Хаара; Локальные бинарные шаблоны; Гистограмма направленных градиентов.According to another particular embodiment, one of the following classification models is selected: Bayesian classifier; neural network; Wavelet haar; Local binary patterns; Bar graph of directional gradients.

Согласно еще одному частному варианту реализации содержатся, в частности, следующие категории документов: паспорт; водительское удостоверение; свидетельство о рождении.According to another particular embodiment, the following categories of documents are contained, in particular: passport; driver's license; birth certificate.

Согласно одному из частных вариантов реализации объектами дополнительно являются графические элементы - распознанные изображения по меньшей мере одного из следующих: лица человека; герба страны; флага страны; печати; логотипа; всего документа.According to one particular embodiment, the objects are additionally graphic elements — recognized images of at least one of the following: human faces; coat of arms of the country; country flag; printing; logo; entire document.

Согласно другому частному варианту реализации упомянутые объектами являются композицией следующих объектов: отрезок; точка; сплайн; эллипс.According to another particular embodiment, the objects mentioned are a composition of the following objects: segment; point; spline; ellipse.

Согласно еще одному частному вариантов реализации категорией документа дополнительно является совокупность из двух и более категорий, а также подкатегория известной категории.According to another particular embodiment, the category of the document is additionally a combination of two or more categories, as well as a subcategory of a known category.

Согласно одному из частных вариантов реализации добавляют новую категорию, включающую, в частности, две и более существующих категорий, при этом при построении классификатора из числа сформированных признаков выбирают признаки, свойственные для новой категории.According to one particular implementation variant, a new category is added, including, in particular, two or more existing categories, while when constructing a classifier from among the generated attributes, the attributes characteristic of the new category are selected.

Согласно другому частному варианту реализации объекты дополнительно являются текстовыми элементами.According to another particular embodiment, the objects are additionally text elements.

Согласно еще одному частному варианту реализации признаки дополнительно включают следующие: гистограмма цветов объекта; метаданные объекта; множество объектов, объединенных по определенному признаку; количество одинаковых объектов; соответствие гистограммы цветов объекта заданному шаблону; соответствие заданной комбинации объектов шаблону взаимного расположения; преобразование Фурье гистограммы цветов объекта; наличие искажений на изображении объекта; тип искажений на изображении объекта.According to another particular embodiment, the features further include the following: a histogram of the colors of the object; Object metadata a lot of objects united by a certain attribute; number of identical objects; correspondence of the histogram of the object colors to the given pattern; compliance of a given combination of objects with a pattern of relative positioning; Fourier transform of the histogram of the colors of the object; the presence of distortion in the image of the object; type of distortion in the image of the object.

Краткое описание чертежейBrief Description of the Drawings

Дополнительные цели, признаки и преимущества настоящего изобретения будут очевидными из прочтения последующего описания осуществления изобретения со ссылкой на прилагаемые чертежи, на которых:Additional objectives, features and advantages of the present invention will be apparent from reading the following description of an embodiment of the invention with reference to the accompanying drawings, in which:

На Фиг. 1 представлена система обучения классификатора, предназначенного для определения категории документа.In FIG. 1 shows a classifier training system designed to determine the category of a document.

На Фиг. 2 представлен способ обучения классификатора.In FIG. 2 presents a method for training the classifier.

На Фиг. 3а-3в изображен пример документа и различные примеры определения содержащихся на документе объектов.In FIG. 3a-3c show an example of a document and various examples of determining the objects contained in a document.

На Фиг. 4а-4б изображен еще один пример документа и различные примеры определения содержащихся на документе объектов.In FIG. 4a-4b show another example of a document and various examples of determining the objects contained in a document.

Фиг. 5 представляет пример компьютерной системы общего назначения.FIG. 5 is an example of a general purpose computer system.

Осуществление изобретенияThe implementation of the invention

Объекты и признаки настоящего изобретения, способы для достижения этих объектов и признаков станут очевидными посредством отсылки к примерным вариантам осуществления. Однако настоящее изобретение не ограничивается примерными вариантами осуществления, раскрытыми ниже, оно может воплощаться в различных видах. Сущность, приведенная в описании, является ничем иным, как конкретными деталями, обеспеченными для помощи специалисту в области техники в исчерпывающем понимании изобретения, и настоящее изобретение определяется в объеме приложенной формулы.The objects and features of the present invention, methods for achieving these objects and features will become apparent by reference to exemplary embodiments. However, the present invention is not limited to the exemplary embodiments disclosed below, it can be embodied in various forms. The essence described in the description is nothing more than the specific details provided to assist the specialist in the field of technology in a comprehensive understanding of the invention, and the present invention is defined in the scope of the attached claims.

На Фиг. 1 представлена система обучения классификатора, предназначенного для определения категории документа. Под электронным документом (далее - документ) понимается любой компьютерный файл, содержащий графическую и/или текстовую информацию. Такой файл может иметь графический формат данных (JPEG, PNG, TIFF и др.) или формат электронных документов (PDF, DOC, DOCX и др.). Настоящее изобретение служит для построения классификатора, предназначенного для определения категории документа. В частном варианте реализации рассматриваются документы, которые потенциально могут содержать персональные данные, конфиденциальные данные или любые другие данные, представляющие ценность. Некоторым документам может быть заранее задана категория, характеризующая их принадлежность к настоящим бумажным документам (паспорт, водительское удостоверение, свидетельство о рождении и пр.). Категория документа может быть задана, например, аналитиком, пользователем или компьютерной системой.In FIG. 1 shows a classifier training system designed to determine the category of a document. An electronic document (hereinafter referred to as a document) is understood to mean any computer file containing graphic and / or text information. Such a file can have a graphic data format (JPEG, PNG, TIFF, etc.) or an electronic document format (PDF, DOC, DOCX, etc.). The present invention serves to construct a classifier designed to determine the category of a document. In a particular embodiment, documents are considered that could potentially contain personal data, confidential data, or any other data of value. Some documents may be pre-assigned with a category that characterizes their belonging to these paper documents (passport, driver’s license, birth certificate, etc.). The category of a document may be defined, for example, by an analyst, user, or computer system.

Средство анализа 110 служит для получения документов 101, которые принадлежат к одной категории 106. Документы 101 служат обучающей выборкой для построения классификатора 140 (средство, реализующее модель классификации для определения категории произвольного документа). Для реализации изобретения средству анализа 110 достаточно получить один документ 101. Однако, качество классификации будет выше, если обучающая выборка будет содержать достаточно большое количество документов 101. Для каждого полученного документа 101 средство анализа 110 определяет содержащиеся в нем объекты 104, являющиеся, в частности, графическими и/или текстовыми элементами. В частном варианте реализации объектами 104 могут быть, например, следующие: изображение лица человека, рамки фотографии лица, герба или флага страны, печати, логотипа или всего документа 101, если формат документа 101 является графическим. В другом частном варианте реализации объекты 104 могут также являться композицией таких объектов, как отрезок, точка, сплайн, эллипс или других примитивов.The analysis tool 110 serves to obtain documents 101 that belong to the same category 106. Documents 101 serve as a training sample for constructing a classifier 140 (means that implements a classification model for determining the category of an arbitrary document). To implement the invention, it is sufficient for analysis tool 110 to obtain one document 101. However, the classification quality will be higher if the training sample contains a sufficiently large number of documents 101. For each document 101 received, analysis tool 110 determines the objects 104 contained therein, which, in particular, graphic and / or text elements. In a particular embodiment, the objects 104 may be, for example, the following: an image of a person’s face, a photo frame of a person’s face, coat of arms or flag of the country, a seal, logo or the entire document 101, if the format of the document 101 is graphic. In another particular embodiment, the objects 104 may also be a composition of such objects as a line, point, spline, ellipse, or other primitives.

Так, например, для документов категории «паспорт» характерно наличие таких объектов 104, как фотографии, изображения герба, текстовых полей, например, «фамилия», «имя», «отчество», «дата рождения», «место рождения», «дата выдачи», «подразделение выдачи» и др. Стоит отметить, что в одном варианте реализации текстовые объекты могут быть распознаны с использованием технологий OCR средством обработки 111.So, for example, for documents of the “passport” category, the presence of such objects 104 as photographs, images of the coat of arms, text fields, for example, “last name”, “first name”, “middle name”, “date of birth”, “place of birth”, “ date of issue ”,“ unit of issue ”, etc. It is worth noting that in one implementation, text objects can be recognized using OCR technology by processing tool 111.

В другом примере реализации текстовые поля не распознаются как текст, но распознаются как область, в которой находится текст. В этом случае текстовые поля могут быть определены как отдельные прямоугольные графические объекты - это незначительно снизит качество классификации, но в то же время существенно повысит скорость работы классификатора, так как средство обработки 111 не будет выполнять трудоемкую задачу распознавания текста.In another example implementation, text fields are not recognized as text, but are recognized as the area in which the text is located. In this case, text fields can be defined as separate rectangular graphic objects - this will slightly reduce the quality of classification, but at the same time they will significantly increase the speed of the classifier, since the processing tool 111 will not perform the time-consuming task of recognizing text.

В еще одном частном примере реализации может быть использован гибридный подход - в части текстовых полей текст распознается (например, поля «фамилия», «имя» и пр.), а в части текстовых полей текст не распознается, и эти текстовые поля определяются как прямоугольные объекты. При этом напротив поля «фамилия», вероятно, будет прямоугольный объект, обозначающий конкретную фамилию. В этом случае в качестве дополнительного признака может быть выбрана ширина этого прямоугольного объекта. Большинство российских фамилий, например, обычно содержит от 3 до 8 букв. Поэтому в качестве признака для упомянутого прямоугольного объекта может быть выбран флаг, указывающий на выполнение или невыполнения условия, что ширина объекта находится в диапазоне, соответствующему 3-8 буквам.In another particular implementation example, a hybrid approach can be used - in the part of text fields, the text is recognized (for example, the “last name”, “first”, etc. fields), and in the part of the text fields the text is not recognized, and these text fields are defined as rectangular objects. Moreover, in front of the "last name" field, there will probably be a rectangular object designating a specific last name. In this case, the width of this rectangular object can be selected as an additional feature. Most Russian surnames, for example, usually contain from 3 to 8 letters. Therefore, a flag indicating the fulfillment or non-fulfillment of the condition that the width of the object is in the range corresponding to 3-8 letters may be selected as a feature for the said rectangular object.

В частном варианте реализации, в системе содержится средство обработки 111, необходимое для предварительной обработки документов 101. Например, в одном графическом файле может содержаться несколько документов 101. В этом случае средство обработки 111 выделит все документы, содержащиеся в графическом файле, и передаст их средству анализа 110 для определения содержащихся в выделенных документах объектов. В другом примере изображение документа 101 может содержать искажения или дефекты изображения, такие как дисторсию, поворот, искажение перспективы, блики и другие дефекты, свойственные, например, при фотографировании или сканировании документа.In a particular embodiment, the system contains processing means 111 necessary for preliminary processing of documents 101. For example, several documents 101 may be contained in one graphic file. In this case, processing means 111 will select all documents contained in the graphic file and transfer them to the means analysis 110 to determine the objects contained in the selected documents. In another example, the image of the document 101 may contain distortion or image defects, such as distortion, rotation, perspective distortion, glare and other defects inherent, for example, when photographing or scanning a document.

В одном примере реализации, средство обработки 111 может выполнить исправление искажений с использованием известных из уровня техники способов прежде, чем документы 101 будут переданы для последующего анализа средством анализа 110. В этом примере средство обработки 111 может также выполнить исправление искажений на новом документе 102 прежде, чем построенный классификатор 140 определит категорию этого нового документа 102, для которого не задана категория (подробнее о классификаторе 140 будет описано далее). В другом примере реализации средство обработки 111 не будет выполнять исправление искажений документа 101. В этом примере средство обработки 111 также не будет выполнять исправление искажений на новом документе 102 перед тем, как определить его категорию построенным классификатором 140.In one implementation example, the processing means 111 may perform the correction of distortions using methods known from the prior art before the documents 101 are transmitted for subsequent analysis by the analysis means 110. In this example, the processing means 111 may also perform the correction of distortions on the new document 102 before, than the constructed classifier 140 will determine the category of this new document 102, for which a category is not defined (more about the classifier 140 will be described later). In another example implementation, the processing means 111 will not perform the correction of distortions of the document 101. In this example, the processing means 111 will also not perform the correction of distortions on the new document 102 before determining its category by the constructed classifier 140.

В еще одном частном варианте реализации средство анализа 110 изначально получает обработанные документы 101.In yet another particular embodiment, the analysis tool 110 initially receives processed documents 101.

Для каждого документа 101 средство формирования признаков 120 формирует набор признаков 105, состоящий из определенных объектов 104. Признаки являются характеристиками документа 101. Признаки могут быть бинарными, номинальными, порядковыми или количественными. Признаки могут включать, в частности, следующие:For each document 101, the feature generation tool 120 generates a feature set 105, consisting of certain objects 104. The features are characteristics of the document 101. The features may be binary, nominal, ordinal or quantitative. Symptoms may include, but are not limited to:

- наличие объекта;- the presence of an object;

- местоположение объекта (например, координаты);- location of the object (for example, coordinates);

- количество объектов;- number of objects;

- расположение одного объекта по отношению к другому объекту (например, расстояние между объектами, угол между центрами объектов и пр.);- the location of one object in relation to another object (for example, the distance between objects, the angle between the centers of objects, etc.);

- размеры объекта (например, площадь);- the size of the object (for example, area);

- угол наклона объекта.- the angle of the object.

Числовые признаки из указанных могут принимать как абсолютные значения, так и относительные - по отношению к соответствующим параметрам всего документа.The numerical signs from the indicated ones can take both absolute values and relative values with respect to the corresponding parameters of the entire document.

В частном примере реализации в качестве признака может выступать результат работы алгоритма классификации.In a particular example of implementation, the result of the classification algorithm may act as a feature.

В еще одном частном примере реализации в качестве признака могут выступать наличие искажения изображения объекта, а также его тип (дисторсия, поворот, искажение перспективы, наличие блика и др.).In another particular example of implementation, the presence of distortion of the image of the object, as well as its type (distortion, rotation, distortion of perspective, the presence of glare, etc.) can act as a sign.

Кроме того, при наличии искажения изображения объекта другие признаки могут быть ослаблены. Т.к., например, блик изображения всего документа может закрыть один или несколько объектов, и, следовательно, присутствие одного или нескольких таких объектов может быть необязательным.In addition, if there is distortion in the image of an object, other features may be attenuated. Since, for example, the flare of the image of the entire document may close one or more objects, and therefore, the presence of one or more of such objects may be optional.

В итоге средство построения классификатора 130 выполняет построение классификатора 140 на основании значений сформированных признаков 105 для документов 101 и, в частности, одной категории 106, к которой принадлежат упомянутые документы 101.As a result, the tool for constructing the classifier 130 performs the construction of the classifier 140 based on the values of the generated features 105 for documents 101 and, in particular, one category 106 to which the mentioned documents 101 belong.

Построенный классификатор 140 далее используется для выполнения классификации (то есть присвоения категории) документов, которым ранее не была присвоена категория.The constructed classifier 140 is then used to perform the classification (i.e., assigning a category) of documents to which a category has not previously been assigned.

В частном варианте реализации средство анализа 110 получает дополнительные документы 102-103, часть из которых принадлежит к категории 106 (документы 102), а другая часть принадлежит к другой категории 107 (документы 103), и рассчитывает ошибку классификации дополнительных документов с использованием классификатора 140. В качестве ошибки классификации может выступать, например, вероятность неправильной классификации документов (например, документы из категории 107 были классифицированы как принадлежащие к категории 106, а документы из категории 106 были классифицированы, как не принадлежащие к категории 106). При этом, если ошибка классификации превышает заданное значение (например, более 5%), построение классификатора повторяется (т.е. повторяется работа средства анализа 110, средства формирования признаков 120 и средства построения классификатора 130) с тем отличием, что средство анализа получает документы 101, 102 и 103, одна часть которых принадлежат к категории 106 (документы 101 и 102), а другая часть принадлежит категории 107 (документы 103). В противном случае средство построение классификатора 130 завершает построение классификатора 140. В еще одном частном варианте реализации, кроме категорий 106-107, могут быть дополнительные категории. В другом частном варианте реализации ошибка классификации рассчитывается с использованием, в частности, одного из алгоритмов: минимизации эмпирического риска, скользящего контроля.In a particular embodiment, the analysis tool 110 receives additional documents 102-103, some of which belong to category 106 (documents 102), and the other part belongs to another category 107 (documents 103), and calculates the classification error of additional documents using classifier 140. A classification error may be, for example, the probability of incorrect classification of documents (for example, documents from category 107 were classified as belonging to category 106, and documents from category 106 would be and classified as not belonging to category 106). Moreover, if the classification error exceeds a predetermined value (for example, more than 5%), the construction of the classifier is repeated (i.e., the analysis tool 110, the means for generating features 120 and the tool for constructing the classifier 130 are repeated) with the difference that the analysis tool receives documents 101, 102 and 103, one part of which belong to category 106 (documents 101 and 102), and the other part belongs to category 107 (documents 103). Otherwise, the tool for constructing the classifier 130 completes the construction of the classifier 140. In another private embodiment, in addition to categories 106-107, there may be additional categories. In another particular embodiment, the classification error is calculated using, in particular, one of the algorithms: minimizing empirical risk, moving control.

В еще одном частном примере реализации получают дополнительные документы, принадлежащие к каждой сформированной категории классификатора, и рассчитывают ошибку классификации упомянутых дополнительных документов с использованием упомянутого классификатора, при этом, если ошибка классификации превышает заданное значение, повторяют построение классификатора с учетом дополнительных документов, иначе - завершают построение классификатора.In another particular implementation example, additional documents that belong to each generated classifier category are obtained, and the classification error of the mentioned additional documents is calculated using the said classifier; in this case, if the classification error exceeds a predetermined value, the construction of the classifier is repeated taking into account additional documents, otherwise they complete classifier construction.

Средство построения классификатора 130 выполняет построение классификатора 140 путем выбора модели (алгоритма) классификации и последующего обучения классификатора 140, где в качестве признакового описания документа выступают сформированные признаки, а в качестве классов - в частности, одна категория документа.The tool for constructing the classifier 130 performs the construction of the classifier 140 by selecting a classification model (algorithm) and subsequent training of the classifier 140, where the generated characteristics act as a characteristic description of the document, and, in particular, one document category as classes.

В частном варианте реализации выбирают одну из следующих моделей (алгоритмов) классификации:In a particular embodiment, one of the following classification models (algorithms) is selected:

- Байесовский классификатор;- Bayesian classifier;

- нейронная сеть;- neural network;

- Вейвлет Хаара;- Wavelet Haar;

- локальные бинарные шаблоны;- local binary patterns;

- логистическая регрессия;- logistic regression;

- гистограмма направленных градиентов.- a histogram of directional gradients.

Обучение классификатора 140 осуществляется с использованием известных из уровня техники методов.Classifier 140 is trained using methods known in the art.

В качестве примера, положим, что документы принадлежат к одной категории у (у=1, если документ принадлежит к указанной категории и у=0 в противном случае). Такой категорией может быть, например, паспорт или удостоверение личности, или любая другая категория.As an example, we assume that the documents belong to the same category y (y = 1 if the document belongs to the specified category and y = 0 otherwise). Such a category may be, for example, a passport or an identity card, or any other category.

Допустим, средством построения классификатора 130 была выбрана модель логистической регрессии. В этом случае, построение классификатора 140 заключается в построении модели вероятности P(у=1|x)=f(z), z=ΘTx, где х и Θ - векторы значений сформированных признаков х и параметров регрессии, f(z) - логистическая функция, f(z)=1/(1+e-z).Suppose, a logistic regression model was chosen as a means of constructing classifier 130. In this case, the construction of the classifier 140 consists in constructing the probability model P (y = 1 | x) = f (z), z = Θ T x, where x and Θ are the vectors of the values of the formed signs x and the regression parameters, f (z) is the logistic function, f (z) = 1 / (1 + e -z ).

Для подбора параметров Θ, средство построения классификатора 130 использует метод максимального правдоподобия, заключающийся в нахождении таких параметров Θ, которые максимизируют функцию правдоподобия на обучающей выборке (т.е. на сформированном наборе признаков и значений, которые принимают эти признаки для документов 101, про которые известно, что они принадлежат к указанной категории).To select the parameters Θ, the tool for constructing the classifier 130 uses the maximum likelihood method, which consists in finding such parameters Θ that maximize the likelihood function on the training set (i.e., on the generated set of signs and values that take these signs for documents 101, about which it is known that they belong to this category).

В итоге, с использованием классификатора 140 для произвольного нового документа, которому не задана категория, может быть определено, что он относится или не относится к указанной категории. Для этого, в новом документе будут определены содержащиеся в нем объекты, а затем определены значения сформированных признаков и рассчитана вероятность Р(у=1|х). И, если рассчитанное значение вероятности выше 0.5, то будет определено, что новый документ относится к указанной категории. Иначе, новый документ не будет определен к данной категории.As a result, using the classifier 140 for an arbitrary new document that does not have a category, it can be determined that it belongs or does not belong to the specified category. To do this, the objects contained in it will be determined in a new document, and then the values of the formed features will be determined and the probability P (y = 1 | x) will be calculated. And, if the calculated probability value is above 0.5, then it will be determined that the new document belongs to the specified category. Otherwise, the new document will not be defined in this category.

В частном варианте реализации выбор той или иной модели классификации может быть задан аналитиком. В еще одном частном варианте реализации, способ обучения классификатора (см. Фиг. 2) может быть применен для одинакового набора документов для различных моделей, и, в итоге, будет выбран классификатор 140, обеспечивающий наименьшую ошибку классификации на наборе дополнительных документов (тестовая выборка), для которых известна категория.In a particular embodiment, the choice of one or another classification model can be specified by the analyst. In yet another particular embodiment, the classifier training method (see Fig. 2) can be applied for the same set of documents for different models, and, as a result, classifier 140 will be selected that provides the smallest classification error on the set of additional documents (test sample) for which the category is known.

В еще одном частном варианте реализации категорией документа дополнительно является совокупность из двух и более категорий, а также подкатегория известной категории. Например, у категории «паспорт» могут быть следующие подкатегории: «внутренний паспорт», «заграничный паспорт», «дипломатический паспорт», паспорта различных стран мира. Данные подкатегории, очевидно, сами по себе являются категориями в указанном варианте реализации.In yet another particular embodiment, the category of the document is additionally a combination of two or more categories, as well as a subcategory of a known category. For example, the “passport” category may have the following subcategories: “internal passport”, “foreign passport”, “diplomatic passport”, passports of various countries of the world. These subcategories, obviously, are themselves categories in this embodiment.

В итоге будет решена заявленная техническая проблема и достигнут заявленный технический результат, заключающийся в повышении качества определения категории документа классификатором. Таким способом, например, документ «вид на жительство» может быть определен к большой категории «удостоверение личности», т.к. содержит все упомянутые выше признаки, хотя он не является ни «паспортом» ни «водительскими правами» и не может быть определен ни к одной из этих двух категорий.As a result, the claimed technical problem will be solved and the claimed technical result achieved, consisting in improving the quality of determining the category of a document by a classifier. In this way, for example, the document "residence permit" can be defined in the large category of "identity card", because It contains all the features mentioned above, although it is neither a “passport” nor a “driver’s license” and cannot be assigned to either of these two categories.

В частном варианте реализации признаки дополнительно включают следующие:In a particular embodiment, the features further include the following:

- гистограмма цветов объекта;- a histogram of the colors of the object;

- метаданные объекта (например, EXIF файла изображения документа);- object metadata (for example, EXIF document image file);

- множество объектов, объединенных по определенному признаку;- a lot of objects united by a certain attribute;

- количество одинаковых объектов;- the number of identical objects;

- соответствие гистограммы цветов объекта заданному шаблону;- correspondence of the histogram of the object colors to the given pattern;

- соответствие заданной комбинации объектов шаблону взаимного расположения;- compliance of a given combination of objects with a pattern of relative positioning;

- преобразование Фурье гистограммы цветов объекта;- Fourier transform of the histogram of the colors of the object;

- наличие искажений на изображении объекта (как геометрических, так и оптических);- the presence of distortion in the image of the object (both geometric and optical);

- тип искажений на изображении объекта (например, дисторсия, поворот, искажение перспективы, наличие блика и др.).- the type of distortion in the image of the object (for example, distortion, rotation, distortion of perspective, the presence of glare, etc.).

На Фиг. 2 представлен способ обучения классификатора. Средство анализа 110 на шаге 201 получает документы 101, которые принадлежат к одной категории 106 и, затем, на шаге 202 для каждого полученного документа определяет содержащиеся в нем объекты. На шаге 203 для каждого документа средство формирования признаков 120 формирует набор признаков, состоящий из определенных объектов. В итоге, на шаге 204 средство построения классификатора 130 выполняет построение классификатора 140 на основании сформированных признаков для документов. При этом, ввиду того, что категория может содержать документы разных подкатегорий (например, паспорт и водительское удостоверение), решается заявленная техническая проблема и достигается технический результат, заключающийся в повышении качества определения категории документа классификатором.In FIG. 2 presents a method for training the classifier. The analysis tool 110 in step 201 receives documents 101 that belong to the same category 106 and, then, in step 202, for each received document determines the objects contained therein. At step 203, for each document, the feature generation tool 120 generates a feature set consisting of certain objects. As a result, at step 204, the tool for constructing the classifier 130 performs the construction of the classifier 140 based on the generated features for documents. Moreover, due to the fact that the category may contain documents of different subcategories (for example, passport and driver’s license), the claimed technical problem is solved and the technical result is achieved, which consists in improving the quality of determining the category of a document by a classifier.

В частном варианте реализации на шаге 204 средство анализа 110 получает дополнительные документы 102, принадлежащие к категории 106 и рассчитывает ошибку классификации дополнительных документов с использованием классификатора 140. При этом, если ошибка классификации превышает заданное значение, шаги 201-204 будут повторены с тем отличием, что на шаге 201 будут получены документы, которые принадлежат к одной из двух (или более) категорий - например категория 106 и новая категория 107, отличная от категории 106. В противном случае - построение классификатора завершают. Стоит отметить, что заявленный способ будет работать аналогичным образом, если категорий больше двух. В этом случае, шаги способа 201-204 будут повторены соответствующее число раз.In a particular embodiment, at step 204, the analysis tool 110 obtains additional documents 102 belonging to category 106 and calculates a classification error for additional documents using the classifier 140. Moreover, if the classification error exceeds a predetermined value, steps 201-204 will be repeated with the difference that at step 201, documents that belong to one of two (or more) categories will be received - for example, category 106 and a new category 107, different from category 106. Otherwise, the construction of the classifier but complete. It is worth noting that the claimed method will work in a similar way if there are more than two categories. In this case, the steps of method 201-204 will be repeated an appropriate number of times.

На Фиг. 3а-3в изображен пример документа и различные примеры определения содержащихся на документе объектов. На Фиг. 3а представлен внутренний паспорт Российской Федерации 300. Средство анализа 110 может определить содержащиеся в документе 300 объекты, например, представленные на Фиг. 3б и 3в.In FIG. 3a-3c show an example of a document and various examples of determining the objects contained in a document. In FIG. 3a shows the internal passport of the Russian Federation 300. The analysis tool 110 can determine the objects contained in the document 300, for example, those shown in FIG. 3b and 3c.

В первом примере, на Фиг. 3б, объектами могут быть, например, фотография 311, текстовые поля 312 и отрезок 313. При этом содержащиеся символы в текстовых полях 312 или в части текстовых полей 312 могут быть распознаны с использованием OCR или не распознаны в зависимости от варианта реализации. В одном варианте реализации, текстовые поля 312 будут определены как прямоугольные области, в которых содержится текст документа 310 (документ 300 с выделенными объектами). В рассматриваемом примере всего было выделено 16 текстовых полей 312, а также 9 отрезков 313.In the first example, in FIG. 3b, the objects may be, for example, photograph 311, text fields 312 and segment 313. Moreover, the contained characters in text fields 312 or in part of text fields 312 may be recognized using OCR or not recognized depending on the implementation. In one embodiment, text fields 312 will be defined as rectangular areas that contain the text of document 310 (document 300 with selected objects). In this example, a total of 16 text fields 312 were selected, as well as 9 segments 313.

В качестве признаков могут быть сформированы, например, следующие:As signs, for example, the following can be formed:

- наличие объектов: фотографии 311, текстовых полей 312, отрезков 313;- the presence of objects: photographs 311, text fields 312, segments 313;

- местоположения объектов: координаты объектов 311-313 относительно границ документа 310;- locations of objects: coordinates of objects 311-313 relative to the borders of document 310;

- количество объектов 311-313 (в данном примере, одна фотография 311, шестнадцать текстовых полей 312 и девять отрезков 313);- the number of objects 311-313 (in this example, one photo 311, sixteen text fields 312 and nine segments 313);

- взаимное расположение объектов, например, расстояние между отрезками 313, расстояние и угол между отрезками 313 и фотографией 311, расстояние и угол между фотографией 311 и текстовыми полями 312 и т.д.;- the relative position of objects, for example, the distance between segments 313, the distance and angle between segments 313 and photograph 311, the distance and angle between photograph 311 and text fields 312, etc .;

- размеры объекта, например, отношение площади фотографии 311 к площади всего документа 310, отношение площади всех текстовых полей 312 к площади документа 310 и пр.;- the size of the object, for example, the ratio of the area of the photograph 311 to the area of the entire document 310, the ratio of the area of all text fields 312 to the area of the document 310, etc .;

- угол наклона объекта, например, угол наклона отрезков 313 по отношению к рамкам документа 310.- the angle of inclination of the object, for example, the angle of inclination of the segments 313 with respect to the frames of the document 310.

Еще один возможный пример того, как средство анализа 110 может определить объекты, содержащиеся на документе 310, приведен на Фиг. 3в. Так, дополнительно к фотографии 311, текстовым полям 312 и отрезкам 313 будут определены такие объекты, как: узоры 314 и узоры 315, надпись РФ 316. Дополнительными признаками, в данном примере могут быть, например, следующие:Another possible example of how analysis tool 110 can determine the objects contained in document 310 is shown in FIG. 3c. So, in addition to photograph 311, text fields 312 and segments 313, objects such as patterns 314 and patterns 315, RF inscription 316 will be defined. Additional features in this example may include, for example, the following:

- количество узоров 314 (всего 21), количество узоров 315 (всего 25);- the number of patterns 314 (total 21), the number of patterns 315 (total 25);

- угол наклона узоров 314 по отношению к рамкам документа 320 (10 объектов под углом 0 градусов, 1 под углом 45 градусов, 10 под углом 90 градусов);- the angle of inclination of the patterns 314 with respect to the frames of the document 320 (10 objects at an angle of 0 degrees, 1 at an angle of 45 degrees, 10 at an angle of 90 degrees);

- местоположение надписи РФ 316 (правый верхний угол);- location of the inscription of the Russian Federation 316 (upper right corner);

- взаимное расположение узоров 314 (в виде буквы Г на равном расстоянии друг от друга) и узоров 315 (в виде горизонтальной линии на равном расстоянии друг от друга).- the mutual arrangement of patterns 314 (in the form of the letter G at an equal distance from each other) and patterns 315 (in the form of a horizontal line at an equal distance from each other).

В еще одном частном примере реализации, символы в части или всех текстовых полях 312 могут быть распознаны с использованием OCR. В этом примере могут быть дополнительно сформирован признак наличия текстовых полей: фамилии, имени, отчества, пола, даты рождения, места рождения. Также может быть сформирован признак наличия числа, удовлетворяющего требования к номеру паспорта и другие признаки.In yet another particular embodiment, characters in part or all of the text fields 312 may be recognized using OCR. In this example, a feature for the presence of text fields can be additionally generated: last name, first name, middle name, gender, date of birth, place of birth. Also, a sign of the presence of a number satisfying the requirements for the passport number and other signs may be generated.

Стоит отметить, что два нижних текстовых поля являются машиночитаемым текстом (например, в соответствии со стандартом ИКАО 9303) и могут быть быстро распознаны с использованием существующих алгоритмов. В этом случае, наличие машиночитаемого текста может быть дополнительным признаком.It is worth noting that the two lower text fields are machine-readable text (for example, in accordance with the ICAO standard 9303) and can be quickly recognized using existing algorithms. In this case, the presence of machine-readable text may be an additional feature.

Зачастую, документы, удостоверяющие личность, например, паспорт 300, имеют характерный сетчатый фон определенного цвета. В этом примере, в качестве дополнительного признака может быть выбран преобладающий цвет на гистограмме цветов всего документа 300.Often, identification documents, for example, passport 300, have a characteristic mesh background of a certain color. In this example, as an additional feature, the predominant color in the histogram of the colors of the entire document 300 can be selected.

На Фиг. 4а и 4б изображен еще один пример документа и различные примеры определения содержащихся на документе объектов. На Фиг. 4а представлены водительское удостоверение Российской Федерации 400. Средство анализа 110 может определить содержащиеся в документе 400 объекты, например, представленные на Фиг. 4б.In FIG. 4a and 4b show another example of a document and various examples of determining the objects contained in a document. In FIG. 4a shows a driver’s license of the Russian Federation 400. The analysis tool 110 can determine the objects contained in the document 400, for example, those shown in FIG. 4b.

В примере на Фиг. 4б объектами могут быть, например, фотография 406, текстовые поля 402, текстовые поля 403, название (код) страны 401, подпись 404 и категория 405. При этом содержащиеся символы в текстовых полях 402-403 или в части текстовых полей 402-403 могут быть распознаны с использованием OCR или не распознаны в зависимости от варианта реализации. В одном варианте реализации, текстовые поля 402-403 будут определены как прямоугольные области, в которых содержится текст документа 410 (документ 400 с выделенными объектами). В рассматриваемом примере всего было выделено 11 текстовых полей 403 и 14 текстовых полей 402.In the example of FIG. 4b objects can be, for example, photograph 406, text fields 402, text fields 403, country name (code) 401, signature 404 and category 405. Moreover, the characters contained in text fields 402-403 or in part of text fields 402-403 can be recognized using OCR or not recognized depending on the implementation. In one implementation, text boxes 402-403 will be defined as rectangular areas that contain the text of document 410 (document 400 with selected objects). In this example, a total of 11 text fields 403 and 14 text fields 402 were allocated.

В качестве признаков могут быть сформированы, например, следующие:As signs, for example, the following can be formed:

- наличие объектов: фотографии 406, текстовых полей 402-403, названия страны 401, подписи 404, категории 405;- the presence of objects: photographs 406, text fields 402-403, country name 401, signature 404, category 405;

- местоположения объектов: фотографии 406, текстовых полей 402-403, названия страны 401, подписи 404, категории 405;- location of objects: photographs 406, text fields 402-403, country name 401, signature 404, category 405;

- количество объектов 401-406 (в данном примере, одна фотография 406, 11 текстовых полей 403, 14 текстовых полей 402, одна подпись 404, одна категория 405, одно название страны 401);- the number of objects 401-406 (in this example, one photo 406, 11 text fields 403, 14 text fields 402, one signature 404, one category 405, one country name 401);

- взаимное расположение объектов, например, расстояние и угол между фотографией 406 и текстовыми полями 402 и т.д.;- the relative position of objects, for example, the distance and angle between the photo 406 and text fields 402, etc .;

- размеры объекта, например, отношение площади фотографии 406 к площади всего документа 410, отношение площади всех текстовых полей 402-403 к площади документа 410 и пр.;- the size of the object, for example, the ratio of the area of the photograph 406 to the area of the entire document 410, the ratio of the area of all text fields 402-403 to the area of the document 410, etc .;

- угол наклона объекта, например, угол наклона текстовых полей 402 по отношению к рамкам документа 410.- the angle of inclination of the object, for example, the angle of inclination of the text fields 402 with respect to the frames of the document 410.

В частном примере реализации, категории «паспорт» и «водительские права» могут быть объединены в одну большую категорию «удостоверение личности». Упомянутые две категории содержат множество одинаковых объектов 104 (например, фотография, название страны, текстовые поля: фамилия, имя, отчество, дата рождения) и для них может быть сформирован набор одинаковых признаков и, таким образом, с использованием заявленного изобретения может быть построен классификатор 140, позволяющий определить категорию новых документов, для которых не задана категория.In a particular implementation example, the categories “passport” and “driver’s license” can be combined into one large category “identity card”. The two categories mentioned contain many identical objects 104 (for example, photograph, country name, text fields: last name, first name, middle name, date of birth) and for them a set of identical signs can be formed and, thus, using the claimed invention, a classifier can be constructed 140, which allows you to determine the category of new documents for which a category is not defined.

Такими признаками в данном примере могут быть, например, наличие таких объектов, как, фотография (311 для паспорта и 406 для водительского удостоверения), название страны (316 для паспорта и 401 для водительского удостоверения), наличие текстовых полей, таких как, фамилия, имя, отчество, дата рождения (часть полей 313 для паспорта и часть полей 402 для водительского удостоверения).Such features in this example may be, for example, the presence of such objects as a photograph (311 for a passport and 406 for a driver’s license), country name (316 for a passport and 401 for a driver’s license), the presence of text fields, such as, last name, name, patronymic, date of birth (part of the fields 313 for the passport and part of the fields 402 for the driver’s license).

Таким образом, с использованием упомянутых выше признаков, будет построен классификатор, определяющий категорию «удостоверение личность» как для паспорта 300, так и для водительского удостоверения 400. Кроме того, построенный классификатор также определит к категории «удостоверение личности» другие аналогичные документы, имеющие такие же значения сформированного набора признаков. Такими документами, будут, в частности, вид на жительство, заграничный паспорт, паспорт других стран и другие документы, у которых присутствует фотография, название страны, наличие текстовых полей (фамилия, имя, отчество, дата рождения).Thus, using the aforementioned features, a classifier will be constructed that defines the category of “identity card” for both passport 300 and driver’s license 400. In addition, the constructed classifier will also identify other similar documents in the category of “identity card” that have such the same values of the formed set of features. Such documents will be, in particular, a residence permit, a passport, a passport of other countries and other documents that have a photograph, the name of the country, the presence of text fields (last name, first name, middle name, date of birth).

В итоге будет решена заявленная техническая проблема и достигнут заявленный технический результат, заключающийся в повышении качества определения категории документа классификатором.As a result, the claimed technical problem will be solved and the claimed technical result achieved, consisting in improving the quality of determining the category of a document by a classifier.

Фиг. 5 представляет пример компьютерной системы общего назначения, персональный компьютер или сервер 20, содержащий центральный процессор 21, системную память 22 и системную шину 23, которая содержит разные системные компоненты, в том числе память, связанную с центральным процессором 21. Системная шина 23 реализована, как любая известная из уровня техники шинная структура, содержащая в свою очередь память шины или контроллер памяти шины, периферийную шину и локальную шину, которая способна взаимодействовать с любой другой шинной архитектурой. Системная память содержит постоянное запоминающее устройство (ПЗУ) 24, память с произвольным доступом (ОЗУ) 25. Основная система ввода/вывода (BIOS) 26, содержит основные процедуры, которые обеспечивают передачу информации между элементами персонального компьютера 20, например, в момент загрузки операционной системы с использованием ПЗУ 24.FIG. 5 is an example of a general purpose computer system, a personal computer or server 20 comprising a central processor 21, a system memory 22, and a system bus 23 that contains various system components, including memory associated with the central processor 21. The system bus 23 is implemented as any prior art bus structure comprising, in turn, a bus memory or a bus memory controller, a peripheral bus and a local bus that is capable of interacting with any other bus architecture. The system memory contains read-only memory (ROM) 24, random access memory (RAM) 25. The main input / output system (BIOS) 26, contains basic procedures that ensure the transfer of information between the elements of the personal computer 20, for example, at the time of loading the operating ROM systems 24.

Персональный компьютер 20 в свою очередь содержит жесткий диск 27 для чтения и записи данных, привод магнитных дисков 28 для чтения и записи на сменные магнитные диски 29 и оптический привод 30 для чтения и записи на сменные оптические диски 31, такие как CD-ROM, DVD-ROM и иные оптические носители информации. Жесткий диск 27, привод магнитных дисков 28, оптический привод 30 соединены с системной шиной 23 через интерфейс жесткого диска 32, интерфейс магнитных дисков 33 и интерфейс оптического привода 34 соответственно. Приводы и соответствующие компьютерные носители информации представляют собой энергонезависимые средства хранения компьютерных инструкций, структур данных, программных модулей и прочих данных персонального компьютера 20.The personal computer 20 in turn contains a hard disk 27 for reading and writing data, a magnetic disk drive 28 for reading and writing to removable magnetic disks 29, and an optical drive 30 for reading and writing to removable optical disks 31, such as a CD-ROM, DVD -ROM and other optical information carriers. The hard disk 27, the magnetic disk drive 28, the optical drive 30 are connected to the system bus 23 through the interface of the hard disk 32, the interface of the magnetic disks 33 and the interface of the optical drive 34, respectively. Drives and associated computer storage media are non-volatile means of storing computer instructions, data structures, software modules and other data of a personal computer 20.

Настоящее описание раскрывает реализацию системы, которая использует жесткий диск 27, сменный магнитный диск 29 и сменный оптический диск 31, но следует понимать, что возможно применение иных типов компьютерных носителей информации 56, которые способны хранить данные в доступной для чтения компьютером форме (твердотельные накопители, флеш-карты памяти, цифровые диски, память с произвольным доступом (ОЗУ) и т.п.), которые подключены к системной шине 23 через контроллер 55.The present description discloses an implementation of a system that uses a hard disk 27, a removable magnetic disk 29, and a removable optical disk 31, but it should be understood that other types of computer storage media 56 that can store data in a form readable by a computer (solid state drives, flash memory cards, digital disks, random access memory (RAM), etc.) that are connected to the system bus 23 through the controller 55.

Компьютер 20 имеет файловую систему 36, где хранится записанная операционная система 35, а также дополнительные программные приложения 37, другие программные модули 38 и данные программ 39. Пользователь имеет возможность вводить команды и информацию в персональный компьютер 20 посредством устройств ввода (клавиатуры 40, манипулятора «мышь» 42). Могут использоваться другие устройства ввода (не отображены): микрофон, джойстик, игровая консоль, сканер и т.п. Подобные устройства ввода по своему обычаю подключают к компьютерной системе 20 через последовательный порт 46, который, в свою очередь, подсоединен к системной шине, но могут быть подключены иным способом, например, при помощи параллельного порта, игрового порта или универсальной последовательной шины (USB). Монитор 47 или иной тип устройства отображения также подсоединен к системной шине 23 через интерфейс, такой как видеоадаптер 48. В дополнение к монитору 47, персональный компьютер может быть оснащен другими периферийными устройствами вывода (не отображены), например, колонками, принтером и т.п.Computer 20 has a file system 36 where the recorded operating system 35 is stored, as well as additional software applications 37, other program modules 38, and program data 39. The user is able to enter commands and information into personal computer 20 via input devices (keyboard 40, keypad “ the mouse "42). Other input devices (not displayed) can be used: microphone, joystick, game console, scanner, etc. Such input devices are, as usual, connected to the computer system 20 via a serial port 46, which, in turn, is connected to the system bus, but can be connected in another way, for example, using a parallel port, a game port, or a universal serial bus (USB) . A monitor 47 or other type of display device is also connected to the system bus 23 via an interface such as a video adapter 48. In addition to the monitor 47, the personal computer can be equipped with other peripheral output devices (not displayed), for example, speakers, a printer, etc. .

Персональный компьютер 20 способен работать в сетевом окружении, при этом используется сетевое соединение с другим или несколькими удаленными компьютерами 49. Удаленный компьютер (или компьютеры) 49 являются такими же персональными компьютерами или серверами, которые имеют большинство или все упомянутые элементы, отмеченные ранее при описании существа персонального компьютера 20, представленного на Фиг. 5. В вычислительной сети могут присутствовать также и другие устройства, например, маршрутизаторы, сетевые станции, пиринговые устройства или иные сетевые узлы.The personal computer 20 is capable of operating in a networked environment, using a network connection with another or more remote computers 49. The remote computer (or computers) 49 are the same personal computers or servers that have most or all of the elements mentioned earlier in the description of the creature the personal computer 20 of FIG. 5. Other devices, such as routers, network stations, peer-to-peer devices, or other network nodes, may also be present on the computer network.

Сетевые соединения могут образовывать локальную вычислительную сеть (LAN) 50 и глобальную вычислительную сеть (WAN). Такие сети применяются в корпоративных компьютерных сетях, внутренних сетях компаний и, как правило, имеют доступ к сети Интернет. В LAN- или WAN-сетях персональный компьютер 20 подключен к локальной сети 50 через сетевой адаптер или сетевой интерфейс 51. При использовании сетей персональный компьютер 20 может использовать модем 54 или иные средства обеспечения связи с глобальной вычислительной сетью, такой как Интернет. Модем 54, который является внутренним или внешним устройством, подключен к системной шине 23 посредством последовательного порта 46. Следует уточнить, что сетевые соединения являются лишь примерными и не обязаны отображать точную конфигурацию сети, т.е. в действительности существуют иные способы установления соединения техническими средствами связи одного компьютера с другим.Network connections can form a local area network (LAN) 50 and a wide area network (WAN). Such networks are used in corporate computer networks, internal networks of companies and, as a rule, have access to the Internet. In LAN or WAN networks, the personal computer 20 is connected to the local area network 50 via a network adapter or network interface 51. When using the networks, the personal computer 20 may use a modem 54 or other means of providing communication with a global computer network such as the Internet. The modem 54, which is an internal or external device, is connected to the system bus 23 via the serial port 46. It should be clarified that the network connections are only exemplary and are not required to display the exact network configuration, i.e. in reality, there are other ways to establish a technical connection between one computer and another.

В соответствии с описанием, компоненты, этапы исполнения, структура данных, описанные выше, могут быть выполнены, используя различные типы операционных систем, компьютерных платформ, программ.In accordance with the description, components, execution steps, data structure described above can be performed using various types of operating systems, computer platforms, programs.

В заключение следует отметить, что приведенные в описании сведения являются примерами, которые не ограничивают объем настоящего изобретения, определенного формулой.In conclusion, it should be noted that the information provided in the description are examples that do not limit the scope of the present invention defined by the claims.

Claims (52)

1. Реализуемый компьютером способ обучения классификатора, предназначенного для определения категории документа, в котором:1. A computer-implemented method for training a classifier designed to determine the category of a document in which: а) получают документы, которые принадлежат, в частности, к одной категории;a) receive documents that belong, in particular, to one category; б) для каждого полученного документа определяют содержащиеся в нем объекты, в частности, являющиеся графическими элементами;b) for each received document determine the objects contained in it, in particular, which are graphic elements; в) для каждого полученного документа формируют набор признаков, состоящий из определенных объектов, при этом упомянутые признаки включают, в частности, следующие:c) for each received document, a set of features is formed, consisting of certain objects, while the mentioned features include, in particular, the following: - наличие объекта;- the presence of an object; - местоположение объекта;- location of the object; - количество объектов;- number of objects; - расположение одного объекта по отношению к другому объекту;- the location of one object in relation to another object; - размеры объекта;- the size of the object; - угол наклона объекта;- the angle of the object; г) выполняют построение классификатора на основании значений сформированных признаков для полученных документов.g) perform the construction of the classifier based on the values of the generated characteristics for the received documents. 2. Способ по п. 1, в котором после выполнения шага г) получают дополнительные документы, принадлежащие к каждой сформированной категории классификатора, и рассчитывают ошибку классификации упомянутых дополнительных документов с использованием упомянутого классификатора, при этом, если ошибка классификации превышает заданное значение, повторяют построение классификатора с учетом дополнительных документов.2. The method according to p. 1, in which, after performing step d), additional documents that belong to each generated classifier category are obtained, and the classification error of the mentioned additional documents is calculated using the classifier, while if the classification error exceeds a predetermined value, the construction is repeated classifier taking into account additional documents. 3. Способ по п. 1, в котором дополнительно после выполнения шага г) получают документы, принадлежащие к каждой сформированной категории классификатора и по меньшей мере к одной другой категории, и рассчитывают ошибку классификации дополнительных документов с использованием упомянутого классификатора, при этом, если ошибка классификации превышает заданное значение, повторяют шаги а)-г) с тем отличием, что на шаге а) получают документы, одна часть указанных документов принадлежит к одной из сформированных категорий, а другая часть указанных документов принадлежит по меньшей мере к одной другой категории.3. The method according to p. 1, in which, after completing step d), documents belonging to each generated classifier category and at least one other category are obtained, and the classification error of the additional documents using the said classifier is calculated, if the error classification exceeds the specified value, repeat steps a) -d) with the difference that at step a) receive documents, one part of these documents belongs to one of the generated categories, and the other part of the specified documents belong to at least one other category. 4. Способ по п. 2 или 3, в котором ошибку классификации рассчитывают с использованием, в частности, одного из алгоритмов: минимизация эмпирического риска, скользящий контроль.4. The method according to p. 2 or 3, in which the classification error is calculated using, in particular, one of the algorithms: minimizing empirical risk, moving control. 5. Способ по п. 1, в котором построение классификатора на основании сформированных признаков включает:5. The method according to p. 1, in which the construction of the classifier based on the generated features includes: а) выбор модели классификации;a) selection of a classification model; б) обучение классификатора согласно выбранной модели классификации, где в качестве признакового описания документа выступают сформированные признаки, а в качестве классов - в частности, одна категория документа.b) training the classifier according to the selected classification model, where the formed attributes act as a characteristic description of the document, and in particular, one category of the document acts as classes. 6. Способ по п. 1, в котором выбирают одну из следующих моделей классификации:6. The method according to p. 1, in which one of the following classification models is selected: - Байесовский классификатор;- Bayesian classifier; - нейронная сеть;- neural network; - Вейвлет Хаара;- Wavelet Haar; - Локальные бинарные шаблоны;- Local binary patterns; - Гистограмма направленных градиентов.- Histogram of directional gradients. 7. Способ по п. 1, в котором содержатся, в частности, следующие категории документов:7. The method according to p. 1, which contains, in particular, the following categories of documents: - паспорт;- passport; - водительское удостоверение;- driver's license; - свидетельство о рождении.- birth certificate. 8. Способ по п. 7, в котором объектами дополнительно являются графические элементы - распознанные изображения по меньшей мере одного из следующих:8. The method according to claim 7, in which the objects are additionally graphic elements - recognized images of at least one of the following: - лицо человека;- person’s face; - герб страны;- National emblem; - флаг страны;- flag of the country; - печать;- print; - логотипа- logo - весь документ.- the entire document. 9. Способ по п. 8, в котором упомянутые объекты являются композицией следующих объектов:9. The method according to p. 8, in which the said objects are a composition of the following objects: - отрезок;- line segment; - точка;- point; - сплайн;- spline; - эллипс.- ellipse. 10. Способ по п. 1, в котором категорией документа дополнительно является совокупность из двух и более категорий, а также подкатегория известной категории.10. The method according to p. 1, in which the category of the document is additionally a combination of two or more categories, as well as a subcategory of a known category. 11. Способ по п. 10, в котором добавляют новую категорию, включающую, в частности, две и более существующих категорий, при этом при построении классификатора из числа сформированных признаков выбирают признаки, свойственные для новой категории.11. The method according to p. 10, in which a new category is added, including, in particular, two or more existing categories, while when constructing a classifier from among the generated features, the features characteristic of the new category are selected. 12. Способ по п. 1, в котором объекты дополнительно являются текстовыми элементами.12. The method of claim 1, wherein the objects are further text elements. 13. Способ по п. 1, в котором признаки дополнительно включают следующие:13. The method of claim 1, wherein the features further include the following: - гистограмма цветов объекта;- a histogram of the colors of the object; - метаданные объекта;- object metadata; - множество объектов, объединенных по определенному признаку;- a lot of objects united by a certain attribute; - количество одинаковых объектов;- the number of identical objects; - соответствие гистограммы цветов объекта заданному шаблону;- correspondence of the histogram of the object colors to the given pattern; - соответствие заданной комбинации объектов шаблону взаимного расположения;- compliance of a given combination of objects with a pattern of relative positioning; - преобразование Фурье гистограммы цветов объекта;- Fourier transform of the histogram of the colors of the object; - наличие искажений на изображении объекта;- the presence of distortion in the image of the object; - тип искажений на изображении объекта.- type of distortion in the image of the object.
RU2017133846A 2017-09-29 2017-09-29 Method for training a classifier designed for determining the category of a document RU2672395C1 (en)

Priority Applications (4)

Application Number Priority Date Filing Date Title
RU2017133846A RU2672395C1 (en) 2017-09-29 2017-09-29 Method for training a classifier designed for determining the category of a document
US15/958,431 US11176363B2 (en) 2017-09-29 2018-04-20 System and method of training a classifier for determining the category of a document
EP18171883.4A EP3462378B1 (en) 2017-09-29 2018-05-11 System and method of training a classifier for determining the category of a document
CN201810553167.9A CN109583463B (en) 2017-09-29 2018-05-31 System and method for training a classifier for determining a category of a document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2017133846A RU2672395C1 (en) 2017-09-29 2017-09-29 Method for training a classifier designed for determining the category of a document

Publications (1)

Publication Number Publication Date
RU2672395C1 true RU2672395C1 (en) 2018-11-14

Family

ID=64328019

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2017133846A RU2672395C1 (en) 2017-09-29 2017-09-29 Method for training a classifier designed for determining the category of a document

Country Status (1)

Country Link
RU (1) RU2672395C1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144114A (en) * 2019-12-19 2020-05-12 广联达科技股份有限公司 Text recognition method and device
RU2759887C1 (en) * 2020-12-29 2021-11-18 федеральное государственное казенное военное образовательное учреждение высшего образования "Краснодарское высшее военное орденов Жукова и Октябрьской Революции Краснознаменное училище имени генерала армии С.М. Штеменко" Министерства обороны Российской Федерации Method for automatic classification of formalized electronic graphic and text documents in the electronic document circulation system with automatic formation of electronic cases
US11816909B2 (en) 2021-08-04 2023-11-14 Abbyy Development Inc. Document clusterization using neural networks

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009061917A1 (en) * 2007-11-06 2009-05-14 Copanion, Inc. Systems and methods to automatically organize electronic jobs by automatically classifying electronic documents using extracted image and text features and using a machine-learning recognition subsystem
US20120310864A1 (en) * 2011-05-31 2012-12-06 Shayok Chakraborty Adaptive Batch Mode Active Learning for Evolving a Classifier
US20140241622A1 (en) * 2011-06-10 2014-08-28 Microsoft Corpotation Image Type Classifier For Improved Remote Presentation Session Compression
RU2571545C1 (en) * 2014-09-30 2015-12-20 Общество с ограниченной ответственностью "Аби Девелопмент" Content-based document image classification
US20170278015A1 (en) * 2016-03-24 2017-09-28 Accenture Global Solutions Limited Self-learning log classification system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009061917A1 (en) * 2007-11-06 2009-05-14 Copanion, Inc. Systems and methods to automatically organize electronic jobs by automatically classifying electronic documents using extracted image and text features and using a machine-learning recognition subsystem
US20120310864A1 (en) * 2011-05-31 2012-12-06 Shayok Chakraborty Adaptive Batch Mode Active Learning for Evolving a Classifier
US20140241622A1 (en) * 2011-06-10 2014-08-28 Microsoft Corpotation Image Type Classifier For Improved Remote Presentation Session Compression
RU2571545C1 (en) * 2014-09-30 2015-12-20 Общество с ограниченной ответственностью "Аби Девелопмент" Content-based document image classification
US20170278015A1 (en) * 2016-03-24 2017-09-28 Accenture Global Solutions Limited Self-learning log classification system

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144114A (en) * 2019-12-19 2020-05-12 广联达科技股份有限公司 Text recognition method and device
RU2759887C1 (en) * 2020-12-29 2021-11-18 федеральное государственное казенное военное образовательное учреждение высшего образования "Краснодарское высшее военное орденов Жукова и Октябрьской Революции Краснознаменное училище имени генерала армии С.М. Штеменко" Министерства обороны Российской Федерации Method for automatic classification of formalized electronic graphic and text documents in the electronic document circulation system with automatic formation of electronic cases
US11816909B2 (en) 2021-08-04 2023-11-14 Abbyy Development Inc. Document clusterization using neural networks

Similar Documents

Publication Publication Date Title
US10504202B2 (en) Method and device for identifying whether standard picture contains watermark
US9754164B2 (en) Systems and methods for classifying objects in digital images captured using mobile devices
US11663817B2 (en) Automated signature extraction and verification
JP4718841B2 (en) Index and load documents based on images
US9760788B2 (en) Mobile document detection and orientation based on reference object characteristics
JP2023502584A (en) System and method for authentication of documents
US20190304066A1 (en) Synthesis method of chinese printed character images and device thereof
US9626555B2 (en) Content-based document image classification
Bulatovich et al. MIDV-2020: a comprehensive benchmark dataset for identity document analysis
EP3642756B1 (en) Detecting artificial facial images using facial landmarks
JPWO2004051575A1 (en) Feature region extraction apparatus, feature region extraction method, and feature region extraction program
RU2672395C1 (en) Method for training a classifier designed for determining the category of a document
US11144752B1 (en) Physical document verification in uncontrolled environments
KR102090973B1 (en) Information processing apparatus, information processing method, and storage medium
US11176363B2 (en) System and method of training a classifier for determining the category of a document
US10867170B2 (en) System and method of identifying an image containing an identification document
RU2603495C1 (en) Classification of document images based on parameters of colour layers
KR102319492B1 (en) AI Deep learning based senstive information management method and system from images
EP3316173A1 (en) System and method for cheque image data masking
EP2156373A2 (en) Applying a segmentation engine to different mappings of a digital image
Wang et al. Ultra-Fast Mini License Plate Recognition System Based-on Vision Processing Unit
US20240144711A1 (en) Reliable determination of field values in documents with removal of static field elements
EP4266264A1 (en) Unconstrained and elastic id document identification in an rgb image
JP4974794B2 (en) Document recognition apparatus, document recognition method, and computer program
CN116740398A (en) Target detection and matching method, device and readable storage medium