WO2024019634A1 - Способ и система поиска графических изображений - Google Patents

Способ и система поиска графических изображений Download PDF

Info

Publication number
WO2024019634A1
WO2024019634A1 PCT/RU2022/000368 RU2022000368W WO2024019634A1 WO 2024019634 A1 WO2024019634 A1 WO 2024019634A1 RU 2022000368 W RU2022000368 W RU 2022000368W WO 2024019634 A1 WO2024019634 A1 WO 2024019634A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
input image
search
vector
database
Prior art date
Application number
PCT/RU2022/000368
Other languages
English (en)
French (fr)
Inventor
Сергей Александрович ШУЛЬГА
Original Assignee
Публичное Акционерное Общество "Сбербанк России"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from RU2022120180A external-priority patent/RU2807639C1/ru
Application filed by Публичное Акционерное Общество "Сбербанк России" filed Critical Публичное Акционерное Общество "Сбербанк России"
Publication of WO2024019634A1 publication Critical patent/WO2024019634A1/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image

Definitions

  • the present invention relates to the field of computer technology, in particular to the processing of digital data to search for graphic information.
  • patent application KR 20190098801 A (TUAT CO LTD, 08/23/2019), which describes a search system information about intellectual property, in particular, trademarks, based on the use of a machine learning algorithm based on a convolutional neural network (CNN), which is trained on a data array generated from published graphic images.
  • CNN convolutional neural network
  • the present invention is aimed at solving a technical problem, which is to create a search mechanism that provides fast and high-quality search for graphical information related to RIA.
  • the technical result is to increase the accuracy and speed of searching for graphic information.
  • An additional technical result is that there is no need to label data to form a training sample for a machine learning model.
  • the claimed invention is implemented by implementing a computer-implemented method for searching graphic images, performed using a processor and containing the steps of:
  • ANN artificial neural network
  • images are selected from the group: trademarks and/or industrial designs.
  • the input image is annotated to identify and recognize text information.
  • the identified text information on the input image is added to the search query.
  • the search index is further refined using at least one additional parameter of the input image, selected from the group: membership in the classes of the International Classification of Standards or International Standards, data of the copyright holder, data of the author, date or range of dates for filing or publication of the document.
  • the ANN is a deep convolutional neural network (DCNN).
  • DCNN deep convolutional neural network
  • a number of image transformations are performed, which include: bringing the image to a size of 224x224 pixels without distortion, converting the image to grayscale, removing noise, generating a fictitious RGB mode from one gradation channel gray, normalization of RGB channels.
  • the identification of text data in the input image is carried out using a convolutional recurrent neural network (CRNN), trained to classify text information and ensure the determination of the coordinates of the found information in the image.
  • CRNN convolutional recurrent neural network
  • the identified text information is processed by a recurrent neural network (RNN), which converts an image fragment into text form.
  • the claimed invention is also implemented by means of a graphic image retrieval system that includes at least one processor and memory means storing machine-readable instructions that, when executed by the processor, carry out the above method.
  • FIG. 1 illustrates a block diagram of the general execution of the stages of the claimed method.
  • FIG. 2 illustrates a flow diagram of the process of preparing a training sample for training an ANN.
  • FIG. 3 illustrates a flow diagram of the process of processing text information present in images.
  • FIG. Figure 4 illustrates an example of the architecture of interaction of search system elements.
  • FIG. 5 illustrates an example of capturing an input image directly using a user device.
  • FIG. 6 illustrates an example of forming a search index with the extraction of text information from the input image.
  • FIG. 7 illustrates an example of a computing device for implementing the claimed solution.
  • FIG. 1 shows the general process of executing the claimed image search method (100).
  • a search query is generated, which may contain an input image for subsequent search for similar graphic information.
  • the image can be supplied to the system input in one of the applicable graphic formats, for example, JPEG, PNG, TIFF, PNG, etc.
  • the input image is processed using OpenCV and Pillow library algorithms (102) to bring it into the required form and quality for the purposes of the subsequent operation of the search engine. This step will be discussed in more detail with reference to FIG. 2.
  • the initial step for forming an image analysis model is to obtain a primary (“raw”) data set on which the training set for the ANN will be built.
  • the primary data set can be an array of pairs of unlabeled images of various resolutions in black-and-white and color representation and XML files containing a set of attributes for the image in accordance with the requirements of patent legislation (such attributes include data on the copyright holder, date and place of registration, a list of classes of the ICLG/ MKPO in which the object is registered, the validity period of legal protection, text description of the object, text decoding of the object if it contains text information, etc.).
  • attributes include data on the copyright holder, date and place of registration, a list of classes of the ICLG/ MKPO in which the object is registered, the validity period of legal protection, text description of the object, text decoding of the object if it contains text information, etc.
  • the method (200) for generating a training sample for an ANN consists of the process of preprocessing (201) each input image using a set of algorithms from the OpenCV and Pillow open libraries. These algorithms include: rescaling the image (2011), converting the image to binary black and white (2012), highlighting the contours of the image (2013), blurring the image (2014), removing noise (2015), generating additional images with distortions ( 2016), which can simulate various augmented images, in particular, different quality, perspective, form image rotations, etc. For the above algorithms, hyperparameters are selected to ensure the proper quality of image processing to obtain the required result.
  • the use of the OpenCV and Pillow libraries allows, based on the transformations of each input image, to prepare a training sample for the ANN, which will subsequently be used to search for similar images.
  • Image transformations are performed using the OpenCV and Pillow libraries and are applied sequentially to each image in the training set.
  • the image is reduced to a size of 224x224 pixels without distortion (the missing part is filled with black).
  • the algorithm (2012) regardless of the original color mode, the image is converted to grayscale.
  • a fictitious RGB mode is formed from one grayscale channel (the color of the image does not change, but now it contains three identical color channels, which is necessary for the operation of the data representation model).
  • Each image processed in step (201) in step (202) is encoded into a vector representation to form a training sample of the ANN (203).
  • This procedure includes a data annotation algorithm, a basic image processing algorithm, the use of a model for representing images as a vector, and a space generation model for storing and accessing the generated vectors.
  • the model for representing data in vector form is based on the technology of convolutional neural networks (CNN).
  • CNN convolutional neural networks
  • a deep CNN based on the CHEESE architecture is used.
  • the image is converted into a matrix representation, where each element reflects the value of a specific pixel in the image.
  • this matrix goes through a series of linear and nonlinear transformations, as a result of which a new matrix of values is obtained, containing information about the key elements of the image and their position in the composition.
  • a high-dimensional flat vector (512 elements) is obtained. All vectors are saved in the database.
  • the model uses the CLIP ViT-B/32 implementation, which was pre-trained on the ImageNet dataset (about 10 million images divided into 1000 classes). A number of the last layers were excluded from the model, which average information about the image too much for its subsequent classification.
  • a search index is created for all vectors in the database (in fact, the coordinate system is calculated and the vectors are placed in this system).
  • the vector space formation model is based on the nearest neighbor search algorithms HNSW (https://arxiv.Org/ftp/arxiv/papers/l 603/1603.09320.pdt) and FAISS (https://nlpub.mipt.ru/Faiss), which allow you to cluster the resulting vectors in such a way that within one cluster there are vectors that differ minimally from each other in the maximum number of elements. Thanks to this, it becomes possible, taking any vector, to select a group of vectors that are included in its cluster. Such vectors correspond to images from the primary data that are as similar as possible to the original vector.
  • Validation of the space formation model is implemented using a test sample of images, which contains data arrays of the following structure: target image from the request + contrasting images, which signal that the similarity is so great that the image from the request carries the risk of being denied registration as trademark or industrial design.
  • the accuracy of the work was assessed by the number of contrasted images that the model returned in response to an image from a query within the first 20 results. If the answer contains all contrasted images, the model receives a score of 1, if none - 0, if some images are present - 0.5, regardless of the number.
  • the test sample was compiled with the assistance of experts in the field of intellectual property. The sample included only practical examples encountered by specialists.
  • the test data array consisted of 50 examples.
  • an annotation algorithm based on ElasticSearch means the creation of an analogue of the ElasticSearch reverse search index - Inverted Index (https://ru.wikipedia.org/wiki/HHBepTnpoBaHHbi index), which, in addition to text, can also store vector representation of images, forms a matrix with the dimension "Number of images” X "number of ICTU/ICTU classes + number of image attributes from the XML file” and places it in the PostgreeSQL database.
  • All text values from the matrix are indexed based on the search engine ElasticSearch algorithm for the ability to conduct text search in primary data.
  • the composition of the sample can be expanded by using an algorithm for extracting text from an image and searching among primary data based on a text annotation, which will be disclosed later in this description.
  • the model for generating a space of vectors obtained from a set of primary data returns indices of vectors corresponding to the most similar images in the primary data in relation to the image vector from the search query. Based on the indices, a selection of images from the primary data set is formed and they are displayed based on the results of processing the search query (105).
  • Each input image may also be analyzed by the text information detection and processing method (300) to identify such information.
  • Textuality classification for images that contain only unstylized text, and are in fact text/word trademarks
  • Mask-CNN model which classifies the image into one of two classes - text only/all other images.
  • the input image contains text information (301), then it is processed using the above OpenCV and Pillow algorithms, as well as the subsequent application of two machine learning models for text detection and recognition.
  • the location of text information in the image is detected using a machine learning model based on a recurrent convolutional neural network (RCNN), for example, MaskRCNN.
  • RCNN recurrent convolutional neural network
  • This RSNS checks the presence of text in the image and generates the coordinates of its location. If the text is not found, the algorithm stops working. If the text is found, its coordinates are transmitted to the second ANN based on the CNN algorithm (303), which converts the image fragment at the specified coordinates into text.
  • the received text is sent as a query to the ElasticSearch search algorithm (304), which, based on the previously constructed reverse search index, searches the database by the textual description attribute of the images (305).
  • the found images are included in the overall resulting response to the incoming request at stage (101). In this case, priority in the response is given to images that were obtained as a result of the work of representation models and the formation of a vector data space.
  • the incoming image search request may contain clarifying parameters, for example, membership in the classes of the International Classification of Standards or International Classification of Goods, copyright holder data, author data, date or range of dates for submission or publication of the document, etc.
  • the search field filter can be expanded and formed based on the possibility of annotating such search criteria, in relation to which RIA grouping is possible.
  • FIG. 4 shows an example of the architecture of the interaction system (400) for accessing the claimed search service.
  • Access can be achieved using a client-server platform, in which the main computing power is located on the server side (402), performing the above-described image retrieval methods, which is accessed through a data network (405) through a client device (401).
  • the data transmission network (405) is the Internet, organized using known approaches for forming a data transmission channel, for example, using cellular communications, Wi-Fi, LAN, etc.
  • the search query is generated by the computer user device (401).
  • a device may be, for example, a smartphone, a personal computer, a laptop, a game console, a smart wearable device, a tablet, or the like.
  • a search request can be made by uploading to a search platform hosted on the input image server (402), or using augmented reality software that can capture the image using the camera of the device (401) and use it as an input image.
  • the vector representation database (403) may be stored directly on the server (402) or located on an external resource, such as a cloud data storage. Such a database (403) stores image vectors generated by the machine learning model to carry out the search process.
  • the RID image database (404) is one or more information repositories containing graphical representations of the RID, such as a database of trademarks or industrial designs.
  • the image database (404) is used to obtain new images to form a search index for the ANN on the server (402), which performs the process of encoding new images and processing incoming search requests from the device (401).
  • FIG. 5 shows an example of generating a search query using image capture using the device camera (401).
  • a search object (40) is determined, which will act as an input image for the search.
  • the image search can be performed using a specialized application containing a graphical user interface (410) that provides the required functionality.
  • the identified similar images (411) are displayed.
  • FIG. Figure 6 shows an example of processing the input image (40) using the above text recognition model.
  • the image (40) is divided into graphic (41) and text information (42).
  • Text information is processed using method (300) to form a search index.
  • the technology described in the article Character Region Awareness for Text Detection Youngmin Baek et al. arXiv:1904.01941vl [cs.CV] 3 Apr 2019) can also be used.
  • This approach uses machine learning algorithms that extract each character (421) - (428) from the captured image and feed it to a trained ANN trained on two-dimensional Gaussian transforms for each letter character, allowing for more accurate recognition of each text character.
  • FIG. 7 shows an example of a general view of a computing device (500), on the basis of which one or more automated systems can be implemented, ensuring the implementation of the claimed method of performing the search process, data processing and related data processing stages.
  • Devices mentioned in these application materials such as server, user device, etc. can be performed entirely or partially on the basis of the device (500).
  • the device (500) contains one or more processors (501), memory devices such as RAM (502) and ROM (503), input/output interfaces (504), and input devices connected by a common data exchange bus. /output (505), and a device for network communication (506).
  • processors 501
  • memory devices such as RAM (502) and ROM
  • input/output interfaces 504
  • input devices connected by a common data exchange bus.
  • /output (505
  • a device for network communication (506).
  • the processor (501) may be selected from a variety of devices commonly used today, for example, from manufacturers such as: IntelTM, AMDTM, AppleTM, Samsung Exynos TM, MediaTEKTM, Qualcomm SnapdragonTM, etc.
  • the processor or one of the usable processors in the device (500) must also include a graphics processor, such as an NVIDIA or Graphcore GPU, the type of which is also suitable for performing all or part of the above-described one or more data processing methods, and can also be used for training and application of machine learning models in various information systems.
  • a graphics processor such as an NVIDIA or Graphcore GPU, the type of which is also suitable for performing all or part of the above-described one or more data processing methods, and can also be used for training and application of machine learning models in various information systems.
  • the RAM (502) is a random access memory and is designed to store computer-readable instructions executable by the processor (501) to perform the necessary logical data processing operations.
  • RAM (502) typically contains executable operating system instructions and related software components (applications, program modules, etc.). In this case, the available memory capacity of the graphics card or graphics processor can act as RAM (502).
  • ROM (503) is one or more permanent storage devices, such as a hard disk drive (HDD), a solid state drive (SSD), flash memory (EEPROM, NAND, etc.), optical storage media ( CD-R/RW, DVD-R/RW, BlueRay Disc, MD), etc.
  • I/O interfaces To organize the operation of device components (500) and organize the operation of external connected devices, various types of I/O interfaces (504) are used. The choice of appropriate interfaces depends on the specific design of the computing device, which can be, but is not limited to: PCI, AGP, PS/2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS/Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232, etc.
  • I/O information means for example, a keyboard, a display (monitor), touch display, touch pad, joystick, pointing stick, mouse, light pen, stylus, touchpad, trackball, speakers, microphone, augmented reality tools, optical sensors, tablet, indicator lights, projector, camera, biometric identification tools (retina scanner, fingerprint scanner, voice recognition module), etc.
  • the network communication facility (506) enables data transmission via an internal or external computer network, such as an Intranet, the Internet, a LAN, or the like.
  • One or more means (506) may be used, but not limited to: Ethernet card, GSM modem, GPRS modem, LTE modem, 5G modem, satellite communication module, NFC module, Bluetooth and/or BLE module, Wi-Fi module and etc.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Настоящее изобретение относится к области компьютерной техники, в частности к обработке цифровых данных. Поиск графических изображений содержит этапы, на которых: получают входное изображение или текст, на основании которых формируют поисковый запрос; выполняют обработку входного изображения с помощью алгоритмов библиотек OpenCV и Pillow; с помощью модели машинного обучения на базе искусственной нейронной сети (ИНС), обученной на графических изображениях и содержащей базу данных их векторных представлений, выполняют обработку входного изображения, в ходе которого переводят изображение в пиксельную матрицу, по которой определяются ключевые параметры изображения и их расположение во входном изображении, и формируют векторное представление изображения с помощью алгоритма максимизации; формируют поисковый индекс для входного изображения с помощью сравнения близости векторного представления входного изображения с векторными представлениями в базе данных ИНС; определяют и предоставляют по меньшей мере одно изображение из базы данных на основании сравнения векторных представлений по упомянутому поисковому индексу. Обеспечивается повышение точности и скорости поиска графической информации.

Description

СПОСОБ И СИСТЕМА ПОИСКА ГРАФИЧЕСКИХ ИЗОБРАЖЕНИЙ
ОБЛАСТЬ ТЕХНИКИ
[0001] Настоящее изобретение относится к области компьютерной техники, в частности к обработке цифровых данных для поиска графической информации.
УРОВЕНЬ ТЕХНИКИ
[0002] На сегодняшний день поиск графической информации применяется в различных областях техники. Существует множество поисковых механизмов, позволяющих осуществлять подбор требуемой информации на основе задаваемого поискового запроса или эталонного образца, на основании которого будет выполняться поиск схожих данных. Таким системами являются, например, Яндекс.Картинки, Google Pictures и т.п.
[0003] Одним из приоритетных направлений применения таких поисковых систем является работа с информацией, относящейся к результатам интеллектуальной деятельности (РИД), таким как товарные знаки и промышленные образцы, где тождество сравниваемых обозначений играет ключевую роль для выполнения качественной процедуры поиска схожих изображений.
[0004] В качестве одного из аналогов можно рассматривать сервис поиска графических изображений РИД eSearch plus Европейского патентного ведомства (https://euipo.europa.eu/eSearch/), которая позволяет осуществлять поиск схожей графической информации на основании формируемого поискового запроса с помощью загрузки примера изображения в поисковый индекс системы. Недостатками данной системы является отсутствие возможности уточнения поискового запроса с помощью фильтрации нерелевантных РИД, а также недостаточная точность поиска, что приводит к зашумлению итоговой поисковой выдачи и снижению общего качества работы системы.
[0005] Из уровня техники также известны подходы в применения алгоритмов машинного обучения для поиска схожей графической информации, например, такие решения раскрываются в следующих патентных документах: US 20190102601 Al (LexsetAi LLC, 04.04.2019), JP 2018160256 A (Hamada et al., 11.10.2018), US 9740963 B2 (SRI International, 22.08.2017). Данные подходы опираются на тренировку алгоритма на базе искусственной нейронной сети (ИНС) для классификации изображений и определении схожих графических образов.
[0006] По своей технической сути наиболее близкое решение раскрывается в патентной заявке KR 20190098801 A (TUAT СО LTD, 23.08.2019), которая описывает систему поиска информации о РИД, в частности, товарных знаках на основании применения алгоритма машинного обучения на базе сверточной нейронной сети (англ. Convolutional Neural Network - CNN), который тренируется на массиве данных, формируемом их опубликованных графических изображений.
[0007] Недостатками известных решений является недостаточная точность поискового алгоритма, которая ограничивается набором обучаемых материалов, которые как правило не проходят достаточной степеней предобработки и их аугментации для формирования обучающей выборки для алгоритмов машинного обучения, которая позволит сформировать более универсальный поисковый индекс, который позволит искать с повышенной точностью совпадающие графические образы.
РАСКРЫТИЕ ИЗОБРЕТЕНИЯ
[0008] Настоящее изобретение направлено на решение технической проблемы, заключающейся в создании поискового механизма, обеспечивающего быстрый и качественный поиск графической информации, связанной с РИД.
[0009] Техническим результатом является повышение точности и скорости поиска графической информации.
[0010] Дополнительным техническим результатом является отсутствие необходимости разметки данных для формирования обучающей выборки модели машинного обучения.
[ООП] Заявленное изобретение осуществляется за счет выполнения компьютернореализуемого способа поиска графических изображений, выполняемого с помощью процессора и содержащего этапы, на которых:
- получают входное изображение или текст, на основании которых формируют поисковый запрос;
- выполняют обработку входного изображения с помощью алгоритмов библиотек OpenCV и Pillow;
- с помощью модели машинного обучения на базе искусственной нейронной сети (ИНС), обученной на графических изображениях и содержащей базу данных их векторных представлений, выполняют обработку входного изображения, в ходе которого переводят изображение в пиксельную матрицу, по которой определяются ключевые параметры изображения и их расположение во входном изображении, и формируют векторное представление изображения с помощью алгоритма максимизации; - формируют поисковый индекс для входного изображения с помощью сравнения близости векторного представления входного изображения с векторными представлениями в базе данных ИНС, причем сравнение выполняется с помощью алгоритма приближенного поиска ближайших соседей, основанного на иерархических графах;
- определяют и предоставляют по меньшей мере одно изображение из базы данных на основании сравнения векторных представлений по упомянутому поисковому индексу.
[0012] В одном из частных вариантов реализации способа изображения выбираются из группы: товарные знаки и/или промышленные образцы.
[0013] В другом частном варианте реализации способа на этапе формирования поискового запроса выполняется аннотация входного изображения на предмет выявления и распознавания текстовой информации.
[0014] В другом частном варианте реализации способа выявленная текстовая информация на входном изображении добавляется в поисковый запрос.
[0015] В другом частном варианте реализации способа дополнительно уточняют поисковый индекс с помощью по меньшей мере одного дополнительного параметра входного изображения, выбираемого из группы: принадлежность к классам МКТУ или МКПО, данным правообладателя, данным автора, дату или диапазон дат подачи или публикации документа.
[0016] В другом частном варианте реализации способа ИНС представляет собой глубокую сверточную нейронную сеть (ГСНС).
[0017] В другом частном варианте реализации способа на этапе обработки входного изображения выполняется ряд преобразований изображения, которые включают в себя: приведение изображения к размеру 224x224 пикселя без искажений, перевод изображения в градации серого, удаление шума, формирование фиктивного режима RGB из одного канала градации серого, нормализация каналов RGB.
[0018] В другом частном варианте реализации способа при удалении шума удаляются высококонтрастные пиксели входного изображения на фоне одного цвета.
[0019] В другом частном варианте реализации способа при формировании фиктивного режима RGB формируется три одинаковых цветовых канала.
[0020] В другом частном варианте реализации способа выявление текстовых данных на входном изображении осуществляется с помощью сверточной рекуррентной нейронной сети (СРНС), обученной на предмет классификации текстовой информации и обеспечивающей определение координат найденной информации на изображении. [0021] В другом частном варианте реализации способа выявленная текстовая информация обрабатывается рекуррентной нейронной сетью (РНС), выполняющей преобразование фрагмента изображения в текстовую форму.
[0022] Заявленное изобретение также осуществляется с помощью системы поиска графических изображений, которая содержит по меньшей мере один процессор и средство памяти, хранящее машиночитаемые инструкции, которые при их исполнении процессором выполняют вышеуказанный способ.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
[0023] Фиг. 1 иллюстрирует блок-схему общего выполнения этапов заявленного способа.
[0024] Фиг. 2 иллюстрирует блок-схему процесса подготовки обучающей выборки для тренировки ИНС.
[0025] Фиг. 3 иллюстрирует блок-схему процесса обработки текстовой информации, присутствующей на изображениях.
[0026] Фиг. 4 иллюстрирует пример архитектуры взаимодействия элементов поисковой системы.
[0027] Фиг. 5 иллюстрирует пример захвата входного изображения непосредственно с помощью пользовательского устройства.
[0028] Фиг. 6 иллюстрирует пример формирования поискового индекса с выделением текстовой информации из входного изображения.
[0029] Фиг. 7 иллюстрирует пример вычислительного устройства для реализации заявленного решения.
ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ
[0030] На Фиг. 1 представлен общий процесс выполнения заявленного способа (100) поиска изображений. На этапе (101) выполняется формирование поискового запроса, который может содержать входное изображение для последующего поиска схожей графической информации. Изображение может подаваться на вход системы в одном из применимых графических форматов, например, JPEG, PNG, TIFF, PNG и т.п.
[0031] Входное изображение обрабатывается с помощью алгоритмов библиотеки OpenCV и Pillow (102) для его приведения в требуемый вид и качество для целей последующей работы поискового механизма. Данный этап более детально будет рассмотрен с отсылкой к Фиг. 2. [0032] Начальным шагом для формирования модели анализа изображений является получение первичного («сырого») набора данных, на которых будет строиться обучающая выборка для ИНС. Набор первичных данных может представлять собой массив пар неразмеченных изображений различного разрешения в черно -белом и цветном представлении и файлов XML, содержащих набор атрибутов для изображения согласно требованиям патентного законодательства (к таким атрибутам относятся данные о правообладателе, дате и месте регистрации, перечень классов МКТУ/МКПО, в которых зарегистрирован объект, срок действия правовой охраны, текстовое описание объекта, текстовая расшифровка объекта, если он содержит текстовую информацию и др.).
[0033] Способ (200) формирования обучающей выборки для ИНС заключается в процессе предобработки (201) каждого входного изображения с помощью набора алгоритмов открытых библиотек OpenCV и Pillow. Данные алгоритмы включают в себя: изменение масштаба изображения (2011), перевод изображения в бинарный черно-белый вид (2012), выделение контуров изображения (2013), размытие изображения (2014), удаление шумов (2015), генерирование дополнительных изображений с искажениями (2016), которые могут имитировать различное аугментированные изображения, в частности, другого качества, перспективы, формировать повороты изображения и т.п.. Для вышеупомянутых алгоритмов осуществляется подбор гиперпараметров, обеспечивающих должное качество обработки изображения с получением требуемого результата. Применение библиотек OpenCV и Pillow позволяет на основании преобразований каждого входного изображения подготовить обучающую выборку для ИНС, которая впоследствии будет применяться для поиска схожих изображений.
[0034] Преобразования изображения выполняются с помощью библиотек OpenCV и Pillow и применяются последовательно к каждому изображению из обучающей выборки. С помощью алгоритма (2011) изображение приводится к размеру 224x224 пикселя без искажений (недостающая часть заполняется черным цветом). С помощью алгоритма (2012) независимо от исходного цветового режима изображение переводится в градации серого. На данном шаге формируется фиктивный режим RGB из одного канала градации серого (цвет изображения не меняется, но теперь оно содержит три одинаковых цветовых канала, что является необходимым для работы модели представления данных).
[0035] С помощью алгоритма выделения контуров (2013) на изображении выделяются контуры (увеличивается их толщина) для более четкого определения границ объектов. Экспериментальным путем было установлено, что для лучшего качества обучения модели распознавания изображения, контуром стоит считать любую линию, в том числе и перепад между цветами (за исключением градиентных областей). С помощью алгоритма размытия (2014) изначально высококонтрастные изображения (с большим перепадом значений смежных пикселей) сглаживаются на границах цветовых элементов. В результате получается изображение, которое имеет четкие, но однородные контуры. С помощью алгоритма (2015) удаляются шумы (отдельные высококонтрастные пиксели на фоне одного цвета). С помощью алгоритма аугментации (2016) к исходному изображению применяются несколько фильтров, которые наносят искажения (шум, поворот по осям координат, сдвиг изображения относительно начала координат). При этом сохраняется исходное изображение, что позволяет сформировать минивыборку исходного изображения и набора аугментированных изображений к нему. Это позволяет сделать модель более устойчивой к различного рода искажениям на изображении из запроса.
[0036] Каждое обработанное на этапе (201) изображение на этапе (202) кодируется в векторное представление для формирования обучающей выборки ИНС (203). Эта процедура включает в себя алгоритм аннотации данных, алгоритм базовой обработки изображений, использование модели для представления изображений в виде вектора и модели формирования пространства для хранения и доступа к созданным векторам.
[0037] Модель представления данных в векторном виде основана на технологии конволюционных (сверточных) нейронных сетей (CNN). Используется глубокая CNN на основе архитектуры СЫР. На входе изображение переводится в матричное представление, где каждый элемент отражает значение конкретного пикселя картинки. Далее эта матрица проходит ряд линейных и нелинейных преобразований, в результате которых получается новая матрица значений, содержащая в себе информацию о ключевых элементах изображения и их положения в композиции. Далее через алгоритм максимизации значений ключевых точек получается плоский вектор высокой размерности (512 элементов). Все вектора сохраняются в базе данных.
[0038] Для модели использована реализация CLIP ViT-B/32, которая была предварительно обучена на наборе данных ImageNet (около 10 млн. изображений, разбитых на 1000 классов). Из модели был исключен ряд последних слоев, которые слишком сильно усредняют информацию об изображении для его последующей классификации. Некоторые существующие решения пытаются классифицировать изображение по классам МКТУ/МКПО, но на практике, в отсутствие сильной связи между изображением и классом, это дает нерелевантные результаты поиска.
[0039] В ходе экспертиментов был выбран один из активационных слоев сети, который возвращает вектор размерностью 512x3x1 и содержит абстрактное представление изображения. Далее, к полученному вектору применяется векторное преобразование, основанное на методе RMAC. Данный метод позволяет максимизировать значения тех элементов вектора, которые соответствуют позициям максимального перепада цвета в исходном изображении. Это позволяет выделить информацию о наборе контуров в изображении. Результатом работы метода является одномерный вектор размерностью 512. Все полученные вектора сохраняются в формат HDF5 - основной формат для хранения векторных данных большой размерности. Такой подход позволяет учитывать особенности поиска сходных изображений для поставленной задачи, а именно - приоритет контуров и композиции над цветовой палитрой.
[0040] На основе векторов из базы данных с использованием open-source решений архитектуры ANN (приближенный поиск ближайших соседей с помощью иерархических графов) создается поисковый индекс для всех векторов в базе данных (фактически происходит расчет системы координат и размещение векторов в этой системе). Модель формирования пространства векторов основана на алгоритмах поиска ближайших соседей HNSW (https://arxiv.Org/ftp/arxiv/papers/l 603/1603.09320.pdt) и FAISS (https://nlpub.mipt.ru/Faiss), которые позволяют кластеризовать полученные вектора таким образом, что в пределах одного кластера располагаются вектора, минимально отличающиеся друг от друга максимальным количеством элементов. Благодаря этому появляется возможность, взяв любой вектор, выделить группу векторов, которые входят в его кластер. Такие вектора соответствуют изображениям из первичных данных, которые максимально похожи на исходный вектор.
[0041] Валидация модели формирования пространства реализуется с помощью тестовой выборки изображений, которая содержит массивы данных следующей структуры: целевое изображение из запроса + противопоставленные изображения, которые сигнализируют о том, что сходство настолько велико, что изображение из запроса несет риск отказа в регистрации в качестве товарного знака или промышленного образца. Точность работы оценивалась по количеству противпоставленных изображений, которые модель возвращала в ответ на изображение из запроса в пределах первых 20 результатов. В случае если в ответе содержатся все противпоставленные изображения, модель получает оценку 1, если ни одного - 0, если часть изображений присутствует - 0,5 независимо от количества. Тестовая выборка была составлена с привлечением специалистов в области интеллектуальной собственности. В выборку были включены только практические примеры, с которыми сталкивались специалисты. Массив тестовых данных составил 50 примеров. По метрике точности AUC (Accuracy) были достигнуты следующие результаты: 91% при учете только полных противопоставлений (1 и 0); 95% при равном учете оценок 1 и 0,5. [0042] При получении нового изображения в запросе на этап (101), оно проходит алгоритм аннотации, алгоритм базовой обработки, алгоритм извлечения текста (опционально) и с помощью модели представлений на этапе (103) кодируется в вектор фиксированной величины. Далее на этапе (104) полученный вектор временно помещается в ранее созданное векторное пространство с помощью модели представления данных на базе ИНС. Алгоритм базовой обработки на этапе (102) включает в себя преобразования входного изображения с помощью применения алгоритмов, указанных в способе (200).
[0043] Алгоритм аннотации на основе ElasticSearch (в данном случае под алгоритмом аннотации понимается создание аналога обратного поискового индекса ElasticSearch - Inverted Index (https://ru.wikipedia.org/wiki/HHBepTnpoBaHHbi индекс), который помимо текста также может хранить в себе векторное представление изображений, формирует матрицу размерностью «Кол-во изображений» X «кол-во классов МКТУ/МКПО + кол-во атрибутов изображения из файла XML» и размещает ее в базе данных PostgreeSQL. Все текстовые значения из матрицы проходят индексацию на основе поискового алгоритма ElasticSearch для возможности проведения текстового поиска в первичных данных. Состав выборки может быть расширен за счет алгоритма извлечения текста из изображения и поиска среди первичных данных на основании текстовой аннотации, который будет раскрыт далее в настоящем описании.
[0044] Модель формирования пространства векторов, полученных на наборе первичных данных, возвращает индексы векторов, соответствующих максимально похожим изображениям в первичных данных по отношению к вектору изображения из поискового запроса. На основании индексов формируется выборка изображений из первичного набора данных и их выдача по итогам обработки поискового запроса (105).
[0045] Каждое входное изображение также может анализироваться с помощью способа выявления и обработки текстовой информации (300) на предмет выявления такой информации. Классификация текстуальности (для изображений, которые содержат только нестилизованный текст, и по факту являются текстовыми/словесными товарными знаками) может выполняться с помощью модели Mask-CNN, которая классифицирует изображение в один из двух классов - только текст/все другие изображения.
[0046] При работе с РИД, такими как товарные знаки и промышленные образцы, зачастую текстовая информация может иметь доминирующий характер и должна также анализироваться на предмет возможного пересечения, например, при анализе наличия схожих обозначений, либо возможного смешения со словесными (текстовыми) товарными знаками. [0047] Если входное изображение содержит текстовую информацию (301), то выполняется его обработка с помощью вышеуказанных алгоритмов OpenCV и Pillow, а также последующее применение двух моделей машинного обучения для детектирования и распознавания текста. На этапе (302) осуществляется выявления местоположения на изображении текстовой информации с помощью модели машинного обучения на базе рекуррентной сверточной нейронной сети (РСНС), например, MaskRCNN. Данная РСНС проверяет наличие текста на изображении и формирует координаты его местоположения. Если текст не найден, алгоритм прекращает работу. Если текст найден, его координаты передаются второй ИНС на основе алгоритма СНС (303), которая переводит фрагмент изображения по указанным координатам в текст.
[0048] Далее полученный текст передается в виде запроса в поисковый алгоритм ElasticSearch (304), который на основе ранее построенного обратного поискового индекса проводит поиск в базе данных по атрибуту текстуального описания изображений (305). Найденные изображения включаются в общий результирующий ответ на поступивший запрос на этапе (101). В этом случае приоритет в ответе имеют изображения, которые были получены в результате работы моделей представления и формирования векторного пространства данных.
[0049] Дополнительно входящий запрос на поиск изображений может содержать уточняющие параметры, например, принадлежность к классам МКТУ или МКПО, данным правообладателя, данным автора, дату или диапазон дат подачи или публикации документа и т.п. Фильтр полей для поиска может быть расширен и сформирован исходя из возможности аннотирования таких поисковых критериев, относительно который возможна группировка РИД.
[0050] На Фиг. 4 представлен пример архитектуры системы взаимодействия (400) для доступа к заявленному поисковому сервису. Доступ может осуществляться с помощью клиент-серверной платформы, при которой основные вычислительные мощности располагаются на серверной части (402), выполняющий вышеописанные способы поиска изображений, к которой через сеть передачи данных (405) осуществляется доступ через клиентское устройство (401). В качестве сети передачи данных (405) используется сеть Интернет, организованная с помощью известных подходов для формирования канала передачи данных, например, с помощью сотовой связи, Wi-Fi, LAN и т.п.
[0051 ] Поисковый запрос формируется с помощью компьютерного пользовательского устройства (401). Такое устройство может представлять собой, например, смартфон, персональный компьютер, ноутбук, игровая приставка, умное носимое устройство, планшет и т.п. Запрос на выполнение поиска может осуществляться с помощью загрузки в поисковую платформу, размещенную на сервере (402) входного изображения, либо с помощью программных средств дополненной реальности, которые могут осуществлять захват изображения с помощью камеры устройства (401) и использования его в качестве входного изображения.
[0052] База данных векторных представлений (403) может храниться непосредственно на сервере (402) или располагаться на внешнем ресурсе, например, облачное хранилище данных. Такая база данных (403) хранит сформированные моделью машинного обучения вектора изображений для осуществления поискового процесса. База данных изображений РИД (404) представляет собой одно или несколько хранилищ информации, содержащее графические представления РИД, например, база данных товарных знаков или промышленных образцов. База данных изображений (404) используется для получения новых изображений для формирования поискового индекса для ИНС на сервере (402), выполняющий процесс кодирования новых изображений и обработки поступающих поисковых запросов от устройства (401).
[0053] На Фиг. 5 представлен пример формирования поискового запроса с помощью захвата изображения с помощью камеры устройства (401). На полученном изображении определяется объект поиска (40), которое будет выступать в качестве входного изображения для поиска. Поиск изображений может выполняться с помощью специализированного приложения, содержащего графический интерфейс пользователя (410), обеспечиваемый требуемый функционал. По факту анализа полученного объекта поиска (40) выполняется отображение выявленных схожих изображений (411).
[0054] На Фиг. 6 представлен пример обработки входного изображения (40) с помощью вышеуказанной модели распознавания текстовой информации. Изображение (40) разделяется на графическую (41) и текстовую информацию (42). Текстовая информация с помощью способа (300) обрабатывается для формирования поискового индекса. При обработке входных изображений может применяться также технология, описанная в статье Character Region Awareness for Text Detection (Youngmin Baek et al. arXiv:1904.01941vl [cs.CV] 3 Apr 2019). При использовании данного подхода используются алгоритмы машинного обучения, которые выделяют каждый символ (421) - (428) из захваченного изображения и передаваться в обученную ИНС, обученную на двумерных Гауссовских преобразованиях для каждого буквенного символа, что позволяет более точно распознать каждый текстовый символ.
[0055] На Фиг. 7 представлен пример общего вида вычислительного устройства (500), на базе которого может быть реализована одна или несколько автоматизированных систем, обеспечивающих реализацию заявленного способа выполнения поискового процесса, обработки данных и сопутствующих этапов обработки данных. Упомянутые в настоящих материалах заявки такие устройства, как сервер, устройство пользователя и т.д. могут выполняться полностью или частично на базе устройства (500).
[0056] В общем случае, устройство (500) содержит объединенные общей шиной информационного обмена один или несколько процессоров (501), средства памяти, такие как ОЗУ (502) и ПЗУ (503), интерфейсы ввода/вывода (504), устройства ввода/вывода (505), и устройство для сетевого взаимодействия (506).
[0057] Процессор (501) (или несколько процессоров, многоядерный процессор и т.п.) может выбираться из ассортимента устройств, широко применяемых в настоящее время, например, таких производителей, как: Intel™, AMD™, Apple™, Samsung Exynos™, MediaTEK™, Qualcomm Snapdragon™ и т.п. Под процессором или одним из используемых процессоров в устройстве (500) также необходимо учитывать графический процессор, например, GPU NVIDIA или Graphcore, тип которых также является пригодным для полного или частичного выполнения вышеописанных одного или нескольких способов обработки данных, а также может применяться для обучения и применения моделей машинного обучения в различных информационных системах.
[0058] ОЗУ (502) представляет собой оперативную память и предназначено для хранения исполняемых процессором (501) машиночитаемых инструкций для выполнения необходимых операций по логической обработке данных. ОЗУ (502), как правило, содержит исполняемые инструкции операционной системы и соответствующих программных компонент (приложения, программные модули и т.п.). При этом, в качестве ОЗУ (502) может выступать доступный объем памяти графической карты или графического процессора.
[0059] ПЗУ (503) представляет собой одно или более устройств постоянного хранения данных, например, жесткий диск (HDD), твердотельный накопитель данных (SSD), флэш- память (EEPROM, NAND и т.п.), оптические носители информации (CD-R/RW, DVD- R/RW, BlueRay Disc, MD) и др.
[0060] Для организации работы компонентов устройства (500) и организации работы внешних подключаемых устройств применяются различные виды интерфейсов В/В (504). Выбор соответствующих интерфейсов зависит от конкретного исполнения вычислительного устройства, которые могут представлять собой, не ограничиваясь: PCI, AGP, PS/2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS/Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232 и т.п.
[0061] Для обеспечения взаимодействия пользователя с устройством (500) применяются различные средства (505) В/В информации, например, клавиатура, дисплей (монитор), сенсорный дисплей, тач-пад, джойстик, манипулятор, мышь, световое перо, стилус, сенсорная панель, трекбол, динамики, микрофон, средства дополненной реальности, оптические сенсоры, планшет, световые индикаторы, проектор, камера, средства биометрической идентификации (сканер сетчатки глаза, сканер отпечатков пальцев, модуль распознавания голоса) и т.п.
[0062] Средство сетевого взаимодействия (506) обеспечивает передачу данных посредством внутренней или внешней вычислительной сети, например, Интранет, Интернет, ЛВС и т.п. В качестве одного или более средств (506) может использоваться, но не ограничиваться: Ethernet карта, GSM модем, GPRS модем, LTE модем, 5G модем, модуль спутниковой связи, NFC модуль, Bluetooth и/или BLE модуль, Wi-Fi модуль и др.
[0063] Представленные материалы заявки раскрывают предпочтительные примеры реализации технического решения и не должны трактоваться как ограничивающие иные, частные примеры его воплощения, не выходящие за пределы испрашиваемой правовой охраны, которые являются очевидными для специалистов соответствующей области техники.

Claims

ФОРМУЛА
1. Компьютерно-реализуемый способ поиска графических изображений, выполняемый с помощью процессора и содержащий этапы, на которых:
- получают входное изображение, на основании которого формируют поисковый запрос;
- выполняют обработку входного изображения с помощью алгоритмов библиотек OpenCV и Pillow;
- с помощью модели машинного обучения на базе искусственной нейронной сети (ИНС), обученной на графических изображениях и содержащей базу данных их векторных представлений, выполняют обработку входного изображения, в ходе которого переводят изображение в пиксельную матрицу, по которой определяются ключевые параметры изображения и их расположение во входном изображении, и формируют векторное представление изображения с помощью алгоритма максимизации;
- формируют поисковый индекс для входного изображения с помощью сравнения близости векторного представления входного изображения с векторными представлениями в базе данных ИНС, причем сравнение выполняется с помощью алгоритма приближенного поиска ближайших соседей, основанного на иерархических графах;
- определяют и предоставляют по меньшей мере одно изображение из базы данных на основании сравнения векторных представлений по упомянутому поисковому индексу.
2. Способ по п.1, характеризующийся тем, что изображения выбираются из группы: товарные знаки и/или промышленные образцы.
3. Способ по п.2, характеризующийся тем, что на этапе формирования поискового запроса выполняется аннотация входного изображения на предмет выявления и распознавания текстовой информации.
4. Способ по п.З, характеризующийся тем, что выявленная текстовая информация на входном изображении добавляется в поисковый запрос.
5. Способ по п.2, характеризующийся тем, что дополнительно уточняют поисковый индекс с помощью по меньшей мере одного дополнительного параметра входного изображения, выбираемого из группы: принадлежность к классам МКТУ или МКПО, данным правообладателя, данным автора, дату или диапазон дат подачи или публикации документа.
6. Способ по п.1, характеризующийся тем, что ИНС представляет собой глубокую сверточную нейронную сеть (ГСНС).
7. Способ по п.1, характеризующийся тем, что на этапе обработки входного изображения выполняется ряд преобразований изображения, которые включают в себя: приведение изображения к размеру 224x224 пикселя без искажений, перевод изображения в градации серого, удаление шума, формирование фиктивного режима RGB из одного канала градации серого.
8. Способ по п.7, характеризующийся тем, что при удалении шума удаляются высококонтрастные пиксели входного изображения на фоне одного цвета.
9. Способ по п.7, характеризующийся тем, что при формировании фиктивного режима RGB формируется три одинаковых цветовых канала.
10. Способ по п.З, характеризующийся тем, что выявление текстовых данных на входном изображении осуществляется с помощью сверточной рекуррентной нейронной сети (СРНС), обученной на предмет классификации текстовой информации и обеспечивающей определение координат найденной информации на изображении.
И. Способ по п.10, характеризующийся тем, что выявленная текстовая информация обрабатывается рекуррентной нейронной сетью (РНС), выполняющей преобразование фрагмента изображения в текстовую форму.
12. Система поиска графических изображений, содержащая по меньшей мере один процессор и средство памяти, хранящее машиночитаемые инструкции, которые при их исполнении процессором выполняют способ по любому из пп. 1-11.
PCT/RU2022/000368 2022-07-22 2022-12-13 Способ и система поиска графических изображений WO2024019634A1 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
RU2022120180A RU2807639C1 (ru) 2022-07-22 Способ и система поиска графических изображений
RU2022120180 2022-07-22

Publications (1)

Publication Number Publication Date
WO2024019634A1 true WO2024019634A1 (ru) 2024-01-25

Family

ID=89618384

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/RU2022/000368 WO2024019634A1 (ru) 2022-07-22 2022-12-13 Способ и система поиска графических изображений

Country Status (1)

Country Link
WO (1) WO2024019634A1 (ru)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622420B (zh) * 2012-02-22 2013-10-30 哈尔滨工程大学 基于颜色特征和形状上下文的商标图像检索方法
WO2015035477A1 (en) * 2013-09-11 2015-03-19 See-Out Pty Ltd Image searching method and apparatus
WO2017134519A1 (en) * 2016-02-01 2017-08-10 See-Out Pty Ltd. Image classification and labeling
CN107122375A (zh) * 2016-12-12 2017-09-01 南京理工大学 基于图像特征的图像主体的识别方法
WO2019237646A1 (zh) * 2018-06-14 2019-12-19 清华大学深圳研究生院 一种基于深度学习和语义分割的图像检索方法
CN112347284A (zh) * 2020-09-16 2021-02-09 华南师范大学 一种组合商标图像检索方法
CN112580574A (zh) * 2020-12-28 2021-03-30 北京翰立教育科技有限公司 一种基于识别手写文字的智能学习方法及装置
CN112884005A (zh) * 2021-01-21 2021-06-01 汉唐信通(北京)科技有限公司 一种基于sptag及卷积神经网的图像检索方法及装置
US20210303903A1 (en) * 2018-08-14 2021-09-30 Nippon Telegraph And Telephone Corporation Object recognition device, object recognition learning device, method, and program

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622420B (zh) * 2012-02-22 2013-10-30 哈尔滨工程大学 基于颜色特征和形状上下文的商标图像检索方法
WO2015035477A1 (en) * 2013-09-11 2015-03-19 See-Out Pty Ltd Image searching method and apparatus
WO2017134519A1 (en) * 2016-02-01 2017-08-10 See-Out Pty Ltd. Image classification and labeling
CN107122375A (zh) * 2016-12-12 2017-09-01 南京理工大学 基于图像特征的图像主体的识别方法
WO2019237646A1 (zh) * 2018-06-14 2019-12-19 清华大学深圳研究生院 一种基于深度学习和语义分割的图像检索方法
US20210303903A1 (en) * 2018-08-14 2021-09-30 Nippon Telegraph And Telephone Corporation Object recognition device, object recognition learning device, method, and program
CN112347284A (zh) * 2020-09-16 2021-02-09 华南师范大学 一种组合商标图像检索方法
CN112580574A (zh) * 2020-12-28 2021-03-30 北京翰立教育科技有限公司 一种基于识别手写文字的智能学习方法及装置
CN112884005A (zh) * 2021-01-21 2021-06-01 汉唐信通(北京)科技有限公司 一种基于sptag及卷积神经网的图像检索方法及装置

Similar Documents

Publication Publication Date Title
US11657602B2 (en) Font identification from imagery
RU2668717C1 (ru) Генерация разметки изображений документов для обучающей выборки
US9626555B2 (en) Content-based document image classification
JP2014029732A (ja) 画像の検索および読み出しに関する基準を用いて画像内容の描写を生成する方法
EP1583023B1 (en) Model of documents and method for automatically classifying a document
AU2021312111A1 (en) Classifying pharmacovigilance documents using image analysis
Úbeda et al. Improving pattern spotting in historical documents using feature pyramid networks
Wei et al. Selecting autoencoder features for layout analysis of historical documents
Singh et al. CNN based approach for traffic sign recognition system
RU2807639C1 (ru) Способ и система поиска графических изображений
Can et al. Maya codical glyph segmentation: A crowdsourcing approach
WO2024019634A1 (ru) Способ и система поиска графических изображений
EA046527B1 (ru) Способ и система поиска графических изображений
CN113158745B (zh) 一种基于多特征算子的乱码文档图片识别方法及系统
Lizé et al. Local binary pattern and its variants: application to face analysis
Evangelou et al. PU learning-based recognition of structural elements in architectural floor plans
Sharma et al. Classification on Unsupervised Deep Hashing With Pseudo Labels Using Support Vector Machine for Scalable Image Retrieval
Krupiński et al. Improved two-step binarization of degraded document images based on Gaussian mixture model
Xiong et al. Attention-based multiple siamese networks with primary representation guiding for offline signature verification
Bhagat et al. Complex document classification and integration with indexing
Deepa et al. An enhanced machine learning technique for text detection using keras sequential model
US20240249191A1 (en) System and method of automated document page classification and targeted data extraction
Chawla et al. Intelligent Information Retrieval: Techniques for Character Recognition and Structured Data Extraction
Gupta et al. Offline handwritten gurumukhi character recognition system using convolution neural network
Agarwal et al. Efficacy of Residual Methods for Passive Image Forensics Using Four Filtered Residue CNN

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22952099

Country of ref document: EP

Kind code of ref document: A1