RU190639U1 - SYSTEM OF GENERATION OF IMAGES CONTAINING TEXT - Google Patents

SYSTEM OF GENERATION OF IMAGES CONTAINING TEXT Download PDF

Info

Publication number
RU190639U1
RU190639U1 RU2019110055U RU2019110055U RU190639U1 RU 190639 U1 RU190639 U1 RU 190639U1 RU 2019110055 U RU2019110055 U RU 2019110055U RU 2019110055 U RU2019110055 U RU 2019110055U RU 190639 U1 RU190639 U1 RU 190639U1
Authority
RU
Russia
Prior art keywords
text
image
block
transfer
background image
Prior art date
Application number
RU2019110055U
Other languages
Russian (ru)
Inventor
Ярослав Ярославович Петричкович
Станислав Юрьевич Миллер
Анатолий Владимирович Хамухин
Илья Геннадьевич Оводов
Original Assignee
Акционерное общество Научно-производственный центр "Электронные вычислительно-информационные системы"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Акционерное общество Научно-производственный центр "Электронные вычислительно-информационные системы" filed Critical Акционерное общество Научно-производственный центр "Электронные вычислительно-информационные системы"
Priority to RU2019110055U priority Critical patent/RU190639U1/en
Application granted granted Critical
Publication of RU190639U1 publication Critical patent/RU190639U1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/40Filling a planar surface by adding surface attributes, e.g. colour or texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

Полезная модель относится к области обработки данных. Техническим результатом полезной модели является создание системы генерации изображений, содержащих текст, с меньшей сложностью и временем функционирования, за счет отказа от использования изображений, полученных в процессе съёмок, в пользу изображений, сгенерированных с помощью электронно-вычислительных средств генерации изображений. 3 з.п. ф-лы, 4 ил.The utility model relates to the field of data processing. The technical result of the utility model is the creation of a system for generating images containing text with less complexity and time of operation, due to the rejection of the use of images obtained during the filming process, in favor of images generated using electronic computing means of image generation. 3 hp f-ly, 4 ill.

Description

Полезная модель относится к области обработки данных, а именно к системам генерации изображений, содержащих текст, и может быть использовано в системах оптического распознавания символьной информации, в том числе текстов, расположенных на этикетках и табличках заранее установленного формата.The utility model relates to the field of data processing, in particular, to systems for generating images containing text, and can be used in optical character recognition systems for symbolic information, including texts located on labels and plates of a predetermined format.

Оптическое распознавание текстов применяют во многих областях: для перевода в электронный вид сканированных копий документов, для идентификации транспортных средств по изображению государственного регистрационного знака, для фиксации и перевода в текстовый вид любых надписей, встречающихся в потоке изображений оптических приборов.Optical text recognition is used in many areas: to translate scanned copies of documents into electronic form, to identify vehicles according to the state license plate image, to fix and translate any text found in the image stream of optical devices into a text view.

Способы оптического распознавания текстов можно разделить на две категории: способы, основанные на эвристических алгоритмах анализа структуры текста с последующим выделением текстовой информации, и способы, основанные на алгоритмах машинного обучения, параметры которых подбирают на предварительном этапе в процессе анализа большого количества изображений с отмеченным на них операторами вручную текстом.Optical text recognition methods can be divided into two categories: methods based on heuristic algorithms for analyzing the structure of the text, followed by highlighting text information, and methods based on machine learning algorithms, whose parameters are selected at a preliminary stage in the process of analyzing a large number of images marked on them manual text operators.

Эвристические алгоритмы, как правило, обладают высоким быстродействием, поскольку основаны на быстром анализе характерных частот изображений фона и шрифта текстов. Однако, к недостаткам таких алгоритмов следует отнести высокую степень привязанности алгоритмических блоков к конкретному формату распознаваемых текстов, и, соответственно, большую трудоёмкость адаптации этих алгоритмов к новым форматам фонов и шрифтов текстов.Heuristic algorithms, as a rule, have high speed, because they are based on a rapid analysis of the characteristic frequencies of background images and text fonts. However, the disadvantages of such algorithms include the high degree of attachment of algorithmic blocks to a specific format of recognized texts, and, accordingly, the greater complexity of adapting these algorithms to new formats of backgrounds and text fonts.

Алгоритмы, основанные на машинном обучении, лишены указанного выше недостатка: для внедрения нового формата текстов, который нужно распознать, как правило, достаточно сформировать обучающую выборку необходимого объёма с указанным вручную положением символов текста. Как правило, в качестве распознающего алгоритма в последнее время используют нейронные сети, поэтому для перехода к новым форматам текстов, этикеток, табличек достаточно указать новые архитектуры нейронных сетей и другие весовые коэффициенты нейронов, при этом сама реализация алгоритма распознавания не требует значительных модификаций. К существенному недостатку алгоритмов, основанных на машинном обучении, следует отнести большой объём входных данных, требуемых как для обучения алгоритма, так и для его тестирования. Подготовка этих данных является наиболее трудоёмкой частью процесса обучения алгоритмов оптического распознавания изображений текстов и знаков. Algorithms based on machine learning do not have the above disadvantage: to introduce a new text format that needs to be recognized, as a rule, it is enough to form a training sample of the required volume with the manually specified position of the text symbols. As a rule, neural networks have recently been used as a recognition algorithm; therefore, it is enough to indicate new neural network architectures and other neuron weights to go to new text formats, labels, plates, and the recognition algorithm itself does not require significant modifications. A significant lack of algorithms based on machine learning should be attributed to the large amount of input data required for both learning the algorithm and testing it. The preparation of this data is the most time-consuming part of the learning process of optical recognition algorithms for text images and characters.

Учитывая, что системы оптического распознавания текстов нацелены на определённый формат, существует возможность создания систем и способов генерации изображений текстов именно в том формате, для которого предназначена исходная система оптического распознавания текстов. Причём, при генерации изображений текстов однозначно можно восстановить положение каждой буквы, поэтому нет необходимости вручную производить трудоёмкую операцию разметки положения символов на изображении, следовательно, процесс формирования обучающей выборки в таком случае происходит на несколько порядков быстрее.Given that OCR systems are aimed at a specific format, it is possible to create systems and methods for generating images of texts in exactly the format for which the original OCR system is intended. Moreover, when generating images of texts, it is definitely possible to restore the position of each letter, so there is no need to manually perform a time-consuming operation of marking the position of characters in the image, therefore, the process of forming the training sample in this case occurs several orders of magnitude faster.

Наиболее близкой к заявленному полезной модели являет система генерации изображений (патент CN106874937), основанная на использовании векторного шрифта и бинаризованного изображения целевого слова, в которой генерируют изображения путем изменения цветности, фона и других параметров исходных изображений, полученных в результате съемки. Данная система выбрана в качестве прототипа заявленной полезной модели.The closest to the claimed utility model is an image generation system (patent CN106874937), based on the use of a vector font and a binarized image of the target word, in which images are generated by changing the chromaticity, background and other parameters of the original images obtained as a result of shooting. This system is selected as a prototype of the claimed utility model.

Недостаток системы прототипа заключается в том, что она генерирует изображения путем изменения исходных изображений, полученных в результате съемки, а не сгенерированных искусственно с помощью электронно-вычислительных средств, поэтому она требуют большого числа исходных снятых изображений, нахождение которых является трудоемким процессом с большими временными затратами. Это увеличивает сложность и время функционирования данной системы, затрачиваемые на поиск или создание исходных снятых изображений.The disadvantage of the prototype system is that it generates images by modifying the original images obtained as a result of shooting, and not generated artificially using electronic computing means, so it requires a large number of source images taken, which are time-consuming to find. . This increases the complexity and time of operation of this system, spent on searching or creating the original captured images.

Техническим результатом полезной модели является создание системы генерации изображений, содержащих текст, с меньшей сложностью и временем функционирования, за счет отказа от использования изображений, полученных в процессе съёмок, в пользу изображений, сгенерированных с помощью электронно-вычислительных средств генерации изображений.The technical result of the utility model is the creation of a system for generating images containing text with less complexity and time of operation, due to the rejection of the use of images obtained during the filming process, in favor of images generated using electronic computing means of image generation.

Технический результат достигнут путем создания системы генерации изображений, содержащих текст, содержащей блок 1 формирования изображения текста и блок 2 формирования фонового изображения, выходы которых соединены со входом блока 3 бесшовной вставки, вход которого соединен с входом блока 4 вариации итогового изображения, причемThe technical result is achieved by creating a system for generating images containing text containing a text imaging unit 1 and a background imaging unit 2, the outputs of which are connected to the input of the seamless insert unit 3, the input of which is connected to the input of the final image variation block 4,

- блок 2 формирования фонового изображения выполнен с возможностью формирования изображения фона и передачи его в блок бесшовной вставки,- block 2 forming the background image made with the possibility of forming the image of the background and transfer it to the block seamless insert,

- блок 1 формирования изображения текста выполнен с возможностью формирования изображения текста и передачи его в - block 1 of the imaging text is made with the possibility of forming an image of the text and transfer it to

- блок 3 бесшовной вставки, который выполнен с возможностью формирования итогового изображения путем наложения изображения текста на фоновое изображение, при этом уменьшения дефектов изображения на границе изображения текста и изображения фона, а также с возможностью передачи итогового изображения в- block 3 seamless insert, which is made with the possibility of forming the final image by overlaying the image of text on the background image, while reducing image defects on the border of the text image and the background image, as well as the ability to transfer the final image to

- блок 4 вариации итогового изображения, который выполнен с возможностью модификации итогового изображения с помощью методов вариации изображения, применяемых для обучения алгоритмов компьютерного зрения, а также с возможностью передачи модифицированного итогового изображения во внешний блок 5 обучения алгоритмов распознавания, который является частью внешней системы распознавания изображений.- block 4 variations of the final image, which is made with the possibility of modifying the final image using image variation methods used to train computer vision algorithms, as well as the ability to transfer the modified final image to the external block 5 learning recognition algorithms, which is part of the external image recognition system .

В предпочтительном варианте осуществления системы блок 2 формирования фонового изображения содержит блок 7 выбора фонового изображения, вход которого соединен с предварительно сформированной базой 6 фоновых изображений, а выход которого соединен с входом блока 8 выбора масштаба и области фонового изображения, причемIn a preferred embodiment of the system, the background image forming unit 2 comprises a background image selection unit 7, the input of which is connected to a pre-formed background image base 6, and the output of which is connected to the input of the scale selection section 8 and the background image area,

- блок выбора 7 фонового изображения выполнен с возможностью случайного выбора фонового изображения из предварительно сформированной базы 6 фоновых изображений и передачи его- the block of the choice of 7 background images made with the possibility of a random selection of the background image of the pre-formed base 6 background images and transfer it

- в блок 8 выбора масштаба и области фонового изображения, который выполнен с возможностью вероятностного изменения масштаба фонового изображения и случайной выборки области фонового изображения заданного размера в качестве конечного фонового изображения для итогового изображения, а также с возможностью передачи фонового изображения в блок 3 бесшовной вставки.- in block 8 of the choice of scale and the background image area, which is made with the possibility of a probable change of the background image scale and a random selection of the background image area of a given size as the final background image for the final image, as well as the ability to transfer the background image into the seamless insert unit 3.

В предпочтительном варианте осуществления системы блок 1 формирования изображения текста содержит блок 9 случайного выбора параметров текста, выход которого соединен с входом блока 10 генерации текста, а выход которого соединен с входом блока 11 проективных преобразований, выход которого соединен с входом блока 12 вариации цветности, выход которого соединен с входом блока 13 симуляции помех, причемIn the preferred embodiment of the system, the text imaging unit 1 comprises a block 9 of randomly selecting text parameters, the output of which is connected to the input of the text generation unit 10, and the output of which is connected to the input of the projective transformation unit 11, the output of which is connected to the input of the color variation block 12, output which is connected to the input of block 13 of the interference simulation, and

- блок 9 случайного выбора параметров текста выполнен с возможностью выбора случайным образом параметров текста и передачи их через блок 10 генерации текста в блок 11 проективных преобразований, в блок 12 вариации цветности, и в блок 13 симуляции помех,- a random text selection unit 9 is configured to randomly select text parameters and transfer them through the text generation unit 10 to the block 11 projective transformations, to the block 12 color variations, and to the block 13 to simulate interference,

- блок 10 генерации текста выполнен с возможностью формирования изображения текста и передачи его в- the text generation unit 10 is configured to form an image of the text and transfer it to

- блок 11 проективных преобразований, который выполнен с возможностью преобразования изображения текста в соответствии с проективными параметрами и передачи его в- block 11 of projective transformations, which is configured to convert the image of the text in accordance with the projective parameters and transfer it to

- блок 12 вариации цветности, который выполнен с возможностью преобразования изображения текста в соответствии с параметрами цветности и передачи его в- block 12 chromaticity variations, which is adapted to convert the image of the text in accordance with the chromaticity parameters and transfer it to

- блок 13 симуляции помех, который выполнен с возможностью преобразования изображения текста в соответствии с параметрами помех, приближающих вид формируемого текста к тексту, существующему при реальных условиях, а также с возможностью передачи изображения текста в блок бесшовной вставки.- block 13 simulation of interference, which is made with the ability to convert the image of the text in accordance with the parameters of the noise, approximating the form of the generated text to the text that exists under actual conditions, as well as the ability to transfer the image of the text in the block seamless insert.

В предпочтительном варианте осуществления системы параметры текста выбраны из набора параметров, содержащего параметры дальности, угла обзора, перспективы, цвета, резкости, контрастности, а также параметры помех, приближающих вид формируемого текста к тексту, существующему в реальных условиях.In the preferred embodiment of the system, the text parameters are selected from a set of parameters containing range parameters, viewing angle, perspective, color, sharpness, contrast, as well as interference parameters that approximate the appearance of the formed text to the text that exists in real conditions.

Для лучшего понимания заявленной полезной модели далее приводится ее подробное описание с соответствующими графическими материалами.For a better understanding of the claimed utility model, the following is a detailed description with appropriate graphic materials.

Фиг. 1. Схема системы генерации изображений, содержащих текст, выполненная согласно полезной модели.FIG. 1. Scheme of the system for generating images containing text made according to the utility model.

Фиг. 2. Схема блока формирования фонового изображения, выполненная согласно полезной модели.FIG. 2. Scheme of the background image forming unit, made according to the utility model.

Фиг. 3. Схема формирования изображения текста, выполненная согласно полезной модели.FIG. 3. Scheme of the formation of the image of the text, made according to the utility model.

Фиг. 4. Пример изображения текста, сгенерированного согласно полезной модели: FIG. 4. An example of a text image generated according to a utility model:

a) исходный текст; a) source text;

b) сгенерированное изображение, содержащее изображение исходного текста и фоновое изображение.b) a generated image containing an image of the source text and a background image.

Элементы:Items:

1 – блок формирования изображения текста;1 - block the formation of the image of the text;

2 – блок формирования фонового изображения;2 - block forming the background image;

3 – блок бесшовной вставки;3 - block seamless insert;

4 – блок вариации итогового изображения;4 - block variations of the final image;

5 – блок обучения алгоритмов распознавания;5 - unit for learning recognition algorithms;

6 – база фоновых изображений;6 - base of background images;

7 – блок выбора фонового изображения;7 - block selection of the background image;

8 – блок выбора масштаба и области фонового изображения;8 is a block for selecting the scale and area of the background image;

9 – блок случайного выбора параметров текста;9 - random selection of text parameters;

10 – блок генерации текста;10 - text generation unit;

11 – блок проективных преобразований;11 is a block of projective transformations;

12 – блок вариации цветности;12 - block variations of color;

13 – блок симуляции помех.13 is a noise simulation unit.

Рассмотрим более подробно вариант выполнения полезной модели, показанный на фиг. 1 - 4. Для обучения алгоритмов распознавания изображений требуется большое количество изображений текстов (обучающих примеров), на которых тексты должны быть видны на разнообразном фоне, при этом фон должен в максимальной степени соответствовать тому реальному фону, который будут распознавать с помощью реальной системы оптического распознавания текстов.Let us consider in more detail the embodiment of the utility model shown in FIG. 1 - 4. Teaching image recognition algorithms requires a large number of text images (teaching examples), on which texts should be visible on a diverse background, while the background should correspond to the maximum of the actual background that will be recognized using a real optical recognition system. texts.

Сначала формируют отдельно случайное фоновое изображение с помощью блока 2 формирования фонового изображения и изображение текста с помощью блока 1 формирования изображения текста (фиг. 1). Затем с помощью блока 3 бесшовной вставки изображение текста накладывают на изображение фона, при этом уменьшают дефекты изображения на границах, где изображение текста переходит в фоновое изображение. После этого с помощью блока 4 вариации итогового изображения модифицируют итоговое изображение с помощью методов вариации изображения, обычно применяемых для обучения алгоритмов компьютерного зрения. После чего передают модифицированное изображение во внешний блок 5 обучения алгоритмов распознавания, который является частью внешней системы распознавания изображений.First, a random background image is separately formed using the background image forming unit 2 and the text image using the text image forming unit 1 (FIG. 1). Then, using the block 3 seamless insert, the text image is superimposed on the background image, at the same time the image defects at the borders are reduced, where the text image goes into the background image. After that, using block 4, variations of the final image modify the final image using image variation methods commonly used to train computer vision algorithms. After that, the modified image is transmitted to the external recognition algorithm learning unit 5, which is part of the external image recognition system.

Тогда как изображения требуемых текстов можно синтезировать программно, поскольку их вид сильно формализован, фоновое изображение может отличаться крайним разнообразием. В то же время во многих случаях требуемые фоновые изображения во множестве могут быть собраны из доступных источников (изображения в Интернет, общедоступные наборы данных, другие фото и видеоматериалы), поэтому целесообразно использовать в качестве фоновых такие изображения из доступных источников и размещать на них синтезированные изображения текстов. При этом в простейшем случае изображение текста наносят на фоновое изображение в случайно выбранном месте, в результате чего положение изображение текста оказывается расположенным нереалистично, но это является платой за простоту заявленной системы и не мешает последующему полноценному использованию итогового изображения во внешних системах распознавания изображений.While the images of the required texts can be synthesized programmatically, since their appearance is strongly formalized, the background image can differ in extreme diversity. At the same time, in many cases, the required background images in a variety can be collected from available sources (images on the Internet, publicly available data sets, other photos and video materials), so it is advisable to use such images from available sources as background images texts. In the simplest case, a text image is applied to a background image in a randomly selected location, with the result that the text image position is unrealistic, but this is a payment for the simplicity of the claimed system and does not interfere with the subsequent full use of the final image in external image recognition systems.

В блоке 2 формирования фонового изображения выполняют следующие операции (фиг. 2). С помощью блока 7 выбора фонового изображения осуществляют случайную выборку фонового изображения из предварительно сформированной базы 6 фоновых изображений. С помощью блока 8 выбора масштаба и области фонового изображения осуществляют вероятностное изменение масштаба фонового изображения и случайную выборку области фонового изображения заданного размера в качестве конечного фонового изображения для итогового изображения, после чего передают фоновое изображение в блок 3 бесшовной вставки.In block 2 of the formation of the background image perform the following operations (Fig. 2). Using the block 7 of the selection of the background image carry out a random sample of the background image of the pre-formed base 6 background images. Using the block 8 for selecting the scale and the background image area, a probabilistic zooming of the background image and a random sample of the background image area of a given size are performed as the final background image for the final image, after which the background image is transferred to the seamless insert block 3.

В блоке 1 формирования изображения текста выполняют следующие операции (фиг. 3). Для каждого генерируемого изображения с помощью блока 9 случайного выбора параметров текста выбирают случайным образом параметры текста, в пределах ограничений, определяемых конкретной задачей. Затем с помощью блока 10 генерации текста формируют изображение текста на нейтральном фоне. С помощью блока 11 проективных преобразований выбирают случайные параметры дальности, угла зрения в пределах допустимых для решаемой задачи, и к изображению текста применяют соответствующее перспективное преобразование, в результате чего формируют изображение текста под заданным углом зрения. Затем с помощью блока 12 вариации цветности вносят случайные искажения параметров цвета, резкости, контрастности изображения текста. После этого с помощью блока 13 симуляции помех наносят на изображение текста помехи, приближающие его вид к получаемому при реальных съемках.In block 1 of the formation of the image of the text perform the following operations (Fig. 3). For each generated image with the help of block 9 of random selection of text parameters, randomly select text parameters within the limits determined by a specific task. Then, using the text generation block 10, a text image is formed against a neutral background. Using a block of 11 projective transformations, random range parameters are selected, the angle of view is within the allowable range of the problem to be solved, and an appropriate perspective transformation is applied to the text image, resulting in the text image being formed at a given angle of view. Then, using block 12, chromaticity variations introduce random distortions of the color, sharpness, and contrast parameters of the text. After that, with the help of block 13, noise simulation is put on the image of the text of the noise, which approximates its appearance to that obtained during actual surveys.

Поскольку сформированные в результате функционирования заявленной полезной модели изображения текста выделяются на фоновом изображении по качеству, балансу белого и прочим параметрам, есть риск, что внешняя система оптического распознавания текстов будет использовать эти признаки (которых не будет в реальных условиях). Для того, чтобы уменьшить это влияние, одновременно с генерацией требуемых текстов формируют по аналогичным правилам ложные примеры, на которые не должна реагировать внешняя система оптического распознавания текстов (в том числе надписи иного формата и прочие изображения объектов), которые также наносят на изображение фона. Полученные фоновые изображения используют при обучении внешней система оптического распознавания текстов в качестве ложных примеров.Since the resulting text image generated by the functioning of the claimed utility model is highlighted in the background image by quality, white balance and other parameters, there is a risk that the external OCR system will use these features (which will not be in real terms). In order to reduce this effect, simultaneously with the generation of the required texts, by the same rules, false examples are formed that the external OCR system (including other format inscriptions and other object images), which are also applied to the background image, should not react. The obtained background images are used when teaching an external OCR system as false examples.

Поскольку при преобразовании изображения текста в блоке 11 с помощью перспективного преобразования возникают искажения по границе изображения текста, при наложении его на фоновое изображение граница оказывается четко очерченной, что отличает сгенерированное изображение от реального. Для борьбы с этим эффектом применяют блок 3 бесшовной вставки, функционирующий следующим образом.Since when converting an image of text in block 11 using a perspective transformation, distortions arise along the border of a text image, when superimposed on the background image, the border is clearly defined, which distinguishes the generated image from the real one. To combat this effect, use block 3 seamless insert, functioning as follows.

При формировании исходного изображения текста одновременно формируют маску, ограничивающую его (значение маски = 1 в точках, принадлежащих тексту и 0 в точках, не принадлежащих тексту). При дальнейших изменениях изображения одновременно изменяют маску, при этом там, где на границе изображение размывается между соседними пикселями, одновременно таким же образом размывается и маска.When forming the original image of the text, they simultaneously form a mask bounding it (mask value = 1 at points belonging to the text and 0 at points not belonging to the text). With further changes, the image simultaneously changes the mask, while where on the border the image is blurred between adjacent pixels, the mask is also washed out in the same way.

Для того, чтобы сделать границы менее идеально-прямыми, в пределах заданного количества a пикселей от границы (конкретное значение a составляет несколько пикселей и является параметром метода) в каждой точке (пикселе) значение маски заменяют минимальным значением маски в соседних пикселях, расположенных на расстоянии b от данного пикселя, причем значение b в пределах от 0 до a в каждом пикселе выбирают случайно.In order to make the borders less ideal-straight, within a given number a of pixels from the border (the specific value of a is several pixels and is a parameter of the method) at each point (pixel) the mask value is replaced with the minimum mask value in neighboring pixels located at a distance b from a given pixel, with the value of b ranging from 0 to a in each pixel being chosen randomly.

При формировании итогового изображения яркость I каждого пикселя рассчитывают по формуле I = m*If + (1-m)*Ib, где m – значение маски в данном пикселе после преобразований, описанных выше, If и Ib, соответственно, яркость изображения текста после преобразований и яркость фонового изображения.When forming the final image, the brightness I of each pixel is calculated using the formula I = m * I f + (1-m) * I b , where m is the mask value in the given pixel after the transformations described above, I f and I b , respectively, brightness text images after transformation and brightness of the background image.

В результате осуществления бесшовной вставки на итоговом изображении отсутствуют искажения, которые присутствовали бы, если бы одно изображение просто заменялось другим в некоторой области, кроме того на итоговом изображении граница размывается, как это бывает на реальных изображениях.As a result of the seamless insertion in the final image, there are no distortions that would be present if one image were simply replaced by another in a certain area, besides the border is blurred on the final image, as it happens on real images.

Заявленная полезная модель решает проблему трудоёмкости подготовки исходных данных для процесса обучения алгоритмов распознавания текстов. В заявленной полезной модели характерное время генерации одного изображения составляет менее 1 секунды, что в тысячи раз меньше времени подготовки размеченных вручную изображений, особенно с учетом времени, необходимого для организации и проведения съёмок текстов с различными параметрами.The claimed utility model solves the problem of the laboriousness of preparing initial data for the process of learning text recognition algorithms. In the claimed utility model, the characteristic time for generating one image is less than 1 second, which is thousands of times less than the preparation time for manually-labeled images, especially considering the time required to organize and conduct the filming of texts with different parameters.

Хотя описанный выше вариант выполнения полезной модели был изложен с целью иллюстрации заявленной полезной модели, специалистам ясно, что возможны разные модификации, добавления и замены, не выходящие из объема и смысла заявленной полезной модели, раскрытого в прилагаемой формуле полезной модели.Although the above described embodiment of the utility model was set forth to illustrate the claimed utility model, it is clear to specialists that various modifications, additions and substitutions are possible without departing from the scope and meaning of the claimed utility model disclosed in the attached utility model formula.

Claims (15)

1. Система генерации изображений, содержащих текст, содержащая блок 1 формирования изображения текста и блок 2 формирования фонового изображения, выходы которых соединены со входом блока 3 бесшовной вставки, вход которого соединен с входом блока 4 вариации итогового изображения, причем1. The system for generating images containing text containing a text imaging unit 1 and a background image forming unit 2, the outputs of which are connected to the input of the seamless insert unit 3, the input of which is connected to the input of the final variation image 4, and - блок 2 формирования фонового изображения выполнен с возможностью формирования изображения фона и передачи его в блок бесшовной вставки,- block 2 forming the background image made with the possibility of forming the image of the background and transfer it to the block seamless insert, - блок 1 формирования изображения текста выполнен с возможностью формирования изображения текста и передачи его в - block 1 of the imaging text is made with the possibility of forming an image of the text and transfer it to - блок 3 бесшовной вставки, который выполнен с возможностью формирования итогового изображения путем наложения изображения текста на фоновое изображение, при этом уменьшения дефектов изображения на границе изображения текста и изображения фона, а также с возможностью передачи итогового изображения в- block 3 seamless insert, which is made with the possibility of forming the final image by overlaying the image of text on the background image, while reducing image defects on the border of the text image and the background image, as well as the ability to transfer the final image to - блок 4 вариации итогового изображения, который выполнен с возможностью модификации итогового изображения с помощью методов вариации изображения, применяемых для обучения алгоритмов компьютерного зрения, а также с возможностью передачи модифицированного итогового изображения во внешний блок 5 обучения алгоритмов распознавания, который является частью внешней системы распознавания изображений.- block 4 variations of the final image, which is made with the possibility of modifying the final image using image variation methods used to train computer vision algorithms, as well as the ability to transfer the modified final image to the external block 5 learning recognition algorithms, which is part of the external image recognition system . 2. Система по п. 1, отличающаяся тем, что блок 2 формирования фонового изображения содержит блок 7 выбора фонового изображения, вход которого соединен с предварительно сформированной базой 6 фоновых изображений, а выход которого соединен с входом блока 8 выбора масштаба и области фонового изображения, причем2. The system of claim. 1, characterized in that the background image forming unit 2 comprises a background image selection unit 7, the input of which is connected to a preformed background image base 6, and the output of which is connected to the input of the scale selection unit 8 and the background image area, where - блок выбора 7 фонового изображения выполнен с возможностью случайного выбора фонового изображения из предварительно сформированной базы 6 фоновых изображений и передачи его- the block of the choice of 7 background images made with the possibility of a random selection of the background image of the pre-formed base 6 background images and transfer it - в блок 8 выбора масштаба и области фонового изображения, который выполнен с возможностью вероятностного изменения масштаба фонового изображения и случайной выборки области фонового изображения заданного размера в качестве конечного фонового изображения для итогового изображения, а также с возможностью передачи фонового изображения в блок 3 бесшовной вставки.- in block 8 of the choice of scale and the background image area, which is made with the possibility of a probable change of the background image scale and a random selection of the background image area of a given size as the final background image for the final image, as well as the ability to transfer the background image into the seamless insert unit 3. 3. Система по п. 1, отличающаяся тем, что блок 1 формирования изображения текста содержит блок 9 случайного выбора параметров текста, выход которого соединен с входом блока 10 генерации текста, а выход которого соединен с входом блока 11 проективных преобразований, выход которого соединен с входом блока 12 вариации цветности, выход которого соединен с входом блока 13 симуляции помех, причем3. The system of claim 1, wherein the text imaging unit 1 comprises a block 9 of randomly selecting text parameters, the output of which is connected to the input of the text generation unit 10, and the output of which is connected to the input of the projective transformation unit 11, the output of which is connected to the input of the block 12 chromaticity variations, the output of which is connected to the input of the block 13 of the interference simulation, and - блок 9 случайного выбора параметров текста выполнен с возможностью выбора случайным образом параметров текста и передачи их через блок 10 генерации текста в блок 11 проективных преобразований, в блок 12 вариации цветности, и в блок 13 симуляции помех,- a random text selection unit 9 is configured to randomly select text parameters and transfer them through the text generation unit 10 to the block 11 projective transformations, to the block 12 color variations, and to the block 13 to simulate interference, - блок 10 генерации текста выполнен с возможностью формирования изображения текста и передачи его в- the text generation unit 10 is configured to form an image of the text and transfer it to - блок 11 проективных преобразований, который выполнен с возможностью преобразования изображения текста в соответствии с проективными параметрами и передачи его в- block 11 of projective transformations, which is configured to convert the image of the text in accordance with the projective parameters and transfer it to - блок 12 вариации цветности, который выполнен с возможностью преобразования изображения текста в соответствии с параметрами цветности и передачи его в- block 12 chromaticity variations, which is adapted to convert the image of the text in accordance with the chromaticity parameters and transfer it to - блок 13 симуляции помех, который выполнен с возможностью преобразования изображения текста в соответствии с параметрами помех, приближающих вид формируемого текста к тексту, существующему при реальных условиях, а также с возможностью передачи изображения текста в блок бесшовной вставки.- block 13 simulation of interference, which is made with the ability to convert the image of the text in accordance with the parameters of the noise, approximating the form of the generated text to the text that exists under actual conditions, as well as the ability to transfer the image of the text in the block seamless insert. 4. Система по п. 3, отличающаяся тем, что параметры текста выбраны из набора параметров, содержащего параметры дальности, угла обзора, перспективы, цвета, резкости, контрастности, а также параметры помех, приближающих вид формируемого текста к тексту, существующему в реальных условиях.4. The system of claim 3, wherein the text parameters are selected from a set of parameters containing range parameters, viewing angle, perspective, color, sharpness, contrast, as well as interference parameters that approximate the appearance of the formed text to the text that exists in real conditions .
RU2019110055U 2019-04-04 2019-04-04 SYSTEM OF GENERATION OF IMAGES CONTAINING TEXT RU190639U1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2019110055U RU190639U1 (en) 2019-04-04 2019-04-04 SYSTEM OF GENERATION OF IMAGES CONTAINING TEXT

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2019110055U RU190639U1 (en) 2019-04-04 2019-04-04 SYSTEM OF GENERATION OF IMAGES CONTAINING TEXT

Publications (1)

Publication Number Publication Date
RU190639U1 true RU190639U1 (en) 2019-07-05

Family

ID=67215986

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2019110055U RU190639U1 (en) 2019-04-04 2019-04-04 SYSTEM OF GENERATION OF IMAGES CONTAINING TEXT

Country Status (1)

Country Link
RU (1) RU190639U1 (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6154576A (en) * 1997-12-03 2000-11-28 Flashpoint Technology, Inc. System and method for anti-aliasing of text overlays on electronic images
RU2249251C2 (en) * 1999-06-21 2005-03-27 Де ла рю Жиори С.А. Automatic recognition of symbols on structural background by combination of models of symbols and background
RU2517266C1 (en) * 2012-03-08 2014-05-27 Мицубиси Электрик Корпорейшн Image construction device
CN106874937A (en) * 2017-01-18 2017-06-20 腾讯科技(上海)有限公司 A kind of character image generation method, device and terminal
RU2656708C1 (en) * 2017-06-29 2018-06-06 Самсунг Электроникс Ко., Лтд. Method for separating texts and illustrations in images of documents using a descriptor of document spectrum and two-level clustering
US10057731B2 (en) * 2013-10-01 2018-08-21 Ambient Consulting, LLC Image and message integration system and method

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6154576A (en) * 1997-12-03 2000-11-28 Flashpoint Technology, Inc. System and method for anti-aliasing of text overlays on electronic images
RU2249251C2 (en) * 1999-06-21 2005-03-27 Де ла рю Жиори С.А. Automatic recognition of symbols on structural background by combination of models of symbols and background
RU2517266C1 (en) * 2012-03-08 2014-05-27 Мицубиси Электрик Корпорейшн Image construction device
US10057731B2 (en) * 2013-10-01 2018-08-21 Ambient Consulting, LLC Image and message integration system and method
CN106874937A (en) * 2017-01-18 2017-06-20 腾讯科技(上海)有限公司 A kind of character image generation method, device and terminal
RU2656708C1 (en) * 2017-06-29 2018-06-06 Самсунг Электроникс Ко., Лтд. Method for separating texts and illustrations in images of documents using a descriptor of document spectrum and two-level clustering

Similar Documents

Publication Publication Date Title
CN112052839B (en) Image data processing method, apparatus, device and medium
CN106599789A (en) Video class identification method and device, data processing device and electronic device
CN110163208B (en) Scene character detection method and system based on deep learning
CN111291629A (en) Method and device for recognizing text in image, computer equipment and computer storage medium
CN113674140B (en) Physical countermeasure sample generation method and system
CN109255356A (en) A kind of character recognition method, device and computer readable storage medium
CN110582783B (en) Training device, image recognition device, training method, and computer-readable information storage medium
US8629868B1 (en) Systems and methods for simulating depth of field on a computer generated display
CN107851197A (en) Efficient decision tree traversal in adaptive enhancing (AdaBoost) grader
CN109697442B (en) Training method and device of character recognition model
CN113689436A (en) Image semantic segmentation method, device, equipment and storage medium
CN113313703A (en) Unmanned aerial vehicle power transmission line inspection method based on deep learning image recognition
CN110569839A (en) Bank card number identification method based on CTPN and CRNN
CN112446259A (en) Image processing method, device, terminal and computer readable storage medium
CN110598703B (en) OCR (optical character recognition) method and device based on deep neural network
CN115131797A (en) Scene text detection method based on feature enhancement pyramid network
Krešo et al. Robust semantic segmentation with ladder-densenet models
CN114821620A (en) Text content extraction and identification method based on longitudinal combination of line text boxes
RU190639U1 (en) SYSTEM OF GENERATION OF IMAGES CONTAINING TEXT
RU2717787C1 (en) System and method of generating images containing text
CN106447667A (en) Visual significance detection method based on self-learning characteristics and matrix low-rank recovery
CN115100663A (en) Method and device for estimating distribution situation of character height in document image
CN112287938A (en) Text segmentation method, system, device and medium
CN111582202A (en) Intelligent course system
CN112287898A (en) Method and system for evaluating text detection quality of image

Legal Events

Date Code Title Description
MM9K Utility model has become invalid (non-payment of fees)

Effective date: 20210405