RU2390843C2 - Character recognition method - Google Patents

Character recognition method Download PDF

Info

Publication number
RU2390843C2
RU2390843C2 RU2008117180/09A RU2008117180A RU2390843C2 RU 2390843 C2 RU2390843 C2 RU 2390843C2 RU 2008117180/09 A RU2008117180/09 A RU 2008117180/09A RU 2008117180 A RU2008117180 A RU 2008117180A RU 2390843 C2 RU2390843 C2 RU 2390843C2
Authority
RU
Russia
Prior art keywords
characters
curves
character
image
errors
Prior art date
Application number
RU2008117180/09A
Other languages
Russian (ru)
Other versions
RU2008117180A (en
Inventor
Александр Иванович Иванов (RU)
Александр Иванович Иванов
Дмитрий Юрьевич Андреев (RU)
Дмитрий Юрьевич Андреев
Сергей Александрович Воячек (RU)
Сергей Александрович Воячек
Андрей Владимирович Елфимов (RU)
Андрей Владимирович Елфимов
Original Assignee
Александр Иванович Иванов
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Александр Иванович Иванов filed Critical Александр Иванович Иванов
Priority to RU2008117180/09A priority Critical patent/RU2390843C2/en
Publication of RU2008117180A publication Critical patent/RU2008117180A/en
Application granted granted Critical
Publication of RU2390843C2 publication Critical patent/RU2390843C2/en

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

FIELD: physics.
SUBSTANCE: method is realised by passing around outer and inner contours of the recognised character at constant speed, decomposition of each passage curve into two projections X(t), Y(t) and smoothing these functions. The controlled parametres used are Fourier series coefficients or some other orthogonal series of the curves X(t), Y(t), which are further scaled and compared with their standard values belonging to templates of the recognised characters.
EFFECT: reduced error probability when recognising characters.
3 cl, 2 dwg

Description

Изобретение относится к технике распознавания печатного и рукописного текста, представленного в виде векторно-растрового графического изображения, полученного сканированием или цифровым фотографированием. Изобретение может быть использовано при сканировании и переводе в электронный вид бумажной документации, включая печатную и рукописную документацию.The invention relates to a technique for recognizing printed and handwritten text, presented in the form of a vector-raster graphic image obtained by scanning or digital photographing. The invention can be used in scanning and translating into electronic form paper documents, including printed and manuscript documents.

Известен способ распознавания символов по информации растрового изображения [1]. По этому способу изображение символа распознается при помощи настраиваемого и/или ненастраиваемого классификаторов и контекстного анализа. Данный способ позволяет распознавать лишь печатный текст при достаточно низком уровне шума и искажений и не обладает способностью к самообучению. К примеру, если распознавание сканированного текста проходит с минимальными ошибками, то распознавание цифрового сфотографированного текста, либо листов отсканированных старых книг или сшитых печатных документов без их расшивки проходит с достаточно частыми ошибками. Причина этого - то, что при фотографировании или сканировании происходит деформация образов печатных знаков из-за неплотного прилегания бумаги к поверхности сканера по причине изгиба бумаги в начале или конце строк в областях, близких к переплету. Кроме того, этот способ очень плохо распознает рукописные тексты из-за естественной нестабильности рукописных букв.A known method of recognizing characters from the information of the bitmap image [1]. In this way, the image of a symbol is recognized using customizable and / or non-customizable classifiers and contextual analysis. This method allows you to recognize only printed text with a fairly low level of noise and distortion and does not have the ability to learn. For example, if the recognition of the scanned text is carried out with minimal errors, then the recognition of digitally photographed text, or sheets of scanned old books or stapled printed documents without their unpacking takes place with fairly frequent errors. The reason for this is that when photographing or scanning, the images of the printed characters are deformed due to the loose fit of the paper to the surface of the scanner due to the bending of the paper at the beginning or end of the lines in areas close to binding. In addition, this method very poorly recognizes handwritten texts due to the natural instability of handwritten letters.

Известен также способ [2, страница 57, рисунок 3.4], отличающийся использованием для анализа растровых изображений искусственной нейронной сети. При этом значения яркости точек растрового изображения подаются на входы искусственной нейронной сети, в простейшем случае состоящей из одного нейрона. Практика показывает, что при этом приемлемых результатов распознавания символов достигнуть не удается. Однако использование такого способа позволяет создавать самообучающиеся средства распознавания рукописных и печатных символов, корректирующие свое поведение после каждой выявленной ошибки.There is also a known method [2, page 57, figure 3.4], characterized in that it uses an artificial neural network for analysis of raster images. In this case, the brightness values of the points of the raster image are fed to the inputs of an artificial neural network, in the simplest case consisting of one neuron. Practice shows that in this case, acceptable results of character recognition cannot be achieved. However, the use of this method allows you to create self-learning tools for recognizing handwritten and printed characters, correcting their behavior after each detected error.

Известен способ идентификации личности по особенностям подписи [3]. Этот способ позволяет надежно идентифицировать человека по особенностям его почерка. При этом выполняется разложение кривых рукописного ввода «живой подписи» на ортогональные проекции x(t), у(t), масштабирование и вычисление коэффициентов разложения масштабированных кривых в ортогональный ряд Фурье. Полученные коэффициенты сравнивают с эталонами и на основании результатов сравнения делают вывод о личности автора. Данный способ не предназначен для распознавания одиночных символов, однако позволяет с большой точностью определить отдельно написанный рукописный знак, то есть способ может быть успешно применен и в области распознавания символов.A known method of identifying a person by signature [3]. This method allows you to reliably identify a person by the features of his handwriting. In this case, the handwritten input curves of the “live signature” are expanded into orthogonal projections x (t), y (t), the scaling and calculation of the expansion coefficients of the scaled curves in the orthogonal Fourier series are performed. The obtained coefficients are compared with the standards and, based on the results of the comparison, they conclude about the personality of the author. This method is not intended for recognition of single characters, however, it allows with great accuracy to determine a separately written handwritten character, that is, the method can be successfully applied in the field of character recognition.

Известен способ идентификации личности по особенностям подписи [4, страницы 165-172]. Данный способ отличается от способа [3] применением для анализа коэффициентов Фурье обучаемой искусственной нейронной сети. Благодаря использованию большой нейронной сети удается учитывать сотни параметров и снизить вероятность ошибок на несколько порядков. Если по способу [3] удается учитывать не более 32 наиболее информативных параметров, то по способу [4] удается учитывать до 416 параметров, включая менее информативные параметры, которые, тем не менее, в совокупности обладают достаточно большой информативностью. Это позволяет снизить вероятность коллизий на несколько порядков (от миллиона раз или 6 порядков до миллиарда раз или 9 порядков). Применение больших нейронных сетей по способу [4] позволяет решить проблему надежного распознавания непосредственно вводимых («живых») рукописных знаков (знаков, сохраняющих при их вводе динамику написания), однако этот способ не может быть применен для распознавания «мертвых» (написанных на бумаге и утративших динамику воспроизведения) рукописных знаков. Способ [4] также нельзя использовать для распознавания печатных знаков, нанесенных ранее на листы бумаги.A known method of identifying a person by signature features [4, pages 165-172]. This method differs from the method [3] by the use of a trained artificial neural network for the analysis of Fourier coefficients. Thanks to the use of a large neural network, hundreds of parameters can be taken into account and the probability of errors can be reduced by several orders of magnitude. If by the method [3] it is possible to take into account no more than 32 of the most informative parameters, then by the method [4] it is possible to take into account up to 416 parameters, including less informative parameters, which, nevertheless, in aggregate possess rather large information content. This reduces the likelihood of collisions by several orders of magnitude (from a million times or 6 orders to a billion times or 9 orders). The use of large neural networks by the method [4] allows us to solve the problem of reliable recognition of directly entered (“live”) handwritten characters (characters that preserve the spelling dynamics of their input), however, this method cannot be used to recognize “dead” (written on paper and lost the dynamics of reproduction) handwritten characters. Method [4] also cannot be used to recognize printed characters previously applied to sheets of paper.

Наиболее близким к предлагаемому является способ распознавания символов, нечувствительный к шуму [5]. По этому способу осуществляют выделение распознаваемого знака. Далее выделяют точку начала обхода знака (например, самую верхнюю точку). Далее осуществляют обход границ изображения символа по внешнему контуру. Далее определяют наличие внутренних контуров у распознаваемого символа, далее находят начальные точки обхода внутренних контуров распознаваемого символа. Далее вычисляют характеристики кривых обхода, которые для распознавания символа сравнивают с эталонными. Данный способ отличается увеличенной устойчивостью к шуму. Однако он не дает возможности дообучать систему на выявленных оператором ее ошибках. Кроме того, способ-прототип [5] имеет недостаточную устойчивость к шумам сканирования и недостаточную устойчивость к нестабильности рукописного почерка человека.Closest to the proposed is a method of character recognition, insensitive to noise [5]. By this method, a recognizable character is extracted. Next, select the start point of the traversal of the character (for example, the highest point). Next, bypassing the boundaries of the image of the symbol along the outer contour. Next, determine the presence of internal circuits of the recognizable symbol, then find the starting points of the bypass of the internal circuits of the recognizable symbol. Next, the characteristics of the bypass curves are calculated, which are compared with the reference curves for character recognition. This method is characterized by increased noise resistance. However, it does not make it possible to retrain the system on the errors identified by the operator. In addition, the prototype method [5] has insufficient resistance to scanning noise and insufficient resistance to instability of manuscript handwriting.

Целью предлагаемого изобретения является повышение качества распознавания символов в условиях высокого уровня помех и деформаций изображений, связанных с вариациями угла зрения сканера по отношению к различным фрагментам сканируемого документа, обусловленными, например, изгибом носителя знаков в местах сшива документов. Кроме того, целью изобретения является расширение функциональных возможностей способа распознавания до возможности распознавания не только печатных, но и рукописных знаков, написанных почерком одного человека, с возможностью дообучения средства распознавания.The aim of the invention is to improve the quality of character recognition in conditions of a high level of interference and image deformation associated with variations in the angle of view of the scanner in relation to various fragments of the scanned document, due, for example, to bending of the character carrier in places of document stitching. In addition, the aim of the invention is to expand the functionality of the recognition method to the possibility of recognizing not only printed, but also handwritten characters written in the hand of one person, with the possibility of retraining the recognition tool.

Сущность предлагаемого изобретения по п.1 формулы состоит в том, что изображения знаков, находящихся на бумаге, сканируют или фотографируют и полученное цифровое растровое изображение подвергают обработке. Выделяют строки знаков и/или отдельно стоящие знаки. В случае выделения строки печатных знаков ее разбивают на равные по своим параметрам знакоместа. Выделяют границы каждого знакоместа распознаваемого знака. Далее выделяют горизонтальные (верхнюю и нижнюю) и вертикальные (правую и левую) границы одного знакоместа, анализируя значения изменения яркостных характеристик элементов растрового изображения. Затем выделяют точку начала обхода, в качестве которой можно использовать, например, крайнюю верхнюю правую точку изображения символа, точку пересечения линий изображения символа, либо другую точку. Далее выполняют обход внешнего контура изображения знака с постоянной скоростью, например, против часовой стрелки. Далее находят число внутренних полостей изображения знака, анализируя значения изменений яркостных характеристик изображения символа. Затем для каждой найденной полости выделяют точку начала обхода по заранее заданному правилу и затем выполняют с постоянной скоростью обход каждой внутренней полости изображения символа.The essence of the invention according to claim 1 of the formula is that the images of characters on paper are scanned or photographed, and the resulting digital raster image is processed. Character strings and / or freestanding characters are distinguished. If a line of printed characters is highlighted, it is divided into familiarity equal in its parameters. The boundaries of each familiarity of the recognizable sign are distinguished. Next, horizontal (upper and lower) and vertical (right and left) borders of one familiarity are distinguished, analyzing the values of the change in the brightness characteristics of the elements of the bitmap image. Then, the start point of the bypass is selected, which can be used, for example, the extreme upper right point of the symbol image, the intersection point of the image lines of the symbol, or another point. Next, they circumvent the outer contour of the image of the sign at a constant speed, for example, counterclockwise. Next, find the number of internal cavities of the image of the sign, analyzing the values of the changes in the brightness characteristics of the image of the symbol. Then, for each cavity found, the start point of the bypass is selected according to a predetermined rule, and then bypassing each internal cavity of the symbol image is performed at a constant speed.

Отличие предложенного способа от прототипа состоит в том, что вычисляют ортогональные проекции кривых обхода на оси координат (например, на ортогональные декартовы оси координат, получая кривые X(t) и Y(t)), после чего сглаживают эти кривые. Далее масштабируют сглаженные проекции X(t) и Y(t) по амплитуде и времени, приводя их к заранее заданным значениям амплитуд колебаний и времени обхода. Далее находят коэффициенты разложения функций кривых обхода X(t) и Y(t)) в один из ортогональных рядов (например, в ортогональный ряд Фурье), после чего полученные коэффициенты разложения в ряд сравнивают с заранее запомненными шаблонами. По результатам сравнения вычисленных коэффициентов Фурье с их шаблонами делают вывод о соответствии анализируемого знака тому или иному классу (выбор правила сравнения данных с их шаблонами для п.1 формулы изобретения несущественен, может быть использовано любое из известных классических решающих правил).The difference between the proposed method and the prototype is that they compute the orthogonal projections of the traversal curves on the coordinate axis (for example, on the orthogonal Cartesian coordinate axes, obtaining curves X (t) and Y (t)), and then smooth these curves. Next, the smoothed projections X (t) and Y (t) are scaled in amplitude and time, leading them to predetermined values of the oscillation amplitudes and the round-trip time. Next, the coefficients of expansion of the functions of the traversal curves X (t) and Y (t)) are found in one of the orthogonal series (for example, in the orthogonal Fourier series), after which the obtained coefficients of expansion in a series are compared with previously stored patterns. Based on the results of comparing the calculated Fourier coefficients with their patterns, they conclude that the analyzed sign corresponds to a particular class (the choice of the rule for comparing data with their patterns for claim 1 of the claims is not essential, any of the known classical decision rules can be used).

Преимуществом предлагаемого способа по отношению к прототипу является повышение точности и помехозащищенности средства распознавания символов, а также возможность распознавания рукописных символов. Технический результат достигается тем, что дополнительно введена операция сглаживания шумов, образуемых дискретизацией изображения знака. Кроме того, случайные ошибки и шумы дополнительно подавляются при разложении проекций X(t) и Y(t) в ортогональный ряд (известно, что представление данных в виде коэффициентов ортогональных рядов устойчивее к шумам по сравнению с иными неортогональными функционалами и, в том числе, функционалами, используемыми у прототипа, - центры, длины, наклоны отрезков кривой обхода).The advantage of the proposed method in relation to the prototype is to increase the accuracy and noise immunity of the character recognition means, as well as the ability to recognize handwritten characters. The technical result is achieved by the fact that an additional smoothing operation is introduced for the noise generated by sampling the image of the sign. In addition, random errors and noises are additionally suppressed when the projections X (t) and Y (t) are expanded into an orthogonal series (it is known that the representation of data in the form of coefficients of orthogonal series is more noise-stable than other non-orthogonal functionals, including the functionals used in the prototype are the centers, lengths, slopes of the segments of the bypass curve).

По предложенному способу удается использовать для сглаживания данных обычные одномерные низкочастотные фильтры. Если пытаться осуществлять сглаживание в способе прототипа, придется использовать двухмерные низкочастотные фильтры, сглаживающие (выравнивающие) границы знака. Очевидно, что двухмерная фильтрация менее эффективна, чем одномерная фильтрация при одинаковых затратах вычислительных ресурсов. По предложенному способу удается реализовывать низкочастотные сглаживающие фильтры с окном сглаживания до 64 точек или порядка 20% общей длины анализируемых кривых. Аналогичный двухмерный фильтр (матрица 8×8 точек) требует тех же ресурсов, но соответствует окну одномерного фильтра только из 8 точек. При переходе к одномерным сглаживаниям шумов по каждой из проекций X(t) и Y(t) удается при одинаковых вычислительных ресурсах примерно в 8 раз увеличить ширину окна сглаживания и тем самым примерно в

Figure 00000001
раза увеличить подавление случайных составляющих шума.According to the proposed method, it is possible to use conventional one-dimensional low-pass filters for data smoothing. If you try to smooth out the prototype method, you will have to use two-dimensional low-pass filters that smooth (align) the boundaries of the sign. Obviously, two-dimensional filtering is less efficient than one-dimensional filtering at the same cost of computing resources. By the proposed method, it is possible to realize low-frequency smoothing filters with a smoothing window of up to 64 points or about 20% of the total length of the analyzed curves. A similar two-dimensional filter (matrix of 8 × 8 points) requires the same resources, but corresponds to a one-dimensional filter window of only 8 points. In the transition to one-dimensional noise smoothing over each of the projections X (t) and Y (t), for the same computational resources, it is possible to increase the width of the smoothing window by about 8 times and thereby approximately
Figure 00000001
times increase the suppression of random noise components.

Недостатком предлагаемого способа по п 1 формулы изобретения является невозможность его дообучения. По п.1 формулы необходимо заранее обучить систему распознавания, снабдив ее шаблонами распознаваемых символов. Это возможно сделать только для типовых шрифтов, отсканированных без искажений. Для рукописных букв людей с разными почерками и для печатных шрифтов с искажениями из-за изгибов бумаги в переплете способ по п.1 формулы дает значительное число ошибок.The disadvantage of the proposed method according to claim 1 of the claims is the impossibility of further training. According to claim 1 of the formula, it is necessary to train the recognition system in advance, providing it with patterns of recognizable characters. This can only be done for typical fonts scanned without distortion. For handwritten letters of people with different handwritings and for printed fonts with distortions due to bending of paper in binding, the method according to claim 1 gives a significant number of errors.

Предлагается дополнительный способ по п.2 формулы, отличающийся от вышеописанного тем, что коэффициенты разложения кривых обхода в ортогональный ряд Фурье анализируют при помощи заранее обученной для распознавания типовых символов искусственной нейронной сети. При этом коэффициенты разложения в ряд Фурье подаются на входы нейронов искусственных нейронных сетей, каждая из которых обучена для распознавания определенного символа (класса). В случае обнаружения ошибок системой ее пользователь вводит правильное значение символа. Выявленные ошибки запоминают и далее при накоплении достаточной статистики на выявленных ошибках дообучают уже имеющиеся искусственные нейронные сети. Решение о дообучении той или иной нейронной сети принимает человек-пользователь.An additional method according to claim 2 is proposed, which differs from the above in that the coefficients of the expansion of the bypass curves into the orthogonal Fourier series are analyzed using an artificial neural network that was previously trained to recognize typical symbols. Moreover, the expansion coefficients in the Fourier series are fed to the inputs of neurons of artificial neural networks, each of which is trained to recognize a specific symbol (class). If errors are detected by the system, its user enters the correct character value. Identified errors are remembered and then, when sufficient statistics are accumulated on the identified errors, the existing artificial neural networks are retrained. The decision to retrain one or another neural network is made by the human user.

В случае выявления человеком-пользователем нескольких однотипных искажений некоторого символа пользователь принимает решение о введении еще одного класса уже имеющегося символа. В этом случае формируют дополнительную нейронную сеть и обучают ее распознавать новый класс типового искажения заданного символа на имеющихся примерах этого искажения.If a human user identifies several distortions of the same type of a symbol, the user decides to introduce another class of an existing symbol. In this case, an additional neural network is formed and it is trained to recognize a new class of typical distortion of a given symbol using existing examples of this distortion.

Преимуществом способа по п.2 по сравнению с описанным выше способом по п.1 формулы является возможность дообучения средства распознавания, позволяющая за счет адаптации повысить точность распознавания символов в конкретных условиях, а также позволяющая распознавать рукописные символы, воспроизведенные рукописным почерком, характерным для одного человека.The advantage of the method according to claim 2 in comparison with the method described above according to claim 1 of the formula is the possibility of further training of the recognition means, which allows, due to adaptation, to increase the recognition accuracy of characters in specific conditions, as well as allowing the recognition of handwritten characters reproduced in handwritten characters characteristic of one person .

Технический результат, достигаемый предлагаемыми способами по п.1 и п.2 формулы, заключается в создании средства распознавания символов, нечувствительного к высокому уровню помех и деформаций изображений, способного распознавать не только печатные, но и рукописные знаки и обладающего способностью к дообучению средства на типовых искажениях символов, появляющихся вблизи переплета сканируемого документа.The technical result achieved by the proposed methods according to claim 1 and claim 2 is to create a character recognition tool that is insensitive to a high level of interference and image deformation, capable of recognizing not only printed but also handwritten characters and having the ability to retrain the means on standard distortion of characters that appear near the binding of the scanned document.

Одной из проблем при использовании способа по п.2. формулы является то, что процедура дообучения в ручном режиме занимает много времени у пользователя и тем неудобна. При распознавании рукописного почерка эта проблема не может быть решена из-за высокой нестабильности рукописного почерка каждого человека. Человек вынужден тратить свое время на дообучение средства распознавания особенностям распознавания псевдодинамики своего рукописного почерка.One of the problems when using the method according to claim 2. the formula is that the manual retraining procedure takes a lot of time from the user and is therefore inconvenient. When handwriting is recognized, this problem cannot be solved due to the high instability of the handwriting of each person. A person is forced to spend his time training the recognition tool for the recognition features of the pseudo-dynamics of his handwritten handwriting.

При распознавании печатных знаков эта техническая задача может быть решена в соответствии с п.3 формулы изобретения. Предлагается определять наклон каждой строки в ее центре, выравнивать этот наклон для изображений с нарушением параллельности строк элементам всего изображения. Кроме того, предлагается измерять кривизну строк печатных знаков в зонах оптического искажения (обычно находящихся в начале или конце строки знаков) и сортировать создаваемые шаблоны символов и заранее обученные нейронные сети по значениям кривизны строки символов, отражающей величину оптической деформации символов. После выделения строки символов измеряют значения ее кривизны (степени изогнутости) для каждого из распознаваемых символов, далее при распознавании очередного знака обращаются к системе заранее созданных шаблонов или к системе заранее обученных нейронных сетей, имеющих кривизну строки, наиболее близкую к кривизне распознаваемого в текущий момент знака.When recognizing printed characters, this technical problem can be solved in accordance with paragraph 3 of the claims. It is proposed to determine the slope of each line in its center, to align this slope for images with violation of the parallelism of the lines to the elements of the entire image. In addition, it is proposed to measure the curvature of lines of printed characters in zones of optical distortion (usually located at the beginning or end of a line of characters) and sort the generated character patterns and pre-trained neural networks according to the values of the curvature of the character string, reflecting the amount of optical deformation of the characters. After the character string is selected, the values of its curvature (degree of curvature) are measured for each of the recognizable characters, then, when recognizing the next character, they turn to the system of pre-created patterns or to the system of pre-trained neural networks having the curvature of the line closest to the curvature of the character currently recognized .

Техническим эффектом от использования способа по п.3. формулы является то, что типовые искажения печатных знаков, обусловленные изгибом бумажного носителя печатных знаков в месте сшивки (переплета), учитываются системой распознавания текста. Снижается уровень ошибок при распознавании печатных знаков листов отсканированных (сфотографированных) без расшивки книг и печатных документов, переплетенных для последующего их хранения.The technical effect of using the method according to claim 3. the formula is that the typical distortion of the printed characters, due to the bending of the paper carrier of the printed characters at the place of stitching (binding), are taken into account by the text recognition system. The level of errors in recognizing the printed characters of sheets scanned (photographed) without unbinding books and printed documents bound for their subsequent storage is reduced.

На фигуре 1 представлен пример печатного знака «А» с двумя контурами обхода. В качестве точки начала обхода выбиралась крайняя правая и одновременно крайняя верхняя точка знака на внешней и внутренней линиях обхода.The figure 1 presents an example of a printed sign "A" with two bypass contours. As the start point of the bypass, the extreme right and at the same time the highest upper point of the sign on the outer and inner bypass lines were chosen.

На фигуре 2 приведен пример деформированных из-за сшивки листов книги строки знаков с изменяющейся по мере деформации кривизной строки.The figure 2 shows an example of a line of characters deformed due to stitching of sheets of a book of a book with a curvature of the line varying with deformation.

Практическая реализация предложенного способа по п.п.1, 2, 3 заявленного изобретения ориентируется на преобразование в компактную цифровую форму (текст и рисунок) цифровых изображений листов книг, учебников, газетных и журнальных страниц, а также рукописных конспектов, написанных рукой одного автора.The practical implementation of the proposed method according to claims 1, 2, 3 of the claimed invention focuses on converting digital images of sheets of books, textbooks, newspaper and magazine pages, as well as handwritten abstracts written by the hand of one author into a compact digital form (text and drawing).

Средство, реализующее предложенный способ, выделяет из растрового изображения строки букв и измеряет их наклон в центре строки. Далее осуществляется трансформация изображения через его вращение, выравнивающая центры строк распознаваемых символов. Кроме того, осуществляют измерение кривизны строк в зонах начала и конца строк, где обычно возникают оптические искажения печатных символов, как это показано на фигуре 2.The tool that implements the proposed method, selects a string of letters from a raster image and measures their slope in the center of the string. Next, the image is transformed through its rotation, aligning the centers of the lines of recognized characters. In addition, they measure the curvature of the lines in the areas of the beginning and end of lines, where optical distortions of printed characters usually occur, as shown in Figure 2.

Далее осуществляют разбиение строк символов на отдельные знакоместа. При распознавании печатных знаков знакоместа выбирают стандартных размеров. При распознавании рукописных букв размеры знакоместа зависят от знака и корректируются по результатам распознавания.Next, the lines of characters are divided into separate familiarities. When recognizing printed characters of familiarity, standard sizes are chosen. When recognizing handwritten letters, the sizes of familiarity depend on the sign and are adjusted according to the recognition results.

После выделения каждого из знакомест находят точку старта обхода внешнего контура распознаваемого символа. Например, может быть использована верхняя правая точка внешнего контура распознаваемого символа, как это показано на фигуре 1. Далее определяют число внутренних контуров распознаваемого знака и осуществляют обход внутренних контуров. Для знака «А», приведенного на фигуре 1, по предложенному способу будет выделен внешний и внутренний контуры. При этом будут получены две кривых обхода Q1(t) и Q2(t).After highlighting each of the familiarity, they find the start point of the bypass of the external contour of the recognized character. For example, the upper right point of the outer contour of the recognizable symbol can be used, as shown in Figure 1. Next, the number of inner contours of the recognizable sign is determined and the inner contours are bypassed. For the sign "A" shown in figure 1, the proposed method will be allocated external and internal contours. In this case, two bypass curves Q1 (t) and Q2 (t) will be obtained.

Эти две кривые раскладываются на соответствующие проекции X1(t), Y1(t) и X2(t), Y2(t). Далее осуществляют сглаживание полученных кривых, применяя один из низкочастотных фильтров. При этом проекции внешнего контура X1(t), Y1(t) будут иметь период времени псевдонаписания T1, а проекции внутреннего контура X2(t), Y2(t) будут иметь период времени псевдонаписания Т2.These two curves are decomposed into the corresponding projections X1 (t), Y1 (t) and X2 (t), Y2 (t). Next, smooth the obtained curves using one of the low-pass filters. In this case, the projections of the external circuit X1 (t), Y1 (t) will have a pseudo-writing time period T1, and the projections of the internal circuit X2 (t), Y2 (t) will have a pseudo-writing time period T2.

Далее раскладывают 4 кривые X1 (t), Y1(t) и X2(t), Y2(t) в 4 ряда Фурье по 4 периодам: Т1 и, соответственно, Т2. При этом для каждой из 4 кривых получают по 16 косинусных и по 16 синусных коэффициента. Полученные коэффициенты масштабируют по амплитуде, приводя их общую энергию к заранее заданному эталонному значению.Next, lay out 4 curves X1 (t), Y1 (t) and X2 (t), Y2 (t) in 4 Fourier series for 4 periods: T1 and, accordingly, T2. Moreover, for each of the 4 curves, 16 cosine and 16 sine coefficients are obtained. The resulting coefficients are scaled in amplitude, bringing their total energy to a predetermined reference value.

Далее осуществляют сравнение полученных 128 контролируемых параметров с эталонными значениями этих параметров по всем распознаваемым знакам. Находят наиболее близкие значения и определяют тем самым класс распознаваемого знака.Then, the obtained 128 controlled parameters are compared with the reference values of these parameters for all recognizable characters. Find the closest values and thereby determine the class of the recognizable sign.

В случае, если распознаваемый знак попал в зону оптического искажения, используют систему шаблонов с коэффициентом кривизны, наиболее близким к коэффициенту кривизны строки в месте, где находился распознаваемый знак.If the recognizable sign falls into the zone of optical distortion, a template system is used with the curvature coefficient closest to the line curvature at the place where the recognizable sign was located.

В случае, если средство распознавания делает ошибки, пользователь осуществляет их исправления. При этом пользователь отвечает на вопрос средства распознавания относительно необходимости введения нового дополнительного класса или же корректировки шаблона уже имеющегося класса.If the recognition tool makes mistakes, the user makes corrections. At the same time, the user answers the question of recognition tools regarding the need to introduce a new additional class or to adjust the template of an existing class.

Обычно при распознавании печатных знаков заданного шрифта достаточно иметь шаблоны этого шрифта и шаблоны их типового искажения. Нет необходимости собирать статистику возможных вариантов влияния шумов сканирования.Usually, when recognizing the printed characters of a given font, it is sufficient to have patterns of this font and patterns of their typical distortion. There is no need to collect statistics on the possible effects of scanning noise.

При распознавании рукописных текстов нет возможности заранее разместить в средство распознавания все возможные варианты рукописных почерков. При распознавании конкретного рукописного текста обычно возникает значительный поток ошибок. Пользователь исправляет эти ошибки, при этом система накапливает статистику примеров написания в конкретном тексте различных букв. При достаточном объеме статистик (по 12-16 примеров написания одного символа) средство запрашивает у пользователя разрешение на процедуру дообучения нейросетевого распознавателя. При этом пользователь отвечает на вопрос средства распознавания относительно необходимости введения нового дополнительного класса (новой дополнительной нейронной сети) или же корректировки нейронных весов нейронной сети уже имеющегося класса.When recognizing handwritten texts, it is not possible to pre-place all possible handwriting options in the recognition tool. When recognizing a particular handwritten text, a significant stream of errors usually occurs. The user corrects these errors, while the system accumulates statistics of examples of writing different letters in a specific text. With a sufficient amount of statistics (12-16 examples of writing one character), the tool asks the user for permission to complete the training of a neural network recognizer. At the same time, the user answers the question of recognition tools regarding the need to introduce a new additional class (new additional neural network) or to adjust the neural weights of the neural network of an existing class.

В случае команды на дообучение средство корректирует весовые коэффициенты нейронов уже имеющейся нейронной сети. В случае обучения новой нейронной сети вводится еще один класс уже имеющегося знака. И в том и в другом случае обучение большой многослойной нейронной сети с:In the case of a retraining team, the tool adjusts the weights of the neurons of an existing neural network. In the case of training a new neural network, another class of an existing sign is introduced. In both cases, training a large multilayer neural network with:

- 64 входами для одноконтурных знаков;- 64 inputs for single-loop characters;

- 128 входами для двухконтурных знаков;- 128 inputs for double-circuit characters;

- 192 входами для трехконтурных знаков;- 192 inputs for three-circuit characters;

- 256 входами для четырехконтурных знаков- 256 inputs for four-loop characters

осуществляется по любому известному алгоритму обучения, однако наиболее выгодными является использование быстрых алгоритмов обучения [4], способных обучать многослойную сеть из нескольких тысяч нейронов всего за несколько секунд машинного времени.It is carried out according to any known learning algorithm, but the most profitable is the use of fast learning algorithms [4], which can train a multilayer network of several thousand neurons in just a few seconds of machine time.

Положительным техническим эффектом предложенного способа распознавания знаков является снижение вероятности ошибок распознавания за счет учета оптических искажений начала и конца строк переплетенных документов. Кроме того, при распознавании рукописных текстов также происходит снижение вероятности появления ошибок из-за возможности дообучения средства распознавания особенностям рукописного почерка конкретного человека.A positive technical effect of the proposed method for character recognition is to reduce the probability of recognition errors by taking into account optical distortions of the beginning and end of lines of bound documents. In addition, when recognizing handwritten texts, there is also a decrease in the likelihood of errors due to the possibility of retraining the recognition tool for the particular handwriting of a particular person.

Источники информацииInformation sources

1. Патент РФ №2234126 «Способ распознавания текста с применением настраиваемого классификатора», МПК G06K 9/66, приоритет 09.09.2002, заявка №2002123859, заявитель - Аби Софтвер ЛТД, авторы: Анисимович К.В., Терещенко В.В., Рыбкин В.Ю.1. RF patent No. 2234126 "Method for recognizing text using a customizable classifier", IPC G06K 9/66, priority 09.09.2002, application No. 2002123859, applicant: Abi Software LTD, authors: Anisimovich K.V., Tereshchenko V.V. , Rybkin V.Yu.

2. Ф.Уоссерман. Нейрокомпьютерная техника. М.: «Мир», 1992 г.2. F. Wasserman. Neurocomputer technology. M .: "World", 1992

3. Патент РФ №2148274 «Способ идентификации личности по особенностям подписи», приоритет 17.08.1998, заявка №98115719, заявитель - ФГУП «Пензенский государственный научно-исследовательский электротехнический институт», авторы: Иванов А.И., Сорокин И.А., Бочкарев В.Л., Оськин В.А., Андрианов В.В.3. RF patent No. 2148274 "Method of personal identification by signature features", priority 17.08.1998, application No. 98115719, applicant - FSUE "Penza State Scientific-Research Electrotechnical Institute", authors: Ivanov AI, Sorokin I.A. , Bochkarev V.L., Oskin V.A., Andrianov V.V.

4. В.И.Волчихин, А.И.Иванов, В.А.Фунтиков «Быстрые алгоритмы обучения нейросетевых механизмов биометрико-криптографической защиты информации». Издательство Пензенского государственного университета, 2005 г.4. V.I. Volchikhin, A.I. Ivanov, V.A. Funtikov "Fast learning algorithms for neural network mechanisms of biometric-cryptographic information protection." Penza State University Publishing House, 2005

5. United States Patent 5,237,627 «Noise tolerant optical character recognition system»; int. cl. G06K 9/00; appl. no. 772,054, filed Jun. 27, 1991; inventors: Dan S.Johnson, Mark D.Seaman.5. United States Patent 5,237,627 "Noise tolerant optical character recognition system"; int cl. G06K 9/00; appl. no. 772,054, filed Jun. 27, 1991; inventors: Dan S. Johnson, Mark D. Seaman.

Claims (3)

1. Способ распознавания знаков, состоящий в том, что анализируют растровое изображение, выделяют строки знаков, выделяют горизонтальные и вертикальные границы одного знакоместа, выделяют точку начала обхода границы знака по заранее заданному правилу, далее осуществляют обход внешнего контура знака, после этого определяют число внутренних не заполненных изображением знака полостей, для каждой полости находят по заранее заданному правилу точку обхода и осуществляют обход полости, после чего выделяют из кривых их характерные параметры и сравнивают их с шаблонами, отличающийся тем, что обход знаков осуществляют с постоянной скоростью движения по границе изображения, далее вычисляют ортогональные проекции кривых обхода на оси координат, сглаживают и затем масштабируют их, далее находят коэффициенты разложения кривых обхода в ортогональный ряд и затем сравнивают полученные коэффициенты с их шаблонами.1. A method of recognizing characters, which consists in analyzing a bitmap image, extracting lines of characters, highlighting the horizontal and vertical borders of one familiarity, selecting the start point for traversing the border of the character according to a predetermined rule, then bypassing the outer contour of the character, then determining the number of internal not filled with the image of the sign of the cavities, for each cavity, a bypass point is found according to a predetermined rule and the cavity is bypassed, after which their characteristic parameters are selected from the curves and equating them with templates, characterized in that the signs are bypassed at a constant speed along the image border, then the orthogonal projections of the bypass curves on the coordinate axis are calculated, smooth and then scale them, then the coefficients of the expansion of the bypass curves in the orthogonal series are found and then the obtained coefficients are compared with their patterns. 2. Способ по п.1, отличающийся тем, что коэффициенты разложения кривых обхода в ортогональный ряд анализируют при помощи заранее обученной для распознавания типовых знаков искусственной нейронной сети, в случае обнаружения ошибок пользователь их исправляет, ошибки запоминают и далее при накоплении достаточной статистики на выявленных ошибках дообучают уже имеющиеся искусственные нейронные сети, уточняя типовые образы знаков или вводят новые классы для типовых искажений уже имеющихся классов знаков и обучают их распознаванию дополнительные нейронные сети; решение о дополнении типового знака еще одним классом этого знака с часто встречающимся искажением принимает пользователь.2. The method according to claim 1, characterized in that the coefficients of decomposition of the round-trip curves into the orthogonal series are analyzed using an artificial neural network that has been previously trained to recognize typical signs, in case of errors, the user corrects them, the errors are stored and then, when sufficient statistics are accumulated on the identified errors are retrained by existing artificial neural networks, specifying typical images of signs or introduce new classes for typical distortions of existing classes of signs and are taught to recognize them. flax neural networks; the decision to supplement the type mark with another class of this mark with frequent distortion is made by the user. 3. Способ по п.1 или 2, отличающийся тем, что определяют наклон строки знаков в ее центральной части, выравнивают значение наклона строки знаков в ее центре по отношению к элементам цифрового изображения, измеряют кривизну строки знаков в зонах оптического искажения распознаваемых печатных знаков, и в зависимости от значения кривизны строки знаков выбирают ближайшую по значению кривизны систему заранее созданных шаблонов распознаваемых знаков и/или заранее обученных нейронных сетей. 3. The method according to claim 1 or 2, characterized in that they determine the slope of the character string in its central part, align the value of the slope of the character string in its center with respect to the digital image elements, measure the curvature of the character string in the optical distortion zones of the recognized printed characters, and depending on the value of the curvature of the character string, the closest system of pre-created patterns of recognizable characters and / or pre-trained neural networks is selected according to the value of curvature.
RU2008117180/09A 2008-04-29 2008-04-29 Character recognition method RU2390843C2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2008117180/09A RU2390843C2 (en) 2008-04-29 2008-04-29 Character recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2008117180/09A RU2390843C2 (en) 2008-04-29 2008-04-29 Character recognition method

Publications (2)

Publication Number Publication Date
RU2008117180A RU2008117180A (en) 2009-11-10
RU2390843C2 true RU2390843C2 (en) 2010-05-27

Family

ID=41354299

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2008117180/09A RU2390843C2 (en) 2008-04-29 2008-04-29 Character recognition method

Country Status (1)

Country Link
RU (1) RU2390843C2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2608262C2 (en) * 2013-02-11 2017-01-17 Максим Николаевич Вязников Distortion of symbols for symbolic and graphic reverse turing test

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2608262C2 (en) * 2013-02-11 2017-01-17 Максим Николаевич Вязников Distortion of symbols for symbolic and graphic reverse turing test

Also Published As

Publication number Publication date
RU2008117180A (en) 2009-11-10

Similar Documents

Publication Publication Date Title
CN104966097B (en) A kind of complex script recognition methods based on deep learning
Mithe et al. Optical character recognition
US8494273B2 (en) Adaptive optical character recognition on a document with distorted characters
Patel et al. Handwritten character recognition using neural network
US9014481B1 (en) Method and apparatus for Arabic and Farsi font recognition
CN111652332B (en) Deep learning handwritten Chinese character recognition method and system based on two classifications
US11836969B2 (en) Preprocessing images for OCR using character pixel height estimation and cycle generative adversarial networks for better character recognition
Anand et al. Real time noisy dataset implementation of optical character identification using CNN
Hu Research on data acquisition algorithms based on image processing and artificial intelligence
Kancharla et al. Handwritten signature recognition: a convolutional neural network approach
CN115713772A (en) Transformer substation panel character recognition method, system, equipment and storage medium
AU2006223761A1 (en) Method and system for adaptive recognition of distorted text in computer images
Chen et al. An optical music recognition system for traditional Chinese Kunqu Opera scores written in Gong-Che Notation
Ovodov Optical Braille recognition using object detection neural network
Lakshmi et al. An optical character recognition system for printed Telugu text
Perera et al. Optical Braille recognition based on histogram of oriented gradient features and support-vector machine
RU2390843C2 (en) Character recognition method
Manuel et al. Handwritten Malayalam character recognition using curvelet transform and ANN
Ovodov Optical Braille recognition using object detection CNN
US20220027662A1 (en) Optical character recognition using specialized confidence functions
Ajao et al. Yoruba handwriting word recognition quality evaluation of preprocessing attributes using information theory approach
Hijam et al. Convolutional neural network based Meitei Mayek handwritten character recognition
Tzogka et al. OCR Workflow: Facing Printed Texts of Ancient, Medieval and Modern Greek Literature.
Kunte et al. A bilingual machine-interface OCR for printed Kannada and English text employing wavelet features
Valke et al. Character recognition algorithms

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20140430