RU2166209C2 - Способ построения динамических растровых эталонов компьютерных кодов, выполненных в виде символов, в процессе распознавания соответствующих им фрагментов изображения - Google Patents

Способ построения динамических растровых эталонов компьютерных кодов, выполненных в виде символов, в процессе распознавания соответствующих им фрагментов изображения Download PDF

Info

Publication number
RU2166209C2
RU2166209C2 RU99104416/09A RU99104416A RU2166209C2 RU 2166209 C2 RU2166209 C2 RU 2166209C2 RU 99104416/09 A RU99104416/09 A RU 99104416/09A RU 99104416 A RU99104416 A RU 99104416A RU 2166209 C2 RU2166209 C2 RU 2166209C2
Authority
RU
Russia
Prior art keywords
volume
standards
recognition
range
fragments
Prior art date
Application number
RU99104416/09A
Other languages
English (en)
Inventor
К.В. Анисимович
В.В. Терещенко
Д.Е. Ян
Original Assignee
Закрытое акционерное общество "Аби Программное обеспечение"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Закрытое акционерное общество "Аби Программное обеспечение" filed Critical Закрытое акционерное общество "Аби Программное обеспечение"
Priority to RU99104416/09A priority Critical patent/RU2166209C2/ru
Priority to AU35782/00A priority patent/AU3578200A/en
Priority to PCT/RU2000/000074 priority patent/WO2000055801A1/ru
Application granted granted Critical
Publication of RU2166209C2 publication Critical patent/RU2166209C2/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/72Data preparation, e.g. statistical preprocessing of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Nitrogen And Oxygen Or Sulfur-Condensed Heterocyclic Ring Systems (AREA)
  • Character Discrimination (AREA)

Abstract

Изобретение относится к области электроники и может быть использовано в компьютерных технологиях, например, в качестве построения динамических растровых эталонов компьютерных кодов, выполненных в виде символов, в процессе распознавания соответствующих им фрагментов изображения. Техническим результатом является совершенствование способов построения динамических растровых эталонов компьютерных кодов, выполненных в виде символов, в процессе распознавания соответствующих им фрагментов изображения с достижением технического результата в виде ускорения процесса распознавания. Способ заключается в том, что производят выборку распознаваемых фрагментов изображения объема V1, выбираемого по отношению к общему объему V2 исходной графической информации в пределах 1≤(αV1+V2)/V2≤5/1, где α - экспериментальный коэффициент, который выбирают в зависимости от статистической значимости распределения распознаваемых оригиналов и скорости распознавания в пределах 0,23≤α≤4.1. Отобранную выборку сортируют по ее статистической значимости, преобразуя исходный объем V1 в структурированный объем V3 преобразованной графической информации в виде динамических растровых эталонов компьютерных кодов, который в зависимости от V1 и V2 выбирают в пределах 1≤(V2 + V1 + βV3)/(V2 + V3)≤105, где β - экспериментальный коэффициент, который выбирают в зависимости от выделенных промежутков времени на сортировку и на распознавание фрагментов оригиналов в пределах 0,3≤β≤2,5. При этом соотношение между минимальным t1 и максимальным t2 значениями длительности преобразования выбирают в пределах 1≤(t1 + δt2)/t2≤7,8, где δ - экспериментальный коэффициент, который выбирают в зависимости от величин V1, V2 и V3, в пределах 0,17≤δ≤6,8.

Description

Изобретение относится к области электроники и может быть использовано в компьютерных технологиях, например, в качестве способа построения динамических растровых эталонов компьютерных кодов, выполненных в виде символов в процессе распознавания соответствующих им фрагментов изображения.
Известен способ преобразования компьютерных кодов и соответствующих им фрагментов изображения, включающий производимое компьютерной программой построение массивов данных, используемых для распознавания соответствующих им фрагментов изображения и сличение оператором соответствия компьютерных кодов с оригиналом [Patent USA N 5153927: Character reading system and method., МПК Oct. 6, 1992].
Известен также способ построения динамических растровых эталонов компьютерных кодов, выполненных в виде символов в процессе распознавания соответствующих им фрагментов изображения, включающий производимое компьютерной программой построение дополнительных структурированных массивов данных, используемых для распознавания соответствующих им фрагментов изображения [Руководство пользователя Fine Reader 4.0 © ABBYY Software House, Москва, 1998. Казанский производственный комбинат программных средств. Заказ Ф-377].
Недостатком известных способов являются относительно низкие их функциональные и технические характеристики, в том числе низкие значения достигаемой скорости процесса распознавания.
Решаемой изобретением задачей является совершенствование способов построения динамических растровых эталонов компьютерных кодов, выполненных в виде символов в процессе распознавания соответствующих им фрагментов изображения, с достижением технического результата в виде ускорения процесса распознавания.
Для удобства и однозначного понимания целесообразно привести расшифровки и определения используемых далее обозначений и/или терминов.
Компьютерный код (например, символ) - компьютерное представление некоторого фрагмента информации (в частности, символьной).
Оригинал - преобразуемая информация, материализованная преимущественно в виде совокупности компьютерных кодов, соответствующих исходному объекту, например распознаваемому фрагменту изображения.
Процесс построения динамических растровых эталонов - производимое компьютерной программой построение дополнительного структурированного массива данных, используемых для ускорения процесса распознавания.
Динамический растровый эталон - это дополнительный структурированный массив данных, создаваемый и используемый для ускорения процесса распознавания. Понятие "динамический" отражает изменяемый характер создаваемых эталонов, то есть означает, что в процессе использования предложенного способа постоянно изменяют совокупность построенных эталонов пополнением ее новыми эталонами, видоизменением существующих и исключением ненужных, а понятие "растровый" характеризует их особенности выполнения в виде совокупности элементов, образующих, например, периодическую структуру. Создать эталон - значит для каждого встречающегося в тексте символа записать в память растровой подсистемы пару: точечное изображение символа и его название (т.е. какую буквы это изображение представляет).
Процесс распознавания - процесс обработки системой распознавания введенного в компьютер графического изображения некоторого символа, в результате чего система распознавания приписывает изображению компьютерный код этого символа.
Скорость процесса распознавания - количество распознанных изображений символов в единицу времени.
Статистическая значимость выборки распознаваемых оригиналов - это степень соответствия распределения частоты появления символов в выборке распределению для всего исходного массива данных.
В качестве кратких сведений, раскрывающих сущность изобретения, следует отметить, что достигаемый технический результат обеспечивают с помощью предложенного способа построения динамических растровых эталонов компьютерных кодов, выполненных в виде символов в процессе распознавания соответствующих им фрагментов изображения, состоящего в том, что производят выборку распознаваемых фрагментов изображения объема, выбираемого по отношению к общему объему исходной графической информации в пределах
1 ≤ ( α V1 + V2)/V2 ≤ 5,1,
где V1 - общий произведенной выборки распознаваемых фрагментов изображения;
V2 - общий объем исходной графической информации;
α - экспериментальный коэффициент, который выбирают в зависимости от статистической значимости распределения распознаваемых фрагментов изображения и скорости распознавания, а также от быстродействия используемых компьютерных средств в пределах 0,23 ≤ α ≤ 4,1.
Отобранную выборку сортируют по ее статистической значимости путем преобразования объема V1 произведенной выборки распознаваемых фрагментов изображения в структурированный объем V3, который в зависимости от VI и V2 выбирают в пределах
1 ≤ (V2+V1 + β V3)/ (V2 + V3) ≤ 105,
где V3 - структурированный объем преобразованной графической информации в виде динамических растровых эталонов компьютерных кодов;
β - экспериментальный коэффициент, который выбирают в зависимости от выделенных промежутков времени на сортировку и на распознавание фрагментов оригиналов в пределах 0,3 ≤ β ≤ 2,5;
При этом соотношение между минимальным и максимальным значениями длительности преобразования выбирают в пределах
1 ≤ (t1+ δt2)/t2 ≤ 7,8,
где t1 - минимальное значение длительности преобразования;
t2 - максимальное значение длительности преобразования;
δ - экспериментальный коэффициент, который выбирают в зависимости от величин V1, V2 и V3, в пределах 0,17 ≤ δ ≤ 6,8.
При изложении сведений, подтверждающих возможность осуществления изобретения целесообразно более детально описать предложенный способ построения динамических растровых эталонов компьютерных кодов, выполненных в виде символов в процессе распознавания соответствующих им фрагментов изображения. Подробно целесообразно остановиться только на существенных особенностях осуществления операций предложенного способа, заключающихся в том, что производят выборку распознаваемых фрагментов изображения объема, выбираемого по отношению к общему объему исходной графической информации в пределах
1 ≤ ( αV1+V2)/V2 ≤ 5,1,
где V1 - объем произведенной выборки распознаваемых фрагментов изображения;
V2 - общий объем исходной графической информации;
α - экспериментальный коэффициент, который выбирают в зависимости от статистической значимости распределения распознаваемых фрагментов изображения и скорости распознавания, а также от быстродействия используемых компьютерных средств в пределах 0,23 ≤ α ≤ 4,1.
Следует учитывать при этом также качество исходных графических изображений, которое определяется тем, что предъявляют для распознавания, например, изготовленное на ксерокопировальном аппарате изображение, факсограмму, машинописный или рукописный текст. Менее существенны здесь другие технические характеристики используемых компьютерных средств, в частности вид операционной системы, объем оперативной памяти и др. Отобранную выборку сортируют по ее статистической значимости путем преобразования объема V1 произведенной выборки распознаваемых фрагментов изображения в структурированный объем V3, который в зависимости от V1 и V2 выбирают в пределах
1 ≤ (V2+V1+ β V3)/(V2 + V3) ≤ 105,
где V3 - структурированный объем преобразованной графической информации в виде динамических растровых эталонов компьютерных кодов;
β - экспериментальный коэффициент, который выбирают в зависимости от выделенных промежутков времени на сортировку и на распознавание фрагментов оригиналов в пределах 0,3 ≤ β ≤ 2,5.
При этом соотношение между минимальным и максимальным значениями длительности преобразования выбирают в пределах
1 ≤ (t1 + δ t2)/t2 ≤ 7,8,
где t1 - минимальное значение длительности преобразования;
t2 - максимальное значение длительности преобразования;
δ - экспериментальный коэффициент, который выбирают в зависимости от величин V1, V2 и V3, в пределах 0,17 ≤ δ ≤ 6,8.
Для дополнительного пояснения целесообразно привести следующий пример практического применения заявленного способа, реализованный в последних версиях системы FineReader - метод построения динамических растровых эталонов в процессе распознавания. Компьютерный код в заявленном объекте, как уже указывалось, - это преобразуемая компьютером совокупность электромагнитных сигналов, адекватно соответствующих распознаваемым исходным символам или любым другим распознаваемым фрагментам исходной информации. Каждый из эталонов совокупности динамических растровых эталонов, образующих периодическую структуру, представляет собой, например, упорядоченный набор электромагнитных сигналов или соответствующих рельефно намагниченных фрагментов жесткого диска. Динамические свойства растровых эталонов определяют временными параметрами их преобразования, основными из которых являются t1, δ и t2.
В процессе распознавания производят выборку распознаваемых фрагментов изображения объема V1, выбираемого по отношению к общему объему V2 исходной графической информации в виде графического изображения текста при условии (α V1 + V2)/V2 = 4, где α выбирают равным α = 1,1. Отобранную выборку сортируют по ее статистической значимости, преобразуя исходный объем информации V1 в структурированный объем V3 в виде динамических растровых эталонов компьютерных кодов, который в зависимости от V1 и V2 выбирают с учетом условия (V2 + V1 + β V3) / (V2 + V3) = 1,5, где β - выбирают равным β = 1,2. При этом соотношение между минимальным t1 и максимальным t2 значениями длительности преобразования выбирают при условии (t1 + δ t2)/t2 = 1,6, где δ - экспериментальный коэффициент, который выбирают в зависимости от величин V1, V2 и V3, в пределах 0,7 ≤ δ ≤ 0,8.
Таким образом достигается высокая скорость распознавания текстов набранных незнакомым системе шрифтом, превышающая аналогичный параметр у известных способов в 1,5-2 раза.
В отношении технических средств, необходимых для реализации заявленного способа, целесообразно в дополнение к вышеизложенному отметить, что ими могут быть как специализированные функциональные блоки, так и функциональные узлы компьютера, управляемые задаваемой системой команд. В частности, операции типа отсортировать по статистической значимости, осуществляются математическим сопроцессором центрального процессора системного блока компьютера под управлением специализированных для операций с массивами данных и статистических вычислений функциональных программных блоков (библиотек команд, эталонов и других данных), производящих выборку и сортировку списков эталонов. Сами списки находятся либо в оперативной памяти (ОЗУ), либо на дисковом носителе компьютера и управляются системными библиотеками команд операционной среды. Под заменяющим человека устройством подразумевается любое устройство, которое может на необходимом для осуществления способа уровне выполнить операции, которые ранее выполнял или которые может выполнить человек.
Достигаемый технический результат, как показали данные экспериментов, может быть реализован только взаимосвязанной совокупностью всех существенных признаков заявленного объекта, отраженных в формуле изобретения. Указанные в ней отличия дают основание сделать вывод о новизне данного технического решения, а совокупность испрашиваемых притязаний в связи с их неочевидностью - о его изобретательском уровне, что доказывается также вышеприведенным их детальным описанием. Соответствие критерию промышленная применимость предложенного способа доказывается как его реализацией, так и отсутствием в заявленных притязаниях каких-либо практически трудно реализуемых в промышленных масштабах признаков. Нижние и верхние значения заявленных пределов были получены на основе статистической обработки результатов экспериментальных исследований, анализа и обобщения их и известных из опубликованных источников данных, а также с использованием изобретательской интуиции, исходя из условия достижения указанного технического результата. Особенности использования способа и других объектов, не отраженные в описании, общеизвестны и не являются предметом изобретения.
Кроме указанного выше технического результата практическое осуществление заявленного объекта позволяет существенно расширить возможности его использования применительно, например, к различным документам, заполняемым рукописными символами, либо документам плохого качества.

Claims (1)

  1. Способ построения динамических растровых эталонов компьютерных кодов, выполненных в виде символов, в процессе распознавания соответствующих им фрагментов изображения, состоящий в том, что производят выборку распознаваемых фрагментов изображения объема, выбираемого по отношению к общему объему исходной графической информации в пределах
    1 ≤ (αV1 + V2)/V2 ≤ 5,1,
    где V1 - объем произведенной выборки распознаваемых фрагментов изображения;
    V2 - общий объем исходной графической информации;
    α - экспериментальный коэффициент, который выбирают в зависимости от статистической значимости распределения распознаваемых фрагментов изображения и скорости распознавания, а также от быстродействия используемых компьютерных средств в пределах 0,23 ≤ α ≤ 4,1;
    отобранную выборку сортируют по ее статистической значимости путем преобразования объема V1 произведенной выборки распознаваемых фрагментов изображения в структурированный объем V3, который в зависимости от V1 и V2 выбирают в пределах
    1 ≤ (V2 + V1 + βV3)/(V2 + V3) ≤ 105,
    где V3 - структурированный объем преобразованной графической информации в виде динамических растровых эталонов компьютерных кодов;
    β - экспериментальный коэффициент, который выбирают в зависимости от выделенных промежутков времени на сортировку и на распознавание фрагментов оригиналов в пределах 0,3 ≤ β ≤ 2,5,
    при этом соотношение между минимальным и максимальным значениями длительности преобразования выбирают в пределах
    1 ≤ (t1 + δt2)/t2 ≤ 7,8,
    где t1 - минимальное значение длительности преобразования;
    t2 - максимальное значение длительности преобразования;
    δ - экспериментальный коэффициент, который выбирают в зависимости от величин V1, V2 или V3, в пределах 0,17 ≤ δ ≤ 6,8.
RU99104416/09A 1999-03-15 1999-03-15 Способ построения динамических растровых эталонов компьютерных кодов, выполненных в виде символов, в процессе распознавания соответствующих им фрагментов изображения RU2166209C2 (ru)

Priority Applications (3)

Application Number Priority Date Filing Date Title
RU99104416/09A RU2166209C2 (ru) 1999-03-15 1999-03-15 Способ построения динамических растровых эталонов компьютерных кодов, выполненных в виде символов, в процессе распознавания соответствующих им фрагментов изображения
AU35782/00A AU3578200A (en) 1999-03-15 2000-03-03 Method for building dynamic raster templates of computer codes during the recognition process of the corresponding originals
PCT/RU2000/000074 WO2000055801A1 (fr) 1999-03-15 2000-03-03 Procede de construction de modeles de trame dynamiques de codes informatiques lors de du processus de reconnaissance des orignaux qui leur correspondent

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU99104416/09A RU2166209C2 (ru) 1999-03-15 1999-03-15 Способ построения динамических растровых эталонов компьютерных кодов, выполненных в виде символов, в процессе распознавания соответствующих им фрагментов изображения

Publications (1)

Publication Number Publication Date
RU2166209C2 true RU2166209C2 (ru) 2001-04-27

Family

ID=20216708

Family Applications (1)

Application Number Title Priority Date Filing Date
RU99104416/09A RU2166209C2 (ru) 1999-03-15 1999-03-15 Способ построения динамических растровых эталонов компьютерных кодов, выполненных в виде символов, в процессе распознавания соответствующих им фрагментов изображения

Country Status (3)

Country Link
AU (1) AU3578200A (ru)
RU (1) RU2166209C2 (ru)
WO (1) WO2000055801A1 (ru)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2045779C1 (ru) * 1992-10-15 1995-10-10 Товарищество с ограниченной ответственностью Предприятие "МЕЛТ" Способ опознавания найденных предметов
RU2037203C1 (ru) * 1993-07-16 1995-06-09 Ольга Олеговна Веровенко Способ идентификации объектов
US5522022A (en) * 1993-11-24 1996-05-28 Xerox Corporation Analyzing an image showing a node-link structure
US5734883A (en) * 1995-04-27 1998-03-31 Michael Umen & Co., Inc. Drug document production system
US5850476A (en) * 1995-12-14 1998-12-15 Xerox Corporation Automatic method of identifying drop words in a document image without performing character recognition

Also Published As

Publication number Publication date
WO2000055801A1 (fr) 2000-09-21
AU3578200A (en) 2000-10-04

Similar Documents

Publication Publication Date Title
US7460712B2 (en) Systems and methods for adaptive handwriting recognition
US5745602A (en) Automatic method of selecting multi-word key phrases from a document
CN1107283C (zh) 手写体输入字符识别的方法和设备
EP0151316A2 (en) On-line recognition method and apparatus for a handwritten pattern
WO2007005937A2 (en) Grammatical parsing of document visual structures
JPH0340433B2 (ru)
KR20040070323A (ko) 프로그램, 문자 입력 편집 방법과 장치 및 기록 매체
Kälviäinen et al. Comparisons of probabilistic and non-probabilistic Hough transforms
CA2265423C (en) Classification-driven thresholding of a normalized grayscale image
Hallur et al. Handwritten Kannada numerals recognition using deep learning convolution neural network (DCNN) classifier
US11295155B2 (en) Online training data generation for optical character recognition
RU2166209C2 (ru) Способ построения динамических растровых эталонов компьютерных кодов, выполненных в виде символов, в процессе распознавания соответствующих им фрагментов изображения
CN111797396B (zh) 恶意代码可视化及变种检测方法、装置、设备及存储介质
JP2986074B2 (ja) 近傍点検出方法及びパターン認識装置
RU2166207C2 (ru) Способ использования вспомогательных массивов данных в процессе преобразования и/или верификации компьютерных кодов, выполненных в виде символов, и соответствующих им фрагментов изображения
CN1144354A (zh) 增强的字符录入系统
EP0923045B1 (en) Image recognition through localized interpretation
JP3073208B2 (ja) データ選出装置
CN114022886B (zh) 一种平板用手写体识别训练集生成方法、系统及介质
RU2165641C2 (ru) Способ взаимосвязанного активирования компьютерных кодов в виде символов и соответствующих им фрагментов изображения
CN1100304C (zh) 识别字符或图形的方法和系统
JP2022160140A (ja) テキスト行認識装置、テキスト行認識方法およびプログラム
Arica et al. One dimensional representation of two dimensional information for HMM based handwritten recognition
RU2166206C2 (ru) Способ ориентированного нахождения областей в исходном массиве данных и последовательного активирования и обработки в них преобразуемых компьютерных кодов, выполненных в виде символов
Lucas Can scanning n-tuple classifiers be improved by pre-transforming training data?

Legal Events

Date Code Title Description
HE4A Change of address of a patent owner
PC41 Official registration of the transfer of exclusive right

Effective date: 20141031

QB4A Licence on use of patent

Free format text: LICENCE

Effective date: 20151118

QZ41 Official registration of changes to a registered agreement (patent)

Free format text: LICENCE FORMERLY AGREED ON 20151118

Effective date: 20161213

QZ41 Official registration of changes to a registered agreement (patent)

Free format text: LICENCE FORMERLY AGREED ON 20151118

Effective date: 20170613

QZ41 Official registration of changes to a registered agreement (patent)

Free format text: LICENCE FORMERLY AGREED ON 20151118

Effective date: 20171031

QC41 Official registration of the termination of the licence agreement or other agreements on the disposal of an exclusive right

Free format text: LICENCE FORMERLY AGREED ON 20151118

Effective date: 20180710

PC43 Official registration of the transfer of the exclusive right without contract for inventions

Effective date: 20181121