RU2166206C2 - Способ ориентированного нахождения областей в исходном массиве данных и последовательного активирования и обработки в них преобразуемых компьютерных кодов, выполненных в виде символов - Google Patents

Способ ориентированного нахождения областей в исходном массиве данных и последовательного активирования и обработки в них преобразуемых компьютерных кодов, выполненных в виде символов Download PDF

Info

Publication number
RU2166206C2
RU2166206C2 RU99107495A RU99107495A RU2166206C2 RU 2166206 C2 RU2166206 C2 RU 2166206C2 RU 99107495 A RU99107495 A RU 99107495A RU 99107495 A RU99107495 A RU 99107495A RU 2166206 C2 RU2166206 C2 RU 2166206C2
Authority
RU
Russia
Prior art keywords
areas
processing
data array
computer
depending
Prior art date
Application number
RU99107495A
Other languages
English (en)
Inventor
К.В. Анисимович
В.В. Терещенко
Д.Е. Ян
Н.В. Харченко
Original Assignee
Закрытое акционерное общество "Аби Программное обеспечение"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Закрытое акционерное общество "Аби Программное обеспечение" filed Critical Закрытое акционерное общество "Аби Программное обеспечение"
Priority to RU99107495A priority Critical patent/RU2166206C2/ru
Priority to PCT/RU2000/000130 priority patent/WO2000063797A1/ru
Priority to AU39895/00A priority patent/AU3989500A/en
Application granted granted Critical
Publication of RU2166206C2 publication Critical patent/RU2166206C2/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations

Abstract

Изобретение относится к электронике и может быть использовано, например, в качестве способа ориентированного нахождения областей в исходном массиве данных и последовательного активирования и обработки в них преобразуемых компьютерных кодов, выполненных в виде символов. Техническим результатом является совершенствование способов использования вспомогательных массивов данных в процессе преобразования и/или верификации компьютерных кодов и соответствующих им оригиналов с достижением технического результата в виде снижения погрешности ранжированного соотношения. Способ заключается в том, что ориентированно находят n1 областей, предназначенных для заданного отбора в исходном массиве данных, где n1 выбирают в пределах 1≤n1≤104. Из общего количества найденных областей выбирают n2 областей в пределах 1≤(αn1+n2)/n1≤2 для одновременного, и/или последовательного, и/или произвольного активирования и обработки в них преобразуемых компьютерных кодов. Из n2 отобранных областей выделяют n3 областей в пределах 1≤(βn2+n3)/n2≤2 посредством ранжированного соотнесения областей в их отобранной совокупности n2 по отношению к эталонной совокупности областей в зависимости, например, от их очередности и значимости. При этом ранжированное соотнесение производят в n4 этапов в пределах 1≤(γn3+n4)/ n3≤2 в зависимости от задаваемой погрешности их ранжированного соотнесения, где α, β и γ - экспериментальные коэффициенты, выбираемые в зависимости от особенностей использования способа. Затем, при необходимости, производят обработку и верификацию преобразованных компьютерных кодов, после чего их размещают в области, соответствующие соотнесенным им областям в их эталонной совокупности.

Description

Изобретение относится к области электроники и может быть применено, например, в качестве способа ориентированного нахождения областей в исходном массиве данных и последовательного активирования и обработки в них преобразуемых компьютерных кодов, выполненных в виде символов.
Известен способ ориентированного нахождения совокупностей компьютерных кодов в исходном массиве данных и запрограммированной обработки в них преобразуемых компьютерных кодов [Patent USA N 5153927: Character reading system and method., МПК Oct. 6, 1992.].
Известен также способ ориентированного нахождения областей в исходном массиве данных и последовательного активирования и обработки в них преобразуемых компьютерных кодов, выполненных в виде символов, включающий производимое с помощью компьютера нахождение, активирование, обработку преобразуемых компьютерных кодов и привлечение для этого вспомогательных массивов данных, используемых для преобразования соответствующих кодам фрагментов изображения [Руководство пользователя Fine Reader 3.0 © Bit Software, Inc., 1993-97. Казанский производственный комбинат программных средств. Заказ Т] - прототип.
Недостатком известных способов являются относительно низкие их функциональные и технические характеристики, в том числе высокие значения достигаемых погрешностей преобразования. Погрешность преобразования в основном связана с качеством исходных графических изображений, которое определяется, в частности, тем, что предъявляют для распознавания, например, изготовленное на ксерокопировальном аппарате изображение, факсограмму, машинописный или рукописный текст.
Решаемой изобретением задачей является совершенствование способов использования вспомогательных массивов данных в процессе преобразования и/или верификации компьютерных кодов и соответствующих им оригиналов с достижением технического результата в виде снижения погрешности ранжированного соотнесения.
Для удобства и однозначного понимания целесообразно привести расшифровки и определения используемых далее обозначений, символов и/или терминов.
Оригинал - преобразуемая информация, материализованная или предназначенная для материализации преимущественно в виде совокупности компьютерных кодов, соответствующих исходному объекту, например распознаваемому фрагменту изображения.
Компьютерный код (например, символ) - компьютерное представление некоторого фрагмента информации (в частности, символьной, графической).
Процесс распознавания - процесс обработки системой распознавания введенного в компьютер графического изображения некоторого символа, в результате чего система распознавания приписывает изображению компьютерный код этого символа.
Процесс верификации - производимое человеком и/или заменяющим его устройством, и/или компьютерной программой сличение (определение адекватности) компьютерных кодов (символов) с графическим изображением, введенным в компьютер.
Допустимое множество смысловых единиц включает в себя всю совокупность вероятных для распознавания наборов смысловых единиц, представляющих собой, например фрагменты изображений или символы.
Смысловая единица - это ориентированный на какое-либо практическое использование образ (фрагмент информации), например буква, символ, графический элемент, логическая операция и др. или совокупность соответствующих ему компьютерных кодов.
Исходный массив данных - произвольным образом отобранная совокупность смысловых единиц из допустимого их множества.
Ориентированная на нахождение область в исходном массиве данных - это логически завершенная совокупность смысловых единиц, предназначенная для заданного отбора в целях их последующего преобразования и обработки. Ориентир определяет местоположение какой-либо области в исходном массиве данных. Например для множества символов компьютерных кодов, представляющих изображение страницы с текстом, ориентиром может быть расстояние от левого верхнего угла текста.
Эталонная совокупность областей - это предварительно сформированная совокупность областей для преобразования и последующего использования результатов, также для целей контроля и сопоставления с исходным массивом данных.
Ранжированное соотнесение областей в их отобранной совокупности по отношению к эталонной совокупности областей - это ранжированное по заданным критериям (в зависимости, например, от их очередности и значимости) объединение областей в группы для их последующего преобразования и обработки, а также объединение охватываемых ими компьютерных кодов, при этом уже соотнесенные области могут быть использованы для соотнесения остальных областей.
Не соотнесенные области - те, для которых не найдена область из их эталонной совокупности.
Погрешность ранжированного соотнесения ε1 - это отношение количества не соотнесенных областей к общему количеству отобранных областей.
Вспомогательный массив данных - это произвольным образом сформированная совокупность компьютерных кодов смысловых единиц, охватываемых, в частности, допустимым множеством смысловых единиц.
Дополнительный массив динамических растровых эталонов - это совокупность элементов смысловых единиц, формируемая для уменьшения погрешностей в процессе преобразования.
В качестве кратких сведений, раскрывающих сущность изобретения следует отметить, что достигаемый технический результат обеспечивают с помощью предложенного способа ориентированного нахождения областей в исходном массиве данных и последовательного активирования и обработки в них преобразуемых компьютерных кодов, выполненных в виде символов, состоящего в том, что находят n1 областей, предназначенных для заданного отбора в исходном массиве данных, где n1 выбирают в пределах
1 ≤ n1 ≤ 104,
из общего количества найденных областей выбирают n2 областей для одновременного или последовательного активирования и обработки содержащихся в них фрагментов изображений, причем n2 выбирают в пределах.
1 ≤ (αn1+ n2)/n1≤ 2,
где α - экспериментальный коэффициент, выбираемый в пределах 0,4 ≤ α ≤ 2,7 в зависимости от количества и характера комбинированного сочетания отбираемых областей.
Из n2 отобранных областей ранжированием по заданным критериям выделяют n3 областей, причем n3 выбирают в пределах
1 ≤ ( βn2 + n3)/n2 ≤ 2,
где β - экспериментальный коэффициент, выбираемый в зависимости от размера и вида фрагментов изображений в пределах, 0,3 ≤ β ≤ 1,4.
При этом ранжирование в зависимости от задаваемой погрешности производят в n4 этапов в пределах
1 ≤ ( γn3 + n4)/n3 ≤ 2,
где γ - экспериментальный коэффициент, выбираемый в зависимости от допустимого на операцию ранжирования промежутка времени, в пределах 0,6 ≤ γ ≤ 1,5, затем производят обработку содержащихся в выделенных областях фрагментов изображений в компьютерные коды.
При изложении сведений, подтверждающих возможность осуществления изобретения целесообразно более детально описать предложенный способ ориентированного нахождения областей в исходном массиве данных и последовательного активирования и обработки в них преобразуемых компьютерных кодов, выполненных в виде символов, состоящий в том, что находят n1 областей, предназначенных для заданного отбора в исходном массиве данных, где n1 выбирают в пределах
1 ≤ n1 ≤ 104.
В каждую из областей могут быть включены совокупности смысловых единиц или соответствующих им компьютерных кодов, объединенные по какому-либо взаимосвязывающему их признаку, например фамилии, профессии, должности, условия труда и т.п. Критерии задаваемого отбора областей предопределяет, в частности, необходимость обработки областей, задаваемых в соответствии с указанными признаками. Из общего количества найденных областей выбирают n2 областей для одновременного или последовательного активирования и обработки содержащихся в них фрагментов изображений, причем n2 выбирают в пределах
1 ≤ ( αn1 + n2)/n1 ≤ 2,
где α - экспериментальный коэффициент, выбираемый в пределах 0,4 ≤ α ≤ 2,7 в зависимости от количества и характера комбинированного сочетания отбираемых областей. Это целесообразно, например, для случаев, когда нет необходимости преобразовывать оригинал целиком, а необходимо преобразовывать только отдельные области оригинала.
Из n2 отобранных областей ранжированием по заданным критериям в зависимости, например, от их очередности и значимости выделяют n3 областей, причем n3 выбирают в пределах
1 ≤ ( βn2 + n3)/n2≤ 2,
где β - экспериментальный коэффициент, выбираемый в зависимости от размера и вида фрагментов изображений в пределах, 0,3 ≤ β ≤ 1,4. Это делают, например, для того чтобы выделить для обработки области, содержащие компьютерные коды, соответствующие однородным смысловым единицам (словам, аналитическим соотношениям, графическим элемента и т.п.).
При этом ранжирование в зависимости от задаваемой погрешности производят в n4 этапов в пределах
1 ≤ ( γn3 + n4)/n3 ≤ 2,
где γ - экспериментальный коэффициент, выбираемый в зависимости от допустимого на операцию ранжирования промежутка времени, в пределах 0,6 ≤ γ ≤ 1,5.
Затем, при необходимости, производят обработку и верификацию преобразованных компьютерных кодов, после чего их размещают в области, соответствующие соотнесенным им областям в их эталонной совокупности. В ряде практических случаев полезным является привлечение вспомогательных массивов данных и/или построение дополнительных массивов динамических растровых эталонов, что осуществляют в соответствии с предназначенными для этого способами. На практике возможно использование и отдельных логически завершенных совокупностей операций предложенного способа. Если в результате выделения в соответствии с приведенными аналитическими соотношениями необходимых величин получают дробные, отрицательные значения и какие-либо другие значения, некорректные исходя из условий возможности их дальнейшего использования, то их исключают из рассмотрения и/или автоматически удаляют.
Примером практического применения предложенного способа ориентированного нахождения областей в исходном массиве данных и последовательного активирования и обработки в них преобразуемых компьютерных кодов, может быть его использование для обработки, например, деклараций для налоговой инспекции. В этих декларациях для преобразования выделяют области, отличающие одну декларацию от другой.
В частности, это могут быть области, содержащие фамилии, имена, отчества, должности, ряд областей, содержащих различные статьи доходов и их суммы. В декларациях ориентированно находят, например, около 100 областей, предназначенных для заданных видов преобразования (распознавание, верификация, контроль и др.). Из общего количества найденных областей выбирают около 50 областей содержащих, например, компьютерные коды, соответствующие текстовой и цифровой информации. Из этого количества отобранных областей, выделяют около 30 областей посредством ранжированного соотнесения областей в их ранее отобранной совокупности по отношению к эталонному компьютерному шаблону образца налоговой декларации в зависимости, например, от их очередности и значимости (фамилии, имена, отчества, должности, области, содержащие различные статьи доходов и их суммы). При этом ранжированное соотнесение производят, например, в два этапа, затем, при необходимости, производят обработку и верификацию преобразованных компьютерных кодов, после чего их экспортируют в поля базы данных, соответствующие соотнесенным им областям в эталонном образце налоговой декларации.
В качестве дополнительного примера реализации способа может быть использован пример сканирования платежного поручения при финансовых платежах через банк. В соответствии с последовательностью операций заявленной формулы изобретения посредством подпрограммы анализа изображений выбирают n1 областей, например n1 = 10, содержащих необходимую для использования графическую информацию в изображении платежного поручения. Подпрограммой предварительного распознавания выбирают n2 областей, содержащих текст и цифры, например n2= 5. Далее с помощью программы анализа производят идентификацию каждой из областей n2 на предмет содержания необходимой информации - сумма, номер счета и т.п. Эта программа использует в своей работе при анализе каждого элемента результаты анализа других. Например, если найдена в платежном поручении сумма прописью, намного легче найти сумму цифрой. Поскольку при первом проходе изображения могут допускаться ошибки, можно (как следует из формулы изобретения) делать, например, порядка десятка проходов, используя в частности, для анализа первых цифр данные анализа последних цифр и т.п.
Достигаемый технический результат, как показали данные экспериментов, может быть реализован только взаимосвязанной совокупностью всех существенных признаков заявленного объекта, отраженных в формуле изобретения. Указанные в ней отличия дают основание сделать вывод о новизне данного технического решения, а совокупность испрашиваемых притязаний в связи с их не очевидностью - о его изобретательском уровне, что доказывается также вышеприведенным их детальным описанием. Соответствие критерию промышленная применимость предложенного способа доказывается как его реализацией, так и отсутствием в заявленных притязаниях каких-либо практически трудно реализуемых в промышленных масштабах признаков. Нижние и верхние значения заявленных пределов были получены на основе статистической обработки результатов экспериментальных исследований, анализа и обобщения их и известных из опубликованных источников данных, а также с использованием изобретательской интуиции, исходя из условия достижения указанного технического результата.
Кроме указанного выше технического результата, практическое осуществление заявленного объекта позволяет существенно расширить возможности его использования применительно, например, к различным документам, заполняемым рукописными символами.

Claims (1)

  1. Способ ориентированного нахождения областей в исходном массиве данных и последовательного активирования и обработки в них преобразуемых компьютерных кодов, выполненных в виде символов, состоящий в том, что находится n1 областей, предназначенных для заданного отбора в исходном массиве данных, где n1 выбирают в пределах
    1 ≤ n1 ≤ 104,
    из общего количества найденных областей выбирают n2 областей для одновременного или последовательного активирования и обработки содержащихся в них фрагментов изображений, причем n2 выбирают в пределах
    1 ≤(α n1 + n2)/ n1 ≤ 2,
    где α - экспериментальный коэффициент, выбираемый в пределах 0,4 ≤ α ≤ 2,7 в зависимости от количества и характера комбинированного сочетания отбираемых областей,
    из n2 отобранных областей ранжированием по заданным критериям выделяют n3 областей, причем n3 выбирают в пределах
    1 ≤(β n2 + n3)/ n2 ≤ 2,
    где β - экспериментальный коэффициент, выбираемый в зависимости от размера и вида фрагментов изображений в пределах 0,3 ≤ β ≤ 1,4,
    при этом ранжирование в зависимости от задаваемой погрешности производят в n4 этапов в пределах
    1 ≤(γ n3 + n4)/ n3 ≤ 2,
    где γ - экспериментальный коэффициент, выбираемый в зависимости от допустимого на операцию ранжирования промежутка времени, в пределах 0,6 ≤ γ ≤ 1,5,
    затем производят обработку содержащихся в выделенных областях фрагментов изображений в компьютерные коды.
RU99107495A 1999-04-20 1999-04-20 Способ ориентированного нахождения областей в исходном массиве данных и последовательного активирования и обработки в них преобразуемых компьютерных кодов, выполненных в виде символов RU2166206C2 (ru)

Priority Applications (3)

Application Number Priority Date Filing Date Title
RU99107495A RU2166206C2 (ru) 1999-04-20 1999-04-20 Способ ориентированного нахождения областей в исходном массиве данных и последовательного активирования и обработки в них преобразуемых компьютерных кодов, выполненных в виде символов
PCT/RU2000/000130 WO2000063797A1 (fr) 1999-04-20 2000-04-14 Procede de localisation orientee de regions dans un bloc de donnees initial et d'activation successive et de traitement de codes informatiques convertibles dans ces dernieres
AU39895/00A AU3989500A (en) 1999-04-20 2000-04-14 Method for the oriented location of regions in an initial data block and for thesuccessive activation and processing of convertible computer codes therein

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU99107495A RU2166206C2 (ru) 1999-04-20 1999-04-20 Способ ориентированного нахождения областей в исходном массиве данных и последовательного активирования и обработки в них преобразуемых компьютерных кодов, выполненных в виде символов

Publications (1)

Publication Number Publication Date
RU2166206C2 true RU2166206C2 (ru) 2001-04-27

Family

ID=20218426

Family Applications (1)

Application Number Title Priority Date Filing Date
RU99107495A RU2166206C2 (ru) 1999-04-20 1999-04-20 Способ ориентированного нахождения областей в исходном массиве данных и последовательного активирования и обработки в них преобразуемых компьютерных кодов, выполненных в виде символов

Country Status (3)

Country Link
AU (1) AU3989500A (ru)
RU (1) RU2166206C2 (ru)
WO (1) WO2000063797A1 (ru)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5131053A (en) * 1988-08-10 1992-07-14 Caere Corporation Optical character recognition method and apparatus
US5734883A (en) * 1995-04-27 1998-03-31 Michael Umen & Co., Inc. Drug document production system
RU2112273C1 (ru) * 1995-08-28 1998-05-27 Олег Яковлевич Сивков Система устройств для интерпретации понятий образными представлениями
US5850480A (en) * 1996-05-30 1998-12-15 Scan-Optics, Inc. OCR error correction methods and apparatus utilizing contextual comparison
RU2096825C1 (ru) * 1996-10-14 1997-11-20 Общество с ограниченной ответственностью "Информбюро" Устройство обработки информации для информационного поиска
EP0950226A4 (en) * 1996-11-25 2002-09-25 Metrologic Instr Inc SYSTEM AND METHOD FOR PERFORMING INFORMATION-ORIENTED TRANSACTIONS

Also Published As

Publication number Publication date
AU3989500A (en) 2000-11-02
WO2000063797A1 (fr) 2000-10-26

Similar Documents

Publication Publication Date Title
US5455875A (en) System and method for correction of optical character recognition with display of image segments according to character data
US6907431B2 (en) Method for determining a logical structure of a document
US7319799B2 (en) Method of recognizing and indexing documents
US5850480A (en) OCR error correction methods and apparatus utilizing contextual comparison
US8825592B2 (en) Systems and methods for extracting data from a document in an electronic format
US6766069B1 (en) Text selection from images of documents using auto-completion
US6061478A (en) Content-based filing and retrieval system for name cards and hankos
JPS63155386A (ja) 帳票デ−タ読取装置
JPH0798765A (ja) 方向検出方法および画像解析装置
CN1411586A (zh) 包括指定文档位置处字的多个译码的用于创建扫描文档搜索字索引的系统和方法
US5563997A (en) Method and apparatus for sorting records into a list box in a graphic user interface
Kavallieratou et al. The GRUHD database of Greek unconstrained handwriting
JP2005043990A (ja) 文書処理装置および文書処理方法
RU2166206C2 (ru) Способ ориентированного нахождения областей в исходном массиве данных и последовательного активирования и обработки в них преобразуемых компьютерных кодов, выполненных в виде символов
RU2166207C2 (ru) Способ использования вспомогательных массивов данных в процессе преобразования и/или верификации компьютерных кодов, выполненных в виде символов, и соответствующих им фрагментов изображения
JPH08221558A (ja) 文書ファイリング方法及び装置
JP3233803B2 (ja) 難読漢字検索装置
JP3043643B2 (ja) ソート処理装置および方法
CN1084503C (zh) 文书辨识的切字错误自动更正方法及装置
JP2697790B2 (ja) 文字タイプ決定方法
RU2166209C2 (ru) Способ построения динамических растровых эталонов компьютерных кодов, выполненных в виде символов, в процессе распознавания соответствующих им фрагментов изображения
RU2145115C1 (ru) Групповой способ аби (abbyy) верификации компьютерных кодов с соответствующими им оригиналами
JPH06333083A (ja) 光学式文字読取装置
JPS6154569A (ja) 文書画像処理方式
JPH09160907A (ja) 文書処理装置及び方法

Legal Events

Date Code Title Description
HE4A Notice of change of address of a patent owner
PC41 Official registration of the transfer of exclusive right

Effective date: 20141031

QB4A Licence on use of patent

Free format text: LICENCE

Effective date: 20151118

QZ41 Official registration of changes to a registered agreement (patent)

Free format text: LICENCE FORMERLY AGREED ON 20151118

Effective date: 20161213

QZ41 Official registration of changes to a registered agreement (patent)

Free format text: LICENCE FORMERLY AGREED ON 20151118

Effective date: 20170613

QZ41 Official registration of changes to a registered agreement (patent)

Free format text: LICENCE FORMERLY AGREED ON 20151118

Effective date: 20171031

QC41 Official registration of the termination of the licence agreement or other agreements on the disposal of an exclusive right

Free format text: LICENCE FORMERLY AGREED ON 20151118

Effective date: 20180710

PC43 Official registration of the transfer of the exclusive right without contract for inventions

Effective date: 20181121