RU2657181C1 - Способ улучшения качества распознавания отдельного кадра - Google Patents

Способ улучшения качества распознавания отдельного кадра Download PDF

Info

Publication number
RU2657181C1
RU2657181C1 RU2017130928A RU2017130928A RU2657181C1 RU 2657181 C1 RU2657181 C1 RU 2657181C1 RU 2017130928 A RU2017130928 A RU 2017130928A RU 2017130928 A RU2017130928 A RU 2017130928A RU 2657181 C1 RU2657181 C1 RU 2657181C1
Authority
RU
Russia
Prior art keywords
sequence
characters
original image
recognized
converted
Prior art date
Application number
RU2017130928A
Other languages
English (en)
Inventor
Алексей Иванович Калюжный
Original Assignee
Общество с ограниченной ответственностью "Аби Продакшн"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество с ограниченной ответственностью "Аби Продакшн" filed Critical Общество с ограниченной ответственностью "Аби Продакшн"
Priority to RU2017130928A priority Critical patent/RU2657181C1/ru
Priority to US15/719,385 priority patent/US10546218B2/en
Application granted granted Critical
Publication of RU2657181C1 publication Critical patent/RU2657181C1/ru

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/224Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

Группа изобретений относится к технологиям оптического распознавания символов на изображении, содержащем текстовые символы. Техническим результатом является повышение качества оптического распознавания символов (OCR) за счет создания набора изображений и применения к изображению документа различных наборов операций конверсии. Предложен способ улучшения распознавания. Способ содержит этап, на котором осуществляют получение устройством обработки исходного изображения документа. Далее согласно способу осуществляют идентификацию месторасположения первой последовательности символов на исходном изображении, применение первого набора операций конвертации к первой части исходного изображения, включающей местоположение первой последовательности символов, для создания первой конвертированной части исходного изображения. Далее выполняют оптическое распознавание символов (OCR) первой конвертированной части исходного изображения для получения первой распознанной первой последовательности символов. 3 н. и 17 з.п. ф-лы, 5 ил.

Description

[0001] Настоящее изобретение в целом относится к вычислительным системам, а точнее -к системам и способам оптического распознавания символов (OCR).
УРОВЕНЬ ТЕХНИКИ
[0002] Оптическое распознавание символов (OCR) представляет собой реализованное вычислительными средствами преобразование изображений, содержащих текст (включая типографский, рукописный или печатный текст), в машиночитаемые электронные документы.
РАСКРЫТИЕ ИЗОБРЕТЕНИЯ
[0003] В соответствии с одним или более вариантами реализации настоящего изобретения пример способа выполнения оптического распознавания символов (OCR) на изображении, содержащем символы, может включать получение обрабатывающим устройством исходного изображения документа; идентификации месторасположения первой последовательности символов на исходном изображении; применение первого набора операций конвертации к первой части исходного изображения, включающей местоположение первой последовательности символов, для создания первой конвертированной части исходного изображения; выполнение оптического распознавания символов (OCR) первой конвертированной части исходного изображения для получения первой распознанной первой последовательности символов; применение второго набора операций конвертации к первой части исходного изображения для получения второй конвертированной части исходного изображения; выполнение оптического распознавания символов (OCR) второй конвертированной части исходного изображения для получения второй распознанной первой последовательности символов; и объединение первой распознанной первой последовательности символов и второй распознанной первой последовательности символов для получения объединенной первой последовательности символов; применение третьего набора операций конвертации к первой части исходного изображения, включающей местоположение первой последовательности символов, для получения третьей конвертированной части исходного изображения; выполнение оптического распознавания символов (OCR) третьей конвертированной части исходного изображения для получения третьей распознанной первой последовательности символов; объединение первой распознанной первой последовательности символов, второй распознанной первой последовательности символов и третьей распознанной первой последовательности символов для получения объединенной первой последовательности символов; и перевод полученной первой строки текста на второй естественный язык; где операции конвертации выбираются из группы операций конвертации, включающих изменение одной или более из следующих параметров изображения: разрешение, способ бинаризации, настройки исправления искажений, настройки устранения бликов, настройки устранения размытия и подавления шумов. В некоторых вариантах реализации этот способ включает шаги применения к первой части исходного изображения, содержащего местоположение первой последовательности символов, следующего набора операций конвертации с целью получения другой конвертированной части исходного изображения, а также выполнение оптического распознавания символов (OCR) на другой конвертированной части исходного изображения для получения другой распознанной первой последовательности символов заранее определенное количество раз. В некоторых вариантах реализации этот способ включает шаги определения качества полученной первой строки текста; сравнение обнаруженного качества полученной первой строки текста с заранее определенным порогом качества; в ответ на выявление того, что обнаруженное качество полученной первой строки текста не соответствует заранее определенному порогу качества, применение следующего набора операций конвертации к первой последовательности символов для создания другой конвертированной части исходного изображения, выполнение оптического распознавания символов (OCR) другой конвертированной первой последовательности символов для получения другой распознанной первой последовательности символов; объединение другой распознанной первой последовательности символов с ранее распознанной первой последовательности символов для получения в результате обновленной первой последовательности символов. В некоторых вариантах реализации объединение первой распознанной первой последовательности символов и второй распознанной первой последовательности символов включает выявление медианной строки, соответствующей первой последовательности символов, или взвешенной медианной строки, соответствующей первой последовательности символов. В некоторых вариантах реализации выявление медианной строки, соответствующей первой строке текста, включает выявление расстояния редактирования между первой распознанной первой строкой текста и второй распознанной первой строкой текста или выявление расстояния Левенштейна между первой распознанной первой строкой текста и второй распознанной первой строкой текста.
[0004] В соответствии с одним или более вариантами реализации настоящего изобретения пример системы для осуществления оптического распознавания символов (OCR) серии изображений, содержащих символы определенной системы письменности, может включать запоминающее устройство, устройство обработки, подключенное к запоминающему устройству, причем устройство обработки предназначено для выполнения следующих операций: получение обрабатывающим устройством исходного изображения документа; идентификацию месторасположения первой последовательности символов на исходном изображении; применение первого набора операций конвертации к первой части исходного изображения, включающей местоположение первой последовательности символов, для создания первой конвертированной части исходного изображения; выполнение оптического распознавания символов (OCR) первой конвертированной части исходного изображения для получения первой распознанной первой последовательности символов; применение второго набора операций конвертации к первой части исходного изображения для получения второй конвертированной части исходного изображения; выполнение оптического распознавания символов (OCR) второй конвертированной части исходного изображения для получения второй распознанной первой последовательности символов; и объединение первой распознанной первой последовательности символов и второй распознанной первой последовательности символов для получения объединенной первой последовательности символов; применение третьего набора операций конвертации к первой части исходного изображения, включающей местоположение первой последовательности символов, для получения третьей конвертированной части исходного изображения; выполнение оптического распознавания символов (OCR) третьей конвертированной части исходного изображения для получения третьей распознанной первой последовательности символов; объединение первой распознанной первой последовательности символов, второй распознанной первой последовательности символов и третьей распознанной первой последовательности символов для получения объединенной первой последовательности символов; и перевод полученной первой строки текста на второй естественный язык; где операции конвертации выбираются из группы операций конвертации, включающих изменение одного или более из следующих параметров изображения: разрешение, способ бинаризации, настройки исправления искажений, настройки устранения бликов, настройки устранения размытия и подавления шумов. В некоторых вариантах реализации система выполнена с возможностью также применения следующего набора операций конвертации к первой части исходного изображения, включающей местоположение первой последовательности символов, для создания другой конвертированной части исходного изображения; выполнения оптического распознавания символов (OCR) другой конвертированной части исходного изображения для получения следующей распознанной первой последовательности символов заранее определенное количество раз. В некоторых вариантах реализации система выполнена с возможностью также определения качества полученной первой строки текста; сравнения обнаруженного качества полученной первой строки текста с заранее определенным порогом качества; в ответ на выявление того, что обнаруженное качество полученной первой строки текста не соответствует заранее определенному порогу качества, применения следующего набора операций конвертации к первой последовательности символов для создания другой конвертированной части исходного изображения; выполнения оптического распознавания символов (OCR) другой конвертированной первой последовательности символов для получения другой распознанной первой последовательности символов; объединения другой распознанной первой последовательности символов с ранее распознанной первой последовательности символов для получения в результате обновленной первой последовательности символов. В некоторых вариантах реализации объединение первой распознанной первой последовательности символов и второй распознанной первой последовательности символов включает выявление медианной строки, соответствующей первой последовательности символов, или взвешенной медианной строки, соответствующей первой последовательности символов. В некоторых вариантах реализации выявление медианной строки, соответствующей первой строке текста, включает выявление расстояния редактирования между первой распознанной первой строкой текста и второй распознанной первой строкой текста или выявление расстояния Левенштейна между первой распознанной первой строкой текста и второй распознанной первой строкой текста.
[0005] В соответствии с одним или более вариантами реализации настоящего изобретения пример постоянного машиночитаемого носителя данных может включать исполняемые команды, которые при исполнении их обрабатывающим устройством приводят к выполнению обрабатывающим устройством операций, включающих в себя: получение обрабатывающим устройством исходного изображения документа; идентификацию месторасположения первой последовательности символов на исходном изображении; применение первого набора операций конвертации к первой части исходного изображения, включающей местоположение первой последовательности символов, для создания первой конвертированной части исходного изображения; выполнение оптического распознавания символов (OCR) первой конвертированной части исходного изображения для получения первой распознанной первой последовательности символов; применение второго набора операций конвертации к первой части исходного изображения для получения второй конвертированной части исходного изображения; выполнение оптического распознавания символов (OCR) второй конвертированной части исходного изображения для получения второй распознанной первой последовательности символов; и объединение первой распознанной первой последовательности символов и второй распознанной первой последовательности символов для получения объединенной первой последовательности символов; применение третьего набора операций конвертации к первой части исходного изображения, включающей местоположение первой последовательности символов, для получения третьей конвертированной части исходного изображения; выполнение оптического распознавания символов (OCR) третьей конвертированной части исходного изображения для получения третьей распознанной первой последовательности символов; объединение первой распознанной первой последовательности символов, второй распознанной первой последовательности символов и третьей распознанной первой последовательности символов для получения объединенной первой последовательности символов; и перевод полученной первой строки текста на второй естественный язык; где операции конвертации выбираются из группы операций конвертации, включающих изменение одного или более из следующих параметров изображения: разрешение, способ бинаризации, настройки исправления искажений, настройки устранения бликов, настройки устранения размытия и подавления шумов. В некоторых вариантах реализации система выполнена с возможностью также применения следующего набора операций конвертации к первой части исходного изображения, включающей местоположение первой последовательности символов, для создания другой конвертированной части исходного изображения; выполнения оптического распознавания символов (OCR) другой конвертированной части исходного изображения для получения следующей распознанной первой последовательности символов заранее определенное количество раз. В некоторых вариантах реализации система выполнена с возможностью также определения качества полученной первой строки текста; сравнения обнаруженного качества полученной первой строки текста с заранее определенным порогом качества; в ответ на выявление того, что обнаруженное качество полученной первой строки текста не соответствует заранее определенному порогу качества, применения следующего набора операций конвертации к первой последовательности символов для создания другой конвертированной части исходного изображения; выполнения оптического распознавания символов (OCR) другой конвертированной первой последовательности символов для получения другой распознанной первой последовательности символов; объединения другой распознанной первой последовательности символов с ранее распознанной первой последовательности символов для получения в результате обновленной первой последовательности символов. В некоторых вариантах реализации объединение первой распознанной первой последовательности символов и второй распознанной первой последовательности символов включает выявление медианной строки, соответствующей первой последовательности символов, или взвешенной медианной строки, соответствующей первой последовательности символов. В некоторых вариантах реализации выявление медианной строки, соответствующей первой строке текста, включает выявление расстояния редактирования между первой распознанной первой строкой текста и второй распознанной первой строкой текста или выявление расстояния Левенштейна между первой распознанной первой строкой текста и второй распознанной первой строкой текста.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
[0006] Настоящее изобретение иллюстрируется с помощью примеров, а не способом ограничения, и может быть лучше понято при рассмотрении приведенного ниже описания предпочтительных вариантов реализации в сочетании с чертежами, на которых:
[0007] На Фиг. 1 приведена блок-схема иллюстративного примера способа выполнения оптического распознавания символов (OCR) на изображении, содержащем символы текста, в соответствии с одним или более вариантами реализации настоящего изобретения.
[0008] На Фиг. 2 схематически иллюстрируется изображение с выявленными последовательностями символов.
[0009] На Фиг. 3 схематически иллюстрируется концепция снижения количества ошибок распознавания за счет использования серии изображений, полученных в результате различных операций конвертации.
[00010] На Фиг. 4А-4С схематически иллюстрируется выявление медианной строки среди множества последовательностей символов, представляющих результаты OCR соответствующих фрагментов изображения, в соответствии с одним или более вариантами реализации настоящего изобретения.
[00011] На Фиг. 5 приведена схема иллюстративного примера вычислительной системы, в которой реализованы способы настоящего изобретения.
ОПИСАНИЕ ПРЕДПОЧТИТЕЛЬНЫХ ВАРИАНТОВ РЕАЛИЗАЦИИ
[00012] В этом разделе описаны способы и системы для осуществления оптического распознавания символов (OCR) одного или более изображений, содержащих символы определенного алфавита. Алфавиты, символы которых могут быть обработаны с помощью систем и способов, описанных в этом документе, включают алфавиты с отдельными символами, или глифами, соответствующими отдельным звукам, а также иероглифические системы письменности с отдельными символами, соответствующими более крупным блокам, таким как слоги или слова.
[00013] В приведенном ниже описании термин «документ» должен толковаться расширительно, как относящийся к широкому спектру носителей текста, включая, помимо прочего, печатные или написанные от руки бумажные документы, баннеры, постеры, знаки, рекламные щиты и (или) другие физические объекты, несущие видимые символы текста на одной или более поверхностях. В приведенном ниже описании термин «Изображение документа» относится к изображению как минимум части исходного документа (например, страницы бумажного документа).
[00014] Система оптического распознавания символов (OCR) может получать изображение документа и преобразовывать полученное изображение в машиночитаемый формат, допускающий поиск и содержащий текстовую информацию, извлеченную из изображения документа. Процесс OCR может быть затруднен различными дефектами изображения, такими как визуальный шум, расфокусировка или низкая резкость изображения, блики и т.д., которые обычно вызваны дрожанием камеры, недостаточным освещением, неправильно выбранной выдержкой или диафрагмой и (или) другими условиями и затрудняющими обстоятельствами. Если обычные способы OCR не всегда могут правильно выполнить распознавание символов при наличии указанных выше и других дефектов изображения, то системы и способы, описанные в этом документе, могут значительно повысить качество OCR за счет создания набора изображений и применения к изображению документа различных наборов операций конверсии, как более подробно описано ниже.
[00015] В некоторых вариантах реализации текст, полученный системами и способами OCR, описанными в этом документе, может быть дополнительно обработан, например при помощи способов машинного перевода для перевода исходного текста на другой естественный язык.
[00016] В иллюстративном примере вычислительная система, реализующая описанные в этом документе способы, может получать изображение исходного документа.
[00017] Вычислительная система может обнаружить часть изображения, содержащую последовательность символов, которая может образовывать слово, группу слов или строку текста. Система может применить к этой части изображения (или ко всему изображению) один или более наборов операций конвертации, создавая серию конвертированных частей изображения. Каждый набор операций конвертации может состоять из одной или более операций конвертации. Операции конвертации могут включать изменение разрешения части изображения, применение различных способов бинаризации, изменение настроек исправления искажений, настроек устранения бликов, настроек контроля размытия и изменение операций подавления шумов. Эти операции могут применяться к части изображения по отдельности или в группе, последовательно или параллельно.
[00018] Затем система может выполнять распознавание символов на этих различных вариантах части изображения (или всего изображения), получая серию распознанных последовательностей символов. Система объединяет распознанные последовательности символов, чтобы повысить качество распознавания.
[00019] Хорошо известно, что различные дефекты изображений создают различные типы ошибок распознавания. Фиг. 3 далее иллюстрирует этот факт. Окружность 210 представляет все возможные ошибки распознавания. Окружность 220 и похожие окружности представляют ошибки распознавания, сохранившиеся в документе после применения к изображению операции частичной конвертации. Область 230 представляет множество ошибок распознавания, которые могут возникнуть в документе при объединении результатов OCR, полученных с использованием различных наборов операций конвертации.
[00020] Для объединения распознанных последовательных символов может использоваться метод медианной строки. В этом методе для каждого стека совпадающих последовательностей символов может быть выявлена медианная строка, представляющая результат OCR соответствующего фрагмента изображения. В некоторых вариантах реализации медианная строка может быть выявлена как последовательность символов, имеющая минимальную сумму расстояний редактирования до всех символьных последовательностей стека. Расстояние редактирования, которое в одном из иллюстративных примеров может быть представлено расстоянием Левенштейна, между первой последовательностью символов и второй последовательностью символов может быть равно минимальному количеству редактирований единичных символов (например, вставок, удалений или замен), необходимых для преобразования первой последовательности символов во вторую последовательность символов.
[00021] Различные аспекты упомянутых выше способов и систем подробно описаны ниже в этом документе с помощью примеров, а не способом ограничения.
[00022] На Фиг. 1 показана блок-схема одного из иллюстративных примеров способа 100 выполнения OCR изображения, содержащего символы текста, в соответствии с одним или более вариантами реализации настоящего изобретения. Способ 100 и (или) каждая из его отдельно взятых функций, процедур, подпрограмм или операций могут осуществляться с помощью одного или более процессоров вычислительной системы (например, вычислительной системы 500 на Фиг. 5), реализующей этот способ. В некоторых реализациях способ 100 может быть реализован в одном потоке обработки. В качестве альтернативы способ 100 может выполняться с использованием двух и более потоков обработки, при этом каждый поток выполняет одну или более отдельных функций, стандартных программ, подпрограмм или операций способа. В одном из иллюстративных примеров потоки обработки, в которых реализован способ 100, могут быть синхронизированы (например, с использованием семафоров, критических секций и (или) других механизмов синхронизации потоков). При альтернативном подходе потоки обработки, в которых реализован способ 100, могут выполняться асинхронно по отношению друг к другу. Таким образом, несмотря на то что Фиг. 1 и соответствующее описание содержат список операций для способа 100 в определенном порядке, в различных вариантах реализации способа как минимум некоторые из описанных операций могут выполняться параллельно и (или) в случайно выбранном порядке.
[00023] Для ясности и краткости настоящее описание предполагает, что конвертация изображения исходного документа производится последовательно, и следующая конвертация начинается после того, как предыдущая конвертация будет в значительной степени завершена. Однако в различных альтернативных реализациях изобретения конвертация изображения может совпадать по времени (например, может выполняться в различных потоках или процессах, которые выполняются на одном или более процессорах). Вместо этого две или более конвертации могут быть помещены в буфер и обрабатываться асинхронно с учетом выполнения вычислительной системой, реализующей данный способ, других операций конвертации.
[00024] Настоящее изобретение ссылается на «изображение» (например, кадр видео или отдельное изображение) исходного документа. Это изображение может именоваться «исходным изображением», то есть изображением до применения системой операций конвертации. После применения системой этих операций ко всему исходному изображению или части исходного изображения это изображение / часть изображения могут именоваться «конвертированным изображением» / «конвертированной частью изображения».
[00025] На шаге 110 вычислительная система, реализующая способ, может получать исходное изображение. На шаге 120 вычислительная система может идентифицировать местоположение последовательности символов на изображении. Как показано на Фиг. 2, система может идентифицировать местоположение последовательностей символов путем сегментации, то есть путем выявления внутри изображения 200а множества прямоугольников, таких как прямоугольник 205, содержащих последовательности символов. Эти последовательности символов могут содержать буквы, цифры, специальные символы, знаки пунктуации и т.д. В этом способе может быть использован любой известный способ выявления местоположений последовательностей символов.
[00026] На шаге 130 система выполняет распознавание (OCR) последовательностей символов, местоположение которых было идентифицировано системой на шаге 120. Распознавание может выполняться с использованием любого известного способа, например корреляции матриц, выделения признаков или их комбинации.
[00027] На шаге 140 система выбирает набор операций конвертации, которые будут применяться к части исходного изображения, содержащей последовательность символов. В некоторых вариантах реализации изобретения набор операций конвертации применяется к исходному изображению документа в целом.
[00028] Операция конвертации представляет собой операцию преобразования, применяемую к изображению, которая изменяет изображение некоторым образом. Например, к операциям конвертации относятся изменение разрешения изображения, выполнение бинаризации изображения с использованием определенных настроек, исправление искажений, бликов или размытия, выполнение операций подавления шума и т.д.
[00029] Шаг 140 выбора набора операций конвертации может включать выбор операций из списка типов доступных операций и (или) выбор параметров для одной или более выбранных операций. Набор операций конвертации может включать одну или более операций конвертации. В некоторых вариантах реализации последовательность наборов операций конвертации / параметров операций определена заранее. В других вариантах реализации выбор наборов операций конвертации и (или) их параметров выполняется на основе обратной связи от системы. В некоторых вариантах в набор операций конвертации могут быть включены одинаковые операции конвертации с разными параметрами.
[00030] На шаге 150 система применяет выбранную операцию конвертации к изображению (или части изображения, содержащей последовательность символов), получая в результате конвертированное изображение, соответствующее выбранному набору операций конвертации.
[00031] После выполнения конвертации 150 изображения система повторяет шаги 130 выполнения распознавания последовательности символов, используя конвертированное изображение. При этом распознавании получается другая последовательность символов, которая может отличаться от последовательности символов, полученной с использованием исходного изображения.
[00032] В некоторых вариантах реализации система выполняет шаги 130-150 несколько раз для создания серии конвертированных изображений и соответствующей серии распознанных последовательностей символов. В некоторых вариантах реализации количество выполнений конвертации / распознавания определено заранее. В других вариантах реализации это количество определяется на основе обратной связи от системы.
[00033] На шаге 160 вычислительная система может объединять результаты распознавания серии модифицированных изображений. Система может выполнить объединение, выявляя медианную строку каждого стека совпадающих последовательностей символов, такую, что выявленная медианная строка должна соответствовать результату OCR соответствующего фрагмента изображения.
[00034] Как схематически показано на Фиг. 4А, каждый стек 402 может содержать множество совпадающих последовательностей символов 404, а результат OCR соответствующего фрагмента изображения может быть представлен медианной строкой 406. В некоторых вариантах реализации медианная строка может быть выявлена как последовательность символов, имеющая минимальную сумму расстояний редактирования до всех символьных последовательностей стека. Расстояние редактирования, которое в одном из иллюстративных примеров может быть представлено расстоянием Левенштейна, между первой последовательностью символов и второй последовательностью символов может быть равно минимальному количеству редактирований единичных символов (например, вставок, удалений или замен), необходимых для преобразования первой последовательности символов во вторую последовательность символов.
[00035] В некоторых вариантах реализации вычислительная сложность выявления медианной строки может быть уменьшена за счет применения определенных эвристических методов. В одном из иллюстративных примеров вычислительная система может эвристически выявить аппроксимацию нулевого порядка медианной строки. Затем вычислительная система может выровнять последовательности символов, используя строго совпадающие символы внутри каждой последовательности, как схематически показано на Фиг. 4В. В другом иллюстративном примере вычислительная система может вычислять взвешенную медиану, связывая с каждой последовательностью символов в стеке весовой коэффициент, отражающий положение последовательности символов в изображении или показатель уверенности распознавания. Как схематически показано на Фиг. 4С, стек 412 содержит четыре последовательности символов: TOP, TOP, TORRENT, TORRENT. Первые две последовательности символов соответствуют частям слов, так как расстояние от границы минимального описывающего прямоугольника последовательности символов до края изображения меньше, чем ширина пробела. Поэтому значение показателя уверенности распознавания для первых двух последовательностей символов значительно меньше, чем значение показателя уверенности распознавания для оставшихся двух последовательностей символов, и поэтому последовательность символов TORRENT будет выбрана в качестве медианной строки методом, который принимает во внимание значения уверенности распознавания.
[00036] В различных реализациях настоящего изобретения операции, описанные на шаге 130-150, могут выполняться в другой последовательности или параллельно. Кроме того, в некоторых реализациях настоящего изобретения некоторые операции, описанные на шаге 110-120, могут быть пропущены.
[00037] Если возвратиться к Фиг. 1, на шаге 170 вычислительная система может использовать полученные последовательности символов для получения итогового текста, соответствующего исходному документу.
[00038] Как отмечено выше в настоящем документе, текст, создаваемый системами и способами OCR, описанными в этом документе, может подвергаться дальнейшей обработке, например способами машинного перевода для перевода исходного текста на другой естественный язык. Поскольку описанные в этом документе способы позволяют реконструировать исходный текст, а не только отдельные слова, то для повышения качества машинного перевода способы машинного перевода могут использовать синтаксический и (или) семантический анализ.
[00039] На Фиг. 5 представлена более подробная схема компонентов примера вычислительной системы 500, внутри которой может быть исполнен набор инструкций, которые вызывают выполнение вычислительной системой любого одного или более способов настоящего изобретения. Вычислительная система 500 может быть соединена с другой вычислительной системой по локальной сети, корпоративной сети, сети экстранет или сети Интернет. Вычислительная система 500 может работать в качестве сервера или клиента в сетевой среде «клиент / сервер» либо в качестве однорангового вычислительного устройства в одноранговой (или распределенной) сетевой среде. Вычислительная система 500 может быть представлена персональным компьютером (ПК), планшетным ПК, телевизионной приставкой (STB), карманным ПК (PDA), сотовым телефоном или любой вычислительной системой, способной выполнять набор команд (последовательно или иным образом), определяющих операции, которые должны быть выполнены этой вычислительной системой. Кроме того, несмотря на то что показана только одна вычислительная система, термин «вычислительная система» также может включать любую совокупность вычислительных систем, которые отдельно или совместно выполняют набор (или более наборов) команд для выполнения одной или более методик, обсуждаемых в настоящем документе.
[00040] Пример вычислительной системы 500 включает процессор 502, основное запоминающее устройство 504 (например, постоянное запоминающее устройство (ПЗУ) или динамическое оперативное запоминающее устройство (ДОЗУ)) и устройство хранения данных 518, которые взаимодействуют друг с другом по шине 530.
[00041] Процессор 502 может быть представлен одним или более универсальными устройствами обработки данных, например микропроцессором, центральным процессором и т.п. В частности, процессор 502 может представлять собой микропроцессор с полным набором команд (CISC), микропроцессор с сокращенным набором команд (RISC), микропроцессор с командными словами сверхбольшой длины (VLIW) или процессор, реализующий другой набор команд, или процессоры, реализующие комбинацию наборов команд. Процессор 502 также может представлять собой одно или более устройств обработки специального назначения, например заказную интегральную микросхему (ASIC), программируемую пользователем вентильную матрицу (FPGA), процессор цифровых сигналов (DSP), сетевой процессор и т.п. Процессор 502 выполнен с возможностью исполнения инструкций 526 для выполнения операций и функций способа 100 выполнения OCR серии изображений, содержащих символы текста, как описано выше в этом документе.
[00042] Вычислительная система 500 может дополнительно включать устройство сетевого интерфейса 522, устройство визуального отображения 510, устройство ввода символов 512 (например, клавиатуру) и устройство ввода в виде сенсорного экрана 514.
[00043] Устройство хранения данных 518 может содержать машиночитаемый носитель данных 524, в котором хранится один или более наборов команд 526, реализующих один или более из способов или функций настоящего изобретения. Команды 526 также могут находиться полностью или по меньшей мере частично в основном запоминающем устройстве 504 и (или) в процессоре 502 во время выполнения их в вычислительной системе 500, при этом основное запоминающее устройство 504 и процессор 502 также представляют собой машиночитаемый носитель данных. Команды 526 дополнительно могут передаваться или приниматься по сети 516 через устройство сетевого интерфейса 522.
[00044] В некоторых вариантах реализации инструкции 526 могут включать команды способа 100 выполнения OCR серии изображений, содержащих символы текста, как описано выше в этом документе. Несмотря на то что машиночитаемый носитель данных 524, показанный в примере на Фиг. 5, является единым носителем, термин «машиночитаемый носитель» может включать один или более носителей (например, централизованную или распределенную базу данных и (или) соответствующие кэши и серверы), в которых хранится один или более наборов команд. Термин «машиночитаемый носитель данных» также может включать любой носитель, который может хранить, кодировать или содержать набор команд для выполнения машиной и который обеспечивает выполнение машиной любой одной или более методик настоящего изобретения. Поэтому термин «машиночитаемый носитель данных» относится, помимо прочего, к твердотельным запоминающим устройствам, а также к оптическим и магнитным носителям.
[00045] Способы, компоненты и функции, описанные в этом документе, могут быть реализованы с помощью дискретных компонентов оборудования либо они могут быть встроены в функции других компонентов оборудования, например ASICS (специализированная заказная интегральная схема), FPGA (программируемая логическая интегральная схема), DSP (цифровой сигнальный процессор) или аналогичных устройств. Кроме того, способы, компоненты и функции могут быть реализованы с помощью модулей встроенного программного обеспечения или функциональных схем аппаратного обеспечения. Способы, компоненты и функции также могут быть реализованы с помощью любой комбинации аппаратного обеспечения и программных компонентов либо исключительно с помощью программного обеспечения.
[00046] В приведенном выше описании изложены многочисленные детали. Однако любому специалисту в этой области техники, ознакомившемуся с этим описанием, должно быть очевидно, что настоящее изобретение может быть осуществлено на практике без этих конкретных деталей. В некоторых случаях хорошо известные структуры и устройства показаны в виде блок-схем без детализации, чтобы не усложнять описание настоящего изобретения.
[00047] Некоторые части описания предпочтительных вариантов реализации изобретения представлены в виде алгоритмов и символического представления операций с битами данных в запоминающем устройстве компьютера. Такие описания и представления алгоритмов представляют собой средства, используемые специалистами в области обработки данных, что обеспечивает наиболее эффективную передачу сущности работы другим специалистам в данной области. В контексте настоящего описания, как это и принято, алгоритмом называется логически непротиворечивая последовательность операций, приводящих к желаемому результату. Операции подразумевают действия, требующие физических манипуляций с физическими величинами. Обычно, хотя и необязательно, эти величины принимают форму электрических или магнитных сигналов, которые можно хранить, передавать, комбинировать, сравнивать и выполнять другие манипуляции. Иногда удобно, прежде всего для обычного использования, описывать эти сигналы в виде битов, значений, элементов, символов, терминов, цифр и т.д.
[00048] Однако следует иметь в виду, что все эти и подобные термины должны быть связаны с соответствующими физическими величинами и что они являются лишь удобными обозначениями, применяемыми к этим величинам. Если не указано дополнительно, принимается, что в последующем описании термины «определение», «вычисление», «расчет», «получение», «установление», «изменение» и т.п. относятся к действиям и процессам вычислительной системы или аналогичной электронной вычислительной системы, которая использует и преобразует данные, представленные в виде физических (например, электронных) величин в реестрах и запоминающих устройствах вычислительной системы, в другие данные, аналогично представленные в виде физических величин в запоминающих устройствах или реестрах вычислительной системы или иных устройствах хранения, передачи или отображения такой информации.
[00049] Настоящее изобретение также относится к устройству для выполнения операций, описанных в настоящем документе. Такое устройство может быть специально сконструировано для требуемых целей, либо оно может представлять собой универсальный компьютер, который избирательно приводится в действие или дополнительно настраивается с помощью программы, хранящейся в памяти компьютера. Такая компьютерная программа может храниться на машиночитаемом носителе данных, например, помимо прочего, на диске любого типа, включая дискеты, оптические диски, CD-ROM и магнитно-оптические диски, постоянные запоминающие устройства (ПЗУ), оперативные запоминающие устройства (ОЗУ), СППЗУ, ЭППЗУ, магнитные или оптические карты и носители любого типа, подходящие для хранения электронной информации.
[00050] Следует понимать, что приведенное выше описание призвано иллюстрировать, а не ограничивать сущность изобретения. Специалистам в данной области техники после прочтения и уяснения приведенного выше описания станут очевидны и различные другие варианты реализации изобретения. Исходя из этого область применения изобретения должна определяться с учетом прилагаемой формулы изобретения, а также всех областей применения эквивалентных способов, на которые в равной степени распространяется формула изобретения.

Claims (68)

1. Способ улучшения качества распознавания, включающий:
получение устройством обработки исходного изображения документа;
идентификация месторасположения первой последовательности символов на исходном изображении;
применение первого набора операций конвертации к первой части исходного изображения, включающей местоположение первой последовательности символов, для создания первой конвертированной части исходного изображения;
выполнение оптического распознавания символов (OCR) первой конвертированной части исходного изображения для получения первой распознанной первой последовательности символов;
применение второго набора операций конвертации к первой части исходного изображения, включающей местоположение первой последовательности символов, для получения второй конвертированной части исходного изображения;
выполнение оптического распознавания символов (OCR) второй конвертированной части исходного изображения для получения второй распознанной первой последовательности символов; и
объединение первой распознанной первой последовательности символов и второй распознанной первой последовательности символов для получения объединенной первой последовательности символов.
2. Способ по п. 1, дополнительно включающий:
применение третьего набора операций конвертации к первой части исходного изображения, включающей местоположение первой последовательности символов, для получения третьей конвертированной части исходного изображения;
выполнение оптического распознавания символов (OCR) третьей конвертированной части исходного изображения для получения третьей распознанной первой последовательности символов; и
объединение первой распознанной первой последовательности символов, второй распознанной первой последовательности символов и третьей распознанной первой последовательности символов для получения объединенной первой последовательности символов.
3. Способ по п. 2, отличающийся тем, что операции конвертации выбираются из группы операций конвертации, включающей изменение одного или более из следующих параметров изображения: разрешение, способ бинаризации, настройки исправления искажений, настройки устранения бликов, настройки устранения размытия и подавления шумов.
4. Способ по п. 2, отличающийся тем, что набор операций конвертации включает первую операцию конвертации с первым набором параметров конвертации, вторую операцию конвертации со вторым набором параметров конвертации.
5. Способ по п. 2, также включающий выполнение следующих шагов:
применение следующего набора операций конвертации к первой части исходного изображения, включающей местоположение первой последовательности символов, для создания другой конвертированной части исходного изображения;
выполнение оптического распознавания символов (OCR) другой конвертированной части исходного изображения для получения другой распознанной первой последовательности символов;
заранее определенное количество раз.
6. Способ по п. 2, дополнительно включающий:
определение качества полученной первой строки текста;
сравнение определенного качества полученной первой строки текста с заранее определенным порогом качества;
в ответ на выявление того, что обнаруженное качество полученной первой строки текста не соответствует заранее определенному порогу качества, применение следующего набора операций конвертации к первой последовательности символов для создания другой конвертированной части исходного изображения;
выполнение оптического распознавания символов (OCR) другой конвертированной первой последовательности символов для получения другой распознанной первой последовательности символов;
объединение другой распознанной первой последовательности символов и предыдущей распознанной первой последовательности символов для получения обновленной первой последовательности символов.
7. Способ по п. 1, отличающийся тем, что объединение первой распознанной первой последовательности символов и второй распознанной первой последовательности символов включает выявление медианной строки, соответствующей первой последовательности символов.
8. Способ по п. 7, отличающийся тем, что выявление медианной строки, соответствующей первой последовательности символов, включает выявление расстояния редактирования между первой распознанной первой строкой текста и второй распознанной первой строкой текста.
9. Способ по п. 7, отличающийся тем, что выявление медианной строки, соответствующей первой последовательности символов, включает выявление расстояния Левенштейна между первой распознанной первой строкой текста и второй распознанной первой строкой текста.
10. Способ по п. 1, отличающийся тем, что первая последовательность символов предоставляется на первом естественном языке, способ также включает:
перевод полученной первой последовательности символов на второй естественный язык.
11. Система улучшения качества распознавания, содержащая:
запоминающее устройство (ЗУ);
устройство обработки, подключенное к запоминающему устройству, причем устройство обработки выполнено, чтобы:
получать (посредством устройства обработки) исходное изображение документа;
идентифицировать месторасположения первой последовательности символов на исходном изображении;
применять первый набор операций конвертации к первой части исходного изображения, включающей местоположение первой последовательности символов, для создания первой конвертированной части исходного изображения;
выполнять оптическое распознавание символов (OCR) первой конвертированной части исходного изображения для получения первой распознанной первой последовательности символов;
применять второй набор операций конвертации к первой части исходного изображения, включающей местоположение первой последовательности
символов, для получения второй конвертированной части исходного изображения;
выполнять оптическое распознавание символов (OCR) второй конвертированной части исходного изображения для получения второй распознанной первой последовательности символов; и
объединять первую распознанную первую последовательность символов и вторую распознанную первую последовательность символов для получения объединенной первой последовательности символов.
12. Система по п. 11, дополнительно предназначенная, чтобы: применять третий набор операций конвертации к первой части исходного изображения, включающей местоположение первой последовательности символов, для получения третьей конвертированной части исходного изображения;
выполнять оптическое распознавание символов (OCR) третьей конвертированной части исходного изображения для получения третьей распознанной первой последовательности символов; и
объединять первую распознанную первую последовательность символов, вторую распознанную первую последовательность символов и третью распознанную первую последовательность символов для получения объединенной первой последовательности символов.
13. Система по п. 12, отличающаяся тем, что операции конвертации выбираются из группы операций конвертации, включающей изменение одного или более из следующих параметров изображения: разрешение, способ бинаризации, настройки исправления искажений, настройки устранения бликов, настройки устранения размытия и подавления шумов.
14. Система по п. 12, отличающаяся тем, что набор операций конвертации включает первую операцию конвертации с первым набором параметров конвертации, вторую операцию конвертации со вторым набором параметров конвертации.
15. Система по п. 12, дополнительно предназначенная для:
применения следующего набора операций конвертации к первой части исходного изображения, включающей местоположение первой последовательности символов, для создания другой конвертированной части исходного изображения;
выполнения оптического распознавания символов (OCR) другой конвертированной части исходного изображения для получения другой распознанной первой последовательности символов;
заранее определенное количество раз.
16. Система по п. 12, дополнительно предназначенная для:
определения качества полученной первой строки текста;
сравнения определенного качества полученной первой строки текста с заранее определенным порогом качества;
в ответ на выявление того, что обнаруженное качество полученной первой строки текста не соответствует заранее определенному порогу качества, применения следующего набора операций конвертации к первой последовательности символов для создания другой конвертированной части исходного изображения;
выполнения оптического распознавания символов (OCR) другой конвертированной первой последовательности символов для получения другой распознанной первой последовательности символов;
объединения другой распознанной первой последовательности символов и предыдущей распознанной первой последовательности символов для получения обновленной первой последовательности символов.
17. Система по п. 11, отличающаяся тем, что первая последовательность символов предоставляется на первом естественном языке, дополнительно предназначена для перевода первой последовательности символов на второй естественный язык.
18. Машиночитаемый постоянный носитель данных, содержащий исполняемые команды, которые при выполнении в обрабатывающем устройстве заставляют это обрабатывающее устройство:
получать исходное изображение физического документа;
идентифицировать месторасположение первой последовательности символов на исходном изображении;
применять первый набор операций конвертации к первой части исходного изображения, включающей местоположение первой последовательности символов, для создания первой конвертированной части исходного изображения;
выполнять оптическое распознавание символов (OCR) первой конвертированной части исходного изображения для получения первой распознанной первой последовательности символов;
применять второй набор операций конвертации к первой части исходного изображения, включающей местоположение первой последовательности символов, для получения второй конвертированной части исходного изображения;
выполнять оптическое распознавание символов (OCR) второй конвертированной части исходного изображения для получения второй распознанной первой последовательности символов; и
объединять первую распознанную первую последовательность символов и вторую распознанную первую последовательность символов для получения объединенной первой последовательности символов.
19. Машиночитаемый постоянный носитель данных по п. 18, дополнительно содержащий исполняемые команды, которые при выполнении в вычислительном устройстве заставляют это вычислительное устройство: применять третий набор операций конвертации к первой части исходного изображения, включающей местоположение первой последовательности символов, для получения третьей конвертированной части исходного изображения;
выполнять оптическое распознавание символов (OCR) третьей конвертированной части исходного изображения для получения третьей распознанной первой последовательности символов; и
объединять первую распознанную первую последовательность символов, вторую распознанную первую последовательность символов и третью распознанную первую последовательность символов для получения объединенной первой последовательности символов.
20. Машиночитаемый постоянный носитель данных по п. 18, отличающийся тем, что операции конвертации выбираются из группы операций конвертации, включающей изменение одного или более из следующих параметров изображения: разрешение, способ бинаризации, настройки исправления искажений, настройки устранения бликов, настройки устранения размытия и подавления шумов.
RU2017130928A 2017-09-01 2017-09-01 Способ улучшения качества распознавания отдельного кадра RU2657181C1 (ru)

Priority Applications (2)

Application Number Priority Date Filing Date Title
RU2017130928A RU2657181C1 (ru) 2017-09-01 2017-09-01 Способ улучшения качества распознавания отдельного кадра
US15/719,385 US10546218B2 (en) 2017-09-01 2017-09-28 Method for improving quality of recognition of a single frame

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2017130928A RU2657181C1 (ru) 2017-09-01 2017-09-01 Способ улучшения качества распознавания отдельного кадра

Publications (1)

Publication Number Publication Date
RU2657181C1 true RU2657181C1 (ru) 2018-06-08

Family

ID=62560458

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2017130928A RU2657181C1 (ru) 2017-09-01 2017-09-01 Способ улучшения качества распознавания отдельного кадра

Country Status (2)

Country Link
US (1) US10546218B2 (ru)
RU (1) RU2657181C1 (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11106931B2 (en) * 2019-07-22 2021-08-31 Abbyy Production Llc Optical character recognition of documents having non-coplanar regions

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3798898A1 (en) * 2019-09-30 2021-03-31 Anyline GmbH Computer-implemented method for optical character recognition

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5594815A (en) * 1992-10-19 1997-01-14 Fast; Bruce B. OCR image preprocessing method for image enhancement of scanned documents
US20060017752A1 (en) * 2004-04-02 2006-01-26 Kurzweil Raymond C Image resizing for optical character recognition in portable reading machine
US7400768B1 (en) * 2001-08-24 2008-07-15 Cardiff Software, Inc. Enhanced optical recognition of digitized images through selective bit insertion
RU2445699C1 (ru) * 2007-11-28 2012-03-20 Люмэкс Ас Способ обработки данных оптического распознавания символов (ocr), где выходные данные включают в себя изображения символов с нарушенной видимостью
US20150161465A1 (en) * 2009-10-29 2015-06-11 Google Inc. Text recognition for textually sparse images

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7031553B2 (en) 2000-09-22 2006-04-18 Sri International Method and apparatus for recognizing text in an image sequence of scene imagery
US7840033B2 (en) 2004-04-02 2010-11-23 K-Nfb Reading Technology, Inc. Text stitching from multiple images
JP4784322B2 (ja) * 2006-01-31 2011-10-05 ソニー株式会社 画像処理装置
KR100791517B1 (ko) * 2006-02-18 2008-01-03 삼성전자주식회사 디지털 방송 수신 단말기가 디지털 방송으로부터 전화번호정보를 검출하는 장치 및 방법
US8526732B2 (en) * 2010-03-10 2013-09-03 Microsoft Corporation Text enhancement of a textual image undergoing optical character recognition
US8930176B2 (en) * 2010-04-01 2015-01-06 Microsoft Corporation Interactive multilingual word-alignment techniques
US9349066B2 (en) 2012-01-06 2016-05-24 Qualcomm Incorporated Object tracking and processing
JP5833956B2 (ja) * 2012-03-06 2015-12-16 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 文書を校正する情報処理装置、方法およびプログラム
US9058536B1 (en) 2012-09-26 2015-06-16 Amazon Technologies, Inc. Image-based character recognition
US9064174B2 (en) 2012-10-18 2015-06-23 Microsoft Technology Licensing, Llc Simultaneous tracking and text recognition in video frames
US9191554B1 (en) * 2012-11-14 2015-11-17 Amazon Technologies, Inc. Creating an electronic book using video-based input
US20140192210A1 (en) 2013-01-04 2014-07-10 Qualcomm Incorporated Mobile device based text detection and tracking
US9911361B2 (en) * 2013-03-10 2018-03-06 OrCam Technologies, Ltd. Apparatus and method for analyzing images
US9922247B2 (en) 2013-12-18 2018-03-20 Abbyy Development Llc Comparing documents using a trusted source
WO2015165524A1 (en) 2014-04-30 2015-11-05 Longsand Limited Extracting text from video
US9984287B2 (en) * 2015-03-05 2018-05-29 Wipro Limited Method and image processing apparatus for performing optical character recognition (OCR) of an article

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5594815A (en) * 1992-10-19 1997-01-14 Fast; Bruce B. OCR image preprocessing method for image enhancement of scanned documents
US7400768B1 (en) * 2001-08-24 2008-07-15 Cardiff Software, Inc. Enhanced optical recognition of digitized images through selective bit insertion
US20060017752A1 (en) * 2004-04-02 2006-01-26 Kurzweil Raymond C Image resizing for optical character recognition in portable reading machine
RU2445699C1 (ru) * 2007-11-28 2012-03-20 Люмэкс Ас Способ обработки данных оптического распознавания символов (ocr), где выходные данные включают в себя изображения символов с нарушенной видимостью
US20150161465A1 (en) * 2009-10-29 2015-06-11 Google Inc. Text recognition for textually sparse images

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11106931B2 (en) * 2019-07-22 2021-08-31 Abbyy Production Llc Optical character recognition of documents having non-coplanar regions
US11699294B2 (en) 2019-07-22 2023-07-11 Abbyy Development Inc. Optical character recognition of documents having non-coplanar regions

Also Published As

Publication number Publication date
US10546218B2 (en) 2020-01-28
US20190073571A1 (en) 2019-03-07

Similar Documents

Publication Publication Date Title
Burie et al. ICDAR2015 competition on smartphone document capture and OCR (SmartDoc)
RU2619712C1 (ru) Оптическое распознавание символов серии изображений
US8494273B2 (en) Adaptive optical character recognition on a document with distorted characters
RU2613849C1 (ru) Оптическое распознавание символов серии изображений
US8965126B2 (en) Character recognition device, character recognition method, character recognition system, and character recognition program
US10699109B2 (en) Data entry from series of images of a patterned document
RU2668717C1 (ru) Генерация разметки изображений документов для обучающей выборки
RU2634194C1 (ru) Верификация результатов оптического распознавания символов
RU2707147C1 (ru) Обучение нейронной сети посредством специализированных функций потерь
RU2757713C1 (ru) Распознавание рукописного текста посредством нейронных сетей
CN112434690A (zh) 动态解析文本图像特征现象的元素自动捕获理解方法、系统及存储介质
US11023764B2 (en) Method and system for optical character recognition of series of images
RU2581786C1 (ru) Определение преобразований изображения для повышения качества оптического распознавания символов
RU2673015C1 (ru) Способы и системы оптического распознавания символов серии изображений
CN111401099A (zh) 文本识别方法、装置以及存储介质
Ramirez et al. Automatic recognition of square notation symbols in western plainchant manuscripts
RU2657181C1 (ru) Способ улучшения качества распознавания отдельного кадра
JP2008225695A (ja) 文字認識誤り修正装置およびプログラム
CN111008624A (zh) 光学字符识别方法和产生光学字符识别的训练样本的方法
CN114419636A (zh) 文本识别方法、装置、设备以及存储介质
RU2603495C1 (ru) Классификация изображений документов на основе параметров цветовых слоев
Gunawan et al. Russian character recognition using self-organizing map
Buoy et al. Toward a low-resource non-latin-complete baseline: an exploration of khmer optical character recognition
JP2010211470A (ja) 文書データ生成装置と文書データ生成方法
RU2721186C1 (ru) Оптическое распознавание символов документов с некопланарными областями

Legal Events

Date Code Title Description
QB4A Licence on use of patent

Free format text: LICENCE FORMERLY AGREED ON 20201211

Effective date: 20201211

QC41 Official registration of the termination of the licence agreement or other agreements on the disposal of an exclusive right

Free format text: LICENCE FORMERLY AGREED ON 20201211

Effective date: 20220311