RU2322694C2 - Способ обработки изображений - Google Patents

Способ обработки изображений Download PDF

Info

Publication number
RU2322694C2
RU2322694C2 RU2006107366/09A RU2006107366A RU2322694C2 RU 2322694 C2 RU2322694 C2 RU 2322694C2 RU 2006107366/09 A RU2006107366/09 A RU 2006107366/09A RU 2006107366 A RU2006107366 A RU 2006107366A RU 2322694 C2 RU2322694 C2 RU 2322694C2
Authority
RU
Russia
Prior art keywords
image
description
level
pyramid
vector
Prior art date
Application number
RU2006107366/09A
Other languages
English (en)
Other versions
RU2006107366A (ru
Inventor
Владимир Александрович Утробин (RU)
Владимир Александрович Утробин
ков Сергей Борисович Шев (RU)
Сергей Борисович Шевяков
Original Assignee
Общество с ограниченной ответственностью "Комэксп"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество с ограниченной ответственностью "Комэксп" filed Critical Общество с ограниченной ответственностью "Комэксп"
Priority to RU2006107366/09A priority Critical patent/RU2322694C2/ru
Publication of RU2006107366A publication Critical patent/RU2006107366A/ru
Application granted granted Critical
Publication of RU2322694C2 publication Critical patent/RU2322694C2/ru

Links

Images

Abstract

Изобретение относится к способам обработки визуальной информации и может быть использовано в системах технического зрения при решении задач поиска, слежения, наведения, диагностирования и контроля. Технический результат заключается в упрощении способа обработки изображений за счет исключения построения пирамиды копий изображения и повышении достоверности при задаваемой точности полученных результатов описания изображения за счет введения системы преобразований, удовлетворяющих требованиям полноты и простоты реализации. Указанный результат достигается за счет того, что исходное изображение разбивают на равные по площади области, каждой из которых ставится в соответствие матрица "визуальных" масс, формируют слои описания изображения первого пирамидального уровня многокомпонентным вектором градиентов над абсолютно гладким многообразием. Выделяют структурные элементы и связи между компонентами упомянутого вектора с образованием первого уровня пирамиды описаний, выделяют информационные подобласти внимания на анализируемом изображении с повторным описанием подобласти внимания с использованием перечисленных действий для образования следующего уровня иерархии описания. 1 з.п. ф-лы, 4 ил.

Description

Изобретение относится к способам обработки визуальной информации (изображений) и может быть использовано в системах технического зрения при решении задач поиска, слежения, наведения, диагностирования и контроля.
Известные способы обработки изображений для систем распознавания, во-первых, предполагают априорное знание класса наблюдаемых изображений, например, анализ символов, алфавитно-цифровой информации, текста, описанный в патентах РФ № 2172016, кл. G06К 9/36, опубл. 2001.08.10; № 2234126, кл. G06К 9/66, опубл. 2004.08.10; № 2239232, кл. С06К 9/36, опубл. 2004.10.27; № 2251151, кл. G06К 9/36, G06K 9/68, опубл. 2005.04.27; анализ текстур, защищенный патентом РФ № 2105351, кл. G06К 9/56, G06K 9/68, опубл. 2005.04.27; выделение и анализ контура, описанные в А.С. СССР № 1509959, кл. G06К 9/36, опубл. 1989.09.23; № 1529262, кл. С06К 9/36, опубл. 1989.12.15; № 1559358, кл. G06К 9/36, опубл. 1990.04.23, № 1672474 кл. G06T 7/60, G06K 9/46, G01S 17/02, опубл. 1991.08.23; патенте РФ №2216040, кл. G06К 9/48, G06T 7/60, опубл. 2003.11.10.
Во-вторых, известные способы обработки изображений для систем распознавания реализуют операцию свертки на пиксельном уровне, например, перечисленные выше изобретения, либо на пиксельном уровне используют амплитудную дискретизацию, например, описанные в А.С. СССР № 1564658, кл. G06K 9/00, G06K 9/36, опубл. 1990.05.15, патенте РФ № 2178915, кл. С06К 9/66, G06F 15/18, опубл. 2002.01.27; патенте РФ № 2193825, кл. Н04М 7/18, G06F 19/00, G06T 7/00, 7/20, 7/60, опубл. 2002.11.27, которые относятся к классу некорректных задач в силу их описания уравнением Фредгольма первого рода и нерешенности проблемы регуляризации [Реконструкция изображений: Пер. с англ. / Под ред. Г.Старка. - М.: Мир, 1992. С.15; Тематический выпуск "Машинное зрение" ТИИЭР, 1988, т.76, № 8]. Поэтому не отвечают необходимьм требованиям по надежности и быстродействию распознавания произвольных, априори не известных изображений, наблюдаемых в поле зрения.
В-третьих, известные способы обработки изображений для систем распознавания используют предварительную фильтрацию помех на изображении для повышения надежности выделения информативных объектов на изображении, например, в А.С. СССР № 1226500, кл. G06K 9/36, опубл. 1986.04.23, А.С. СССР № 1295427 кл. G06K 9/36, опубл. 1987.03.07. Недостатком таких способов является необходимость априорного знания класса помех, что в принципе невозможно в условиях априорной неопределенности наблюдаемого изображения, а также необходимость реализации операции свертки при любой фильтрации, что, как отмечалось, снижает производительность системы обработки изображений.
Наиболее близким для обработки изображений является способ обработки изображения объекта, защищенный Патентом РФ № 2116671, кл. G06Т 7/40, G06K 9/56, опубл. 1998.07.27, в котором реализуются два этапа преобразований информации об изображении:
построение пирамиды изображений, реализуемое "сверху-вниз" через создание копий исходного изображения на каждом уровне пирамиды; для этого реализуются две операции - деление области изображения на подобласти Gi с равными площадями si и усреднение по яркости изображения по элементам μn,m каждой подобласти
Figure 00000001
;
построение признаковой пирамиды, которая одновременно является пирамидой описания изображения; построение пирамиды заданной высоты осуществляется "сверху-вниз", для этого требуется три операции: деление каждой из подобластей Gi равной площади s по осям координат х, y на участки, образующие множество новых непересекающихся подобластей по каждому варианту деления; усреднение по каждой выделенной подобласти; выявление бинарного отношения порядка между элементами двух непересекающихся выделенных подмножеств благодаря анализу соотношения типа (mi-mj) для равных по площади подобластей.
В результате формируются уровни описания изображения в виде структуры элементов и связей для любого изображения в условиях отсутствия априорной информации о последнем с использованием системы однородных признаков {mi} и системы однородных правил (бинарных отношений между подобластями).
Недостатком прототипа является то, что способ относительно сложен и требует построения двух пирамидальных систем, бинарные отношения выявляются только по двум направлениям и поэтому не удовлетворяют требованиям полноты (необходимости и достаточности) системы преобразований, а независимое последовательное построение двух пирамид и усреднение по площади выделенной подобласти снижают быстродействие обработки изображения.
Указанные недостатки устраняются предлагаемым решением.
Задачей изобретения является совершенствование известного способа.
Технический результат - упрощение способа обработки изображений за счет исключения построения пирамиды копий изображения и повышение достоверности при задаваемой точности полученных результатов описания изображения за счет введения системы преобразований, удовлетворяющих требованиям полноты и простоты реализации.
Этот технический результат достигается тем, что в способе обработки изображений, включающем построение пирамиды описаний, деление изображений, выделение структурных элементов и связей, формируют слои описания изображения как системного целого, первого пирамидального уровня многокомпонентным вектором градиентов над абсолютно гладким многообразием, получаемым в результате отображения исходного изображения, разделенного на равные по площади области, полученным интегральным преобразованием, и выделяют структурные элементы и связи между компонентами вектора с образованием первого уровня пирамиды описаний, затем выделяют информационные подобласти внимания на анализируемом изображении с повторным описанием подобласти внимания с использованием перечисленных действий для образования следующего уровня иерархии описания.
Исходное изображение делят на шестнадцать равных по площади областей, формируют шестнадцать слоев описания изображения, как системного целого, пятнадцатикомпонентным вектором градиентов, а структурные элементы, связи между компонентами вектора и подобласти внимания выделяют по двум типам алгебраических групп.
Предлагаемый способ заключается в следующем.
1. Все полутоновое видеоизображение, заданное в поле зрения (области определения G) М×N как множество координатно упорядоченных точек с яркостями {μn,m}, разбивается на 16 равных по площади областей {Gj}, каждой из которых ставится в соответствие матрица 4×4||mij|| "визуальных" масс
Figure 00000002
где индексы n, m перебираются по области Gj.
В результате реализуется интегральное преобразование, отображающее исходное изображение в абсолютно гладкое многообразие.
На матрице ||mij|| как множестве точек, упорядоченном в двумерном пространстве и образующем скалярное поле, выявляется 15 градиентных направлений (векторных полей Киллинга) типа ∂/∂хi, которым соответствует 15 булевых функций (16-я функция - групповая единица, соответствующая нулевому направлению) - эквивалентов дифференциаторов (фильтров Fi, реализующих соответствующее преобразование по всей области определения G) типа
Figure 00000003
где i - номер варианта (и номер градиентного направления) разбиения (дихотомии) области определения G изображения на равные по площади две подобласти, каждой из которых в силу отображения (1) ставится в соответствие своя визуальная масса. Нулевому направлению соответствует визуальная масса m0≡μ0 по всей области G.
В результате реализуется дифференциальное преобразование, обратное (1), образующее с ним полную систему преобразований и выявляющее на многообразии, где нет помех в их изначальном понимании относительно исходного изображения, точку - визуальную массу всего изображения (информационный и достоверный фактор наличия чего-либо на изображении), и 15 компонент вектора μ=(μ0, μ1, ..., μ15), каждая из которых с позиций римановой геометрии - касательный вектор к соответствующей интегральной кривой в многообразии. Поэтому 15 фильтров как покрытий исходного изображения выявляют "изобразительное" (информационное) описание этого изображения. Это описание достоверно, точно (ε-точно, точно с позиций вариационного подхода) с заданной разрешающей способностью и получено с помощью 16-и параллельно реализуемых преобразований (включая нулевое), формирующих послойное описание на первом уровне пирамидальной обработки, под которой понимается система с переменным разрешением. С позиций системы зрительного восприятия преобразованию (1) соответствует действие тонических нейронов, а (2) - фазических. Преобразованиям (2), представленным в декартовой системе координат двумерного пространства, соответствует 15 преобразований вида
Figure 00000004
где n, m=0, 1, 2, 3; n+m=k; k≤6.
которые являются функциями чувствительности в ряде Тейлора при решении задачи активной идентификации, а их реализация - функции Уолша системы Хармута. Поскольку для реализации преобразований (1), (2) требуются простейшие преобразования - сложение и вычитание, то описанный способ вычислительной простотой и полнотой в силу полноты системы градиентных преобразований (2) на плоскости.
2. Множеству компонент вектора μ=(μ1, ..., μ15) ставится в соответствие множество бинарных двумерных операторов Vi (i=1, 2, ..., 15), являющихся бинарным описанием исходного изображения на уровне алфавита при решении задач синтеза образа, эквивалентного наблюдаемому исходному изображению, и конструктивно совпадающими с соответствующими им фильтрами Fi, по правилу: если μi≠0, и μi>0, то имеем Vi если μi≠0, и μi>0, то имеем
Figure 00000005
. Поэтому общее число операторов равно 15-и прямым и 15-и инверсным. Каждый оператор позволяет выделить подобласть внимания на анализируемом изображении, к которой можно применить процедуры (1), (2) послойного описания изображения на следующем уровне разрешения, а также является символом его описания на рассматриваемом уровне.
3. На множестве (прямых и инверсных) операторов {Vi} как алфавите формируются два типа алгебраических групп, выявляющих информационные связи между компонентами вектора μ. Первый тип алгебраической группы (полные группы) выявляет взаимные связи между тройкой компонент вектора по аналогии со взаимно-энергетическими связями спектральных компонент разложения (двумерного) сигнала. Правило образования полной группы Pni=(Vi Vj, Vk): переменные Vi, Vj, Vk принадлежат полной группе тогда и только тогда, когда их сумма - единица группы, в роли которой выступает оператор V0, соответствующий компоненте m0≡μ0. Описанием (изобразительным описанием на матрице 4×4, которая в данном случае называется планигоном) полной группы является произведение операторов, если число инверсий четно, и их сумма, если число инверсий нечетно. На множестве вариантов инверсий трех переменных общее число описаний для полной группы равно восьми, из которых четыре образованы на операции умножения, а четыре - операции сложения. Мощность множества полных групп равна 35.
Второй тип алгебраической группы (замкнутые группы) образованы на четырех переменных Рsi=(Vi, Vj, Vn, Vm) с описанием вида Рsi=ViVj+Vn+Vm, где число инверсных операторов должно быть нечетным. Число образов замкнутой группы, представленных на планигоне, на вариантах возможных инверсий равно восьми, а общее число замкнутых групп на множестве операторов равно 105. Правило образования замкнутой группы: четверка (Vi, Vj, Vn, Vm), где число инверсий операторов нечетно, образует замкнутую группу, если сумма операторов с учетом числа инверсий, - единица группы.
Любая замкнутая группа образована на паре полных групп при условии, если последние связаны общим оператором. Поэтому замкнутая группа, как более "крупное" образование, выявляет информационную связь над парой полных групп, входящих в ее состав.
С позиций системы зрительного восприятия, если множеству {Vi} соответствует множество нейронов, контролирующих свои рецепторные поля, то множеству полных групп - множество сложных нейронов, а множеству замкнутых групп - множество сверхсложных нейронов, образующих пирамидных клеток над зрительными полями.
Как полные, так и замкнутые группы на своих образах на планигоне как поле зрения позволяют выделять области внимания, к которым можно применить процедуры (1), (2) послойного описания изображения на следующем уровне разрешения. Одновременно использование элементов из множеств {Vi}, {Рni}, {Psi}, участвующих в иерархическом описании исходного изображения на заданном уровне разрешения, позволяют быстро (одномоментно, т.е. на малом числе признаков), просто и достоверно принимать решение, если в базе знаний находится эталонное описание на языке {Vi}, {Рni}, {Psi}.
Пример 1. Пусть изображение - множество яркостных точек (пикселей) μij, определенных в области G как поле зрения. Пусть система фильтров, реализующих (2), имеет вид по фиг.1 (квадратная форма фильтров условна и зависит от формы анализируемой области, а их структура может быть изменена с точностью до зеркального отображения на плоскости), где нумерация фильтров условна. Тогда каждый такой фильтр как покрытие изображения по всей области определения (на первом уровне пирамиды описаний такой областью является все поле зрения, на последующих уровнях - подобласти внимания) выявляет подобласти максимумов визуальной массы. Например, для фильтра F0 имеем
Figure 00000006
.
Если μ0=0, то в поле зрения отсутствуют какие-либо элементы изображения (получаем первый слой описания).
Для фильтра F1 поле зрения G делится на две равные по площади половины - левую G1 и правую G2, для которых находится первая компонента μ1 вектора μ
Figure 00000007
,
принадлежащая первому слою описания.
Если μ1=0, то слева и справа визуальные массы уравновешивают друг друга; если μ1>0, то слева сосредоточена большая визуальная масса; если μ1<0, то визуальная масса преобладает справа; если μ10,то все объекты изображения локализованы справа, а если |μ1|=μ0, то - слева.
Аналогична интерпретация действия остальных фильтров, которые выявляют пару структурных элементов на изображении и их структурную связь на пятнадцати независимых направлениях.
Для удобства реализации послойного описания на обычном компьютере допустимо предварительно разделить область G на шестнадцать равных по площади подобластей, для каждой из которых найти визуальную массу по (1) и оперировать с ними при формировании вектора μ.
Пример 2. Пусть объекты на изображении упорядочены и образуют некоторую структуру. Тогда каждый фильтр как покрытие позволяет выявить эту структуру сразу (одномоментно), если наблюдаемая структура соответствует структурной организации фильтра. Можно показать, что каждый фильтр, реализуя соответствующее дифференциальное преобразование, позволяет выявить свою интегральную кривую на абсолютно гладком многообразии, получаемом после реализации (1). На фиг.2 приведены примеры выявления структур и им соответствующих интегральных описаний.
Пример 3. Пусть изображение содержит некоторый объект, локализованный в первом квадранте области определения (фиг.3). Этому изображению соответствует матрица визуальных масс
Figure 00000008
,
покрывая которую системой фильтров (фиг.1) получаем вектор μ=(μ0, μ1, μ2, μ3, 0, ..., 0). Условие (μ1>0, μ2>0, μ3>0) при равенстве нулю остальных компонент вектора - это условие обнаружения области интереса в первом квадранте области определения изображения (в независимости от однородного фона в данном случае "нулевого"). Описанием этой области интереса является образ полной группы Рn=V1V2V3,.
Пример 4. Пусть выявлена область интереса (см. пример 3), в которой находится некоторый объект, например, знак А. Эту область интереса рассмотрим как новое изображение, т.е. относительно исходного изображения перейдем на следующий уровень пирамидальной обработки (фиг.4). Изображению соответствует матрица визуальных масс
Figure 00000009
и вектор μ=(μ2, 0, μ4, μ5, μ6, 0, μ8, 0, μ10, 0, 0, 0, μ14, 0), где |μ2|=|μ4|=μ56=|μ8|=|μ10|<<|μ14|. Компонентам вектора соответствуют операторы
Figure 00000010
,
Figure 00000011
, V5, V6,
Figure 00000012
,
Figure 00000013
,
Figure 00000014
, из которых образуются структурные элементы описания наблюдаемого объекта - полная группа
Figure 00000015
и замкнутая группа
Figure 00000016
. Более того, условие |μ14|=max на множестве компонент вектора выделяет образ оператора
Figure 00000014
как "универсальный" элемент типа выработанного эталона для вариантов написания знака А. Принимая описание объекта в виде Рn+Ps либо
Figure 00000014
n, либо
Figure 00000014
s за эталонное описание относительно просто решается задача распознавания данного объекта даже на фоне сильных помех (и частичного загораживания объекта), так как состав вектора (с учетом знаков компонент) достаточно устойчив, хотя абсолютные значения компонент меняются в зависимости от значений компонент матрицы визуальных масс. Данную устойчивость легко проверить экспериментально, так как соответствующая компьютерная программа реализации способа относительно проста.
Способ может быть реализован с использованием обычных компьютерных средств.
Таким образом, предлагаемое изобретение по сравнению с прототипом позволяет упростить способ обработки изображений за счет исключения построения двух пирамид и повысить достоверность при задаваемой точности полученных результатов описания изображения за счет введения системы преобразований и системы алгебраических групп, удовлетворяющих требованиям полноты и простоты реализации.

Claims (2)

1. Способ обработки изображений, включающий построение пирамиды описаний, деление изображений, выделение структурных элементов и связей, отличающийся тем, что разбивают исходное изображение на равные по площади области Gj, каждой из которых ставится в соответствие матрица ||mij|| "визуальных" масс
Figure 00000017
, где μn,m - яркость изображения, индексы n, m, перебираемые по области Gj, в результате реализуют отображение исходного изображения в абсолютно гладкое многообразие, формируют слои описания изображения, как системного целого, первого пирамидального уровня многокомпонентным вектором градиентов над абсолютно гладким многообразием, выделяют структурные элементы и связи между компонентами упомянутого вектора с образованием первого уровня пирамиды описаний, затем выделяют информационные подобласти внимания на анализируемом изображении, с повторным описанием подобласти внимания с использованием перечисленных действий для образования следующего уровня иерархии описания.
2. Способ по п.1, отличающийся тем, что исходное изображение делят на шестнадцать равных по площади областей, формируют шестнадцать слоев описания изображения, как системного целого, пятнадцати компонентным вектором градиентов.
RU2006107366/09A 2006-03-09 2006-03-09 Способ обработки изображений RU2322694C2 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2006107366/09A RU2322694C2 (ru) 2006-03-09 2006-03-09 Способ обработки изображений

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2006107366/09A RU2322694C2 (ru) 2006-03-09 2006-03-09 Способ обработки изображений

Publications (2)

Publication Number Publication Date
RU2006107366A RU2006107366A (ru) 2007-10-10
RU2322694C2 true RU2322694C2 (ru) 2008-04-20

Family

ID=38952290

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2006107366/09A RU2322694C2 (ru) 2006-03-09 2006-03-09 Способ обработки изображений

Country Status (1)

Country Link
RU (1) RU2322694C2 (ru)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EA017302B1 (ru) * 2011-10-07 2012-11-30 Закрытое Акционерное Общество "Импульс" Способ подавления шума серий цифровых рентгенограмм
RU2528140C1 (ru) * 2013-03-12 2014-09-10 Открытое акционерное общество "Научно-производственное объединение "Карат" (ОАО "НПО КАРАТ") Cпособ автоматического распознавания объектов на изображении
RU2542946C2 (ru) * 2009-11-19 2015-02-27 Нокиа Корпорейшн Способ и устройство для отслеживания и распознавания объектов с использованием дескрипторов, инвариантных относительно вращения

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2542946C2 (ru) * 2009-11-19 2015-02-27 Нокиа Корпорейшн Способ и устройство для отслеживания и распознавания объектов с использованием дескрипторов, инвариантных относительно вращения
EA017302B1 (ru) * 2011-10-07 2012-11-30 Закрытое Акционерное Общество "Импульс" Способ подавления шума серий цифровых рентгенограмм
RU2528140C1 (ru) * 2013-03-12 2014-09-10 Открытое акционерное общество "Научно-производственное объединение "Карат" (ОАО "НПО КАРАТ") Cпособ автоматического распознавания объектов на изображении

Also Published As

Publication number Publication date
RU2006107366A (ru) 2007-10-10

Similar Documents

Publication Publication Date Title
Wang Edge detection using convolutional neural network
Aggarwal et al. Line detection in images through regularized Hough transform
Miller et al. Automatic target recognition organized via jump-diffusion algorithms
Baykal et al. Transfer learning with pre-trained deep convolutional neural networks for serous cell classification
NL2016285B1 (en) Device and method for generating a group equivariant convolutional neural network.
DeLatte et al. Segmentation convolutional neural networks for automatic crater detection on mars
Cicone et al. Hyperspectral chemical plume detection algorithms based on multidimensional iterative filtering decomposition
CN111881804A (zh) 基于联合训练的姿态估计模型训练方法、系统、介质及终端
RU2322694C2 (ru) Способ обработки изображений
Ma et al. Visual analysis of class separations with locally linear segments
Islam et al. Extending the morphological hit-or-miss transform to deep neural networks
Choi et al. Comparative analysis of generalized intersection over union
Bartolo et al. Scribbles to vectors: preparation of scribble drawings for CAD interpretation
Wang et al. Multicell migration tracking within angiogenic networks by deep learning-based segmentation and augmented Bayesian filtering
Traver et al. Dealing with 2D translation estimation in log-polar imagery
Copeland et al. Texture synthesis using gray-level co-occurrence models: algorithms, experimental analysis, and psychophysical support
Kadar et al. A class of robust edge detectors based on Latin squares
Henzgen et al. Visualization of evolving fuzzy rule-based systems
Alhassan et al. Detection of Einstein telescope gravitational wave signals from binary black holes using deep learning
Lachaud et al. Two plane-probing algorithms for the computation of the normal vector to a digital plane
Sivanarayana et al. Review on the methodologies for image segmentation based on CNN
Nguyen et al. Object Detection with Component-Graphs in Multi-band Images: Application to Source Detection in Astronomical Images
Arfan Jaffar A dynamic fuzzy genetic algorithm for natural image segmentation using adaptive mean shift
Vieira et al. Robustness of rotation invariant descriptors for texture classification
Swathika et al. Multi-model fusion based satellite image classification using versatile unsupervised vector zone (VUVZ) fusion and intensive pragmatic blossoms (IPB) technique

Legal Events

Date Code Title Description
QB4A Licence on use of patent

Free format text: LICENCE FORMERLY AGREED ON 20210329

Effective date: 20210329