RU2322694C2

RU2322694C2 - Способ обработки изображений

Info

Publication number: RU2322694C2
Application number: RU2006107366/09A
Authority: RU
Inventors: Владимир Александрович Утробин (RU); Владимир Александрович Утробин; ков Сергей Борисович Шев (RU); Сергей Борисович Шевяков
Original assignee: Общество с ограниченной ответственностью "Комэксп"
Priority date: 2006-03-09
Filing date: 2006-03-09
Publication date: 2008-04-20
Also published as: RU2006107366A

Abstract

Изобретение относится к способам обработки визуальной информации и может быть использовано в системах технического зрения при решении задач поиска, слежения, наведения, диагностирования и контроля. Технический результат заключается в упрощении способа обработки изображений за счет исключения построения пирамиды копий изображения и повышении достоверности при задаваемой точности полученных результатов описания изображения за счет введения системы преобразований, удовлетворяющих требованиям полноты и простоты реализации. Указанный результат достигается за счет того, что исходное изображение разбивают на равные по площади области, каждой из которых ставится в соответствие матрица "визуальных" масс, формируют слои описания изображения первого пирамидального уровня многокомпонентным вектором градиентов над абсолютно гладким многообразием. Выделяют структурные элементы и связи между компонентами упомянутого вектора с образованием первого уровня пирамиды описаний, выделяют информационные подобласти внимания на анализируемом изображении с повторным описанием подобласти внимания с использованием перечисленных действий для образования следующего уровня иерархии описания. 1 з.п. ф-лы, 4 ил.

Description

Изобретение относится к способам обработки визуальной информации (изображений) и может быть использовано в системах технического зрения при решении задач поиска, слежения, наведения, диагностирования и контроля.

Известные способы обработки изображений для систем распознавания, во-первых, предполагают априорное знание класса наблюдаемых изображений, например, анализ символов, алфавитно-цифровой информации, текста, описанный в патентах РФ № 2172016, кл. G06К 9/36, опубл. 2001.08.10; № 2234126, кл. G06К 9/66, опубл. 2004.08.10; № 2239232, кл. С06К 9/36, опубл. 2004.10.27; № 2251151, кл. G06К 9/36, G06K 9/68, опубл. 2005.04.27; анализ текстур, защищенный патентом РФ № 2105351, кл. G06К 9/56, G06K 9/68, опубл. 2005.04.27; выделение и анализ контура, описанные в А.С. СССР № 1509959, кл. G06К 9/36, опубл. 1989.09.23; № 1529262, кл. С06К 9/36, опубл. 1989.12.15; № 1559358, кл. G06К 9/36, опубл. 1990.04.23, № 1672474 кл. G06T 7/60, G06K 9/46, G01S 17/02, опубл. 1991.08.23; патенте РФ №2216040, кл. G06К 9/48, G06T 7/60, опубл. 2003.11.10.

Во-вторых, известные способы обработки изображений для систем распознавания реализуют операцию свертки на пиксельном уровне, например, перечисленные выше изобретения, либо на пиксельном уровне используют амплитудную дискретизацию, например, описанные в А.С. СССР № 1564658, кл. G06K 9/00, G06K 9/36, опубл. 1990.05.15, патенте РФ № 2178915, кл. С06К 9/66, G06F 15/18, опубл. 2002.01.27; патенте РФ № 2193825, кл. Н04М 7/18, G06F 19/00, G06T 7/00, 7/20, 7/60, опубл. 2002.11.27, которые относятся к классу некорректных задач в силу их описания уравнением Фредгольма первого рода и нерешенности проблемы регуляризации [Реконструкция изображений: Пер. с англ. / Под ред. Г.Старка. - М.: Мир, 1992. С.15; Тематический выпуск "Машинное зрение" ТИИЭР, 1988, т.76, № 8]. Поэтому не отвечают необходимьм требованиям по надежности и быстродействию распознавания произвольных, априори не известных изображений, наблюдаемых в поле зрения.

В-третьих, известные способы обработки изображений для систем распознавания используют предварительную фильтрацию помех на изображении для повышения надежности выделения информативных объектов на изображении, например, в А.С. СССР № 1226500, кл. G06K 9/36, опубл. 1986.04.23, А.С. СССР № 1295427 кл. G06K 9/36, опубл. 1987.03.07. Недостатком таких способов является необходимость априорного знания класса помех, что в принципе невозможно в условиях априорной неопределенности наблюдаемого изображения, а также необходимость реализации операции свертки при любой фильтрации, что, как отмечалось, снижает производительность системы обработки изображений.

Наиболее близким для обработки изображений является способ обработки изображения объекта, защищенный Патентом РФ № 2116671, кл. G06Т 7/40, G06K 9/56, опубл. 1998.07.27, в котором реализуются два этапа преобразований информации об изображении:

построение пирамиды изображений, реализуемое "сверху-вниз" через создание копий исходного изображения на каждом уровне пирамиды; для этого реализуются две операции - деление области изображения на подобласти G_i с равными площадями s_i и усреднение по яркости изображения по элементам μ_n,m каждой подобласти

;

построение признаковой пирамиды, которая одновременно является пирамидой описания изображения; построение пирамиды заданной высоты осуществляется "сверху-вниз", для этого требуется три операции: деление каждой из подобластей G_i равной площади s по осям координат х, y на участки, образующие множество новых непересекающихся подобластей по каждому варианту деления; усреднение по каждой выделенной подобласти; выявление бинарного отношения порядка между элементами двух непересекающихся выделенных подмножеств благодаря анализу соотношения типа (m_i-m_j) для равных по площади подобластей.

В результате формируются уровни описания изображения в виде структуры элементов и связей для любого изображения в условиях отсутствия априорной информации о последнем с использованием системы однородных признаков {m_i} и системы однородных правил (бинарных отношений между подобластями).

Недостатком прототипа является то, что способ относительно сложен и требует построения двух пирамидальных систем, бинарные отношения выявляются только по двум направлениям и поэтому не удовлетворяют требованиям полноты (необходимости и достаточности) системы преобразований, а независимое последовательное построение двух пирамид и усреднение по площади выделенной подобласти снижают быстродействие обработки изображения.

Указанные недостатки устраняются предлагаемым решением.

Задачей изобретения является совершенствование известного способа.

Технический результат - упрощение способа обработки изображений за счет исключения построения пирамиды копий изображения и повышение достоверности при задаваемой точности полученных результатов описания изображения за счет введения системы преобразований, удовлетворяющих требованиям полноты и простоты реализации.

Этот технический результат достигается тем, что в способе обработки изображений, включающем построение пирамиды описаний, деление изображений, выделение структурных элементов и связей, формируют слои описания изображения как системного целого, первого пирамидального уровня многокомпонентным вектором градиентов над абсолютно гладким многообразием, получаемым в результате отображения исходного изображения, разделенного на равные по площади области, полученным интегральным преобразованием, и выделяют структурные элементы и связи между компонентами вектора с образованием первого уровня пирамиды описаний, затем выделяют информационные подобласти внимания на анализируемом изображении с повторным описанием подобласти внимания с использованием перечисленных действий для образования следующего уровня иерархии описания.

Исходное изображение делят на шестнадцать равных по площади областей, формируют шестнадцать слоев описания изображения, как системного целого, пятнадцатикомпонентным вектором градиентов, а структурные элементы, связи между компонентами вектора и подобласти внимания выделяют по двум типам алгебраических групп.

Предлагаемый способ заключается в следующем.

1. Все полутоновое видеоизображение, заданное в поле зрения (области определения G) М×N как множество координатно упорядоченных точек с яркостями {μ_n,m}, разбивается на 16 равных по площади областей {G_j}, каждой из которых ставится в соответствие матрица 4×4||m_ij|| "визуальных" масс

где индексы n, m перебираются по области G_j.

В результате реализуется интегральное преобразование, отображающее исходное изображение в абсолютно гладкое многообразие.

На матрице ||m_ij|| как множестве точек, упорядоченном в двумерном пространстве и образующем скалярное поле, выявляется 15 градиентных направлений (векторных полей Киллинга) типа ∂/∂хⁱ, которым соответствует 15 булевых функций (16-я функция - групповая единица, соответствующая нулевому направлению) - эквивалентов дифференциаторов (фильтров F_i, реализующих соответствующее преобразование по всей области определения G) типа

где i - номер варианта (и номер градиентного направления) разбиения (дихотомии) области определения G изображения на равные по площади две подобласти, каждой из которых в силу отображения (1) ставится в соответствие своя визуальная масса. Нулевому направлению соответствует визуальная масса m₀≡μ₀ по всей области G.

В результате реализуется дифференциальное преобразование, обратное (1), образующее с ним полную систему преобразований и выявляющее на многообразии, где нет помех в их изначальном понимании относительно исходного изображения, точку - визуальную массу всего изображения (информационный и достоверный фактор наличия чего-либо на изображении), и 15 компонент вектора μ=(μ₀, μ₁, ..., μ₁₅), каждая из которых с позиций римановой геометрии - касательный вектор к соответствующей интегральной кривой в многообразии. Поэтому 15 фильтров как покрытий исходного изображения выявляют "изобразительное" (информационное) описание этого изображения. Это описание достоверно, точно (ε-точно, точно с позиций вариационного подхода) с заданной разрешающей способностью и получено с помощью 16-и параллельно реализуемых преобразований (включая нулевое), формирующих послойное описание на первом уровне пирамидальной обработки, под которой понимается система с переменным разрешением. С позиций системы зрительного восприятия преобразованию (1) соответствует действие тонических нейронов, а (2) - фазических. Преобразованиям (2), представленным в декартовой системе координат двумерного пространства, соответствует 15 преобразований вида

где n, m=0, 1, 2, 3; n+m=k; k≤6.

которые являются функциями чувствительности в ряде Тейлора при решении задачи активной идентификации, а их реализация - функции Уолша системы Хармута. Поскольку для реализации преобразований (1), (2) требуются простейшие преобразования - сложение и вычитание, то описанный способ вычислительной простотой и полнотой в силу полноты системы градиентных преобразований (2) на плоскости.

2. Множеству компонент вектора μ=(μ₁, ..., μ₁₅) ставится в соответствие множество бинарных двумерных операторов V_i (i=1, 2, ..., 15), являющихся бинарным описанием исходного изображения на уровне алфавита при решении задач синтеза образа, эквивалентного наблюдаемому исходному изображению, и конструктивно совпадающими с соответствующими им фильтрами F_i, по правилу: если μ_i≠0, и μ_i>0, то имеем V_i если μ_i≠0, и μ_i>0, то имеем

. Поэтому общее число операторов равно 15-и прямым и 15-и инверсным. Каждый оператор позволяет выделить подобласть внимания на анализируемом изображении, к которой можно применить процедуры (1), (2) послойного описания изображения на следующем уровне разрешения, а также является символом его описания на рассматриваемом уровне.

3. На множестве (прямых и инверсных) операторов {V_i} как алфавите формируются два типа алгебраических групп, выявляющих информационные связи между компонентами вектора μ. Первый тип алгебраической группы (полные группы) выявляет взаимные связи между тройкой компонент вектора по аналогии со взаимно-энергетическими связями спектральных компонент разложения (двумерного) сигнала. Правило образования полной группы P_ni=(V_i V_j, V_k): переменные V_i, V_j, V_k принадлежат полной группе тогда и только тогда, когда их сумма - единица группы, в роли которой выступает оператор V₀, соответствующий компоненте m₀≡μ₀. Описанием (изобразительным описанием на матрице 4×4, которая в данном случае называется планигоном) полной группы является произведение операторов, если число инверсий четно, и их сумма, если число инверсий нечетно. На множестве вариантов инверсий трех переменных общее число описаний для полной группы равно восьми, из которых четыре образованы на операции умножения, а четыре - операции сложения. Мощность множества полных групп равна 35.

Второй тип алгебраической группы (замкнутые группы) образованы на четырех переменных Р_si=(V_i, V_j, V_n, V_m) с описанием вида Р_si=V_iV_j+V_n+V_m, где число инверсных операторов должно быть нечетным. Число образов замкнутой группы, представленных на планигоне, на вариантах возможных инверсий равно восьми, а общее число замкнутых групп на множестве операторов равно 105. Правило образования замкнутой группы: четверка (V_i, V_j, V_n, V_m), где число инверсий операторов нечетно, образует замкнутую группу, если сумма операторов с учетом числа инверсий, - единица группы.

Любая замкнутая группа образована на паре полных групп при условии, если последние связаны общим оператором. Поэтому замкнутая группа, как более "крупное" образование, выявляет информационную связь над парой полных групп, входящих в ее состав.

С позиций системы зрительного восприятия, если множеству {V_i} соответствует множество нейронов, контролирующих свои рецепторные поля, то множеству полных групп - множество сложных нейронов, а множеству замкнутых групп - множество сверхсложных нейронов, образующих пирамидных клеток над зрительными полями.

Как полные, так и замкнутые группы на своих образах на планигоне как поле зрения позволяют выделять области внимания, к которым можно применить процедуры (1), (2) послойного описания изображения на следующем уровне разрешения. Одновременно использование элементов из множеств {V_i}, {Р_ni}, {P_si}, участвующих в иерархическом описании исходного изображения на заданном уровне разрешения, позволяют быстро (одномоментно, т.е. на малом числе признаков), просто и достоверно принимать решение, если в базе знаний находится эталонное описание на языке {V_i}, {Р_ni}, {P_si}.

Пример 1. Пусть изображение - множество яркостных точек (пикселей) μ_ij, определенных в области G как поле зрения. Пусть система фильтров, реализующих (2), имеет вид по фиг.1 (квадратная форма фильтров условна и зависит от формы анализируемой области, а их структура может быть изменена с точностью до зеркального отображения на плоскости), где нумерация фильтров условна. Тогда каждый такой фильтр как покрытие изображения по всей области определения (на первом уровне пирамиды описаний такой областью является все поле зрения, на последующих уровнях - подобласти внимания) выявляет подобласти максимумов визуальной массы. Например, для фильтра F₀ имеем

.

Если μ₀=0, то в поле зрения отсутствуют какие-либо элементы изображения (получаем первый слой описания).

Для фильтра F₁ поле зрения G делится на две равные по площади половины - левую G₁ и правую G₂, для которых находится первая компонента μ₁ вектора μ

,

принадлежащая первому слою описания.

Если μ₁=0, то слева и справа визуальные массы уравновешивают друг друга; если μ₁>0, то слева сосредоточена большая визуальная масса; если μ₁<0, то визуальная масса преобладает справа; если μ₁=μ₀,то все объекты изображения локализованы справа, а если |μ₁|=μ₀, то - слева.

Аналогична интерпретация действия остальных фильтров, которые выявляют пару структурных элементов на изображении и их структурную связь на пятнадцати независимых направлениях.

Для удобства реализации послойного описания на обычном компьютере допустимо предварительно разделить область G на шестнадцать равных по площади подобластей, для каждой из которых найти визуальную массу по (1) и оперировать с ними при формировании вектора μ.

Пример 2. Пусть объекты на изображении упорядочены и образуют некоторую структуру. Тогда каждый фильтр как покрытие позволяет выявить эту структуру сразу (одномоментно), если наблюдаемая структура соответствует структурной организации фильтра. Можно показать, что каждый фильтр, реализуя соответствующее дифференциальное преобразование, позволяет выявить свою интегральную кривую на абсолютно гладком многообразии, получаемом после реализации (1). На фиг.2 приведены примеры выявления структур и им соответствующих интегральных описаний.

Пример 3. Пусть изображение содержит некоторый объект, локализованный в первом квадранте области определения (фиг.3). Этому изображению соответствует матрица визуальных масс

,

покрывая которую системой фильтров (фиг.1) получаем вектор μ=(μ₀, μ₁, μ₂, μ₃, 0, ..., 0). Условие (μ₁>0, μ₂>0, μ₃>0) при равенстве нулю остальных компонент вектора - это условие обнаружения области интереса в первом квадранте области определения изображения (в независимости от однородного фона в данном случае "нулевого"). Описанием этой области интереса является образ полной группы Р_n=V₁V₂V₃,.

Пример 4. Пусть выявлена область интереса (см. пример 3), в которой находится некоторый объект, например, знак А. Эту область интереса рассмотрим как новое изображение, т.е. относительно исходного изображения перейдем на следующий уровень пирамидальной обработки (фиг.4). Изображению соответствует матрица визуальных масс

и вектор μ=(μ₂, 0, μ₄, μ₅, μ₆, 0, μ₈, 0, μ₁₀, 0, 0, 0, μ₁₄, 0), где |μ₂|=|μ₄|=μ₅=μ₆=|μ₈|=|μ₁₀|<<|μ₁₄|. Компонентам вектора соответствуют операторы

,

, V₅, V₆,

,

, из которых образуются структурные элементы описания наблюдаемого объекта - полная группа

и замкнутая группа

. Более того, условие |μ₁₄|=max на множестве компонент вектора выделяет образ оператора

как "универсальный" элемент типа выработанного эталона для вариантов написания знака А. Принимая описание объекта в виде Р_n+P_s либо

+Р_n, либо

+Р_s за эталонное описание относительно просто решается задача распознавания данного объекта даже на фоне сильных помех (и частичного загораживания объекта), так как состав вектора (с учетом знаков компонент) достаточно устойчив, хотя абсолютные значения компонент меняются в зависимости от значений компонент матрицы визуальных масс. Данную устойчивость легко проверить экспериментально, так как соответствующая компьютерная программа реализации способа относительно проста.

Способ может быть реализован с использованием обычных компьютерных средств.

Таким образом, предлагаемое изобретение по сравнению с прототипом позволяет упростить способ обработки изображений за счет исключения построения двух пирамид и повысить достоверность при задаваемой точности полученных результатов описания изображения за счет введения системы преобразований и системы алгебраических групп, удовлетворяющих требованиям полноты и простоты реализации.

Claims

1. Способ обработки изображений, включающий построение пирамиды описаний, деление изображений, выделение структурных элементов и связей, отличающийся тем, что разбивают исходное изображение на равные по площади области Gj, каждой из которых ставится в соответствие матрица ||m_ij|| "визуальных" масс

, где μ_n,m - яркость изображения, индексы n, m, перебираемые по области G_j, в результате реализуют отображение исходного изображения в абсолютно гладкое многообразие, формируют слои описания изображения, как системного целого, первого пирамидального уровня многокомпонентным вектором градиентов над абсолютно гладким многообразием, выделяют структурные элементы и связи между компонентами упомянутого вектора с образованием первого уровня пирамиды описаний, затем выделяют информационные подобласти внимания на анализируемом изображении, с повторным описанием подобласти внимания с использованием перечисленных действий для образования следующего уровня иерархии описания.

2. Способ по п.1, отличающийся тем, что исходное изображение делят на шестнадцать равных по площади областей, формируют шестнадцать слоев описания изображения, как системного целого, пятнадцати компонентным вектором градиентов.