RU2426172C1

RU2426172C1 - Способ и система выделения данных об изображении объекта переднего плана на основе данных о цвете и глубине

Info

Publication number: RU2426172C1
Application number: RU2010101846/09A
Authority: RU
Inventors: Екатерина Витальевна ТОЛСТАЯ (RU); Екатерина Витальевна ТОЛСТАЯ; Виктор Валентинович БУЧА (RU); Виктор Валентинович Буча
Original assignee: Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд."
Priority date: 2010-01-21
Filing date: 2010-01-21
Publication date: 2011-08-10
Also published as: US20110175984A1

Abstract

Изобретение относится к области распознавания и сегментации изображений, и в частности к способу и системе для выделения целевого объекта из фонового изображения и изображения объекта путем создания маски, используемой для выделения целевого объекта. Техническим результатом является создание усовершенствованного способа выделения данных об изображении объекта, используя данные о глубине изображения. Указанный технический результат достигается тем, что создают скалярное изображение разности изображения объекта и фона на основе разности освещенности, а в областях, где разность освещенности ниже заранее установленного порогового значения, на основе разности цвета; инициализируют маску по результатам, полученным из предыдущего видеокадра, где скалярное изображение разности меньше заранее установленного порога, если эти результаты доступны, при этом маску объекта заполняют нулями и единицами, где единица означает, что соответствующий пиксель принадлежит объекту, и нуль в ином случае; кластеризуют скалярное изображение разности и данные по глубине на основе нескольких кластеров; создают маску для каждого положения пикселя видеокадра, используя центры тяжести кластеров скалярной разности и данные по глубине для текущего положения пикселя; компенсируют изменения фона сцены во времени путем обновления изображения фона на основе использования созданной маски и изображения разности. 2 н. и 10 з.п. ф-лы, 4 ил.

Description

Изобретение относится к области цифровой фотографии, а более конкретно - к способу и системе для выделения целевого объекта из фонового изображения и изображения объекта путем создания маски, используемой для выделения целевого объекта. Подобные системы широко используются в задачах сегментации человеческого силуэта и фона для дальнейшего распознавания.

Одно из конкретных применений подобной системы - это хромакей-метод (способ цветовой рирпроекции), где равномерно освещенный монохроматический фон используется для того, чтобы снять объект таким образом, чтобы впоследствии он мог быть заменен другим изображением (The Television Society technical Report, vol.12, pp.29-34, 1988) [1]. Данная система представляет собой самый простой случай, где фон можно легко распознать на изображении. Более сложные случаи включают фон.

Выделение фона, хотя это упрощенно определятся как разность между фоновым изображением без целевых объектов и наблюдаемым изображением, предполагает необходимость решения множества проблем, таких как наличие одинаково окрашенных объектов и теней объектов. Этим проблемам посвящены многочисленные исследования.

Например, в патенте США №6167167 [2] маску объекта определяют на основе изображения целевого объекта и изображения фона только за счет введения порогового значения различий между этими изображениями. Данный подход ненадежен, так как встает вопрос о методике выбора порогового значения.

В патентах США №6661918 [3] и №7317830 [4] объект и фон сегментируют путем моделирования фонового изображения, которое изначально недоступно. При этом для моделирования фона используют данные о дальности (глубине). Однако в случае, когда фоновое изображение доступно, результаты сегментации являются намного более надежными.

Данные о дальности (глубине) используются также в патенте США №6188777 [5], где Булева маска, соответствующая силуэту человека, изначально рассчитывается как «объединение всех связанных, слабо отличающихся значений дальности (глубины)». Это означает, что для выделения силуэта используются только данные о глубине. Однако в случае, когда человек стоит на полу, значения глубины ног человека очень близки к значениям глубины пола под ногами. Поэтому данные о глубине не могут надежно помогать в выделении силуэта стоящего человека. Несмотря на указанный недостаток, решение [5] выбрано в качестве прототипа заявляемого изобретения.

Анализ известных решений показал, что способы, основанные исключительно на пороговом принципе, страдают от недостоверности при выборе порога. Если данные о глубине не используются, то маска объекта может быть ненадежной из-за некоторых ограничений, таких как тени и одинаково окрашенные объекты. В случае, если данные о глубине доступны, а целевой объект (далее упоминаемый как «объект») размещен на некоторой поверхности, то его основание имеет такой же показатель о глубине, как и поверхность, поэтому использование только данных о глубине не обеспечит точного решения, для этого необходимо изображение фона. Фоновые условия (например, освещение, тени и т.д.) могут измениться и в случае продолжительного отслеживания объекта во времени, именно поэтому изображение постоянного фона смещается все дальше от реального фона объекта с течением времени, что может сильно сказаться на точности отделения объекта от фона на изображении.

Таким образом, задача, на решение которой направлено заявляемое изобретение, состоит в том, чтобы разработать усовершенствованный способ выделения данных об изображении объекта из последовательности видеокадров и продолжить систему, реализующую такой усовершенствованный способ.

Технический результат достигается за счет разработки нового способа выделения данных об изображении объекта из последовательности видеокадров, из изображения фона, не содержащего данных об изображении объекта, и из последовательности данных о глубине, соответствующих видеокадрам, на основе создаваемой маски объекта для каждого видеокадра, при этом заявляемый способ предусматривает выполнение следующих операций:

- создание скалярного изображения разности изображения объекта и фона на основе разности освещенности (lightness), а в областях, где разность освещенности ниже заранее установленного порогового значения, - на основе разности цвета;

- инициализация маски по результатам, полученным из предыдущего видеокадра, где скалярное изображение разности меньше заранее установленного порога, если эти результаты доступны, и нулей в ином случае;

- кластеризация скалярного изображения разности и данных о глубине на основе нескольких кластеров;

- создание маски для каждого положения пикселя видеокадра, используя центры тяжести кластеров скалярной разности и центры тяжести кластеров данных о глубине для текущего положения пикселя;

- компенсация изменений фона сцены во времени путем обновления изображения фона на основе использования созданной и изображения разности.

Для реализации заявляемого способа разработана система, включающая в себя две цифровые видеокамеры, удаленные одна от другой и выполненные с возможностью съемки сцены в стереоформате, причем одна из цифровых видеокамер выполняет роль эталонной камеры; обработчик данных по цвету, выполненный с возможностью преобразования данных от камер в цветовые данные RGB; обработчик данных о дальности (глубине), выполненный с возможностью определения соответствия между пикселями в изображениях от каждой из двух цифровых видеокамер: обработчик данных по фону, выполненный с возможностью обработки фона для каждого видеокадра и запускающийся цветным цифровым изображением сцены, не содержащей целевого объекта, от эталонной камеры; оценщик разности, выполненный с возможностью вычисления разности в освещенности и цвете фонового и текущего видеокадра; детектор фона/переднего плана, выполненный с возможностью определения принадлежности конкретного пикселя фону или целевому объекту.

В качестве отличительных признаков заявляемого изобретения следует отметить следующие моменты, что это решение предлагает

- вычисление цветовой разности только для пикселей, где разность в освещенности является достаточно малой;

- данные о цветовой разнице и данные по глубине кластеризуются с помощью кластеризации k-средних;

- одновременное использование кластеризованных данных по цветовой разнице и глубине для сегментации объекта и видео.

Далее сущность заявляемого изобретения поясняется с привлечением графических материалов.

Фиг.1. Схема основных компонентов системы.

Фиг.2. Основные этапы способа.

Фиг.3. Процесс вычисления изображения разности между текущим видеокадром и изображением фона.

Фиг.4. Процесс маски объекта.

Сегментация фонового объекта и объекта на переднем плане в изображении основано на одновременном использовании данных о глубине и данных о цвете. Данные о глубине независимы от данных цветного изображения и, следовательно, не затронуты ограничениями, связанными с сегментацией, основанной на цвете, такими как тени и одинаково окрашенные объекты.

Фиг.1 описывает схему функционирования основных компонентов системы, которые реализуют заявляемый способ сегментации. Изображения сцены снимаются парой цифровых видеокамер 101, 102, которые разнесены одна от другой, чтобы обеспечить стереоизображение сцены. Эти камеры откалиброваны и выдают два типа данных для каждого пикселя каждого изображения в видеопоследовательности. Один тип данных - это цветовые величины пикселя в RGB (иди другом цветовом пространстве). Одна из этих двух камер, например камера 101, может быть выбрана в качестве эталонной (опорной) камеры, и значения RGB от этой камеры передаются в обработчик 103 данных по цвету, аналогичный описанному в [4], как данные по цвету для каждого изображения в последовательности видеоизображений. Другой тип данных - это значение расстояния d для каждого пикселя в сцене. Значение расстояния вычисляется в обработчике 105 данных о глубине (дальности) путем определения соответствия между пикселями в изображениях, полученных от каждой из этих двух камер 101 и 102. Расстояние (дальность) между положениями соответствующих пикселей называют диспарантностью (или глубиной). В сущности, диспарантность обратно пропорциональна расстоянию до объекта, представленного этим пикселем. Из уровня техники известно большое число методов вычисления диспарантности, которые могут быть реализованы в обработчике 105 данных о глубине (дальности).

В рассматриваемом примере в составе системы были использованы известные из уровня техники устройства, в частности:

обработчик данных по цвету, известный из [4],

обработчик данных по глубине, известный, например, из RU 200814011 [6], RU 2008144840 [7], RU 2009110511 [8] или публикации D.Scharstein and R.Szeliski. «А taxonomy and evaluation of dense two-frame stereo correspondence algorithms», International Journal of Computer Vision, 47(1/2/3):7-42, April-June 2002 [9].

Описанный пример реализации не исключает и других конкретных вариантов осуществления изобретения.

Информация, получаемая из снятых видеокамерами изображений, включает в себя многомерную величину данных (R, G, В, d) для каждого пикселя в каждом кадре видеопоследовательности. Эти данные, наряду с фоновым изображением B от обработчика 106 данных по фону, передаются в оценщик 104 разности, который вычисляет разность ΔI по освещенности и цвету между фоновым изображением и текущим видеокадром (детали вычисления приведены ниже и проиллюстрированы на Фиг.3). В приведенном примере реализации изобретения фоновое изображение B инициализируется с самого начала цветным цифровым изображением сцены, в которой отсутствует целевой объект, полученной от эталонной камеры. После этого с помощью детектора 107 фона/переднего плана для каждого пикселя определяют (выносят решение), принадлежит ли он фону, или целевому объекту, и на основе таких решений строят маску М объекта: там, где пиксель принадлежит объекту, маске M присваивается значение 1, там, где пиксель не принадлежит объекту, маске М присваивается значение 0. Работа детектора 107 в деталях иллюстрируется на Фиг.4 и описывается ниже. Затем обработчик 106 данных по фону обновляет фоновое изображение B в тех пикселях, где маска M объекта, полученная от детектора 107 фона/переднего плана, равна 0, по формуле (4), используя текущее фоновое изображение B_old, заданный параметр α. Каждый компонент заявляемой системы может быть реализован в виде интегральной схемы (ИС).

В другом варианте реализации система состоит из одной цифровой видеокамеры 101, камеры 102, измеряющей глубину, как например, Minolta VIVID 700 Non-Contact 3D Digitizer, или такая, как описано, например, в патенте США №6897946 [10]. RGB изображение передается от камеры 101 в обработчик 103 данных по цвету, а данные по глубине обрабатываются в обработчике 105 данных по глубине.

Фиг.2 иллюстрирует последовательность основных этапов заявляемого способа сегментации объекта переднего плана с помощью данных по цвету и глубине. Сначала на шаге 201 оценщик 104 разности вычисляет скалярное изображение разности между видеокадром объекта и фоновым изображением (детали вычислений представлены ниже). На шаге 202 инициализируется маска объекта: для каждого пикселя, где разность изображения ниже значения некоторого порога, значение маски задается равным результату, полученному для предыдущего кадра. В ином случае (или в случае, когда данные по предыдущему кадру недоступны) для данного пикселя маска задается равной нулю. На шаге 203 детектор 107 фона/переднего плана заполняет маску объекта нулями и единицами, где единица означает, что соответствующий пиксель принадлежит объекту, нуль - в ином случае (детали представлены ниже). На шаге 204 обработчик 106 данных по фону обновляют фоновые изображения с помощью вычислительной маски и текущего видеокадра, чтобы согласовать возможные изменения в освещении и тенях.

Фиг.3 иллюстрирует работу оценщика 104, который вычисляет изображение разности ΔI по освещенности и цвету между фоновым изображением и текущим видеокадром. Процесс выполняется для каждого пикселя, начиная с начала (шаг 301). Пусть I^b={R^b,G^b,B^b} - цветное изображение фона и I={R,G,B} - цветной видеокадр, ΔL - разность в освещенности, ΔС - разность в цвете, ΔI - изображение разностей. Тогда

На шаге 302 вычисляют значение D максимальной разности в цветовых каналах. Далее проверяется условие 303, выбирается константа δ в пределах 25-30 для 24-битового цветного изображения (где значения в цветовых каналах меняется от 0 до 255). Если D<δ, то цветовая разность вычисляется по формуле, приведенной выше. Суммируя все вышесказанное,

Если текущий пиксель оказывается последним (шаг 306), процесс останавливают, определяют (выносят решение), принадлежит ли он фону, или целевому объекту.

Фиг.4 иллюстрирует работу детектора 107 фона/переднего плана, результатом вычисления которого является маска объекта, на шагах 401 и 402 выполняют кластеризацию k-средних для данных о глубине и скалярного изображения разности. Для первого видеокадра центры тяжести кластеров равномерно распределяют в интервале [0, MAX_DEPTH] и [0, 255] соответственно. На последующих кадрах центры тяжести кластеров инициализируются от предыдущих кадров. Начиная с первого пикселя (шаг 403), маску объекта заполняют для каждого положения пикселя. Для текущего положения пикселя определяют размер и центр тяжести кластера (шаг 404), при этом данные о глубине и скалярная разность в этом положении пикселя принадлежат:

C_d - центру тяжести класса глубины текущего положения пикселя.

C_i - центру тяжести класса скалярной разности текущего положения пикселя.

N_d - C_d - размер класса.

Затем на шагах 405-407 проверяют выполнение нескольких условий. Если все эти условия выполнены, то выносят решение, что текущее положение пикселя принадлежит целевому объекту, и маску объекта для этого положения заполняют единицами. В ином случае, если хотя бы одно из условий не выполнено, то маску объекта в этом положении задают нулем. Константы T₁, T₂ и T₃ являются достаточно очевидными и основаны на здравом смысле:

T₁: разность изображения должна превышать некоторое значение для того, чтобы показать, что разность действительно существует. В приведенном примере реализации T₁ задано, как 10 (максимально возможным значением, которое принимает C_i - это 255).

T₂ и T₃: обычно T₂ известна из модуля вычисления глубины, это минимальная глубина, которая может быть достоверно определена. T₃ может быть оценена априорно на основе длины базы устройства ввода (стереокамеры). Также она может быть вычислена из тех пикселей, где разность изображения является достаточно существенной, с тем, чтобы можно было с уверенностью утверждать, что местоположение этих пикселей соответствует целевому объекту.

T₄: размер класса текущей глубины должен быть заметно существенным. В рассматриваемом варианте реализации изобретения примера осуществления, по меньшей мере, десять пикселей должны принадлежать данному классу (что составляет менее 0,02% от общего числа положений пикселей).

Следует отметить, что все вышеупомянутые условия достаточно приблизительные; ни одно из них не может самостоятельно гарантировать примерный результат. Но при совместном использовании они могут обеспечить достаточно приемлемую точность.

На шаге 410 проверяется условие, достигнут ли последний пиксель. Если так, то процесс прекращается. В ином случае вычисления продолжают в отношении следующего пикселя.

После вычисления маски объекта обработчик 106 данных по фону обновляет фоновое изображение B с помощью маски объекта. Пиксели фонового изображения в положениях, где маска равна нулю и где разность меньше некоторого значения (например, меньше чем 15 для 8-битовой разности), обрабатывают с помощью метода «скользящего среднего»:

где α является показателем того, насколько быстро фоновое изображение аккомодируется к изменению освещенности сцены. Значения, близкие к еденице, свидетельствуют о замедленной аккомодации, а значения ниже 0,5 свидетельствуют о слишком быстрой аккомодации. Быстрая аккомодация может привести к ненужным изменениям в изображении фона, что вызовет появление артефактов в маске объекта. Поэтому значения α в пределах от 0,9 до 0,99 ведут к хорошим результатам.

Заявляемое изобретение предназначено, в первую очередь, для практического применения в программном обеспечении систем съемки движения человека. Кроме того, заявляемый способ может найти применение в мониторах, снабженных стереокамерами, или в системах съемки движения на основе двух цифровых видеокамер. Возможно также применение заявляемого изобретения в интерактивных играх, графических спецэффектах и т.д.

Следует отметить, что помимо описанного варианта реализации заявляемых способа и системы возможны и другие варианты осуществления изобретения, не выходящие за границы притязаний, изложенных в материалах данной заявки. При этом подразумевается, что чертежи и описание должны рассматриваться лишь в качестве иллюстративных материалов.

Claims

1. Способ выделения данных об изображении объекта из последовательности видеокадров, из изображения фона, не содержащего данных об изображении объекта, и из последовательности данных о глубине, соответствующих видеокадрам, на основе создаваемой маски объекта для каждого видеокадра, при этом заявляемый способ предусматривает выполнение следующих операций:
- создают скалярное изображение разности изображения объекта и фона на основе разности освещенности, а в областях, где разность освещенности ниже заранее установленного порогового значения, на основе разности цвета;
- инициализируют маску по результатам, полученным из предыдущего видеокадра, где скалярное изображение разности меньше заранее установленного порога, если эти результаты доступны, при этом маску объекта заполняют нулями и единицами, где единица означает, что соответствующий пиксель принадлежит объекту, и нуль в ином случае;
- кластеризуют скалярное изображение разности и данные о глубине на основе нескольких кластеров;
- создают маску для каждого положения пикселя видео кадра на основе использования данных относительно центров тяжести кластеров скалярной разности и данных о глубине для текущего положения пикселя;
- компенсируют изменения фона сцены во времени путем обновления изображения фона на основе использования созданной маски и изображения разности.

2. Способ по п.1, отличающийся тем, что разность цвета вычисляют как угол между векторами, представленными величинами цветовых каналов.

3. Способ по п.1, отличающийся тем, что кластеризацию выполняют с помощью применения метода кластеризации k-средних.

4. Способ по п.1, отличающийся тем, что при создании маски решение относительно величины маски объекта принимают с учетом Булевых условий, касающихся свойств кластера текущего положения пикселя.

5. Способ по п.1, отличающийся тем, что фоновое изображение обновляют во времени на основе вычисленной маски и текущего видеокадра.

6. Способ по п.1, отличающийся тем, что изображение разностей ΔI вычисляют с помощью следующего уравнения:

;
где ΔС - разность в цвете, ΔI - изображение разностей, ΔL - разность в освещенности, δ - константа в пределах 25-30 для 24-битового цветного изображения.

7. Способ по п.6, отличающийся тем, что разность освещенности изображения ΔL вычисляют с помощью следующего уравнения

;
где R^b, G^b, B^b - характеризуют цветное изображение фона, R, G, В - характеризуют цветной видео кадр.

8. Способ п.6, отличающийся тем, что разность цвета изображения ΔС вычисляют с помощью следующего уравнения:

9. Способ п.1, отличающийся тем, что на этапе создания маски объекта выделяют глубину объекта из кадра глубины с помощью логической операции "AND".

10. Способ п.9, отличающийся тем, что полученную карту глубины объекта обрабатывают медианным фильтром, удаляющим мелкие отверстия, порожденные ошибками маски объекта.

11. Система, реализующая способ выделения данных об изображении объекта из последовательности видеокадров, из изображения фона, не содержащего данных об изображении объекта, и из последовательности данных о глубине, соответствующих видеокадрам, на основе создаваемой маски объекта для каждого видеокадра, включающая в себя две цифровые видеокамеры, удаленные одна от другой и выполненные с возможностью съемки сцены в стерео формате, причем одна из цифровых видеокамер выполняет роль эталонной камеры; обработчик данных по цвету, выполненный с возможностью преобразования данных от камер в цветовые данные RGB; обработчик данных о глубине, выполненный с возможностью определения соответствия между пикселями в изображениях от каждой из двух цифровых видеокамер; обработчик данных по фону, выполненный с возможностью обработки фона для каждого видеокадра и запускающийся цветным цифровым изображением сцены, не содержащей объекта, от эталонной камеры; оценщик разности, выполненный с возможностью вычисления разности в освещенности и цвете фонового изображения и текущего видеокадра; детектор фона/переднего плана, выполненный с возможностью определения принадлежности конкретного пикселя фону или объекту.

12. Система по п.11, отличающаяся тем, что одна из цифровых видеокамер выполнена с возможностью измерения глубины.