RU2673966C1

RU2673966C1 - Способ идентификации кадров в потоке мультимедийных данных

Info

Publication number: RU2673966C1
Application number: RU2017137206A
Authority: RU
Inventors: Андрей Николаевич Орешин; Сергей Юрьевич Андреев; Роман Борисович Трегубов; Николай Алексеевич Орешин
Priority date: 2017-10-23
Filing date: 2017-10-23
Publication date: 2018-12-03

Abstract

Изобретение относится к области вычислительной техники для анализа и обработки данных изображений. Технический результат – уменьшение частоты пропуска кадра-вставки и частоты ложного обнаружения кадра-вставки в потоке мультимедийных данных при оценке классов кадров. Способ идентификации кадров потока мультимедийных данных на основе сравнения коэффициентов полиномов, аппроксимирующих гистограммы изображений кадров, заключается в том, что на основе изображений кадров потока мультимедийных данных формируют последовательность изображений наблюдаемых окон, состоящих из восьми кадров, в которых будет производиться поиск кадров-вставок, для каждого изображения определяют множества интенсивностей основных компонентов цвета пикселей, для каждого изображения вычисляют гистограммы по основным компонентам цвета пикселя, формируют новое окно для идентификации вновь поступающих кадров, причем определяют коэффициенты полиномов, аппроксимирующих гистограммы изображений кадров, принимают решение о принадлежности видеокадра потока мультимедийных данных к одному из классов: кадры видеоизображения или кадры-вставки, по заданному критерию сравнения коэффициентов полиномов, аппроксимирующих гистограммы изображений кадров с динамическим порогом принятия решения. 8 ил.

Description

Изобретение относится к области вычислительной техники, а именно к системам анализа изображений и предназначено для использования в сфере обработки данных изображений.

Толкование терминов, используемых в заявке.

Частота пропуска кадра-вставки - частота возникновения ошибки, при принятии решения, о том, что кадр-вставка не определен в случае, когда он есть (Ерош И.Л., Сергеев М.Б., Соловьев Н.В. Обработка и распознавание изображений в системах превентивной безопасности: учебное пособие. - СПб.: ГУАП, 2005. - 154 с.).

Частота ложного обнаружения кадра-вставки - частота возникновения ошибки, при принятии решения, о том, что кадр-вставка идентифицирован в случае, когда он отсутствует (Ерош И.Л., Сергеев М.Б., Соловьев Н.В. Обработка и распознавание изображений в системах превентивной безопасности: учебное пособие. - СПб.: ГУАП, 2005. - 154 с.)

Гистограмма кадра - это функция, характеризующая частоту встречаемости на изображении пикселей одинаковой яркости (Красильников Н.Н. Цифровая обработка изображений. - М.: Вузовская книга, 2001. - 320 с.).

Кадр-вставка - кадр, добавленный в любое место видеопотока и отличающийся от кадров текущей сюжетной линии (сцены) визуально и статистически (Грузман И.С. и др. Цифровая обработка изображений в информационных системах. - НГТУ. Новосибирск, 2000. - 156 с.).

Класс кадра потока мультимедийных данных - категория, характеризующая соответствие (или несоответствие) качества кадра определенным требованиям, под определением класса кадра будем понимать выяснение факта, обладает ли он набором требуемых свойств, обеспечивающих пригодность его к применению по назначению, и правильность выполнения им своих функций (Потапов А.А., Пахомов А.А., Никитин С.А., Гуляев Ю.В., Новейшие методы обработки изображений. - М.: Физматлит, 2008. - 496 с.).

Мультимедийные данные - это множество информационных сред: звук, анимированная компьютерная графика, видеоряд, каждая из которых имеет свою специфическую форму, соответствующую ее уровню, и различные способы интерактивного взаимодействия (Гонсалес Р. Мир цифровой обработки. Цифровая обработка изображений [Текст] / Р. Гонсалес, Р. Вудс; перевод с англ. Под. ред. П.А. Чочиа. - М.: Техносфера, 2006. - 1072 с.).

Пиксель - наименьший логический элемент двумерного цифрового изображения в растровой графике, или физический элемент матрицы дисплеев, формирующих изображение (ГОСТ 27459-87 Системы обработки информации. Машинная графика. Термины и определения - 46 с.).

Цветовая модель RGB - аддитивная цветовая модель, как правило, описывающая способ синтеза цвета для цветовоспроизведения (Синтез цвета // Фотокинотехника: Энциклопедия / Главный редактор Е.А. Иофис. - М.: Советская энциклопедия, 1981. - 274 с.).

Яркость изображения представляет собой характеристику, определяющую то, насколько сильно цвета пикселей отличаются от черного цвета (Домасев М.В. Цвет, управление цветом, цветовые расчеты и измерения. Санкт-Петербург: Питер, 2009. - 218 с.).

Известно устройство для обработки изображений и способ определения линейного сдвига изображения (патент RU 2138851 С1, опубл. 05.08.1993 г. Авторы: Кристоф Айзенбарт (DE), Ира Финкельштайн (US), Дэннис Мак Ги (US), Эдвард Панофский (US)), которые позволяют обнаруживать несовпадение фактического изображения относительно опорного и обеспечивать их максимальное совпадение. Этот технический результат достигается благодаря тому, что воспринимают два участка фактического изображения, запоминают два аналогичных участка опорного изображения, сравнивают соответствующие участки фактического и опорного изображений и определяют наличие сдвига, причем повторяют сравнение для тех же участков после сдвига фактического изображения на заранее заданное число пикселей по осям X и Y, при этом вычисляют абсолютные значения разностей между соответствующими участками фактического и опорного изображений для каждого сдвига и сохраняют в памяти, как полученные абсолютные значения, так и их сумму.

Недостатком данного аналога является то, что при идентификации видеовставки в процессе сравнения невозможно выделить опорное изображение, участки кадра для сравнения и пороговое значение линейного сдвига, так как оно будет динамически изменяться в результате смены сюжетов в видеопотоке.

Известен также способ идентификации подлинных серий изображений и устройство для его осуществления (патент RU 2216044 С2, опубл. 10.11.2003. Автор Шульце Клаус (DE)), которые позволяют получить технический результат в виде повышения эффективности процедур учета и хронометрирования рекламных сообщений, видеоклипов, политических выступлений.

Этот результат достигается за счет того, что для отдельных изображений из серий изображений определяют признаки яркости, преобразуют их в цифровую форму и сравнивают с эталоном, при этом признаки яркости декоррелируют квазистохастическим отбором по множеству изображений.

Недостатком данного аналога является низкая эффективность определения кадров-вставок в видеопотоке, обусловленная тем, что по одному изображению, определяющему эталонные признаки яркости, невозможно получить полную статистическую информацию, характеризующую яркостные свойства каждой из наблюдаемых динамически меняющихся сцен видеопотока, в силу их значительных отличий по цвету и яркости.

Известен способ идентификации кадров-вставок в потоке мультимедийных данных (патент RU №2506640 от 10.02.2014 г.), заключающийся в определении признаков яркости и сравнении их значений с пороговым, вычислении суммарной дифференциальной яркости каждого кадра-разности и порогового значения яркости трех предыдущих кадров-разностей, сравнении яркостных характеристик кадра-разности с вычисляемым по ходу смены кадров видеопотока пороговым значением суммарной дифференциальной яркости предыдущих трех кадров-разности.

При такой совокупности описанных действий достигается уменьшение количества ошибочных распознаваний, как кадров-вставок, так и кадров отдельных сюжетных линий (сцен) видеопотока.

Недостатком данного способа является низкая частота обнаружения кадров-вставок в потоке мультимедийных данных при анализе последовательности кадров с динамично изменяющимися изображениями и интенсивной сменой яркости.

Наиболее близким по технической сущности и выполняемым функциям аналогом (прототипом) к заявленному является способ идентификации кадров потока мультимедийных данных на основе корреляционного анализа гистограмм изображений кадров (патент RU №2607415 от 27.12.2016 г.), заключающийся в том, что на основе изображений кадров потока мультимедийных данных формируют последовательность изображений наблюдаемых окон, состоящих из восьми кадров, в которых будет производиться поиск одного, двух или трех кадров-вставок, для каждого изображения вычисляют гистограммы по основным компонентам цвета пикселя, для каждого окна по каждой основной компоненте цвета пикселя определяют статистические характеристики интенсивности цвета изображения кадра и девять коэффициентов корреляций, определяют средние значения коэффициентов корреляции групп изображений кадров, по заданному критерию сравнения коэффициентов корреляции принимают решение о принадлежности видеокадра потока мультимедийных данных к одному из классов: кадры видеоизображения или кадры-вставки, формируют новое окно для идентификации вновь поступающих кадров в потоке мультимедийных данных.

Однако недостатком способа-прототипа является большая частота пропуска кадра-вставки и частота ложного обнаружения кадра-вставки при оценке классов кадров в потоке мультимедийных данных, в которых часть изображений статична, а другая часть динамично изменяется.

Задачей изобретения является создание способа идентификации кадров в потоке мультимедийных данных, позволяющего уменьшить частоту пропуска кадра-вставки и частоту ложного обнаружения кадра-вставки в потоке мультимедийных данных при оценке классов кадров, в которых часть изображений статична, а другая часть динамично изменяется.

В заявленном способе эта задача решается тем, что в способе идентификации кадров в потоке мультимедийных данных, заключающемся в том, что на основе изображений кадров потока мультимедийных данных формируют последовательность изображений наблюдаемых окон, состоящих из восьми кадров, в которых будет производиться поиск одного, двух или трех кадров-вставок, для каждого изображения определяют множества интенсивностей основных компонентов цвета пикселей, для каждого изображения вычисляют гистограммы по основным компонентам цвета пикселя, формируют новое окно для идентификации вновь поступающих кадров в потоке мультимедийных данных, отличающийся тем, что определяют коэффициенты полиномов, аппроксимирующих гистограммы изображений кадров, принимают решение о принадлежности видеокадра потока мультимедийных данных к одному из классов кадры видеоизображения или кадры-вставки по заданному критерию сравнения коэффициентов полиномов, аппроксимирующих гистограммы изображений кадров с динамическим порогом принятия решения.

Новая совокупность существенных признаков позволяет достичь указанного технического результата за счет аппроксимации методом интерполирования всех 24 полученных гистограмм, характеризующих изображения всех восьми кадров наблюдаемого окна по основным компонентам цвета пикселя, определения и сравнения коэффициентов полиномов, аппроксимируемых гистограммы изображений кадров с динамическим порогом принятия решения для оценке классов кадров в потоке мультимедийных данных, в которых часть изображений статична, а другая часть динамично изменяется.

Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного способа идентификации кадров в потоке мультимедийных данных, отсутствуют. Следовательно, заявленное изобретение соответствует условию патентоспособности «новизна».

Результаты поиска известных решений в данной и смежных областях техники с целью выявления признаков, совпадающих с отличительными от прототипа признаками заявленного объекта, показали, что они не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность влияния предусматриваемых существенными признаками заявленного изобретения преобразований на достижение указанного технического результата. Следовательно, заявленное изобретение соответствует условию патентоспособности «изобретательский уровень».

Промышленная применимость изобретения обусловлена тем, что устройство, реализующее предложенный способ, может быть осуществлено с помощью современной элементной базы, в качестве которой используются современные высокопроизводительные программируемые логические интегральные схемы (ПЛИС) типа Xilinx Spartan-6 LX45 FPGA или Xilinx Virtex-7 2000T архитектуры FPGA, обеспечивающие быстродействующую обработку потока изображений (Угрюмов Е.П., Программируемые логические матрицы, программируемая матричная логика, базовые матричные кристаллы / Цифровая схемотехника. Учебное пособие для вузов. Изд. 2, БХВ-Петербург, 2004. Глава 7 - 357 с.).

Заявленные способ поясняется чертежами, на которых:

на фиг. 1 - блок-схема способа идентификации кадров в потоке мультимедийных данных;

на фиг. 2 - гистограммы изображения по основным компонентам цвета;

на фиг. 3 - сравнение коэффициентов полиномов, аппроксимирующих гистограммы изображений кадров, при одном кадре-вставки;

на фиг. 4 - сравнение коэффициентов полиномов, аппроксимирующих гистограммы изображений кадров, при двух кадрах-вставок;

на фиг. 5 - сравнение коэффициентов полиномов, аппроксимирующих гистограммы изображений кадров, при трех кадрах-вставок;

на фиг. 6 - идентификации кадра-вставки в потоке мультимедийных данных на основе сравнения коэффициентов полиномов, аппроксимирующих гистограммы изображений кадров с динамическим порогом принятия решения;

на фиг. 7 - идентификации двух кадров-вставок в потоке мультимедийных данных на основе сравнения коэффициентов полиномов, аппроксимирующих гистограммы изображений кадров с динамическим порогом принятия решения;

на фиг. 8 - идентификации трех кадров-вставок в потоке мультимедийных данных на основе сравнения коэффициентов полиномов, аппроксимирующих гистограммы изображений кадров с динамическим порогом принятия решения.

Реализация заявленного способа заключается в следующем (фиг. 1).

Исходными данными, необходимыми для идентификации кадра-вставки, являются следующие величины:

- множество изображений кадров в видеопотоке

Δ₃ - априорно заданная абсолютная погрешность сравнения коэффициентов полиномов, заданная для определения порога принятия решения о классе наблюдаемого кадра.

101. На основе изображений кадров в потоке мультимедийных данных формируют последовательность изображений наблюдаемых окон, состоящих из восьми кадров, в которых будет производиться поиск одного, двух или трех кадров-вставок.

На данном этапе на основе изображений

кадров мультимедийного потока

осуществляется формирование последовательности изображений окон

, в которых будет производиться идентификация кадров.

Формально цифровую обработку изображения на данном этапе представим отображением:

Каждое о-тое окно

включает восемь изображений подряд поступающих кадров:

где k_o - текущий номер изображения кадра в о-том окне;

о=k+3 - текущий номер окна;

k - текущий номер кадра в мультимедийном потоке.

102. Для каждого изображения определяют множества интенсивностей основных компонентов цвета пикселей.

На втором этапе для каждого k^o-того изображения

о-того окна, где

, определяются множества интенсивностей:

основных компонентов цвета пикселей

, которые представим в виде соответствующих матриц:

103. Для каждого изображения вычисляют гистограммы по основным компонентам цвета пикселя (фиг. 2).

На данном этапе для каждого изображения

о-того окна находятся гистограммы

по интенсивностям ξ ∈ (r,g,b) основных компонентов цвета пикселя:

,

;

,

и

,

.

где

104. Определяют коэффициенты полиномов, аппроксимирующих гистограммы изображений кадров.

На данном этапе, используя дроби Чебышева:

где ξ ∈ (r,g,b) - интенсивности основных компонентов цвета пикселя;

М+N=255 - число уравнений.

Аппроксимируем методом интерполирования все 24 полученные на предыдущем этапе гистограммы

,

, ξ ∈ (r,g,b), характеризующие изображения всех восьми кадров наблюдаемого окна по основным компонентам цвета пикселя.

Руководствуясь принципом метода интерполирования, на данном этапе для каждого k^o-того изображения

о-того окна по интенсивностям ξ ∈ (r,g,b) всех трех основных компонентов цвета пикселя составляются системы уравнений вида:

Методом целочисленного линейного программирования находим все N+M+1=256 неизвестных значений варьируемых параметров дробно рациональных функций

.

где:

- множество гистограмм k^o-го изображения

о-того окна по интенсивностям ξ ∈ (r,g,b) всех трех основных компонентов цвета пикселя;

- множество дробно рациональных функций, аппроксимирующих гистограммы k^o-того изображения

о-того окна по интенсивностям ξ ∈ (r,g,b).

Для каждого наблюдаемого о-того окна значения варьируемых параметров аппроксимирующих функций, найденные в ходе решения систем уравнений вида (11), объединяются в массивы коэффициентов полиномов

, которые для каждого изображения

представим матрицей:

Для каждого о-того окна определяем разности матриц коэффициентов полиномов:

Для каждого о-того окна определяем точную верхнюю границу (супремум) множества коэффициентов полиномов

. Данное действие опишем отображением:

105. Принимают решение о принадлежности видеокадра потока мультимедийных данных к одному из классов кадры видеоизображения или кадры-вставки по заданному критерию сравнения коэффициентов полиномов, аппроксимирующих гистограммы изображений кадров с динамическим порогом принятия решения.

Принятие решения о классе кадров осуществляется по критериям:

При выполнении условия (18) принимается решение, что пятый кадр анализируемого окна принадлежит к классу кадров видеопотока, то есть

, и происходит формирование нового окна, то есть о=о+1. При невыполнении этого условия делается предположение о возможности нахождения в мультимедийном потоке кадров-вставок или о начале следующего сюжета с кадра

.

При не выполнении условия (19) принимается решение, что пятый кадр анализируемого окна принадлежит к классу вставок (фиг. 3), то есть

, и происходит формирование нового окна, то есть о=о+1. При выполнении этого условия делается предположение о возможности нахождения в мультимедийном потоке вставки, содержащей более одного кадра.

При невыполнении условия (20) принимается решение, что пятый и шестой кадры анализируемого окна принадлежит к классу вставок (фиг. 4), то есть

, и происходит формирование нового окна, то есть o=o+1.

При выполнении этого условия определяется новый порог принятия решения:

При выполнении условия (22) принимается решение, что начался новый сюжет и происходит формирование нового окна, то есть о=о+1. В противном случае принимается решение, что пятый, шестой и седьмой кадры анализируемого окна принадлежит к классу кадров-вставок (фиг. 5), то есть

,

и происходит формирование нового окна о=о+1.

106. Формируют новое окно для идентификации вновь поступающих кадров в потоке мультимедийных данных.

Экспериментальная проверка способа идентификации кадров потока мультимедийных данных была выполнена на ЭВМ в среде графического программирования LabVIEW с использованием библиотеки компьютерного зрения OpenCV и дополнительных библиотек функций реализованных в С++ при следующих исходных данных:

1) 100 видеороликов без кадров-вставок длительностью от 1 до 5 минут с различным количеством сюжетных линий;

2) 100 видеороликов с размещенными через каждые 100 кадров кадрами-вставками (количество подряд идущих кадров-вставок от 1 до 3);

3) кадры видеороликов и кадры-вставки не искажены и имеют нормальное качество.

Для примера идентификация кадра-вставки в потоке мультимедийных данных представлена на фиг. 6. Идентификация двух кадров-вставок в потоке мультимедийных данных представлена на фиг. 7. Идентификация трех кадров-вставок в потоке мультимедийных данных представлена на фиг. 8.

Результаты экспериментов показали, что в потоке мультимедийных данных, когда часть изображений статична, а другая часть динамично изменяется, частота пропуска кадра-вставки у способа-прототипа составляет 34%, а у заявленного способа - 24%, при этом частота ложного обнаружения кадра-вставки у способа-прототипа составляет 18%, а у заявленного способа - 13%.

Таким образом, эффективность заявленного способа по сравнению со способом-прототипом лучше на 10% по частоте пропуска кадра-вставки и на 5% по частоте ложного обнаружения кадра-вставки, за счет чего достигается уменьшение частоты пропуска кадра-вставки и частоты ложного обнаружения кадра-вставки при оценке классов кадров в потоке мультимедийных данных, в которых часть изображений статична, а другая часть динамично изменяется.

Заявленный способ идентификации кадров в потоке мультимедийных данных обеспечивает уменьшение частоты пропуска кадра-вставки и частоты ложного обнаружения кадра-вставки при оценке классов кадров в потоке мультимедийных данных, в которых часть изображений статична, а другая часть динамично изменяется за счет аппроксимации методом интерполирования всех 24 полученных гистограмм, характеризующих изображения всех восьми кадров наблюдаемого окна по основным компонентам цвета пикселя, определения и сравнения коэффициентов полиномов, аппроксимируемых гистограммы изображений кадров с динамическим порогом принятия решения для оценке классов кадров в потоке мультимедийных данных, в которых часть изображений статична, а другая часть динамично изменяется.

Claims

Способ идентификации кадров потока мультимедийных данных на основе сравнения коэффициентов полиномов, аппроксимирующих гистограммы изображений кадров, заключающийся в том, что на основе изображений кадров потока мультимедийных данных формируют последовательность изображений наблюдаемых окон, состоящих из восьми кадров, в которых будет производиться поиск одного, двух или трех кадров-вставок, для каждого изображения определяют множества интенсивностей основных компонентов цвета пикселей, для каждого изображения вычисляют гистограммы по основным компонентам цвета пикселя, формируют новое окно для идентификации вновь поступающих кадров в потоке мультимедийных данных, отличающийся тем, что определяют коэффициенты полиномов, аппроксимирующих гистограммы изображений кадров, принимают решение о принадлежности видеокадра потока мультимедийных данных к одному из классов: кадры видеоизображения или кадры-вставки, по заданному критерию сравнения коэффициентов полиномов, аппроксимирующих гистограммы изображений кадров с динамическим порогом принятия решения.