RU2693994C1

RU2693994C1 - Способ обработки видео для целей визуального поиска

Info

Publication number: RU2693994C1
Application number: RU2018139003A
Authority: RU
Inventors: Сергей Юрьевич Подлесный; Алексей Валентинович Кучеренко
Original assignee: Сергей Юрьевич Подлесный; Алексей Валентинович Кучеренко
Priority date: 2018-11-06
Filing date: 2018-11-06
Publication date: 2019-07-08

Abstract

Изобретение относится к области обработки видео. Технический результат заключается в повышении точности и скорости визуального поиска требуемого фрагмента видеоматериалов. Способ включает получение изображений кадров видео, вычисление вектора семантических признаков обнаруженных лиц и кадров на полученных изображениях и сохранение полученных векторов признаков в составе метаданных. Вычисляют метрику расстояния между векторами признаков соседних кадров, получают границы съемочных планов и сохраняют границы в составе метаданных видео. Получают выборки векторов семантических признаков кадров и обнаруженных лиц каждого съемочного плана, вычисляют кластеры съемочных планов и сохраняют признаки отнесения съемочных планов к определенному классу в составе метаданных. Проводят выбор репрезентативных кадров из съемочных планов, составляющих кластер и сохраняют данные кадров в составе метаданных. На основании метаданных предоставляют первое средство визуального поиска в виде набора строк, каждая из которой содержит одинаковое количество изображений репрезентативных кадров. Формируют второе средство визуального поиска в виде изображений заголовков коллекций съемочных планов, сгруппированных по принадлежности к кластеру семантически близких съемочных планов. Формируют третье средство визуального поиска в виде изображений заголовков коллекций съемочных планов, сгруппированных по наличию лица участника видео. 5 з.п. ф-лы, 8 ил.

Description

Область техники

Изобретение относится к области обработки видео с применением математических операций, а именно к способу обработки с визуальным представлением краткого содержания видео-, кинофильма для целей дальнейшего информационного поиска и просмотра необходимых фрагментов.

Уровень техники

В портативных устройствах видеосъемки, технике видеоархивов и устройствах для цифрового видеомонтажа широко применяют принцип отображения краткого содержания видеоматериала в виде одного или нескольких неподвижных ключевых кадров. Очевидно, что представление видеоматериалов в виде совокупности ключевых кадров, составленной в том порядке, в котором указанные кадры встречаются в исходном видеоматериале, предпочтительнее, чем предоставление пользователю возможности просмотра видео, т.к. позволяет пользователю за короткое время оценить содержимое исходных видеоматериалов. Для визуального поиска требуемого фрагмента в видеопотоке пользователю необходимо затратить время на просмотр исходного видеоматериала либо с естественной скоростью воспроизведения, либо в ускоренном режиме. При использовании портативных устройств или устройств с батарейным питанием, декодирование видеопотока представляет значительные затраты энергопотребления.

Например, в широко используемой в отрасли программе для цифрового нелинейного монтажа Adobe Premiere видеоматериалы представлены в монтажном окне в виде последовательности ключевых кадров. Представление является линейным, при этом пользователю предоставляют визуальный ключ для сравнения длительности фрагментов. Геометрическая длина визуального представления соответствует длительности видеофрагмента. При этом, поскольку разрешающая способность экрана конечна, длительные фрагменты отображают в виде последовательности нескольких ключевых кадров, а короткие фрагменты - в виде урезанной части единственного ключевого кадра. Из-за того, что длительности видеофрагментов некратны соотношению сторон видеокадра, для представления относительно длинных фрагментов последний ключевой кадр в последовательности также отображают в урезанном виде. В то же время относительно длинные фрагменты отображают в виде последовательности относительно большого количества однотипных кадров, составляющих сюжет длинного фрагмента. Таким образом, для визуального поиска требуемого фрагмента при линейном способе отображения глазам пользователя требуется просканировать длинную последовательность неподвижных кадров.

В распространенных программах для ЭВМ и интернет-порталах для архивного хранения видеоматериалов, например в сервисе Youtube, а также в приложениях типа "Видеогалерея" портативных устройств видеозаписи каждый отдельный видеофильм визуально представляют с помощью единственного ключевого кадра. В качестве ключевого кадра принимают кадр, выбранный вручную автором или редактором видеоматериала, либо автоматически выбирают репрезентативный кадр с помощью математических вычислений. Недостатком такого способа организации визуального представления видеоархива является низкая информативность единственного ключевого кадра. Исходный видеоматериал обычно включает несколько сюжетов, и подобрать единственный ключевой кадр ко всей совокупности сюжетов не представляется возможным.

Для обеспечения информационного поиска по архиву видеоматериалов указанные портативные устройства, программы для ЭВМ и интернет-порталы предоставляют возможность текстового описания архивных видеоматериалов, включая ручной ввод метаданных (рейтинг качества, текстовое описание, перечень персонажей, ключевых слов, место и дата съемки) и автоматизированное присвоение метаданных (извлечение информации о месте и дате съемки из технических устройств видеозаписи, автоматическая генерация текстовых описаний и ключевых слов, распознавание персонажей с помощью математических расчетов). Ручной ввод метаданных организуют для единственного исходного видеоматериала, либо для совокупности видеоматериалов, выбранных пользователем вручную. Недостатком ручного ввода метаданных и ручного отбора указанной совокупности видеоматериалов являются затраты времени пользователя на ручные операции, невысокая точность и полнота поиска по видеоархиву.

Автоматизированное присвоение метаданных производят для каждого отдельно взятого исходного видеоматериала в архиве. Присвоение ключевых слов могут выполнять с использованием классификатора. В технике широко известны системы для классификации изображений, т.е. системы для анализа неподвижных изображений, таких как фотографии, и присвоения им по крайней мере одной метки или текстового описания, по которым, в свою очередь, могут осуществлять поиск в базе данных изображений. Такие системы могут использовать для классификации кадров, составляющих видеоматериалы по заранее известной номенклатуре классов. Известным в технике способом классификации является применение по крайней мере одного классификатора и отнесение изображения к множеству классов, наиболее подходящих к изображению. При этом классификатор изображений выполняют с заранее заданным перечнем классов. Например, в портативных устройствах видеозаписи, таких как мобильный телефон, могут сформировать классификатор, включающий такие классы, как "Отдых на море", "Детские праздники", "Портреты" и т.п. Недостатком таких классификаторов является фиксированная номенклатура классов, неспособная перестраиваться к номенклатуре сюжетов в видеоархиве каждого индивидуального пользователя. Например, если пользователь увлекается велосипедным туризмом или подводным плаванием, а в номенклатуре классификатора не предусмотрены такие классы, то информационный поиск видеоматериалов в архиве по указанным ключевым словам будет невозможен. Это приводит к низкой полноте результатов поиска.

Известен способ обработки видео для целей дальнейшего поиска (см. патент РФ RU2628192, 15.08.2017), в котором в дополнение к классификации изображений видеокадров предложено сохранять в базе данных векторы семантических признаков кадров, позволяющие осуществлять информационный поиск видеофрагментов по признаку семантического сходства содержимого кадра с заданным образцом. Однако, указанный аналог не обеспечивает возможности визуального поиска фрагментов в архиве видеофильмов.

Известен способ обработки видео с целью визуального представления краткого содержания и обеспечения возможности визуального поиска фрагментов (патент Кореи KR101341808, 17.12.2013 – наиболее близкий аналог), в котором осуществляют определение семантических признаков лиц и семантических признаков кадров, определение границ съемочных планов, и выбор репрезентативных кадров из указанных съемочных планов. При этом в известном способе на экране электронного устройства также представляют средство для визуального поиска фрагментов в виде набора репрезентативных кадров, выбранных из съемочных планов.

Однако указанный способ не обеспечивает высокую полноту и скорость проведения визуального поиска.

Недостатками известных способов для организации архивного хранения видеоматериалов, являются:

- низкая информативность единственного ключевого кадра для представления целого фильма, что приводит к необходимости просмотра видеопотока для отбора нужного фрагмента, что в свою очередь приводит к большим затратам времени ;

- при линейном способе отображения на известных в настоящее время дисплеях с ограниченной разрешающей способностью представление относительно длинных фрагментов видеоматериала большим количеством однотипных неподвижных кадров и представление относительно коротких фрагментов урезанным изображением части кадра затрудняет визуальный поиск требуемого фрагмента т.к. глазам пользователя требуется просканировать длинную последовательность неподвижных кадров;

- при ручном вводе метаданных и ручном отборе совокупности видеоматериалов для ввода метаданных являются высокие затраты времени пользователя на ручные операции, невысокая точность и полнота поиска по видеоархиву;

- при автоматическом присвоении ключевых слов видеоматериалам фиксированная номенклатура ключевых слов не способна подстраиваться к номенклатуре сюжетов в видеоархиве каждого индивидуального пользователя, что приводит к низкой полноте результатов поиска.

Раскрытие сущности изобретения

Задачей изобретения является устранение недостатков известных аналогов и разработка способа для обработки видео и визуального отображения краткого содержания видео с целью обеспечения возможности проведения удобного и качественного визуального поиска фрагментов.

Технический результат изобретения является в сокращении времени на визуальный поиск требуемого фрагмента видеоматериалов, повышении точности и полноты поиска. Показатель полноты поиска выражается как отношение числа найденных релевантных видеофрагментов к общему числу релевантных видеофрагментов в архиве.

Указанный технический результат достигается в изобретении за счет того, что способ обработки видео предусматривает ряд операций. После получения изображений кадров видео проводят извлечение векторов признаков лиц в изображениях, выделение областей лиц, вычисление вектора семантических признаков обнаруженных лиц и сохранение полученных векторов признаков в составе метаданных видео. Далее осуществляют извлечение векторов признаков кадров, вычисление вектора семантических признаков кадров и сохранение полученных векторов признаков в составе метаданных видео. Затем вычисляют метрику расстояния между векторами признаков соседних кадров, получают границы съемочных планов путем анализа изменения данной метрики от кадра к кадру и сохраняют границы съемочных планов в составе метаданных видео. После этого получают выборку векторов семантических признаков кадров и выборку векторов семантических признаков обнаруженных лиц каждого съемочного плана, вычисляют кластеры съемочных планов на основе близости метрики расстояния между векторами признаков и сохраняют признаки отнесения съемочных планов к определенному классу в составе метаданных видео. Затем проводят выбор репрезентативных кадров из съемочных планов, составляющих кластер и сохраняют данные кадров в составе метаданных. На основании метаданных формируют первое средство визуального поиска в виде набора строк, каждая из которой содержит одинаковое количество изображений репрезентативных кадров, полученных выборкой из одного съемочного плана, при этом строки расположены друг под другом в порядке следования съемочных планов видео с образованием прямоугольной матрицы. Также формируют второе средство визуального поиска в виде изображений заголовков коллекций съемочных планов, сгруппированных по принадлежности к кластеру семантически близких съемочных планов, при этом каждый заголовок содержит по крайней мере одно изображение репрезентативного кадра. Кроме того, формируют третье средство визуального поиска в виде изображений заголовков коллекций съемочных планов, сгруппированных по наличию лица участника видео, при этом каждый заголовок содержащих по крайней мере одно изображение репрезентативного кадра с лицом участника.

Согласно частным вариантам реализации изобретения

- при формировании первого средства визуального поиска строки с изображениями репрезентативных кадров помечают метаданными, включающими время начала съемочного плана;

- первое средство визуального поиска формируют с возможностью активации строки для выполнения по крайней мере одной операции, связанной с тайм-кодом начала фрагмента видео, соответствующего указанной строке;

- во втором и третьем средствах визуального поиска дополнительно формируют меню для выполнения групповых операций ввода метаданных, включающих дату события, ключевые слова, текстовое описание, место съемки, автора и действующих лиц;

- после вычисления кластеров съемочных планов дополнительно проводят фильтрацию полученных кластеров, а также оценку необходимости кластеризации векторов семантических признаков, которые не вошли ни в один кластер;

- в качестве репрезентативных кадров из съемочных планов, составляющих кластер, выбирают кадры, расположение и яркость пикселов которых наиболее близки к усредненным для данного кластера.

Краткое описание чертежей

Изобретение поясняется чертежами, где:

На фиг. 1 показана структурная схема системы для реализации заявленного способа.

На фиг. 2 показана схема алгоритма работы блока извлечения векторов признаков лиц;

На фиг. 3 показана схема алгоритма работы блока извлечения векторов признаков кадров;

На фиг. 4 показана схема алгоритма работы блока кластеризации;

На фиг. 5 показана схема алгоритма работы блока выборки репрезентативных кадров;

На фиг. 6 показан вид первого средства для визуального поиска;

На фиг. 7 показан вид второго средства для визуального поиска;

На фиг. 8 показан вид третьего средства для визуального поиска.

Осуществление изобретения

Заявленный способ реализуется посредством системы для обработки видео и представления его краткого содержания, показанной на фиг. 1. Система включает блок управления (1), средства вывода (2), средства ввода (3), средства хранения (4) цифровых видеоматериалов и метаданных, блок извлечения векторов признаков лиц (5), блок извлечения векторов признаков кадров (6), блок сегментации (7). Блок управления (1) связан со средствами ввода (3) и вывода (2), а также средствами хранения (4). Средства хранения (4) связаны последовательно с блоками (5), (6), (7) (8) и (9). Кроме того, в системе также может быть дополнительно предусмотрен вычислительный блок (10) связанный с блоками извлечения векторов признаков лиц (5) и кадров (6).

Конструктивно блок управления (1) может включать по крайней мере процессор и устройство оперативной памяти, в котором располагают программное обеспечение. Средства хранения (2) включают по крайней мере устройство долговременной памяти, например жесткий диск HDD или твердотельный флэш-накопитель SSD. Вычислительный блок (10) включает средства параллельных вычислений, реализующих по крайней мере операции свертки и скалярного произведения векторов, например выполненный в форме графического ускорителя CUDA или OpenCL. Блоки извлечения векторов признаков кадров (5) и лиц (6) включают по крайней мере область памяти с записанной управляющей программой и процессорной устройство, и могут быть связаны с вычислительным блоком через системную шину, например PCI. Блок кластеризации (8) включает по крайней мере область памяти с записанной управляющей программой и процессорным устройством. Кластеризацию выполняют с помощью одного из известных алгоритмов кластеризации многомерных векторов данных, например KMEANS, DBSCAN, AGGLOMERATIVE CLUSTRING, SPECTRAL CLUSTERING. Блок выборки репрезентативных кадров (9) включает по крайней мере область памяти с записанной управляющей программой и процессорным устройством. Выбор репрезентативных кадров могут производить одним из известных в технике способов, например по критерию экстремума векторного расстояния кадра до усредненного кадра съемочного плана в цветовом пространстве LUV, экстремума векторного расстояния гистограммы кадра до усредненной гистограммы съемочного плана в цветовом пространстве LUV, экстремального значения коэффициентов дисперсии, эксцесса или других статистических показателей кадра. Средства графического вывода (2) включают по крайней мере экран компьютера или портативного устройства. Средства ввода (3) информации от пользователя могут включать клавиатуру или быть выполнены в совмещенном виде со средствами графического вывода в форме сенсорного экрана, известного в технике портативных устройств.

При сохранении в средствах хранения (4) по крайней мере одного видеоролика (видеофильма и т.п.) блок управления (1) передает в блок (5) извлечения семантических признаков лиц выборку декодированных изображений кадров видеофильма из средств (4). Предпочтительно, чтобы блок управления (1) выполнял декодирование изображений из сжатого видеопотока и формировал выборку кадров через равные промежутки. Блок (5) реализован в виде настраиваемого многофункционального средства под управлением программного обеспечения.

Схема алгоритма работы блока (5) в предпочтительном варианте осуществления показан на Фиг. 2.

Блок (5) получает на вход изображение кадра. Предварительно может проводиться операция изменения цветовой схемы кодирования кадра (11), например перевод из цветного изображения в полутоновое известным в технике способом, а также масштабирование (12) изображения кадра. Далее производят операцию (13) обнаружения лиц с использованием известных в технике алгоритмов, например каскадного детектора Хаара. При этом алгоритм обнаружения лиц не имеет существенного значения для настоящего изобретения.

На выходе шага (13) получают список L областей кадра, в которых обнаружены изображения человеческих лиц. После этого производят проверку, не пуст ли список L (шаг 14). В случае, если он не пуст, очередной элемент списка передают для поворота (15) изображения кадра вокруг точки, заданной относительно координат области лица в обрабатываемом элементе списка L. Далее могут производить масштабирование (16) изображения и копирование фрагмента, включающего человеческое лицо в область памяти для операции вычисления (27) семантических признаков лица.

В предпочтительном варианте осуществления изобретения для ускорения математических операций блок (5) на шаге (17) передает предобработанные изображения в вычислительный блок (10), имеющий возможность ускоренного вычисления, по крайней мере, операции свертки. В другом варианте осуществления вычислительный блок (10) используют для операций обнаружения человеческих лиц на шаге (13) и для операций вычисления векторов признаков на шаге (17).

Далее полученный вектор семантических признаков лица сохраняют в составе метаданных видеофильма (шаг 28). Метаданные включают по крайней мере позицию кадра в фильме, выраженную в единицах времени от начала фильма или в порядковом номере кадра, и вектор признаков, выраженный в виде списка вещественных чисел фиксированной длины. Предпочтительно, чтобы метаданные включали и координаты области лица в кадре. В одном из вариантов осуществления указанные координаты выражают в форме пары вещественных чисел от 0 до 1, первое из которых соответствует доле ширины кадра, а второе - доле высоты кадра, однозначно задающих координату в поле кадра.

Далее на шаге 29 обработанный элемент удаляют из списка L.

Таким образом, на выходе в блоке (5) формируют список метаданных.

Затем изображения кадров поступают в блок (6) извлечения семантических признаков кадров. Блок (6) также реализуют в виде настраиваемого многофункционального средства под управлением программного обеспечения. Схема алгоритма работы блока (6) в предпочтительном варианте осуществления показана на Фиг. 3.

Блок (6) получает на вход изображение кадра. Предварительно, на шаге (20) могут производить изменение цветовой схемы кодирования кадра, например перевод из цветного изображения в формате YUV в цветное изображение в формат BGR известным в технике способом. Кроме того, на шаге (21) могут производить масштабирование изображения кадра.

Затем выполняют вычисление вектора семантических признаков кадра (22), описанным выше путем.

В предпочтительном варианте осуществления изобретения для ускорения математических операций блок (6) на шаге (22) передает предобработанные изображения в вычислительный блок (10), выполненный с возможностью ускоренного вычисления по крайней мере операции свертки.

На шаге (23) полученный вектор семантических признаков кадра сохраняют в составе метаданных видеофильма. Метаданные включают по крайней мере позицию кадра в фильме, выраженную в единицах времени от начала фильма или в порядковом номере кадра, и вектор признаков, выраженный в виде списка вещественных чисел фиксированной длины.

Таким образом, на выходе блока (6) формируют список метаданных.

Полученные векторы семантических признаков кадров передают в блок сегментации (7), который также реализован в виде настраиваемого многофункционального средства под управлением программного обеспечения. В блоке (7) проводят вычисление метрики расстояния между векторами признаков соседних кадров, и путем анализа изменения данной метрики от кадра к кадру получают границы съемочных планов. В качестве метрики могут использовать любой известный вид расстояния между многомерными векторами, например евклидово расстояние или косинусное расстояние. В описываемом варианте реализации применена метрика косинусного расстояния, а анализ изменения метрики производят путем сравнения величины разности метрики между соседними кадрами с пороговым значением. В случае превышения порогового значения фиксируют границу съемочного плана. Специалистам понятно, что возможны различные варианты усовершенствования данной процедуры, например применение адаптивного порога, фильтрации последовательности разностей метрик соседних кадров и т.п.

Границы съемочных планов сохраняют в составе метаданных фильма.

Полученные границы съемочных планов передают в блок кластеризации (8), реализованный в виде настраиваемого многофункционального средства под управлением программного обеспечения. Схема алгоритма работы блока (8) в предпочтительном варианте осуществления показана на Фиг. 4.

В одном из вариантов реализации изобретения на входе блок кластеризации (8) получает границы съемочных планов всех фильмов, сохраненных в портативном устройстве видеозаписи. В другом варианте воплощения изобретения на входе блок кластеризации (8) получает границы съемочных планов всех фильмов видеоархива. На шаге (24) получают выборку векторов семантических признаков кадров каждого съемочного плана, идентифицированного границами съемочного плана. Выборка включает по крайней мере одно значение вектора признаков из каждого съемочного плана.

На шаге (25) выполняют кластеризацию выборки векторов признаков с помощью одного из известных алгоритмов кластеризации многомерных векторов данных, например KMEANS, DBSCAN, AGGLOMERATIVE CLUSTRING, SPECTRAL CLUSTERING.

На шаге (26) выполняют фильтрацию полученных кластеров, например удаляют кластеры, включающие количество съемочных планов менее первого предельного значения, и превышающее второе предельное значение. Специалистам в данной области техники понятно, что возможны различные усовершенствования процедуры фильтрации, например использование метрик качества кластеризации, энтропии кластеров или коэффициента SILHUETTE.

На шаге (27) принимают решение о необходимости кластеризации тех векторов семантических признаков, которые не вошли ни в один кластер. В описываемом варианте реализации критерием прекращения кластеризации является прекращение процесса создания новых кластеров на шагах (25) и (26). Специалистам в данной области ясно, что критерии прекращения кластеризации могут быть различными, и сущность изобретения от этого не изменится.

На шаге (28) производят сохранение признаков отнесения съемочных планов к тому или иному классу в составе метаданных фильма.

В блок кластеризации (8) также передают векторы признаков человеческих лиц, обнаруженных в кадре блоком (5). Кластеризацию векторов признаков проводят аналогично описанному выше, и получают кластеры по признаку наличия в кадрах съемочных планов того или иного лица.

Далее границы съемочных планов фильма и признаки отнесение его съемочных планов к тому или иному классу передают в блок (9) выборки репрезентативных кадров из всей совокупности съемочных планов, составляющих кластер. Блок (9) также реализуют в виде настраиваемого многофункционального средства под управлением программного обеспечения. Схема работы алгоритма блока (9) в предпочтительном варианте осуществления изобретения показана на Фиг. 5.

На шаге (29) инициализируют области памяти для работы алгоритма: область памяти изображения кадра Ki; счетчик i = 1; матрица средней яркости M = [ 0 ] размерности, совпадающей с размерностью кадра.

На шаге (30) проверяют, существует ли в составе кластера кадр с номером i.

На шаге (31) значения яркостей по крайней мере одного канала изображения кадра Ki накапливают суммированием в области памяти матрицы М. Увеличивают значение счетчика i.

На шаге (32) производят вычисление средней яркости путем деления каждой ячейки матрицы М на количество накопленных кадров. Инициализируют области памяти для дальнейших шагов алгоритма: счетчик j; минимальное расстояние D; номер репрезентативного кадра J.

На шаге (33) проверяют, существует ли в составе кластера кадр с номером j.

На шаге (34) вычисляют евклидово расстояние d между матрицей средней яркости М и кадром Kj .

На шаге (35) сравнивают величину d с минимальным на данный момент расстоянием D.

Далее копируют величины d в D и j в J (шаг 36) и увеличивают значение счетчика j (шаг 37).

В результате работы алгоритма в области памяти J получают номер кадра, расположение и яркость пикселов в котором наиболее близки к усредненным для данного кластера. Этот кадр могут считать репрезентативным.

Возможно применение и других методов выбора репрезентативных кадров, известных специалиста в данной области техники, например по критерию максимума векторного расстояния кадра до усредненного кадра съемочного плана в цветовом пространстве LUV, экстремума векторного расстояния гистограммы кадра до усредненной гистограммы съемочного плана в цветовом пространстве LUV, экстремального значения коэффициентов дисперсии, эксцесса или других статистических показателей кадра. При этом под экстремумом понимают минимальное или максимальное значения.

Полученные репрезентативные кадры для каждого кластера сохраняют в составе метаданных в средствах (4) хранения цифровых видеофильмов и метаданных.

В качестве первого средства визуального поиска фрагмента в архиве киновидеоматериалов по команде блока управления (1) средство графического вывода (2) формирует изображение кинограммы, схематически показанной на Фиг. 6. Кинограмма включает выборочные неподвижные изображения (38) кадров видеоролика (фильма). При этом изображения (38) формируют строки (39), включающие равное фиксированное количество неподвижных изображений (38) и полученные выборкой из одного съемочного плана. Строки (39) кинограммы располагают друг под другом в порядке следования съемочных планов на видео таким образом, что изображения кадров образуют прямоугольную матрицу на экране. Строку (39) кинограммы, включающую один съемочный план, могут дополнительно помечать метаданными (40). В частном варианте реализации в качестве метаданных (40) показан тайм-код начала съемочного плана. Пользователь имеет возможность одним взглядом оценить содержание видеофильма за время, пропорциональное количеству съемочных планов. Для выбора требуемого фрагмента для выполнения по крайней мере одной операции с видеофильмом в архиве, например, операции копирования, пользователь с помощью средств ввода (3), таких как компьютерная мышь, активирует по крайней мере одну область кинограммы, например строку (62). Блок управления (1) фиксирует метаданные выбранного съемочного плана для выполнения заданной операции над архивом видеофильмов.

В качестве второго средства для информационного и визуального поиска требуемого фрагмента с помощью средства графического вывода (2) по команде блока управления (1) изображение заголовков коллекций (41) съемочных планов, схематично показанных на фиг. 7. Указанные заголовки включают по крайней мере одно репрезентативное изображение видеокадра (42) и сгруппированы по признаку принадлежности к кластеру семантически близких съемочных планов. Пользователь имеет возможность активировать с помощью средств ввода (3) область изображения заголовка (41). Блок управления (1) фиксирует признак выбранного кластера для выполнения требуемой задачи, например, отображение всех съемочных планов, входящих в кластер и формирует другое изображение кинограммы.

В качестве третьего средства визуального поиска формируют изображение заголовков коллекций (43) съемочных планов, сгруппированных по наличию лица того или иного человека (участника видеофильма), включающие по крайней мере одно репрезентативное изображение лица (44). Пользователь имеет возможность активировать с помощью средств ввода (3) область изображения заголовка коллекции (43). Блок управления (1) фиксирует признак выбранного кластера для выполнения требуемой задачи, например, отображение всех съемочных планов, входящих в коллекцию.

Во втором и третьем средствах поиска также могут формировать элемент меню (45) для выполнения групповых операций ввода метаданных, включающих по крайней мере дату события, ключевые слова, текстовое описание, место съемки, автора, действующих лиц. Пользователь имеет возможность активировать элемент меню (45) выбора типа метаданных. Далее пользователь вводит содержание метаданных и блок управления (1) выполняет сохранение метаданных в средствах (4) хранения цифровых материалов и метаданных, причем метаданные информационно связывают по крайней мере с одним съемочным планом, включенным в коллекцию съемочных планов соответствующего кластера.

Таким образом, за счет применения в заявленном изобретении описанного выше алгоритма обработки видео, а также представления средств для отображения содержания видео, снижается время визуального поиска, а также повышается его полнота и точность.

Claims

1. Способ обработки видео для целей визуального поиска фрагментов с помощью электронного устройства, включающий

- получение изображений кадров видео;

- извлечение векторов признаков лиц в изображениях, выделение областей лиц, вычисление вектора семантических признаков обнаруженных лиц и сохранение полученных векторов признаков в составе метаданных видео;

- извлечение векторов признаков кадров, вычисление вектора семантических признаков кадров и сохранение полученных векторов признаков в составе метаданных видео;

- вычисление метрики расстояния между векторами признаков соседних кадров и получение границы съемочных планов путем анализа изменения данной метрики от кадра к кадру и сохранение границ съемочных планов в составе метаданных видео;

- получение выборки векторов семантических признаков кадров и выборки векторов семантических признаков обнаруженных лиц каждого съемочного плана, вычисление кластеров съемочных планов на основе близости метрики расстояния между векторами признаков и сохранение признаков отнесения съемочных планов к определенному классу в составе метаданных видео;

- выбор репрезентативных кадров из съемочных планов, составляющих кластер, и сохранение данных кадров в составе метаданных видео;

- формирование посредством средства графического вывода электронного устройства на основании полученных метаданных первого средства визуального поиска в виде набора строк, каждая из которой содержит одинаковое количество изображений репрезентативных кадров, полученных выборкой из одного съемочного плана, при этом строки расположены друг под другом в порядке следования съемочных планов видео с образованием прямоугольной матрицы;

- формирование посредством средства графического вывода электронного устройства на основании полученных метаданных второго средства визуального поиска в виде изображений заголовков коллекций съемочных планов, сгруппированных по принадлежности к кластеру семантически близких съемочных планов, при этом каждый заголовок содержит по крайней мере одно изображение репрезентативного кадра;

- формирование посредством средства графического вывода электронного устройства на основании полученных метаданных третьего средства визуального поиска в виде изображений заголовков коллекций съемочных планов, сгруппированных по наличию лица участника видео, при этом каждый заголовок содержит по крайней мере одно изображение репрезентативного кадра с лицом участника.

2. Способ по п.1, в котором при формировании первого средства визуального поиска строки с изображениями репрезентативных кадров помечают метаданными, включающими время начала съемочного плана.

3. Способ по п.1, в котором первое средство визуального поиска формируют с возможностью активации строки для выполнения по крайней мере одной операции, связанной с тайм-кодом начала фрагмента видео, соответствующего указанной строке.

4. Способ по п.1, в котором во втором и третьем средствах визуального поиска дополнительно формируют меню для выполнения групповых операций ввода метаданных, включающих дату события, ключевые слова, текстовое описание, место съемки, автора и действующих лиц.

5. Способ по п.1, в котором после вычисления кластеров съемочных планов дополнительно проводят фильтрацию полученных кластеров, а также оценку необходимости кластеризации векторов семантических признаков, которые не вошли ни в один кластер.

6. Способ по п.1, в котором в качестве репрезентативных кадров из съемочных планов, составляющих кластер, выбирают кадры, расположение и яркость пикселов которых наиболее близки к усредненным для данного кластера.