RU2693994C1 - Способ обработки видео для целей визуального поиска - Google Patents

Способ обработки видео для целей визуального поиска Download PDF

Info

Publication number
RU2693994C1
RU2693994C1 RU2018139003A RU2018139003A RU2693994C1 RU 2693994 C1 RU2693994 C1 RU 2693994C1 RU 2018139003 A RU2018139003 A RU 2018139003A RU 2018139003 A RU2018139003 A RU 2018139003A RU 2693994 C1 RU2693994 C1 RU 2693994C1
Authority
RU
Russia
Prior art keywords
video
metadata
frames
plans
shooting
Prior art date
Application number
RU2018139003A
Other languages
English (en)
Inventor
Сергей Юрьевич Подлесный
Алексей Валентинович Кучеренко
Original Assignee
Сергей Юрьевич Подлесный
Алексей Валентинович Кучеренко
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Сергей Юрьевич Подлесный, Алексей Валентинович Кучеренко filed Critical Сергей Юрьевич Подлесный
Priority to RU2018139003A priority Critical patent/RU2693994C1/ru
Application granted granted Critical
Publication of RU2693994C1 publication Critical patent/RU2693994C1/ru

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

Изобретение относится к области обработки видео. Технический результат заключается в повышении точности и скорости визуального поиска требуемого фрагмента видеоматериалов. Способ включает получение изображений кадров видео, вычисление вектора семантических признаков обнаруженных лиц и кадров на полученных изображениях и сохранение полученных векторов признаков в составе метаданных. Вычисляют метрику расстояния между векторами признаков соседних кадров, получают границы съемочных планов и сохраняют границы в составе метаданных видео. Получают выборки векторов семантических признаков кадров и обнаруженных лиц каждого съемочного плана, вычисляют кластеры съемочных планов и сохраняют признаки отнесения съемочных планов к определенному классу в составе метаданных. Проводят выбор репрезентативных кадров из съемочных планов, составляющих кластер и сохраняют данные кадров в составе метаданных. На основании метаданных предоставляют первое средство визуального поиска в виде набора строк, каждая из которой содержит одинаковое количество изображений репрезентативных кадров. Формируют второе средство визуального поиска в виде изображений заголовков коллекций съемочных планов, сгруппированных по принадлежности к кластеру семантически близких съемочных планов. Формируют третье средство визуального поиска в виде изображений заголовков коллекций съемочных планов, сгруппированных по наличию лица участника видео. 5 з.п. ф-лы, 8 ил.

Description

Область техники
Изобретение относится к области обработки видео с применением математических операций, а именно к способу обработки с визуальным представлением краткого содержания видео-, кинофильма для целей дальнейшего информационного поиска и просмотра необходимых фрагментов.
Уровень техники
В портативных устройствах видеосъемки, технике видеоархивов и устройствах для цифрового видеомонтажа широко применяют принцип отображения краткого содержания видеоматериала в виде одного или нескольких неподвижных ключевых кадров. Очевидно, что представление видеоматериалов в виде совокупности ключевых кадров, составленной в том порядке, в котором указанные кадры встречаются в исходном видеоматериале, предпочтительнее, чем предоставление пользователю возможности просмотра видео, т.к. позволяет пользователю за короткое время оценить содержимое исходных видеоматериалов. Для визуального поиска требуемого фрагмента в видеопотоке пользователю необходимо затратить время на просмотр исходного видеоматериала либо с естественной скоростью воспроизведения, либо в ускоренном режиме. При использовании портативных устройств или устройств с батарейным питанием, декодирование видеопотока представляет значительные затраты энергопотребления.
Например, в широко используемой в отрасли программе для цифрового нелинейного монтажа Adobe Premiere видеоматериалы представлены в монтажном окне в виде последовательности ключевых кадров. Представление является линейным, при этом пользователю предоставляют визуальный ключ для сравнения длительности фрагментов. Геометрическая длина визуального представления соответствует длительности видеофрагмента. При этом, поскольку разрешающая способность экрана конечна, длительные фрагменты отображают в виде последовательности нескольких ключевых кадров, а короткие фрагменты - в виде урезанной части единственного ключевого кадра. Из-за того, что длительности видеофрагментов некратны соотношению сторон видеокадра, для представления относительно длинных фрагментов последний ключевой кадр в последовательности также отображают в урезанном виде. В то же время относительно длинные фрагменты отображают в виде последовательности относительно большого количества однотипных кадров, составляющих сюжет длинного фрагмента. Таким образом, для визуального поиска требуемого фрагмента при линейном способе отображения глазам пользователя требуется просканировать длинную последовательность неподвижных кадров.
В распространенных программах для ЭВМ и интернет-порталах для архивного хранения видеоматериалов, например в сервисе Youtube, а также в приложениях типа "Видеогалерея" портативных устройств видеозаписи каждый отдельный видеофильм визуально представляют с помощью единственного ключевого кадра. В качестве ключевого кадра принимают кадр, выбранный вручную автором или редактором видеоматериала, либо автоматически выбирают репрезентативный кадр с помощью математических вычислений. Недостатком такого способа организации визуального представления видеоархива является низкая информативность единственного ключевого кадра. Исходный видеоматериал обычно включает несколько сюжетов, и подобрать единственный ключевой кадр ко всей совокупности сюжетов не представляется возможным.
Для обеспечения информационного поиска по архиву видеоматериалов указанные портативные устройства, программы для ЭВМ и интернет-порталы предоставляют возможность текстового описания архивных видеоматериалов, включая ручной ввод метаданных (рейтинг качества, текстовое описание, перечень персонажей, ключевых слов, место и дата съемки) и автоматизированное присвоение метаданных (извлечение информации о месте и дате съемки из технических устройств видеозаписи, автоматическая генерация текстовых описаний и ключевых слов, распознавание персонажей с помощью математических расчетов). Ручной ввод метаданных организуют для единственного исходного видеоматериала, либо для совокупности видеоматериалов, выбранных пользователем вручную. Недостатком ручного ввода метаданных и ручного отбора указанной совокупности видеоматериалов являются затраты времени пользователя на ручные операции, невысокая точность и полнота поиска по видеоархиву.
Автоматизированное присвоение метаданных производят для каждого отдельно взятого исходного видеоматериала в архиве. Присвоение ключевых слов могут выполнять с использованием классификатора. В технике широко известны системы для классификации изображений, т.е. системы для анализа неподвижных изображений, таких как фотографии, и присвоения им по крайней мере одной метки или текстового описания, по которым, в свою очередь, могут осуществлять поиск в базе данных изображений. Такие системы могут использовать для классификации кадров, составляющих видеоматериалы по заранее известной номенклатуре классов. Известным в технике способом классификации является применение по крайней мере одного классификатора и отнесение изображения к множеству классов, наиболее подходящих к изображению. При этом классификатор изображений выполняют с заранее заданным перечнем классов. Например, в портативных устройствах видеозаписи, таких как мобильный телефон, могут сформировать классификатор, включающий такие классы, как "Отдых на море", "Детские праздники", "Портреты" и т.п. Недостатком таких классификаторов является фиксированная номенклатура классов, неспособная перестраиваться к номенклатуре сюжетов в видеоархиве каждого индивидуального пользователя. Например, если пользователь увлекается велосипедным туризмом или подводным плаванием, а в номенклатуре классификатора не предусмотрены такие классы, то информационный поиск видеоматериалов в архиве по указанным ключевым словам будет невозможен. Это приводит к низкой полноте результатов поиска.
Известен способ обработки видео для целей дальнейшего поиска (см. патент РФ RU2628192, 15.08.2017), в котором в дополнение к классификации изображений видеокадров предложено сохранять в базе данных векторы семантических признаков кадров, позволяющие осуществлять информационный поиск видеофрагментов по признаку семантического сходства содержимого кадра с заданным образцом. Однако, указанный аналог не обеспечивает возможности визуального поиска фрагментов в архиве видеофильмов.
Известен способ обработки видео с целью визуального представления краткого содержания и обеспечения возможности визуального поиска фрагментов (патент Кореи KR101341808, 17.12.2013 – наиболее близкий аналог), в котором осуществляют определение семантических признаков лиц и семантических признаков кадров, определение границ съемочных планов, и выбор репрезентативных кадров из указанных съемочных планов. При этом в известном способе на экране электронного устройства также представляют средство для визуального поиска фрагментов в виде набора репрезентативных кадров, выбранных из съемочных планов.
Однако указанный способ не обеспечивает высокую полноту и скорость проведения визуального поиска.
Недостатками известных способов для организации архивного хранения видеоматериалов, являются:
- низкая информативность единственного ключевого кадра для представления целого фильма, что приводит к необходимости просмотра видеопотока для отбора нужного фрагмента, что в свою очередь приводит к большим затратам времени ;
- при линейном способе отображения на известных в настоящее время дисплеях с ограниченной разрешающей способностью представление относительно длинных фрагментов видеоматериала большим количеством однотипных неподвижных кадров и представление относительно коротких фрагментов урезанным изображением части кадра затрудняет визуальный поиск требуемого фрагмента т.к. глазам пользователя требуется просканировать длинную последовательность неподвижных кадров;
- при ручном вводе метаданных и ручном отборе совокупности видеоматериалов для ввода метаданных являются высокие затраты времени пользователя на ручные операции, невысокая точность и полнота поиска по видеоархиву;
- при автоматическом присвоении ключевых слов видеоматериалам фиксированная номенклатура ключевых слов не способна подстраиваться к номенклатуре сюжетов в видеоархиве каждого индивидуального пользователя, что приводит к низкой полноте результатов поиска.
Раскрытие сущности изобретения
Задачей изобретения является устранение недостатков известных аналогов и разработка способа для обработки видео и визуального отображения краткого содержания видео с целью обеспечения возможности проведения удобного и качественного визуального поиска фрагментов.
Технический результат изобретения является в сокращении времени на визуальный поиск требуемого фрагмента видеоматериалов, повышении точности и полноты поиска. Показатель полноты поиска выражается как отношение числа найденных релевантных видеофрагментов к общему числу релевантных видеофрагментов в архиве.
Указанный технический результат достигается в изобретении за счет того, что способ обработки видео предусматривает ряд операций. После получения изображений кадров видео проводят извлечение векторов признаков лиц в изображениях, выделение областей лиц, вычисление вектора семантических признаков обнаруженных лиц и сохранение полученных векторов признаков в составе метаданных видео. Далее осуществляют извлечение векторов признаков кадров, вычисление вектора семантических признаков кадров и сохранение полученных векторов признаков в составе метаданных видео. Затем вычисляют метрику расстояния между векторами признаков соседних кадров, получают границы съемочных планов путем анализа изменения данной метрики от кадра к кадру и сохраняют границы съемочных планов в составе метаданных видео. После этого получают выборку векторов семантических признаков кадров и выборку векторов семантических признаков обнаруженных лиц каждого съемочного плана, вычисляют кластеры съемочных планов на основе близости метрики расстояния между векторами признаков и сохраняют признаки отнесения съемочных планов к определенному классу в составе метаданных видео. Затем проводят выбор репрезентативных кадров из съемочных планов, составляющих кластер и сохраняют данные кадров в составе метаданных. На основании метаданных формируют первое средство визуального поиска в виде набора строк, каждая из которой содержит одинаковое количество изображений репрезентативных кадров, полученных выборкой из одного съемочного плана, при этом строки расположены друг под другом в порядке следования съемочных планов видео с образованием прямоугольной матрицы. Также формируют второе средство визуального поиска в виде изображений заголовков коллекций съемочных планов, сгруппированных по принадлежности к кластеру семантически близких съемочных планов, при этом каждый заголовок содержит по крайней мере одно изображение репрезентативного кадра. Кроме того, формируют третье средство визуального поиска в виде изображений заголовков коллекций съемочных планов, сгруппированных по наличию лица участника видео, при этом каждый заголовок содержащих по крайней мере одно изображение репрезентативного кадра с лицом участника.
Согласно частным вариантам реализации изобретения
- при формировании первого средства визуального поиска строки с изображениями репрезентативных кадров помечают метаданными, включающими время начала съемочного плана;
- первое средство визуального поиска формируют с возможностью активации строки для выполнения по крайней мере одной операции, связанной с тайм-кодом начала фрагмента видео, соответствующего указанной строке;
- во втором и третьем средствах визуального поиска дополнительно формируют меню для выполнения групповых операций ввода метаданных, включающих дату события, ключевые слова, текстовое описание, место съемки, автора и действующих лиц;
- после вычисления кластеров съемочных планов дополнительно проводят фильтрацию полученных кластеров, а также оценку необходимости кластеризации векторов семантических признаков, которые не вошли ни в один кластер;
- в качестве репрезентативных кадров из съемочных планов, составляющих кластер, выбирают кадры, расположение и яркость пикселов которых наиболее близки к усредненным для данного кластера.
Краткое описание чертежей
Изобретение поясняется чертежами, где:
На фиг. 1 показана структурная схема системы для реализации заявленного способа.
На фиг. 2 показана схема алгоритма работы блока извлечения векторов признаков лиц;
На фиг. 3 показана схема алгоритма работы блока извлечения векторов признаков кадров;
На фиг. 4 показана схема алгоритма работы блока кластеризации;
На фиг. 5 показана схема алгоритма работы блока выборки репрезентативных кадров;
На фиг. 6 показан вид первого средства для визуального поиска;
На фиг. 7 показан вид второго средства для визуального поиска;
На фиг. 8 показан вид третьего средства для визуального поиска.
Осуществление изобретения
Заявленный способ реализуется посредством системы для обработки видео и представления его краткого содержания, показанной на фиг. 1. Система включает блок управления (1), средства вывода (2), средства ввода (3), средства хранения (4) цифровых видеоматериалов и метаданных, блок извлечения векторов признаков лиц (5), блок извлечения векторов признаков кадров (6), блок сегментации (7). Блок управления (1) связан со средствами ввода (3) и вывода (2), а также средствами хранения (4). Средства хранения (4) связаны последовательно с блоками (5), (6), (7) (8) и (9). Кроме того, в системе также может быть дополнительно предусмотрен вычислительный блок (10) связанный с блоками извлечения векторов признаков лиц (5) и кадров (6).
Конструктивно блок управления (1) может включать по крайней мере процессор и устройство оперативной памяти, в котором располагают программное обеспечение. Средства хранения (2) включают по крайней мере устройство долговременной памяти, например жесткий диск HDD или твердотельный флэш-накопитель SSD. Вычислительный блок (10) включает средства параллельных вычислений, реализующих по крайней мере операции свертки и скалярного произведения векторов, например выполненный в форме графического ускорителя CUDA или OpenCL. Блоки извлечения векторов признаков кадров (5) и лиц (6) включают по крайней мере область памяти с записанной управляющей программой и процессорной устройство, и могут быть связаны с вычислительным блоком через системную шину, например PCI. Блок кластеризации (8) включает по крайней мере область памяти с записанной управляющей программой и процессорным устройством. Кластеризацию выполняют с помощью одного из известных алгоритмов кластеризации многомерных векторов данных, например KMEANS, DBSCAN, AGGLOMERATIVE CLUSTRING, SPECTRAL CLUSTERING. Блок выборки репрезентативных кадров (9) включает по крайней мере область памяти с записанной управляющей программой и процессорным устройством. Выбор репрезентативных кадров могут производить одним из известных в технике способов, например по критерию экстремума векторного расстояния кадра до усредненного кадра съемочного плана в цветовом пространстве LUV, экстремума векторного расстояния гистограммы кадра до усредненной гистограммы съемочного плана в цветовом пространстве LUV, экстремального значения коэффициентов дисперсии, эксцесса или других статистических показателей кадра. Средства графического вывода (2) включают по крайней мере экран компьютера или портативного устройства. Средства ввода (3) информации от пользователя могут включать клавиатуру или быть выполнены в совмещенном виде со средствами графического вывода в форме сенсорного экрана, известного в технике портативных устройств.
При сохранении в средствах хранения (4) по крайней мере одного видеоролика (видеофильма и т.п.) блок управления (1) передает в блок (5) извлечения семантических признаков лиц выборку декодированных изображений кадров видеофильма из средств (4). Предпочтительно, чтобы блок управления (1) выполнял декодирование изображений из сжатого видеопотока и формировал выборку кадров через равные промежутки. Блок (5) реализован в виде настраиваемого многофункционального средства под управлением программного обеспечения.
Схема алгоритма работы блока (5) в предпочтительном варианте осуществления показан на Фиг. 2.
Блок (5) получает на вход изображение кадра. Предварительно может проводиться операция изменения цветовой схемы кодирования кадра (11), например перевод из цветного изображения в полутоновое известным в технике способом, а также масштабирование (12) изображения кадра. Далее производят операцию (13) обнаружения лиц с использованием известных в технике алгоритмов, например каскадного детектора Хаара. При этом алгоритм обнаружения лиц не имеет существенного значения для настоящего изобретения.
На выходе шага (13) получают список L областей кадра, в которых обнаружены изображения человеческих лиц. После этого производят проверку, не пуст ли список L (шаг 14). В случае, если он не пуст, очередной элемент списка передают для поворота (15) изображения кадра вокруг точки, заданной относительно координат области лица в обрабатываемом элементе списка L. Далее могут производить масштабирование (16) изображения и копирование фрагмента, включающего человеческое лицо в область памяти для операции вычисления (27) семантических признаков лица.
В предпочтительном варианте осуществления изобретения для ускорения математических операций блок (5) на шаге (17) передает предобработанные изображения в вычислительный блок (10), имеющий возможность ускоренного вычисления, по крайней мере, операции свертки. В другом варианте осуществления вычислительный блок (10) используют для операций обнаружения человеческих лиц на шаге (13) и для операций вычисления векторов признаков на шаге (17).
Далее полученный вектор семантических признаков лица сохраняют в составе метаданных видеофильма (шаг 28). Метаданные включают по крайней мере позицию кадра в фильме, выраженную в единицах времени от начала фильма или в порядковом номере кадра, и вектор признаков, выраженный в виде списка вещественных чисел фиксированной длины. Предпочтительно, чтобы метаданные включали и координаты области лица в кадре. В одном из вариантов осуществления указанные координаты выражают в форме пары вещественных чисел от 0 до 1, первое из которых соответствует доле ширины кадра, а второе - доле высоты кадра, однозначно задающих координату в поле кадра.
Далее на шаге 29 обработанный элемент удаляют из списка L.
Таким образом, на выходе в блоке (5) формируют список метаданных.
Затем изображения кадров поступают в блок (6) извлечения семантических признаков кадров. Блок (6) также реализуют в виде настраиваемого многофункционального средства под управлением программного обеспечения. Схема алгоритма работы блока (6) в предпочтительном варианте осуществления показана на Фиг. 3.
Блок (6) получает на вход изображение кадра. Предварительно, на шаге (20) могут производить изменение цветовой схемы кодирования кадра, например перевод из цветного изображения в формате YUV в цветное изображение в формат BGR известным в технике способом. Кроме того, на шаге (21) могут производить масштабирование изображения кадра.
Затем выполняют вычисление вектора семантических признаков кадра (22), описанным выше путем.
В предпочтительном варианте осуществления изобретения для ускорения математических операций блок (6) на шаге (22) передает предобработанные изображения в вычислительный блок (10), выполненный с возможностью ускоренного вычисления по крайней мере операции свертки.
На шаге (23) полученный вектор семантических признаков кадра сохраняют в составе метаданных видеофильма. Метаданные включают по крайней мере позицию кадра в фильме, выраженную в единицах времени от начала фильма или в порядковом номере кадра, и вектор признаков, выраженный в виде списка вещественных чисел фиксированной длины.
Таким образом, на выходе блока (6) формируют список метаданных.
Полученные векторы семантических признаков кадров передают в блок сегментации (7), который также реализован в виде настраиваемого многофункционального средства под управлением программного обеспечения. В блоке (7) проводят вычисление метрики расстояния между векторами признаков соседних кадров, и путем анализа изменения данной метрики от кадра к кадру получают границы съемочных планов. В качестве метрики могут использовать любой известный вид расстояния между многомерными векторами, например евклидово расстояние или косинусное расстояние. В описываемом варианте реализации применена метрика косинусного расстояния, а анализ изменения метрики производят путем сравнения величины разности метрики между соседними кадрами с пороговым значением. В случае превышения порогового значения фиксируют границу съемочного плана. Специалистам понятно, что возможны различные варианты усовершенствования данной процедуры, например применение адаптивного порога, фильтрации последовательности разностей метрик соседних кадров и т.п.
Границы съемочных планов сохраняют в составе метаданных фильма.
Полученные границы съемочных планов передают в блок кластеризации (8), реализованный в виде настраиваемого многофункционального средства под управлением программного обеспечения. Схема алгоритма работы блока (8) в предпочтительном варианте осуществления показана на Фиг. 4.
В одном из вариантов реализации изобретения на входе блок кластеризации (8) получает границы съемочных планов всех фильмов, сохраненных в портативном устройстве видеозаписи. В другом варианте воплощения изобретения на входе блок кластеризации (8) получает границы съемочных планов всех фильмов видеоархива. На шаге (24) получают выборку векторов семантических признаков кадров каждого съемочного плана, идентифицированного границами съемочного плана. Выборка включает по крайней мере одно значение вектора признаков из каждого съемочного плана.
На шаге (25) выполняют кластеризацию выборки векторов признаков с помощью одного из известных алгоритмов кластеризации многомерных векторов данных, например KMEANS, DBSCAN, AGGLOMERATIVE CLUSTRING, SPECTRAL CLUSTERING.
На шаге (26) выполняют фильтрацию полученных кластеров, например удаляют кластеры, включающие количество съемочных планов менее первого предельного значения, и превышающее второе предельное значение. Специалистам в данной области техники понятно, что возможны различные усовершенствования процедуры фильтрации, например использование метрик качества кластеризации, энтропии кластеров или коэффициента SILHUETTE.
На шаге (27) принимают решение о необходимости кластеризации тех векторов семантических признаков, которые не вошли ни в один кластер. В описываемом варианте реализации критерием прекращения кластеризации является прекращение процесса создания новых кластеров на шагах (25) и (26). Специалистам в данной области ясно, что критерии прекращения кластеризации могут быть различными, и сущность изобретения от этого не изменится.
На шаге (28) производят сохранение признаков отнесения съемочных планов к тому или иному классу в составе метаданных фильма.
В блок кластеризации (8) также передают векторы признаков человеческих лиц, обнаруженных в кадре блоком (5). Кластеризацию векторов признаков проводят аналогично описанному выше, и получают кластеры по признаку наличия в кадрах съемочных планов того или иного лица.
Далее границы съемочных планов фильма и признаки отнесение его съемочных планов к тому или иному классу передают в блок (9) выборки репрезентативных кадров из всей совокупности съемочных планов, составляющих кластер. Блок (9) также реализуют в виде настраиваемого многофункционального средства под управлением программного обеспечения. Схема работы алгоритма блока (9) в предпочтительном варианте осуществления изобретения показана на Фиг. 5.
На шаге (29) инициализируют области памяти для работы алгоритма: область памяти изображения кадра Ki; счетчик i = 1; матрица средней яркости M = [ 0 ] размерности, совпадающей с размерностью кадра.
На шаге (30) проверяют, существует ли в составе кластера кадр с номером i.
На шаге (31) значения яркостей по крайней мере одного канала изображения кадра Ki накапливают суммированием в области памяти матрицы М. Увеличивают значение счетчика i.
На шаге (32) производят вычисление средней яркости путем деления каждой ячейки матрицы М на количество накопленных кадров. Инициализируют области памяти для дальнейших шагов алгоритма: счетчик j; минимальное расстояние D; номер репрезентативного кадра J.
На шаге (33) проверяют, существует ли в составе кластера кадр с номером j.
На шаге (34) вычисляют евклидово расстояние d между матрицей средней яркости М и кадром Kj .
На шаге (35) сравнивают величину d с минимальным на данный момент расстоянием D.
Далее копируют величины d в D и j в J (шаг 36) и увеличивают значение счетчика j (шаг 37).
В результате работы алгоритма в области памяти J получают номер кадра, расположение и яркость пикселов в котором наиболее близки к усредненным для данного кластера. Этот кадр могут считать репрезентативным.
Возможно применение и других методов выбора репрезентативных кадров, известных специалиста в данной области техники, например по критерию максимума векторного расстояния кадра до усредненного кадра съемочного плана в цветовом пространстве LUV, экстремума векторного расстояния гистограммы кадра до усредненной гистограммы съемочного плана в цветовом пространстве LUV, экстремального значения коэффициентов дисперсии, эксцесса или других статистических показателей кадра. При этом под экстремумом понимают минимальное или максимальное значения.
Полученные репрезентативные кадры для каждого кластера сохраняют в составе метаданных в средствах (4) хранения цифровых видеофильмов и метаданных.
В качестве первого средства визуального поиска фрагмента в архиве киновидеоматериалов по команде блока управления (1) средство графического вывода (2) формирует изображение кинограммы, схематически показанной на Фиг. 6. Кинограмма включает выборочные неподвижные изображения (38) кадров видеоролика (фильма). При этом изображения (38) формируют строки (39), включающие равное фиксированное количество неподвижных изображений (38) и полученные выборкой из одного съемочного плана. Строки (39) кинограммы располагают друг под другом в порядке следования съемочных планов на видео таким образом, что изображения кадров образуют прямоугольную матрицу на экране. Строку (39) кинограммы, включающую один съемочный план, могут дополнительно помечать метаданными (40). В частном варианте реализации в качестве метаданных (40) показан тайм-код начала съемочного плана. Пользователь имеет возможность одним взглядом оценить содержание видеофильма за время, пропорциональное количеству съемочных планов. Для выбора требуемого фрагмента для выполнения по крайней мере одной операции с видеофильмом в архиве, например, операции копирования, пользователь с помощью средств ввода (3), таких как компьютерная мышь, активирует по крайней мере одну область кинограммы, например строку (62). Блок управления (1) фиксирует метаданные выбранного съемочного плана для выполнения заданной операции над архивом видеофильмов.
В качестве второго средства для информационного и визуального поиска требуемого фрагмента с помощью средства графического вывода (2) по команде блока управления (1) изображение заголовков коллекций (41) съемочных планов, схематично показанных на фиг. 7. Указанные заголовки включают по крайней мере одно репрезентативное изображение видеокадра (42) и сгруппированы по признаку принадлежности к кластеру семантически близких съемочных планов. Пользователь имеет возможность активировать с помощью средств ввода (3) область изображения заголовка (41). Блок управления (1) фиксирует признак выбранного кластера для выполнения требуемой задачи, например, отображение всех съемочных планов, входящих в кластер и формирует другое изображение кинограммы.
В качестве третьего средства визуального поиска формируют изображение заголовков коллекций (43) съемочных планов, сгруппированных по наличию лица того или иного человека (участника видеофильма), включающие по крайней мере одно репрезентативное изображение лица (44). Пользователь имеет возможность активировать с помощью средств ввода (3) область изображения заголовка коллекции (43). Блок управления (1) фиксирует признак выбранного кластера для выполнения требуемой задачи, например, отображение всех съемочных планов, входящих в коллекцию.
Во втором и третьем средствах поиска также могут формировать элемент меню (45) для выполнения групповых операций ввода метаданных, включающих по крайней мере дату события, ключевые слова, текстовое описание, место съемки, автора, действующих лиц. Пользователь имеет возможность активировать элемент меню (45) выбора типа метаданных. Далее пользователь вводит содержание метаданных и блок управления (1) выполняет сохранение метаданных в средствах (4) хранения цифровых материалов и метаданных, причем метаданные информационно связывают по крайней мере с одним съемочным планом, включенным в коллекцию съемочных планов соответствующего кластера.
Таким образом, за счет применения в заявленном изобретении описанного выше алгоритма обработки видео, а также представления средств для отображения содержания видео, снижается время визуального поиска, а также повышается его полнота и точность.

Claims (15)

1. Способ обработки видео для целей визуального поиска фрагментов с помощью электронного устройства, включающий
- получение изображений кадров видео;
- извлечение векторов признаков лиц в изображениях, выделение областей лиц, вычисление вектора семантических признаков обнаруженных лиц и сохранение полученных векторов признаков в составе метаданных видео;
- извлечение векторов признаков кадров, вычисление вектора семантических признаков кадров и сохранение полученных векторов признаков в составе метаданных видео;
- вычисление метрики расстояния между векторами признаков соседних кадров и получение границы съемочных планов путем анализа изменения данной метрики от кадра к кадру и сохранение границ съемочных планов в составе метаданных видео;
- получение выборки векторов семантических признаков кадров и выборки векторов семантических признаков обнаруженных лиц каждого съемочного плана, вычисление кластеров съемочных планов на основе близости метрики расстояния между векторами признаков и сохранение признаков отнесения съемочных планов к определенному классу в составе метаданных видео;
- выбор репрезентативных кадров из съемочных планов, составляющих кластер, и сохранение данных кадров в составе метаданных видео;
- формирование посредством средства графического вывода электронного устройства на основании полученных метаданных первого средства визуального поиска в виде набора строк, каждая из которой содержит одинаковое количество изображений репрезентативных кадров, полученных выборкой из одного съемочного плана, при этом строки расположены друг под другом в порядке следования съемочных планов видео с образованием прямоугольной матрицы;
- формирование посредством средства графического вывода электронного устройства на основании полученных метаданных второго средства визуального поиска в виде изображений заголовков коллекций съемочных планов, сгруппированных по принадлежности к кластеру семантически близких съемочных планов, при этом каждый заголовок содержит по крайней мере одно изображение репрезентативного кадра;
- формирование посредством средства графического вывода электронного устройства на основании полученных метаданных третьего средства визуального поиска в виде изображений заголовков коллекций съемочных планов, сгруппированных по наличию лица участника видео, при этом каждый заголовок содержит по крайней мере одно изображение репрезентативного кадра с лицом участника.
2. Способ по п.1, в котором при формировании первого средства визуального поиска строки с изображениями репрезентативных кадров помечают метаданными, включающими время начала съемочного плана.
3. Способ по п.1, в котором первое средство визуального поиска формируют с возможностью активации строки для выполнения по крайней мере одной операции, связанной с тайм-кодом начала фрагмента видео, соответствующего указанной строке.
4. Способ по п.1, в котором во втором и третьем средствах визуального поиска дополнительно формируют меню для выполнения групповых операций ввода метаданных, включающих дату события, ключевые слова, текстовое описание, место съемки, автора и действующих лиц.
5. Способ по п.1, в котором после вычисления кластеров съемочных планов дополнительно проводят фильтрацию полученных кластеров, а также оценку необходимости кластеризации векторов семантических признаков, которые не вошли ни в один кластер.
6. Способ по п.1, в котором в качестве репрезентативных кадров из съемочных планов, составляющих кластер, выбирают кадры, расположение и яркость пикселов которых наиболее близки к усредненным для данного кластера.
RU2018139003A 2018-11-06 2018-11-06 Способ обработки видео для целей визуального поиска RU2693994C1 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2018139003A RU2693994C1 (ru) 2018-11-06 2018-11-06 Способ обработки видео для целей визуального поиска

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2018139003A RU2693994C1 (ru) 2018-11-06 2018-11-06 Способ обработки видео для целей визуального поиска

Publications (1)

Publication Number Publication Date
RU2693994C1 true RU2693994C1 (ru) 2019-07-08

Family

ID=67252272

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2018139003A RU2693994C1 (ru) 2018-11-06 2018-11-06 Способ обработки видео для целей визуального поиска

Country Status (1)

Country Link
RU (1) RU2693994C1 (ru)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090083275A1 (en) * 2007-09-24 2009-03-26 Nokia Corporation Method, Apparatus and Computer Program Product for Performing a Visual Search Using Grid-Based Feature Organization
US20100082585A1 (en) * 2008-09-23 2010-04-01 Disney Enterprises, Inc. System and method for visual search in a video media player
US20120170915A1 (en) * 2011-01-05 2012-07-05 Rovi Technologies Corporation Systems and methods for performing smooth visual search of media encoded for adaptive bitrate streaming via hypertext transfer protocol using trick play streams
RU2493602C1 (ru) * 2012-08-10 2013-09-20 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ и система для выделения ключевых кадров из видео последовательностей
KR101341808B1 (ko) * 2011-11-30 2013-12-17 고려대학교 산학협력단 영상 내 비주얼 특징을 이용한 영상 요약 방법 및 시스템
RU2595559C2 (ru) * 2014-12-16 2016-08-27 Общество с ограниченной ответственностью "Аби Девелопмент" Система и способ использования данных предыдущего кадра для оптического распознавания символов кадров видеоматериалов
RU2634225C1 (ru) * 2016-06-20 2017-10-24 Общество с ограниченной ответственностью "САТЕЛЛИТ ИННОВАЦИЯ" (ООО "САТЕЛЛИТ") Способы и системы поиска объекта в видеопотоке

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090083275A1 (en) * 2007-09-24 2009-03-26 Nokia Corporation Method, Apparatus and Computer Program Product for Performing a Visual Search Using Grid-Based Feature Organization
US20100082585A1 (en) * 2008-09-23 2010-04-01 Disney Enterprises, Inc. System and method for visual search in a video media player
US20120170915A1 (en) * 2011-01-05 2012-07-05 Rovi Technologies Corporation Systems and methods for performing smooth visual search of media encoded for adaptive bitrate streaming via hypertext transfer protocol using trick play streams
KR101341808B1 (ko) * 2011-11-30 2013-12-17 고려대학교 산학협력단 영상 내 비주얼 특징을 이용한 영상 요약 방법 및 시스템
RU2493602C1 (ru) * 2012-08-10 2013-09-20 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ и система для выделения ключевых кадров из видео последовательностей
RU2595559C2 (ru) * 2014-12-16 2016-08-27 Общество с ограниченной ответственностью "Аби Девелопмент" Система и способ использования данных предыдущего кадра для оптического распознавания символов кадров видеоматериалов
RU2634225C1 (ru) * 2016-06-20 2017-10-24 Общество с ограниченной ответственностью "САТЕЛЛИТ ИННОВАЦИЯ" (ООО "САТЕЛЛИТ") Способы и системы поиска объекта в видеопотоке

Similar Documents

Publication Publication Date Title
CN109151501B (zh) 一种视频关键帧提取方法、装置、终端设备及存储介质
US6351556B1 (en) Method for automatically comparing content of images for classification into events
US5805733A (en) Method and system for detecting scenes and summarizing video sequences
Arman et al. Image processing on compressed data for large video databases
US8775424B2 (en) System for creative image navigation and exploration
US20120027295A1 (en) Key frames extraction for video content analysis
US6865297B2 (en) Method for automatically classifying images into events in a multimedia authoring application
US7643686B2 (en) Multi-tiered image clustering by event
EP1816575A1 (en) System, apparatus, method, program and recording medium for processing image
CN111062871A (zh) 一种图像处理方法、装置、计算机设备及可读存储介质
AU2018202767B2 (en) Data structure and algorithm for tag less search and svg retrieval
CN111209897B (zh) 视频处理的方法、装置和存储介质
WO2019196795A1 (zh) 视频剪辑的方法以及装置及电子设备
US20130088645A1 (en) Method of Processing Moving Picture and Apparatus Thereof
JP2005517319A (ja) 客体形状情報を利用した要約画像の抽出装置及びその方法、並びにそれを利用した動画像の要約及び索引システム
Li et al. Videography-based unconstrained video analysis
Hannane et al. MSKVS: Adaptive mean shift-based keyframe extraction for video summarization and a new objective verification approach
CN111860407A (zh) 一种视频中人物的表情识别方法、装置、设备及存储介质
US11869127B2 (en) Image manipulation method and apparatus
RU2693994C1 (ru) Способ обработки видео для целей визуального поиска
JP3469122B2 (ja) 編集用映像区間分類方法及び装置、並びにこの方法を記録した記録媒体
CN111062284A (zh) 一种交互式视频摘要模型的可视理解与诊断方法
CN114449362A (zh) 视频封面的选取方法、装置、设备及存储介质
Helm et al. HistShot: A Shot Type Dataset based on Historical Documentation during WWII.
JP3802964B2 (ja) 映像編集システムおよび動画像分割方法