RU2577486C2 - Способ автоматического извлечения индексов ключевых кадров для расширения видеоданных - Google Patents
Способ автоматического извлечения индексов ключевых кадров для расширения видеоданных Download PDFInfo
- Publication number
- RU2577486C2 RU2577486C2 RU2014128344/08A RU2014128344A RU2577486C2 RU 2577486 C2 RU2577486 C2 RU 2577486C2 RU 2014128344/08 A RU2014128344/08 A RU 2014128344/08A RU 2014128344 A RU2014128344 A RU 2014128344A RU 2577486 C2 RU2577486 C2 RU 2577486C2
- Authority
- RU
- Russia
- Prior art keywords
- data
- complexity
- transition
- frames
- key frames
- Prior art date
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
Изобретение относится к вычислительной технике. Технический результат заключается в обеспечении возможности автоматического выбора ключевых кадров для расширения видеоданных. Способ извлечения индексов ключевых кадров из видеопоследовательности, в котором вычисляют значения исходных данных о сложности перехода, которые измеряют количественное значение изменения сцены между следующими друг за другом кадрами для всех пар следующих друг за другом кадров видеопоследовательности; выполняют процедуру оптимизации, заключающуюся в выполнении поиска набора ключевых кадров, который минимизирует сумму общей сложности перехода между соседними ключевыми кадрами набора и стоимостную функцию для набора ключевых кадров, причем сложность перехода между двумя ключевыми кадрами представляет собой функцию от значений исходных данных о сложности перехода среди всех пар следующих друг за другом кадров, которые являются ключевыми кадрами или находятся между этими ключевыми кадрами; и извлекают индексы ключевых кадров для набора ключевых кадров, обнаруженных в результате упомянутого поиска. 3 н. и 8 з.п. ф-лы, 3 ил.
Description
Область техники, к которой относится изобретение
Настоящее изобретение относится в общем к обработке видеоданных, которая может быть использована для расширения видеоданных, такого как преобразование моноскопического видео в стереоскопическое (также называемое преобразованием 2D в 3D) или преобразование видеоданных из полутонового в цветной формат. Более конкретно, настоящее изобретение описывает способ автоматического выбора ключевых кадров для расширения видеоданных и систему для выполнения такого способа.
Уровень техники
Системы для расширения видеоданных обычно требуют взаимодействия с оператором. Полностью автоматические системы расширения видеоданных могут использоваться только в ситуациях, когда низкое качество результата не является проблемой. Оператор выбирает ключевые кадры в видеопоследовательностях и вручную задает необходимую информацию (прорисовывает глубину или цвет), обычно с использованием некоторых особых вспомогательных технологий. После этого введенную информацию распространяют на другие кадры видеоданных с использованием ключевого кадра и кадров видеоданных. Способ выбора ключевых кадров играет важную роль в процессе преобразования видеоданных. Такой алгоритм должен определять моменты в последовательности видеоданных, когда временные характеристики видеоданных внезапно изменяются, вследствие чего временное распространение информации подвержено появлению ошибок и визуальных артефактов. Он должен различать те кадры, в которых процесс расширения может дать сбой, чтобы оператор мог обеспечить необходимую входную информацию для поддержания равномерного распространения информации.
Вспомогательная технология задания глубины вместе с распространением данных о глубине описана в заявке на патент США US 2002/0048395. Недавно выданные патенты, относящиеся к выбору ключевых кадров, либо сосредоточены на обобщении видеоданных (заявка на патент США US 2011/0110649, патент США US 7046731), либо требуют вмешательства пользователя (патент США US 7158676, патент РФ RU 2493602).
В патенте США US 7046731 ключевые кадры выбираются автоматически, с использованием определения направления глобального движения и группированием глобального движения, но способ предназначен для эффективного представления и обобщения видеоданных и использует информацию о движении из алгоритма сжатия видеоданных, который является различным в зависимости от используемых средств сжатия и может быть ненадежным или недоступным.
В заявке на патент США US 2007/0263128 представлены технологии, которые обеспечивают возможность гибкого извлечения ключевых кадров из видео. Процесс выбора включает в себя оценку качества кадров для выбора кадров с наивысшим качеством в качестве ключевых кадров. В этом решении кадры видеоданных подвергаются статистическому анализу, то есть не используются какие-либо временные зависимости.
В патенте США US 7843512 B2 определяют уровень изменения визуального содержимого для кадра видеоданных (по сравнению с соседним кадром видеоданных), и кадр видеоданных выбирают в качестве ключевого кадра видеоданных, если упомянутый уровень превышает пороговое значение. Уровень изменения измеряют просто в качестве энергии поля движения и не выполняют какую-либо глобальную оптимизацию видеопоследовательности. Этот способ предназначен для обобщения видеоданных.
Патент США US 7843512 B2 и патент РФ RU 2493602 можно рассматривать в качестве ближайших аналогов заявляемого изобретения.
В общем случае существующие технологии выбора индексов ключевых кадров либо предназначены для визуального обобщения последовательностей видеоданных или для улучшения визуального понимания и поиска, либо требуют взаимодействия с оператором. Таким образом, в данной области техники существует потребность в способе выбора ключевых кадров автоматическим образом для расширения видеоданных, в котором были бы преодолены по меньшей мере некоторые из проблем, присущих уровню техники. Предлагаемый способ автоматического выбора ключевых кадров предназначен для решения конкретной задачи расширения видеоданных при помощи оператора, такого как преобразование видео из моноскопического в стереоскопическое или из полутонового в цветной формат.
Раскрытие изобретения
Задача настоящего изобретения состоит в создании способа извлечения индексов ключевых кадров из видеопоследовательности, в котором устранены по меньшей мере некоторые из недостатков существующего уровня техники. Изобретение также предусматривает систему обработки видеоданных, которая осуществляет упомянутый способ, и компьютерную программу, сохраненную на машиночитаемом носителе, которая при выполнении компьютером побуждает компьютер выполнять упомянутый способ. На основании чтения и понимания нижеприведенного описания специалистам в данной области техники будет понятно, что заявляемое изобретение может также принимать и другие формы. Различные этапы способа и компоненты системы могут быть реализованы средствами аппаратного обеспечения, программного обеспечения, микропрограммного обеспечения или любым подходящим сочетанием вышеупомянутого.
Обычно ключевые кадры выбирают для обобщения визуальной информации видеоданных. Новизна рассматриваемых в настоящем документе системы и способа автоматического обнаружения ключевых кадров состоит в специализации для системы полуавтоматической обработки видеоданных. Современные системы обработки видеоданных используют временные зависимости между кадрами и снижают нагрузку на оператора, обеспечивая возможность временного распространения вводимой информации. Качество такого распространения может быть в значительной степени различным в зависимости от свойств обрабатываемой последовательности видеоданных. Задача предлагаемого алгоритма обнаружения ключевых кадров состоит в увеличении расстояния между ключевыми кадрами, когда временное распространение является простым. Сложность оценки временного распространения основана на анализе результата сопоставления (соответствия) между кадрами, также известного как оценка плотности движения или оптический поток. Затем ключевые кадры извлекают с использованием глобальной оптимизации в пределах видеопоследовательности, причем видеопоследовательность представляет собой последовательность видеоданных с непрерывным развитием сцены без перерывов или переходов (записанную камерой без прерывания записи).
Для решения вышеупомянутых задач в соответствии с изобретением принцип, на котором основан способ автоматического извлечения индексов ключевых кадров согласно изобретению во время полуавтоматического (с участием оператора) расширения видеоданных посредством информации о глубине или цвете, отличается в общем тем, что:
- для каждой видеопоследовательности блок обнаружения данных для анализа видеоданных принимает видеоданные и формирует данные анализа видеоданных для всех кадров видеопоследовательности и сохраняет их в средстве хранения данных для анализа видеоданных;
- после обработки всех кадров видеопоследовательности блок обработки данных для анализа видеоданных сначала анализирует сохраненные данные и извлекает и выводит индексы ключевых кадров.
В одном аспекте изобретение предусматривает способ извлечения индексов ключевых кадров из видеопоследовательности, причем способ содержит этапы, на которых: вычисляют посредством блока обнаружения данных для анализа видеоданных значения исходных данных о сложности перехода, которые измеряют количественное значение изменения сцены между следующими друг за другом кадрами для всех пар следующих друг за другом кадров видеопоследовательности; сохраняют упомянутые значения исходных данных о сложности перехода в средстве хранения данных для анализа видеоданных; и после того, как исходные данные о сложности перехода для видеопоследовательности собраны в средстве хранения данных для анализа видеоданных, выполняют посредством блока обработки данных для анализа видеоданных процедуру оптимизации, содержащую этапы, на которых: получают значения исходных данных о сложности перехода из средства хранения данных для анализа видеоданных, выполняют поиск набора ключевых кадров, который минимизирует сумму общей сложности перехода между соседними ключевыми кадрами набора и стоимостную функцию для набора ключевых кадров, причем сложность перехода между двумя ключевыми кадрами представляет собой функцию от значений исходных данных о сложности перехода среди всех пар следующих друг за другом кадров, которые являются ключевыми кадрами или находятся между этими ключевыми кадрами; и извлекают индексы ключевых кадров для набора ключевых кадров, обнаруженных в результате упомянутого поиска.
В варианте выполнения исходные данные о сложности перехода могут содержать по меньшей мере одно из максимального видимого движения пикселей среди кадров, медианного видимого движения для движения пикселей среди кадров и относительной площади, рассматриваемой как площадь с несовместимым движением, с использованием проверки совместимости движения с учетом окклюзии.
В варианте выполнения стоимостная функция для набора ключевых кадров может быть определена как:
где KF={KFi|1<=i<=NKF является искомым набором целочисленных индексов ключевых кадров для переменного числа элементов NKF, где первый элемент равен 1 и последний элемент равен числу кадров в обрабатываемой видеопоследовательности; где TC(a,b) является функцией сложности перехода, которая использует исходные данные о сложности перехода из средства хранения данных для анализа видеоданных и возвращает меру сложности перехода от кадра a к кадру b, и γ является мерой стоимости ключевого кадра, которая может быть использована для управления количеством ключевых кадров; dmin и dmax являются заданными минимальным и максимальным расстояниями между ключевыми кадрами.
В варианте выполнения функция сложности перехода TC может быть определена как:
где OF(a,b) - результат оценки плотности оптического потока от кадра a к кадру b, который описывает соответствия точки (x,y) в кадре a с точкой (x+uab(x,y),y+vab(x,y)) в кадре b, Max и Med, соответственно - функции, возвращающие, соответственно, максимальное и медианное значения размера OFS(a,b) поля вектора движения оптического потока для области Ω изображения, и PAR (относительная площадь проблемного участка) - функция, которая использует поля движения вперед и назад и возвращает меру совместимости движения в зависимости от относительной площади несовместимого движения и соответствующего максимального размера несовместимого участка; и параметры k1-k5 - заданные коэффициенты.
В варианте выполнения PAR(OF(a,b),OF(b,a)) может быть определена как:
где MCON - функция, возвращающая поле несовместимости движения, равная 1 на несовместимых участках и 0 на совместимых участках, FD - функция, возвращающая поле с мерой нелинейности изображения Ia, PSZC - функция, возвращающая коэффициент, зависимый от оценки наибольшего участка с преобладающими единицами в поле MCON, и k6 и k7 - эмпирически оцениваемые параметры.
В другом аспекте изобретение предусматривает систему обработки видеоданных, которая осуществляет способ согласно вышеприведенному аспекту, причем система содержит: блок обнаружения данных для анализа видеоданных, выполненный с возможностью вычисления значений исходных данных о сложности перехода, которые измеряют количественное значение изменения сцены между следующими друг за другом кадрами для всех пар следующих друг за другом кадров видеопоследовательности, обрабатываемой упомянутой системой обработки видеоданных, причем видеопоследовательность представляет собой последовательность видеоданных с непрерывным развитием сцены; средство хранения данных для анализа видеоданных, выполненное с возможностью хранения значений исходных данных о сложности перехода, выдаваемых блоком обнаружения данных для анализа видеоданных; и блок обработки данных для анализа видеоданных, выполненный с возможностью выполнения процедуры оптимизации после того, как значения исходных данных о сложности перехода для видеопоследовательности собраны в средстве хранения данных для анализа видеоданных, причем процедура оптимизации видеоданных содержит этапы, на которых: выполняют поиск набора ключевых кадров, который минимизирует сумму общей сложности перехода между соседними ключевыми кадрами набора и стоимостную функцию для набора ключевых кадров; и извлекают индексы ключевых кадров для набора ключевых кадров, обнаруженных в результате упомянутого поиска.
В другом аспекте изобретение предусматривает машиночитаемый носитель, на котором сохранена компьютерная программа, которая при выполнении компьютером побуждает компьютер выполнять способ извлечения индексов ключевых кадров из видеопоследовательности, причем программа содержит: код для вычисления значений исходных данных о сложности перехода, которые измеряют количественное значение изменения сцены между следующими друг за другом кадрами для всех пар следующих друг за другом кадров видеопоследовательности; код для выполнения поиска набора ключевых кадров, который минимизирует сумму общей сложности перехода между соседними ключевыми кадрами набора и стоимостную функцию для набора ключевых кадров; и код для извлечения индексов ключевых кадров для набора ключевых кадров, обнаруженных в результате упомянутого поиска.
Краткое описание чертежей
После представленного выше раскрытия изобретения далее будет приведено подробное описание изобретательского замысла в качестве примера и с обращением к сопровождающим чертежам, которые представлены лишь в качестве иллюстрации и не предназначены для ограничения объема заявляемого изобретения или определения его существенных признаков. На чертежах:
На Фиг. 1 показаны основные элементы системы обработки видеоданных согласно изобретению, которая осуществляет способ извлечения индексов ключевых кадров из видеопоследовательности в соответствии с изобретением.
На Фиг. 2 проиллюстрированы основные этапы способа извлечения индексов ключевых кадров из видеопоследовательности согласно изобретению.
На Фиг. 3 показана структура графа, который может быть использован для обнаружения индексов оптимальных ключевых кадров.
Осуществление изобретения
Настоящее подробное описание приведено для обеспечения понимания сущности изобретения. Следует отметить, что настоящее описание характеризует примерные варианты выполнения изобретения, и специалистом в данной области техники могут быть предусмотрены другие модификации, изменения и эквивалентные замены в отношении описанных объектов изобретения после внимательного прочтения описания с обращением к сопровождающим чертежам. Представляется, что все такие очевидные модификации, изменения и эквиваленты входят в объем заявляемого изобретения. Никакие ссылочные позиции или условные обозначения, приведенные в настоящем подробном описании, а также в приложенной формуле изобретения, не предназначены для ограничения или определения объема заявляемого изобретения каким-либо образом.
Заявляемое изобретение относится к обработке видеоданных и в частности к извлечению индексов ключевых кадров из видеопоследовательности. Видеопоследовательность в данном контексте представляет собой последовательность видеоданных с непрерывным развитием сцены без перерывов или переходов, например последовательность видеоданных, записанную камерой без прерывания записи. Способ извлечения индексов ключевых кадров из видеопоследовательности согласно изобретению основан на оценке меры сложности перехода с использованием результатов оценки плотности движения в видеоданных (посредством оценки оптического потока) и оптимизации во всей видеопоследовательности, которая уравновешивает сложность перехода среди всех соседних ключевых кадров и стоимость числа ключевых кадров.
Выбор ключевых кадров известен в данной области техники в целях обобщения визуальной информации видеоданных. Заявляемый способ полностью автоматического обнаружения ключевых кадров и соответствующая система обработки видеоданных, выполняющая упомянутый способ, специализированы для применения в полуавтоматической системе обработки видеоданных, в которой ключевые кадры извлекаются без необходимости участия оператора-человека. Современные системы обработки видеоданных используют временные зависимости между кадрами и снижают нагрузку на оператора за счет обеспечения возможности временного распространения вводимой информации. Качество такого распространения может в значительной степени различаться в зависимости от свойств видеоданных. Алгоритм выбора ключевых кадров, лежащий в основе способа согласно изобретению, предназначен для увеличения расстояния между ключевыми кадрами, когда имеется возможность временного распространения информации. Сложность оценки временного распространения основана на анализе оценки плотности движения. Затем извлекают ключевые кадры с использованием глобальной оптимизации для всей видеопоследовательности.
На Фиг. 1 проиллюстрирована примерная система обработки видеоданных согласно аспекту настоящего изобретения, которая осуществляет предлагаемый способ автоматического извлечения индексов ключевых кадров из видеопоследовательности. Система содержит три основных компонента: блок (100) обнаружения данных для анализа видеоданных, который извлекает данные из входного видеопотока и который имеет только глобальные параметры инициализации (такие как минимальное и максимальное расстояние между ключевыми кадрами, стоимость ключевого кадра и т.д.); средство (103) хранения данных для анализа видеоданных, который сохраняет накопленные данные анализа видеоданных, обнаруженные блоком обнаружения; и блок (105) обработки данных для анализа видеоданных, который анализирует накопленные данные и формирует результирующие индексы ключевых кадров, причем блок (100) обнаружения данных для анализа видеоданных выполняет оценку значений исходных данных о сложности перехода между кадрами и выдает упомянутые значения данных (одно или более значений на кадр) в средство (103) хранения данных для анализа видеоданных, где упомянутые значения данных накапливаются для всех кадров полной видеопоследовательности. Общая схема потока данных в способе автоматического адаптивного извлечения ключевых кадров согласно изобретению также показана на Фиг. 1. Кадры видеоданных из видеопоследовательности принимаются или загружаются в виде матриц пикселей в цвете или в полутонах. Предполагается, что видеоданные были разделены на видеопоследовательности системой обработки видеоданных более высокого уровня. Видеопоследовательность представляет собой последовательность видеоданных с непрерывным развитием сцены без перерывов или переходов, обычно последовательность видеоданных, записанных камерой без прерывания записи. В качестве выходных данных система в соответствии с изобретением возвращает набор индексов выбранных ключевых кадров или маркирует кадры в качестве ключевых кадров очевидным образом. На Фиг. 2 приведена блок-схема, изображающая этапы (200-206) способа извлечения индексов ключевых кадров из видеопоследовательности согласно изобретению, выполняемого системой обработки видеоданных.
Блок (100) обнаружения данных для анализа видеоданных сначала использует блок обнаружения движения пикселей для оценки информации о движении среди кадров. Однако при необходимости согласно способу может также выполняться прием в виде входных данных предварительно вычисленных полей движения (OF(a,b) - результаты оптического потока). Оценка движения является основной задачей машинного зрения. В предпочтительном варианте выполнения в настоящем изобретении используется блок оценки движения, подобный описанному в заявке на патент РФ RU 2012129183, но в качестве альтернативы может быть использован любой способ (попиксельной) оценки плотности движения (оптического потока) с разумным качеством результатов. Возможно использование изображений уменьшенного размера, если алгоритм оценки движения слишком медленно работает в исходном разрешении. В конкретных вариантах выполнения заявляемого изобретения в качестве примера, но не ограничения, показано, как изображение и извлеченная информация о движении преобразуются в меру сложности перехода (TC). Блок (102) извлечения исходных данных о сложности перехода вычисляет значения исходных данных о сложности перехода и сохраняет их в средстве (104) хранения исходных данных о сложности перехода. Из этих данных возможно оценить меры TC(a,b) сложности перехода для всех пар кадров a,b, где a<b и dmin<b-a<dmax. В общем случае исходные данные о сложности перехода представляют собой небольшое число скалярных (с плавающей запятой или целочисленных) значений для каждой пары кадров. В предпочтительном варианте выполнения изобретения меру сложности перехода вычисляют посредством этапов M(a,a+1) из по меньшей мере одного из следующих количественных значений данных: максимального и медианного значений видимого движения пикселей среди кадров и относительной площади, рассматриваемой как площадь с несовместимым движением, с использованием проверки совместимости движения с учетом окклюзии.
В частности, стоимостная функция для набора ключевых кадров может быть определена посредством следующего выражения:
где KF={KFi|1<=i<=NKF} является искомым набором целочисленных индексов ключевых кадров для переменного числа элементов NKF, где первый элемент равен 1 и последний элемент равен числу кадров в обрабатываемой видеопоследовательности; где TC(a,b) является функцией сложности перехода, которая использует исходные данные о сложности перехода из средства хранения данных для анализа видеоданных и возвращает меру сложности перехода от кадра a к кадру b, и γ является мерой стоимости ключевого кадра, которая может быть использована для управления количеством ключевых кадров; dmin и dmax являются заданными минимальным и максимальным расстояниями между ключевыми кадрами.
Функция сложности перехода TC может быть определена, в частности, с использованием следующего выражения:
где OF(a,b) - результат оценки плотности движения (посредством оптического потока) от кадра a к кадру b и описывает соответствия точки (x,y) в кадре a с точкой (x+uab(x,y),y+vab(x,y)) в кадре b, Max и Med, соответственно - функции, возвращающие, соответственно, максимальное и медианное значения размера OFS(a,b) поля вектора движения оптического потока для области Ω изображения, и PAR (относительная площадь проблемного участка) - функция, которая использует поля движения вперед и назад и возвращает меру совместимости движения в зависимости от относительной площади несовместимого движения и соответствующего максимального размера несовместимого участка; и параметры k1-k5 - заданные коэффициенты.
Значение PAR(OF(a,b),OF(b,a)), упомянутое выше, может быть получено с использованием следующего выражения:
где MCON - функция, возвращающая поле несовместимости движения, равная 1 на несовместимых участках и 0 на совместимых участках, FD - функция, возвращающая поле с мерой поля нелинейности изображения Ia, PSZC - функция, возвращающая коэффициент, зависимый от оценки наибольшего участка с преобладающими единицами в поле MCON, и k6 и k7 - эмпирически оцениваемые параметры.
Блок оценки индексов ключевых кадров находит оптимальное распределение ключевых кадров путем нахождения
по отношению к вычисленным мерам сложности перехода. В предпочтительном варианте выполнения используется оптимизация пути по графу, построенному аналогично графу, представленному на Фиг. 3. Набор KF находят путем минимизации J(NKF,KF) посредством нахождения оптимального пути по графу от источника к приемнику. Кадры видеопоследовательности представлены вершинами на этом графе, причем источник является первым кадром и приемник - последним кадром. Ребро от a до b существует, если dmin<b-a<dmax и стоимость упомянутого ребра составляет Q(a,b)=TC(a,b)+γ. Оптимизация такого пути может быть выполнена, в частности, с использованием хорошо известного алгоритма Дейкстры.
В вышеописанном варианте выполнения используется вычисление меры нелинейности изображения FD(Ia,x,y) (функция, возвращающая поле меры нелинейности для изображения Ia). В предпочтительном варианте предлагаемого способа используется анализ на основе поблочного быстрого преобразования Фурье (FFT) изображения (при необходимости уменьшенного размера) с использованием соотношения дисперсии FFT и спектральной мощности (исключая среднее значение). Это соотношение составляет около 1,0 для сигнала типа белого шума и значительно возрастает для изображений с осмысленными структурами. Причина введения меры нелинейности FD состоит в необходимости уменьшения влияния апертурных проблем оценки движения в плоских областях изображения. Это не является критичным для функционирования системы и при значении FD(.)=1 результат будет лишь слегка хуже.
Способ согласно изобретению начинается на этапе (200). Первый кадр видеопоследовательности вводят на этапе (201). На этапе (202) значения данных для анализа видеоданных вычисляют и сохраняют в средстве (103) хранения данных для анализа видеоданных. На этапе (203) проверяют, является ли текущий кадр последним кадром видеопоследовательности, и процесс переходит на этапе (204) к следующему кадру до тех пор, пока значения данных для анализа видеоданных не будут вычислены для последнего из кадров видеопоследовательности. Когда достигнут последний кадр видеопоследовательности, вычисление значений данных для анализа завершается, и полученные значения данных для каждого кадра сохраняют в средстве (103) хранения данных для анализа видеоданных. Затем способ переходит к процедуре оптимизации, состоящей в обработке накопленных данных для анализа видеоданных для извлечения набора индексов ключевых кадров. По завершении процедуры оптимизации процесс заканчивается на этапе (206).
Способ согласно изобретению, описанный выше, может быть осуществлен в системе обработки видеоданных, причем блок (100) обнаружения данных для анализа видеоданных может быть выполнен с возможностью вычисления значений исходных данных о сложности перехода, как описано выше, причем упомянутые данные измеряют количественное значение изменения сцены между следующими друг за другом кадрами среди всех пар следующих друг за другом кадров видеопоследовательности, обрабатываемой упомянутой системой обработки видеоданных. Как показано на Фиг. 1, блок (100) обнаружения данных для анализа видеоданных принимает на входе последовательность кадров видеоданных видеопоследовательности. Блок (100) обнаружения данных для анализа видеоданных содержит блок (101) обнаружения движения пикселей и блок (102) извлечения исходных данных о сложности перехода для обнаружения движения пикселей и извлечения значений исходных данных о сложности перехода, соответственно, как описано выше. Средство (103) хранения данных для анализа видеоданных выполнено с возможностью хранения значений исходных данных о сложности перехода, выдаваемых блоком обнаружения данных для анализа видеоданных и включает в себя средство (104) хранения исходных данных о сложности перехода. Блок (105) обработки данных для анализа видеоданных включает в себя блок (106) оценки сложности перехода, который выдает меру сложности перехода (TC(a,b)) с использованием способов, описанных выше, и блок (107) оценки индексов ключевых кадров, который предназначен для выведения оптимального аргумента J(NKF,KF). Кроме того, система использует источник (108) глобальных параметров, который вводит в систему глобальные параметры (k1, k2, … k6), которые представляют собой заданные коэффициенты, используемые для вычисления функции сложности перехода, как описано выше.
Система обработки видеоданных согласно изобретению выполняет способ автоматического извлечения индексов ключевых кадров из видеопоследовательности, в частности, под управлением компьютерной программы, которая (в целом или в виде ее определенных компонентов) может быть сохранена на машиночитаемом носителе, таком как жесткий диск или оптический или магнитный носитель данных, или передана посредством сети, такой как сеть Интернет, или другими средствами.
Предлагаемый способ применим в системах для расширения видеоданных (такого, как преобразование видеоданных из 2D в 3D или преобразование в цветной формат), оснащенных по меньшей мере одним процессором (CPU), памятью и устройствами ввода/вывода, а также шиной данных. Графический процессор (GPU), обеспечивающий возможность массово-параллельных вычислений, имеется в большинстве современных систем расширения/обработки видеоданных.
Другие аспекты настоящего изобретения могут быть предусмотрены специалистом в данной области техники на основании прочтения вышеприведенного описания с обращением к чертежам. Специалисту в данной области техники будет понятно, что возможны другие варианты выполнения изобретения, и что подробности, характеризующие изобретение, могут быть изменены в некоторых отношениях без выхода за рамки изобретательского замысла. Таким образом, чертежи и описание следует рассматривать как носящие пояснительный, а не ограничивающий характер. Объем заявляемого изобретения определяется только приложенной формулой изобретения.
Claims (11)
1. Способ извлечения индексов ключевых кадров из видеопоследовательности, причем способ содержит этапы, на которых:
вычисляют посредством блока обнаружения данных для анализа видеоданных значения исходных данных о сложности перехода, которые измеряют количественное значение изменения сцены между следующими друг за другом кадрами для всех пар следующих друг за другом кадров видеопоследовательности;
сохраняют упомянутые значения исходных данных о сложности перехода в средстве хранения данных для анализа видеоданных; и
после того, как значения исходных данных о сложности перехода для видеопоследовательности собраны в средстве хранения данных для анализа видеоданных, выполняют посредством блока обработки данных для анализа видеоданных процедуру оптимизации, содержащую этапы, на которых:
получают значения исходных данных о сложности перехода из средства хранения данных для анализа видеоданных,
выполняют поиск набора ключевых кадров, который минимизирует сумму общей сложности перехода между соседними ключевыми кадрами набора и стоимостную функцию для набора ключевых кадров, причем сложность перехода между двумя ключевыми кадрами представляет собой функцию от значений исходных данных о сложности перехода среди всех пар следующих друг за другом кадров, которые являются ключевыми кадрами или находятся между этими ключевыми кадрами; и
извлекают индексы ключевых кадров для набора ключевых кадров, обнаруженных в результате упомянутого поиска.
вычисляют посредством блока обнаружения данных для анализа видеоданных значения исходных данных о сложности перехода, которые измеряют количественное значение изменения сцены между следующими друг за другом кадрами для всех пар следующих друг за другом кадров видеопоследовательности;
сохраняют упомянутые значения исходных данных о сложности перехода в средстве хранения данных для анализа видеоданных; и
после того, как значения исходных данных о сложности перехода для видеопоследовательности собраны в средстве хранения данных для анализа видеоданных, выполняют посредством блока обработки данных для анализа видеоданных процедуру оптимизации, содержащую этапы, на которых:
получают значения исходных данных о сложности перехода из средства хранения данных для анализа видеоданных,
выполняют поиск набора ключевых кадров, который минимизирует сумму общей сложности перехода между соседними ключевыми кадрами набора и стоимостную функцию для набора ключевых кадров, причем сложность перехода между двумя ключевыми кадрами представляет собой функцию от значений исходных данных о сложности перехода среди всех пар следующих друг за другом кадров, которые являются ключевыми кадрами или находятся между этими ключевыми кадрами; и
извлекают индексы ключевых кадров для набора ключевых кадров, обнаруженных в результате упомянутого поиска.
2. Способ по п. 1, в котором исходные данные о сложности перехода содержат по меньшей мере одно из максимального видимого движения пикселей среди кадров, медианного видимого движения для движения пикселей среди кадров и относительной площади, рассматриваемой как площадь с несовместимым движением, с использованием проверки совместимости движения с учетом окклюзии.
3. Способ по п. 1, в котором стоимостную функцию для набора ключевых кадров определяют как
при условии, что
где KF={KFi|1<=i<=NKF} является искомым набором целочисленных индексов ключевых кадров для переменного числа элементов NKF, где первый элемент равен 1 и последний элемент равен числу кадров в обрабатываемой видеопоследовательности;
где TC(a,b) является функцией сложности перехода, которая использует исходные данные о сложности перехода из средства хранения данных для анализа видеоданных и возвращает меру сложности перехода от кадра a к кадру b, и γ является мерой стоимости ключевого кадра, которая может быть использована для управления количеством ключевых кадров;
dmin и dmax являются заданными минимальным и максимальным расстояниями между ключевыми кадрами.
при условии, что
где KF={KFi|1<=i<=NKF} является искомым набором целочисленных индексов ключевых кадров для переменного числа элементов NKF, где первый элемент равен 1 и последний элемент равен числу кадров в обрабатываемой видеопоследовательности;
где TC(a,b) является функцией сложности перехода, которая использует исходные данные о сложности перехода из средства хранения данных для анализа видеоданных и возвращает меру сложности перехода от кадра a к кадру b, и γ является мерой стоимости ключевого кадра, которая может быть использована для управления количеством ключевых кадров;
dmin и dmax являются заданными минимальным и максимальным расстояниями между ключевыми кадрами.
4. Способ по п. 3, в котором функцию сложности перехода TC определяют как:
где OF(a,b) - результат оценки плотности оптического потока от кадра a к кадру b, который описывает соответствия точки (x,y) в кадре a с точкой (x+uab(x,y),y+vab(x,y)) в кадре b, Max и Med, соответственно - функции, возвращающие, соответственно, максимальное и медианное значения размера OFS(a,b) поля вектора движения оптического потока для области Ω изображения, и PAR (относительная площадь проблемного участка) - функция, которая использует поля движения вперед и назад и возвращает меру совместимости движения в зависимости от относительной площади несовместимого движения и соответствующего максимального размера несовместимого участка; и параметры k1-k5 - заданные коэффициенты.
где OF(a,b) - результат оценки плотности оптического потока от кадра a к кадру b, который описывает соответствия точки (x,y) в кадре a с точкой (x+uab(x,y),y+vab(x,y)) в кадре b, Max и Med, соответственно - функции, возвращающие, соответственно, максимальное и медианное значения размера OFS(a,b) поля вектора движения оптического потока для области Ω изображения, и PAR (относительная площадь проблемного участка) - функция, которая использует поля движения вперед и назад и возвращает меру совместимости движения в зависимости от относительной площади несовместимого движения и соответствующего максимального размера несовместимого участка; и параметры k1-k5 - заданные коэффициенты.
5. Способ по п. 4, в котором PAR(OF(a,b),OF(b,a)) определяют как:
где MCON - функция, возвращающая поле несовместимости движения, равная 1 на несовместимых участках и 0 на совместимых участках, FD - функция, возвращающая поле с мерой нелинейности изображения Ia, PSZC - функция, возвращающая коэффициент, зависимый от оценки наибольшего участка с преобладающими единицами в поле MCON, и k6 и k7 - эмпирически оцениваемые параметры.
где MCON - функция, возвращающая поле несовместимости движения, равная 1 на несовместимых участках и 0 на совместимых участках, FD - функция, возвращающая поле с мерой нелинейности изображения Ia, PSZC - функция, возвращающая коэффициент, зависимый от оценки наибольшего участка с преобладающими единицами в поле MCON, и k6 и k7 - эмпирически оцениваемые параметры.
6. Система обработки видеоданных, содержащая:
блок обнаружения данных для анализа видеоданных, выполненный с возможностью вычисления значений исходных данных о сложности перехода, которые измеряют количественное значение изменения сцены между следующими друг за другом кадрами для всех пар следующих друг за другом кадров видеопоследовательности, обрабатываемой упомянутой системой обработки видеоданных, причем видеопоследовательность представляет собой последовательность видеоданных с непрерывным развитием сцены;
средство хранения данных для анализа видеоданных, выполненное с возможностью хранения значений исходных данных о сложности перехода, выдаваемых блоком обнаружения данных для анализа видеоданных; и
блок обработки данных для анализа видеоданных, выполненный с возможностью выполнения процедуры оптимизации после того, как значения исходных данных о сложности перехода для видеопоследовательности собраны в средстве хранения данных для анализа видеоданных, причем процедура оптимизации видеоданных содержит этапы, на которых:
выполняют поиск набора ключевых кадров, который минимизирует сумму общей сложности перехода между соседними ключевыми кадрами набора и стоимостную функцию для набора ключевых кадров; и
извлекают индексы ключевых кадров для набора ключевых кадров, обнаруженных в результате упомянутого поиска.
блок обнаружения данных для анализа видеоданных, выполненный с возможностью вычисления значений исходных данных о сложности перехода, которые измеряют количественное значение изменения сцены между следующими друг за другом кадрами для всех пар следующих друг за другом кадров видеопоследовательности, обрабатываемой упомянутой системой обработки видеоданных, причем видеопоследовательность представляет собой последовательность видеоданных с непрерывным развитием сцены;
средство хранения данных для анализа видеоданных, выполненное с возможностью хранения значений исходных данных о сложности перехода, выдаваемых блоком обнаружения данных для анализа видеоданных; и
блок обработки данных для анализа видеоданных, выполненный с возможностью выполнения процедуры оптимизации после того, как значения исходных данных о сложности перехода для видеопоследовательности собраны в средстве хранения данных для анализа видеоданных, причем процедура оптимизации видеоданных содержит этапы, на которых:
выполняют поиск набора ключевых кадров, который минимизирует сумму общей сложности перехода между соседними ключевыми кадрами набора и стоимостную функцию для набора ключевых кадров; и
извлекают индексы ключевых кадров для набора ключевых кадров, обнаруженных в результате упомянутого поиска.
7. Система по п. 6, в которой блок обнаружения данных для анализа видеоданных содержит блок обнаружения движения пикселей и блок извлечения исходных данных о сложности перехода.
8. Система по п. 6, в которой блок хранения данных для анализа видеоданных содержит блок хранения исходных данных о сложности перехода.
9. Система по п. 6, в которой блок обработки данных для анализа видеоданных содержит блок оценки сложности перехода и блок оценки индексов ключевых кадров.
10. Система по п. 6, дополнительно содержащая источник глобальных параметров.
11. Машиночитаемый носитель, на котором сохранена компьютерная программа, которая при выполнении компьютером побуждает компьютер выполнять способ извлечения индексов ключевых кадров из видеопоследовательности, причем программа содержит:
код для вычисления значений исходных данных о сложности перехода, которые измеряют количественное значение изменения сцены между следующими друг за другом кадрами для всех пар следующих друг за другом кадров видеопоследовательности;
код для выполнения поиска набора ключевых кадров, который минимизирует сумму общей сложности перехода между соседними ключевыми кадрами набора и стоимостную функцию для набора ключевых кадров; и
код для извлечения индексов ключевых кадров для набора ключевых кадров, обнаруженных в результате упомянутого поиска.
код для вычисления значений исходных данных о сложности перехода, которые измеряют количественное значение изменения сцены между следующими друг за другом кадрами для всех пар следующих друг за другом кадров видеопоследовательности;
код для выполнения поиска набора ключевых кадров, который минимизирует сумму общей сложности перехода между соседними ключевыми кадрами набора и стоимостную функцию для набора ключевых кадров; и
код для извлечения индексов ключевых кадров для набора ключевых кадров, обнаруженных в результате упомянутого поиска.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2014128344/08A RU2577486C2 (ru) | 2014-07-10 | 2014-07-10 | Способ автоматического извлечения индексов ключевых кадров для расширения видеоданных |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2014128344/08A RU2577486C2 (ru) | 2014-07-10 | 2014-07-10 | Способ автоматического извлечения индексов ключевых кадров для расширения видеоданных |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2014128344A RU2014128344A (ru) | 2016-02-10 |
RU2577486C2 true RU2577486C2 (ru) | 2016-03-20 |
Family
ID=55313047
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2014128344/08A RU2577486C2 (ru) | 2014-07-10 | 2014-07-10 | Способ автоматического извлечения индексов ключевых кадров для расширения видеоданных |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2577486C2 (ru) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11245921B2 (en) | 2017-06-26 | 2022-02-08 | Interdigital Vc Holdings, Inc. | Multiple predictor candidates for motion compensation |
US11962782B2 (en) | 2018-01-29 | 2024-04-16 | Interdigital Vc Holdings, Inc. | Encoding and decoding with refinement of the reconstructed picture |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2493602C1 (ru) * | 2012-08-10 | 2013-09-20 | Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." | Способ и система для выделения ключевых кадров из видео последовательностей |
-
2014
- 2014-07-10 RU RU2014128344/08A patent/RU2577486C2/ru active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2493602C1 (ru) * | 2012-08-10 | 2013-09-20 | Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." | Способ и система для выделения ключевых кадров из видео последовательностей |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11245921B2 (en) | 2017-06-26 | 2022-02-08 | Interdigital Vc Holdings, Inc. | Multiple predictor candidates for motion compensation |
RU2770185C2 (ru) * | 2017-06-26 | 2022-04-14 | ИНТЕРДИДЖИТАЛ ВиСи ХОЛДИНГЗ, ИНК. | Множество кандидатов предсказателя для компенсации движения |
US11785250B2 (en) | 2017-06-26 | 2023-10-10 | Interdigital Vc Holdings, Inc. | Multiple predictor candidates for motion compensation |
US11962782B2 (en) | 2018-01-29 | 2024-04-16 | Interdigital Vc Holdings, Inc. | Encoding and decoding with refinement of the reconstructed picture |
Also Published As
Publication number | Publication date |
---|---|
RU2014128344A (ru) | 2016-02-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101491556B1 (ko) | 깊이 추정 장치 및 방법 | |
KR102214934B1 (ko) | 단항 신뢰도 및 쌍별 신뢰도 학습을 통한 스테레오 매칭 장치 및 방법 | |
KR101548285B1 (ko) | 고해상도 영상 획득 장치 및 그 방법 | |
KR101893771B1 (ko) | 3d 정보 처리 장치 및 방법 | |
JP5445467B2 (ja) | クレジット情報区間検出方法、クレジット情報区間検出装置及びクレジット情報区間検出プログラム | |
CN102523464A (zh) | 一种双目立体视频的深度图像估计方法 | |
US9747690B2 (en) | Image processing device, image processing method, and program | |
EP1857978A1 (en) | Method, system and computer product for deriving three-dimensional information progressivly from a streaming video sequence | |
JP2011203811A (ja) | 画像処理装置、画像処理方法、画像処理プログラム、及び複眼デジタルカメラ | |
JP2019028939A (ja) | 推定方法及び推定装置 | |
RU2577486C2 (ru) | Способ автоматического извлечения индексов ключевых кадров для расширения видеоданных | |
US20120148108A1 (en) | Image processing apparatus and method therefor | |
EP3127087B1 (en) | Motion field estimation | |
KR101148029B1 (ko) | 3d 카메라를 이용한 영상인식장치 및 방법 | |
KR101784620B1 (ko) | 스테레오 매칭을 통한 깊이값의 신뢰도 측정 방법 및 장치 | |
KR20140046187A (ko) | 영상 시스템에서 움직임 추정 장치 및 방법 | |
JP2021111228A (ja) | 学習装置、学習方法、及びプログラム | |
JP2008242839A (ja) | 画像処理装置及びその方法 | |
US20230401813A1 (en) | Detection of image sharpness in frequency domain | |
KR101124878B1 (ko) | 추정된 흐림반경에 기초한 영상보정방법 및 영상보정장치 | |
KR101574205B1 (ko) | 프레임 율 변환을 위한 움직임 정보 추정 방법 및 그 장치 | |
JP5349671B1 (ja) | 画像処理装置、画像表示装置および方法 | |
JP5901353B2 (ja) | 画像処理装置 | |
KR101717381B1 (ko) | 스테레오 카메라 기반의 주행 가능 영역 추정 장치 및 방법과 이에 관한 기록매체 | |
KR20180051241A (ko) | 직사각형 윈도우를 이용한 스테레오 정합 방법 및 스테레오 정합 시스템 |