RU2454025C2 - Способ и система для преобразования двухмерного видео в трехмерное видео - Google Patents

Способ и система для преобразования двухмерного видео в трехмерное видео Download PDF

Info

Publication number
RU2454025C2
RU2454025C2 RU2009127757/07A RU2009127757A RU2454025C2 RU 2454025 C2 RU2454025 C2 RU 2454025C2 RU 2009127757/07 A RU2009127757/07 A RU 2009127757/07A RU 2009127757 A RU2009127757 A RU 2009127757A RU 2454025 C2 RU2454025 C2 RU 2454025C2
Authority
RU
Russia
Prior art keywords
audio
scene
spatial depth
depth
video
Prior art date
Application number
RU2009127757/07A
Other languages
English (en)
Other versions
RU2009127757A (ru
Inventor
Джевдет БУРАЗЕРОВИЧ (NL)
Джевдет БУРАЗЕРОВИЧ
Original Assignee
Конинклейке Филипс Электроникс Н.В.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Конинклейке Филипс Электроникс Н.В. filed Critical Конинклейке Филипс Электроникс Н.В.
Publication of RU2009127757A publication Critical patent/RU2009127757A/ru
Application granted granted Critical
Publication of RU2454025C2 publication Critical patent/RU2454025C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/261Image signal generators with monoscopic-to-stereoscopic image conversion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Graphics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Processing Or Creating Images (AREA)

Abstract

Изобретение относится к способу для обеспечения оценки пространственной глубины видеопоследовательности и, в частности, к способу преобразования двухмерного (2D) видеоформата в трехмерный (3D). Техническим результатом является снижение вычислительной нагрузки и, тем самым, обеспечение возможности более эффективной оценки глубины изображений. Указанный технический результат достигается тем, что предложено преобразование 2D видеоформата в 3D с использованием способа обеспечения оценки пространственной глубины для видеопоследовательности, причем способ содержит классификацию аудиосцены, в которой показатель категоризации пространственной глубины некоторой сцены получается на основе анализа аудиоинформации для упомянутой сцены, в котором показатель категоризации пространственной глубины используется в последующей оценке пространственной глубины, основываясь на видеоинформации для такой же сцены. 3 н. и 10 з.п. ф-лы, 10 ил.

Description

ОБЛАСТЬ ИЗОБРЕТЕНИЯ
Настоящее изобретение относится к способу для обеспечения оценки пространственной глубины видеопоследовательности.
Изобретение также относится к способу для преобразования 2D изображений в 3D изображения, причем способ содержит оценку пространственной глубины.
Изобретение дополнительно относится к системе для обеспечения оценки пространственной глубины видеопоследовательности.
УРОВЕНЬ ТЕХНИКИ
Пространственная глубина, то есть расстояние между точкой наблюдения и объектами в изображении, является важным параметром для преобразования исходного двухмерного 2D изображения в трехмерное 3D изображение. Для преобразования двухмерного изображения в трехмерное изображение должна быть создана карта пространственной глубины, в которой для каждого пикселя обеспечивается некоторое значение глубины, обычно называемое z-значение. Значение Z может быть абсолютным или относительным. Используя данные на пикселе и карту глубины, можно создать два изображения, левое и правое изображение. Левое и правое изображения объединяются в трехмерный поток данных. Совокупность устройств отображения трехмерного изображения позволяет производить два незначительно отличающихся изображения, которые воспринимаются наблюдателем как левое и правое изображения, таким образом, давая видимость и ощущение трехмерного изображения.
Чтобы точно произвести левое и правое изображения, полезно или необходимо знание пространственной глубины.
Известна попытка оценивать значения глубины пикселей внутри изображения из отличительных признаков изображения. Такими отличительными признаками изображения могут быть, например, наложение (один элемент изображения расположен за другим), различия фокуса между объектами, относительный размер объектов по сравнению с предыдущими изображениями.
Хотя такие способы могут обеспечивать приемлемые результаты, мощность вычислений, требуемая для оценки пространственной глубины, обычна очень велика, поскольку затрагивается большое количество данных. Преобразование из двухмерного изображения в трехмерное является очень трудным, если вообще возможно.
Требуется способ, который позволяет снизить вычислительную нагрузку и, тем самым, обеспечивает возможность более эффективной оценки глубины.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Для достижения поставленной цели обеспечивается способ согласно изобретению, который отличается тем, что способ содержит классификацию аудиосцены, в которой показатель категоризации пространственной глубины некоторой сцены получается на основе анализа аудиоинформации для указанной сцены, в котором показатель категоризации пространственной глубины используется в последующей оценке пространственной глубины, основываясь на видеоинформации для такой же сцены.
Система согласно изобретению отличается тем, что содержит аудиоклассификатор для анализа аудиоинформации некоторой сцены и для классификации сцены на категорию пространственной глубины на основе анализа, который аудиоклассификатор имеет на выходе, обеспечивая показатель категоризации пространственной глубины сцены, причем показатель категоризации пространственной глубины подается в анализатор пространственной глубины видеоизображения видеоинформации той же сцены.
Изобретение основано на понимании того, что существует некоторая корреляция между аудиосценой и расстоянием камеры (наблюдения).
Используя аудиоинформацию, сцены можно категоризировать на категории пространственной глубины, например очень крупным планом, крупным планом, средним планом и тому подобные, то есть каждой сцене может быть дан некоторый показатель категоризации пространственной глубины.
Затем этот показатель категоризации пространственной глубины используется на следующем этапе для определения пространственной глубины на основе видеоинформации для той же сцены.
Анализ аудиоданных вместо видеоданных означает снижение задержки вычислений благодаря намного более низкой пропускной способности аудиоданных. В литературе описаны классификаторы аудиоданных, которые действуют в десятки раз быстрее, чем в реальном масштабе времени, на основе того, что временные кадры в несколько раз короче, чем один видеокадр. Таким образом, информация, собранная посредством анализа аудиоданных, не накладывает какой-либо ощутимой вычислительной нагрузки и может выполняться в реальном масштабе времени (или даже быстрее, если вся звуковая дорожка видеопрограммы уже доступна в памяти). Однако информация, собранная из анализа аудиоданных, значительно снижает вычислительную нагрузку в последующем видеоанализе, поскольку информация из классификатора аудиоданных является хорошей начальной точкой.
Предпочтительно показатель категоризации пространственной глубины содержит вероятности для некоторой сцены, проанализированной аудиоанализом, показывающей вероятность того, что сцена попадает в одну или несколько категорий пространственной глубины.
Следует отметить, что в рамках настоящего изобретения термин "показатель" может быть единичной индикацией, такой как единичная индикация категории пространственной глубины, как, например: "данная сцена является сценой очень крупного плана", или может представлять собой более сложные данные. В предпочтительном варианте осуществления показатель обеспечивает вероятности того, что сцена принадлежит к некоторой категории пространственной глубины. Такая индикация может быть использована при последующем анализе пространственной глубины на основе видеоинформации, чтобы быстро, то есть с относительно быстрым или простым алгоритмом, выяснить, является ли категория глубины с наиболее высокой вероятностью правильной начальной точкой или наиболее вероятной является следующая.
Таким образом, информация вероятности обеспечивает возможность более адекватной начальной точки для определения пространственной глубины. Она снижает шанс того, что последующий видеоанализ пространственной глубины скорее, чем поддерживаемый информацией из аудиоклассификатора, будет введен в заблуждение этой информацией.
В вариантах осуществления классификация аудиосцен основана на дереве решений, в котором аудиопризнаки анализируются в форме дерева решений.
В вариантах осуществления классификация аудиосцен основана на способе, в котором каждый из аудиопризнаков используется, чтобы обеспечить отдельную классификацию некоторого веса и для каждой классификации некоторый вес, который вносит соответствующий вклад в вес аудиопризнака.
В первом варианте осуществления аудиопризнак основан на речевом содержимом. Соответствие между речью и расстоянием камеры оказывается относительно высоким.
В дополнительном варианте осуществления аудиопризнак основан на музыкальном содержимом. Оказывается, что тональность музыки и/или интенсивность соотносятся с расстоянием камеры.
Еще в одном варианте осуществления аудиопризнак основан на шуме.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
В дальнейшем изобретение поясняется описанием конкретных вариантов его осуществления со ссылками на сопровождающие чертежи, на которых:
фиг.1 изображает геометрию части изображения и двух ориентаций,
фиг.2 показывает часть изображения,
фиг.3 иллюстрирует схематически способ и систему согласно изобретению,
фиг.4 иллюстрирует типичные положения камеры.
фиг.5 иллюстрирует экспериментальные результаты,
фиг.6 иллюстрирует взаимозависимость типичного признака пространственной глубины,
фиг.7 дает общее представление экспериментальной реализации способа,
фиг.8 иллюстрирует классификацию аудиоданных (левых) и временную компоновку данных аудиокадра и видеокадра (правых),
фиг.9 изображает пример дерева решений,
фиг.10 изображает пример, относящийся к ориентации и движению камеры.
Фигуры даны в произвольном масштабе. В основном идентичные компоненты обозначены на фигурах одинаковыми номерами позиций.
ПОДРОБНОЕ ОПИСАНИЕ ПРЕДПОЧТИТЕЛЬНЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ
Концепция трехмерного телевидения 3D-TV в настоящее время испытывает истинное возрождение, что отражается в растущих инвестициях в существующие и новые принципы и технологии трехмерного телевидения. Несмотря на то что было в прошлом, текущие усилия касаются всех граней цепи производство-потребление, то есть параллельно и содержимого, и устройств отображения. Хотя киноиндустрия поддерживает опыт трехмерного кино, основываясь на записи и просмотре стереоизображения, компании предлагают решения для преобразования таких стереофильмов или обычных двухмерных видеофильмов в форматы, подходящие для воспроизведения в (пользовательских) автодисплеях со стереоскопическим изображением. В то же время стандартизация таких форматов обсуждается в таких форумах, как MPEG (экспертная группа по кинематографии). Все это делает трехмерное телевидение катализатором следующего значительного импульса мультимедийных средств.
Для успешного введения трехмерного телевидения в рынок, важной составной частью является доступность (автоматического) преобразования 2D в 3D. Как только становится доступным некоторое ограниченное количество стереоматериалов, трехмерное телевидение становится привлекательным для широкой аудитории, только если существующие материалы (например, DVD (цифровой видеодиск) диски) могут быть показаны также в трехмерном 3D формате. Основной идеей указанного преобразования является оценка глубины, то есть квантование относительно тех объектов в сцене (пиксели в изображении), которые находятся ближе к зрителю, чем остальные. Такое преобразование может выполняться посредством транслятора и результирующей карты глубины пикселей, передаваемой наверху обычного ТВ сигнала. Однако преобразование на стороне потребителя обеспечивает возможность эволюционного введения трехмерного телевидения, которое не требует адаптации инфраструктуры вещания.
Фиг.1 показывает геометрию части изображения 10 и две ориентации 12a,b. Часть изображения может быть человеком или любым другим объектом в изображении. Настоящее изобретение относится к способу обеспечения карты глубины для изображения. Глубина может рассматриваться как приписывание некоторого z-значения, то есть значения глубины, точкам объектов. Когда изображения сцены, содержащей часть изображения 10, получаются с использованием точечной проекции с различных ориентаций 12a,b, положения, в которых точки 14, 15 на части изображения будут видны в изображении, являются проекциями 16a,b, 17a,b точек 14, 15. Проекции могут иллюстрироваться линиями 19a-d на чертеже из точек 14, 15 через ориентации 12a,b до плоскости изображения 18. Чтобы наметить основополагающие принципы, ориентации 12a,b были выбраны в плоскости, параллельной плоскости изображения 18, но изобретение не ограничивается таким выбором ориентаций 12a,b. Точки пересечения между линиями 19a-d и плоскостью изображения 18 иллюстрируют положения, где точки 14, 15 части изображения 10 будут видны на изображениях.
Следует отметить, что изменение точки наблюдения 12a,b приводит к параллельному переносу положения 16a,b, 17a,b, где точка 14, 15 части изображения будет видна в плоскости изображения 18. Этот параллельный перенос обратно пропорционален глубине "z" между точкой наблюдения и указанной точкой и прямо пропорционален величине изменения положения точки наблюдения. В результате параллельный перенос будет различным для точек 14, 15 части изображения 10, которые имеют различные глубины "z" от ориентаций 12a,b. Когда карту z-глубины приходится делать из двухмерного изображения, обычно используются визуальные признаки, такие как наложение, размер объекта, относительные размеры подобных объектов, резкость края объекта. Однако часто результаты бывают неоднозначными. Дерево, которое мало по размеру пикселя, может быть маленьким деревом вблизи или большим деревом, находящимся на расстоянии, следовательно, размер является признаком, но может быть обманчивым. Тот факт, находится ли объект в фокусе, может указывать, что это объект переднего плана по сравнению с объектами дальнего плана. Однако является ли расстояние между камерой и объектом маленьким или относительно большим, может быть не различимо. Таким образом, положение в фокусе или вне фокуса может формировать визуальный признак, но может быть обманчивым. Ниже дано несколько примеров обманчивых признаков.
Изобретатели поняли, что часто используется несколько относительно фиксированных установочных параметров, например очень крупным планом, крупным планом, средним планом, полномасштабное отображение и вытянутое изображение. Каждый из упомянутых установочных параметров имеет более или менее характеристический диапазон расстояния камеры до объекта.
Более того, изобретатели обнаружили, что имеется корреляция между аудиосценой, то есть звуковая дорожка, ассоциированная со сценой, и расстоянием камеры.
Это составляет ядро изобретения: при использовании аудиоинформации сцене дается некоторый показатель, показывающий расстояние камеры. Аудиоинформация требует намного меньше данных и мощности вычислений, чем видеоданные, и может анализироваться на порядки величины быстрее.
Фиг.3 иллюстрирует базовую установку способа и системы согласно настоящему изобретению. Она обеспечивает возможность преобразования из двухмерного формата в трехмерный.
Входной сигнал I(2D), то есть видеосцена в 2D формате, расщепляется на входе 31 на часть 32 аудиосцены и часть 33 видеосцены. Аудиосцена посылается в классификатор 34. Классификатор содержит анализатор 35, который анализирует некоторые характеристики генерации аудиосцены, такие как наличие речи, наличие музыки, громкость речи, музыки, наличие шума и т.п. Примеры будут даны ниже. Эта информация используется во внутреннем классификаторе 36, который использует результаты анализа для классификации аудиосцены и дает ей показатель 37, например показатель представляет собой некоторое число, показывающее сцену очень крупным планом, или таблицу, дающую вероятности сцены очень крупным планом, крупным планом, средним планом и т.п.
Показатель 37 используется в блоке 38 оценки пространственной глубины. Чтобы создать карту глубины, блок 38 оценки пространственной глубины использует, с одной стороны, данные показателя и, с другой стороны, визуальные признаки в некоторой видеосцене. Карта глубины прибавляется к данным изображения. Используя карту глубины, можно теперь отобразить изображение на устройстве трехмерного изображения.
Преимущество настоящего изобретения состоит в том, что, используя объединенные аудио- и визуальные признаки, можно намного ускорить преобразование двухмерного формата в трехмерный и часто даже делать это в реальном масштабе времени.
Фиг.4 иллюстрирует типичные положения камеры: очень крупным планом (extreme CU), крупным планом (CU), средним планом, полномасштабное отображение и вытянутое изображение. С каждым из указанных установочных параметров камеры ассоциируется типичное расстояние или типичный диапазон расстояний между наиболее важными объектами и камерой. Хотя глаз человека, или точнее разум человека, может почти мгновенно отличить различные установочные параметры камеры, выполнение этого посредством визуальных признаков в видеофайле часто требует большой мощности вычислений, и даже так, что могут получиться неоднозначные результаты. Автоматическая оценка глубины из двухмерного видеоформата неотъемлемо полагается на эвристические признаки глубины, каждый из которых является неизбежно несовершенным и может работать лучше или хуже для различных типов сценариев (например, крупным планом по сравнению со средним планом, внутренний по сравнению с наружным). Классификация визуальных сцен из изображений изучалась как отдельная задача, и было предложено много решений, которые тем или иным путем затрагивают такие методы, как многомерный анализ образов и/или контролируемое изучение. Однако когда в качестве входа берутся видеоданные с высокой пропускной способностью (число изображений в секунду), эти методы часто вносят значительную вычислительную задержку, по причине чего они не приводят к практическим системам преобразования двухмерного формата в трехмерный.
Последнее означает, что желательно иметь механизм для детектирования различных типов сцен, так чтобы стало возможным адекватное (динамическое) смешивание или переключение между признаками.
Изобретатели обнаружили, что имеется корреляция между аудиосценой и установочным параметром камеры. Аудиосцены могут анализироваться и категоризироваться на порядки величины быстрее, поскольку объем данных на порядки величины меньше. Это детектирование посредством аудиоданных обеспечивает возможность очень быстрой, возможно грубой категоризации сцен в одной из установок камеры. Подобная категоризация обеспечивает очень важный признак, который должен использоваться в визуальном анализе, обычно в качестве начальной точки для одного или нескольких параметров для алгоритмов, используемых в анализаторе 38 пространственной глубины. Изобретение эффективно использует тот факт, что в видео, и особенно в фильме, сочетание и специфика различных акустических источников (например, речь, музыка фильма, окружающие звуки …) говорят много о сцене. Имеется корреляция между аудиосценой и расстоянием (наблюдения) камеры.
Следует отметить, что был известен способ категоризировать аудиосцену, например, для монолога или диалога, внутренних - наружных сцен, но не делалось связи с категоризацией установочных параметров камеры или с использованием такой категоризации в преобразовании изображений из двухмерного формата в трехмерный.
Фиг.5 иллюстрирует экспериментальные результаты. Фиг.5 иллюстрирует корреляцию между композицией аудиосцены и расстоянием камеры, в котором 1 = очень крупным планом, 2 = крупным планом, 3 = средним планом, 4 = полномасштабное отображение и 5 = вытянутое изображение. Фиг.5 касается произвольно выбранного отрывка из художественного фильма ("Пираты Карибского моря"). Верхние части показывают результаты аудиоклассификатора, обработавшего звуковую дорожку видеопоследовательности. Хотя результаты неизбежно несовершенны, они показали хорошее приближение к истинной ситуации. Низ картины показывает покадровую ручную аннотацию этого видеофильма в терминах расстояния камеры. Сравнивая различные фигуры, можно сделать пару важных наблюдений:
1. Интервалы с высокой речевой активностью почти всегда соответствуют меньшим расстояниям камеры (крупным планом и очень крупным планом);
2. Интервалы с отчетливой фоновой музыкой и недостаточной речью (но включающие другие акустические источники) часто соответствуют более длинным расстояниям камеры (средним планом, полномасштабное отображение и вытянутое изображение).
Таким образом, аудиоклассификатор во многих случаях обеспечивает возможность делать прогнозирование о расстоянии камеры.
Теперь будут более подробно обсуждаться проблемы, ассоциированные с преобразованием из двухмерного формата в трехмерный.
Многие системы оценки глубины из двухмерного видео используют статические профили глубины либо в качестве начальной точки для обработки, либо даже в качестве полного признака. Фиг.6 иллюстрирует зависимость такого профиля глубины от типа визуальной сцены. В карте глубины более темные места означают наибольшую удаленность (от зрителя).
Фиг.6 показывает, что, очевидно, этот признак хорошо подходит к снимкам мгновенного состояния (например, наружным) с четким разделением между уровнем земли и горизонтом, но, конечно, не виды крупным планом и очень крупным планом, где некоторый объект протягивается по большому участку или всей высоте картины.
Некоторые другие примеры, где тип сцены может определять ход и характеристики компьютерной оценки глубины, представляют собой:
сцены движения - включают в себя движение объекта от камеры, записывающей сцену, иногда одновременно. Наличие или уровень сложности движения может быть важным параметром, поскольку точная оценка последовательности движений может позволить вывести зависимости наложения (и, таким образом, глубины) в сцене;
сложные сцены - содержат многочисленные объекты и (текстурированный) фон. Уровень визуальной неоднородности может быть решающим для способности выполнять адекватную сегментацию по границам объекта, что, в свою очередь, может использоваться для выведения последовательных смен глубины.
Чтобы избежать ингибирующего действия разнесенности визуальных сцен на характеристики генерированных компьютером признаков пространственной глубины, авторы изобретения предложили дифференцировать некоторые характеристические типы визуальных сцен и настроить вычисления, соответственно смешивая и, возможно, потом обрабатывая эти признаки глубины.
Отличительные особенности и варианты осуществления следующие:
1. Авторы начинают с того наблюдения, что много сцен в видеоданных неизбежно направляется аудиоданными, что особенно справедливо для повествовательного содержания, исходящего из профессионального телевидения и кинопромышленности.
2. Центральная идея изобретения состоит в том, чтобы дать доступ схемы преобразования двухмерного видеоформата в двухмерный для выхода аудиоклассификатора - принимающего в качестве входа звуковую дорожку видеоданных, подлежащих преобразованию. Аудиоклассификатор выводит показатель категоризации пространственной глубины, который может включать в себя вероятности, посредством которых он присваивает каждый аудиокадр каждому из одного или нескольких классов аудиоданных, таких как речь, музыка, тишина, шум, окружающие звуки и т.п. Анализируя эти вероятности во время некоторого интервала видео (нескольких кадров), можно получить признаки о типе сцены. Например:
- Высокая активность речи указывает на высокий шанс наличия диалога и, таким образом, снимка мгновенного состояния крупным планом.
- Высокая активность фоновой музыки и/или окружающих звуков (возможно в сочетании с речью) указывает на высокий шанс наличия действия и, таким образом, сложной сцены (движения).
Естественно возможны более изощренные стратегии решений, и некоторые из них будут обсуждаться здесь далее.
Более того, если обнаруживается сегмент аудиоданных, принадлежащий к одному (доминирующему) классу аудиоданных, его можно представить для дальнейшего анализа, специфического для этого класса, например:
- Отслеживание (изменение) говорящего - знание того, что некоторый сегмент речи поочередно принадлежит различным говорящим, повышает вероятность диалога и, таким образом, снимка мгновенного состояния крупным планом.
- Анализ темпа музыки - партитура динамического фильма обычно используется, чтобы сопровождать интенсивное действие, и, таким образом, может показывать на (сложную) сцену движения.
- Анализ настроения музыки - партитура "драматического" фильма часто используется, чтобы извещать о приближающейся тревоге, что обычно выглядит в фильме как чередование сцен крупным планом и средним планом.
- Подразделение, например, "шума" или "окружающих звуков" как толпы, аплодисментов, выстрелов, взрывов и тому подобного, может дать полезные признаки о действии и его окружении (внутреннее, наружное и т.п.).
Анализ аудиоданных вместо видеоданных означает снижение задержки вычислений благодаря намного более низкой пропускной способности данных.
Получаемые на такой скорости решения (показатель классификации сцены), полученные из аудиоинформации, дополняются решениями, исходящими из дополнительного анализа изображений для улучшения надежности.
Фиг.7 дает общую схему иллюстративного воплощения способа. Различные этапы обработки объясняются более подробно ниже. Следует отметить, что, по меньшей мере, компоненты, показанные пунктирными линиями, являются необязательными для основного предложения.
- Таким образом, буферизация данных является особенно полезной в преобразовании двухмерного видеоформата в двухмерный не в реальном масштабе времени, где классификация сцен может применяться к большим интервалам видеоданных, например, число кадров, содержащееся между ключевыми кадрами (например, детектированные границы снимка мгновенного состояния камеры.
- Аудиоклассификатор присваивает каждому кадру вероятность, с которой кадр может быть присвоен каждому из предварительно заданного набора классов, таких как речь, музыка, тишина, шум, окружающие звуки и т.п. В литературе приводятся алгоритмы, которые могут выполнять быструю и надежную классификацию аудиоданных, где вероятности различных классов аудиоданных часто вычисляются неодновременно, то есть независимо друг от друга. Фиг.8 изображает возможный выход такого существующего классификатора.
- Пороги могут применяться к доминанте (наиболее высокой) и/или другим ненулевым вероятностям как путь решения того, какой аудиокадр исходит из одного акустического источника (класс аудиоданных).
- Вторичный анализ аудиоданных относится к обработке, специфической для некоторого класса аудиоданных, такой как:
- Отслеживание (изменение) говорящего: хотя распознавание говорящего, в основном является трудной задачей, распознавание только изменения говорящих, не заботясь об их точной идентичности, является осуществимым.
- Анализ темпа музыки: охватывается расширением системы, также включая некоторый более развитый анализ музыки по ее настроению, ритму, тональности и т.п.
- Классификация окружающих звуков на толпу, выстрелы, взрывы и т.п.
- Классификация визуальных сцен, основываясь на аудиоданных, относится к анализу вероятностей класса аудиоданных и, возможно, другой информации, получаемой из вторичного анализа аудиоданных, с целью классификации некоторого временного видеокадра согласно типу сцен, которые он представляет. Анализ может связываться с простой логикой продукционных правил или с более изощренной обработкой, как будет объясняться впоследствии.
- Временное выравнивание выравнивает классификацию, полученную из аудиоданных на скорости видеоданных. Оно может быть достигнуто путем усреднения интерполирующих данных, основываясь на аудиокадре, подразумевая отметки времени, доступные для каждого видеокадра и аудиокадра. Это также иллюстрируется на фиг.8.
- Логика управления ассоциируется с правилами для переключения некоторого показателя глубины или настройки его вычисления (например, инициализации, установки параметров) или веса согласно типу детектированной сцены.
- Оценка глубины относится к генерации карты глубины для некоторого изображения для любого показателя глубины, обычно выполняемая путем суммирования карт глубины, происходящих из всех признаков, каждая из которых берется с некоторым весом.
Фиг.8 иллюстрирует классификацию аудиоданных (левая часть) и временное выравнивание данных аудиокадра и данных видеокадра (правая часть). Выравнивание здесь достигается путем усреднения (более высокой скорости) данных аудиокадра между каждыми двумя следующими друг за другом видеокадрами. Следует отметить, что характеристический вектор может эффективно быть некоторым скаляром, "показателем сцены в виде меток", представляющим результат классификации сцены.
Существует несколько способов использовать аудиопризнаки, чтобы обеспечить показатель категоризации пространственной глубины. Простой способ использовать аудиопризнаки состоит в том, чтобы использовать логику на основе правил через деревья решений. Деревья решений классифицируют картину через последовательность вопросов, в которой каждый следующий вопрос зависит от ответа на текущий вопрос. Фиг.9 показывает пример. Подтекст и реализация классификации аудиоданных, отслеживание-изменение говорящего и анализ темпа музыки упоминались ранее. Квантование скорости речи и настроения является гранью стандартного анализа просодии, относящейся к супрасегментным аспектам разговорного языка, например вариации высоты тона, длительности, громкости и тембра. Такой когнитивный анализ является наиболее трудным для музыки; до сих пор приводились разные исследования, использующие методы обработки сигнала и классификации конфигурации (например, нейронные сети), берущие интенсивность, тембр и особенности, связанные с ритмом, из акустического сигнала. Следует отметить, что классификация в терминах расстояния камеры проводится согласно пяти задаваемым расстояниям: очень крупным планом, крупным планом, средним планом, полномасштабное отображение и вытянутое изображение. Также, некоторые ветви обрываются в сомнительных классификациях, что выясняется посредством дополнительного анализа (основанного на изображении).
Полезным является вариант осуществления, в котором решение основано, по меньшей мере, на личностной информации. Личностной информацией может быть, например, имя директора или имена актеров. Некоторые директоры имеют особенный стиль. Некоторые директоры больше всего используют крупный план больше, чем другие. Также, некоторые актеры склонны сниматься крупным планом (обычно, ведущие роли), тогда как другие гораздо меньше снимаются крупным планом. Возможно, что использование этой информации, которая обычно доступна, дает более точное прогнозирование.
Другой подходящей методологией является байесово заключение. Оно предписывает базовое правило, которое связывает между собой апостериорную вероятность состояния натуры (например, тип визуальной сцены), априорную вероятность этого состояния и измерение некоторых особенностей с натуры (например, классификация аудиоданных). Уравнение (1) показывает упомянутое правило, тогда как ниже уравнения 1 классификация дается посредством примера условных обозначений. Каждая байесова доверительная сеть состоит из узлов их ассоциированных состояний. Связи между узлами представляют прямое причинное следствие, основанное на доказательстве. Например, узел B может иметь состояния {b 1, b 2,…}, коллективно обозначенные как b: тогда вероятность P( b ) обозначает априорные вероятности {P(b 1 ) , P(b 2 ),…}, и P(c|b) обозначает условные вероятности (правдоподобие) параметра c, при условии события b. Все априорные вероятности и правдоподобие могут быть использованы через уравнение (1) для вычисления апостериорных вероятностей, которые используются для составления решающего правила.
Figure 00000001
Figure 00000002
В классификаторе Байеса оценка (обусловленных классом) вероятностей играет решающую роль. В некоторых случаях может быть достаточным принятие стандартных распределений (например, гауссово) для различных вероятностей; в других случаях будет более правильной оценка (автономная) этих распределений из испытательных образцов.
Логика управления означает правила для переключения (взвешивания) различных признаков пространственной глубины или адаптации их вычисления (инициализация, установка параметров и т.п.) и возможную последующую обработку согласно детектированной информации класса сцены. Некоторые из этих правил являются потенциально возможными, и они могут быть сделаны более или менее консервативными, в зависимости от эмпирического доказательства, хотя некоторая характеризация сцены (например, в терминах расстояния камеры) может быть решающей для некоторых признаков глубины, она может быть "нейтральной" для других. Определение различных опций является темой текущего исследования, а также будет затрагиваться в следующем разделе. Сейчас будут показаны некоторые правдоподобные построения, которые хорошо иллюстрируют главную идею.
Ниже дается псевдокод возможной логики для управления оценки глубины на основе классификации сцены. Он показывает, каким образом выбор и использование некоторых общих признаков глубины или стратегий оценки глубины могут управляться посредством полученной классификации. Разработка таких признаков глубины может варьироваться и содержать любой из множества алгоритмов, содержащихся в литературе.
Figure 00000003
Figure 00000004
Следует отметить, что "показатель категоризации пространственной глубины" может быть простым показателем, дающим индикацию глубины обзора, но также может быть более детальным.
Кроме расстояния наблюдения, создатели кинофильмов используют много других формальных определений и соглашений. Фиг.10 показывает пример, относящийся к ориентации и движению камеры. Например, маловероятно, что "отслеживание" объекта (см. фиг.10 ниже) сопровождается большим количеством разговора (речи). В то же самое время отслеживание объекта может сильно влиять на алгоритмы, которые оценивают глубину с использованием допущения о движении (здесь изменяется не только движение объекта, но также фон) и/или визуальной неоднородности. Таким образом, аудиосцена используется для создания категорий пространственной глубины, относящихся к элементам кинематографического синтаксиса как в отношении позиционирования камеры (расстояние наблюдения, пространственная глубина), так и движения в сцене. Тогда показатель категоризации пространственной глубины имеет, по меньшей мере, две составляющие пространственную глубину и движение и/или визуальную неоднородность. Движение может содержать индикацию речи, часто имеется корреляция между звуком и скоростью движения, причем громкая и быстрая музыка или речь являются индикацией быстрого движения или быстрого изменения положения камеры, тогда как легкая музыка ассоциируется с относительно медленными движениями.
В предпочтительных вариантах осуществления используется нечеткая логика для выделения некоторого показателя категоризации пространственной глубины из аудиопризнаков.
Изобретение также осуществляется в любом программном продукте, содержащем средство программного кода для выполнения способа согласно изобретению, когда упомянутая программа прогоняется на компьютере, а также в любом компьютерном программном продукте, содержащем средство программного кода, хранимое на считываемом компьютером носителе, для выполнения способа согласно изобретению. Компьютерные программные продукты могут включать в себя, например, графический процессор для игровой приставки.
Должно быть понятно, что в рамках настоящего изобретения возможно много вариаций. Специалистам должно быть понятно, что настоящее изобретение не ограничивается тем, что здесь конкретно показано и описано выше. Изобретение имеет место в любом и каждом признаке новизны и в любой и каждой комбинации отличительных признаков. Номера позиций в пунктах не ограничивают их охранных рамок. Использование глагола "содержать" и его спряжений не исключает наличия элементов, отличных от тех, которые утверждаются в пунктах. Использование единственного числа элемента не исключает наличия множества таких элементов.
Настоящее изобретение описано в терминах специфических вариантов осуществления, которые являются иллюстративными, а не ограничивающими. Изобретение также может быть реализовано в способе и устройстве, в аппаратных средствах, встроенном программном обеспечении или программном обеспечении или в их комбинации. Другие варианты осуществления находятся в рамках следующей формулы изобретения.

Claims (13)

1. Способ обеспечения оценки пространственной глубины для видеопоследовательности, причем способ содержит классификацию (34) аудиосцены, в которой показатель (37) категоризации пространственной глубины для пространственной глубины сцены получается на основе анализа аудиоинформации (32) для этой сцены, причем показатель (37) категоризации пространственной глубины используется в последующей оценке (38) пространственной глубины, основываясь на видеоинформации (33) для той же сцены.
2. Способ по п.1, в котором показатель категоризации пространственной глубины содержит вероятности для сцены, проанализированной аудиоанализом, показывающей вероятность того, что сцена попадает в одну или несколько категорий пространственной глубины.
3. Способ по п.1, в котором показатель пространственной глубины содержит данные, относящиеся к кинематографическому синтаксису и соглашениям, касающимся позиционирования камеры (расстояние наблюдения) и движения и/или визуальной неоднородности.
4. Способ по одному из пп.1-3, в котором классификация аудиосцен основана на дереве решений, причем аудиопризнаки анализируются в форме дерева решений.
5. Способ по одному из пп.1-3, в котором классификация аудиосцен основана на способе, в котором каждый из аудиопризнаков используется, чтобы обеспечить отдельную классификацию, и каждой классификации присваивается вес, соответствующий весу аудиопризнака.
6. Способ по одному из пп.1-3, в котором аудиоанализ содержит использование речевого содержимого в качестве признака.
7. Способ для преобразования двухмерного видео в трехмерное видео, содержащий создание левого и правого изображений, используя пиксельные данные из видеоинформации и карту глубины, полученную способом по любому из пп.1-3.
8. Система для обеспечения оценки пространственной глубины для видеопоследовательности, причем система содержит аудиоклассификатор (34) для анализа аудиоинформации (32) сцены и для классификации сцены на категорию пространственной глубины на основе анализа, который аудиоклассификатор (34) имеет на выходе, обеспечивая показатель (37) категоризации пространственной глубины сцены, причем показатель (37) категоризации пространственной глубины подается в анализатор (38) пространственной глубины видео видеоинформации той же сцены.
9. Система по п.8, в которой показатель категоризации пространственной глубины содержит вероятности того, что сцена попадает в одну или несколько категорий пространственной глубины.
10. Система по п.8 или 9, в которой анализатор выполнен возможностью классификации на основе дерева решений.
11. Система по п.8 или 9, в которой анализатор выполнен с возможностью классификации на основе способа, в котором каждый из аудиопризнаков используется, чтобы обеспечить отдельную классификацию, и для каждой классификации присваивается вес, соответствующий весу аудиопризнака.
12. Система по п.8 или 9, в которой анализатор выполнен с возможностью классификации, основываясь на нечеткой логике (создании кластеров).
13. Система по п.8, дополнительно содержащая средство для создания левого и правого изображений, используя пиксельные данные из видеоинформации и карту глубины, полученную анализатором (38) пространственной глубины видео.
RU2009127757/07A 2006-12-19 2007-12-14 Способ и система для преобразования двухмерного видео в трехмерное видео RU2454025C2 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP06126515.3 2006-12-19
EP06126515 2006-12-19

Publications (2)

Publication Number Publication Date
RU2009127757A RU2009127757A (ru) 2011-01-27
RU2454025C2 true RU2454025C2 (ru) 2012-06-20

Family

ID=39125216

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2009127757/07A RU2454025C2 (ru) 2006-12-19 2007-12-14 Способ и система для преобразования двухмерного видео в трехмерное видео

Country Status (7)

Country Link
US (1) US8493448B2 (ru)
EP (1) EP2092760A1 (ru)
JP (1) JP5366824B2 (ru)
KR (1) KR20090092839A (ru)
CN (1) CN101563935B (ru)
RU (1) RU2454025C2 (ru)
WO (1) WO2008075276A1 (ru)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2517727C2 (ru) * 2012-07-11 2014-05-27 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ расчета движения с коррекцией окклюзий
RU2642367C2 (ru) * 2013-04-09 2018-01-24 Битанимейт, Инк. Система и способ преобразования двухмерной видеозаписи в трехмерную видеозапись

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9286941B2 (en) 2001-05-04 2016-03-15 Legend3D, Inc. Image sequence enhancement and motion picture project management system
US8401336B2 (en) 2001-05-04 2013-03-19 Legend3D, Inc. System and method for rapid image sequence depth enhancement with augmented computer-generated elements
US8897596B1 (en) 2001-05-04 2014-11-25 Legend3D, Inc. System and method for rapid image sequence depth enhancement with translucent elements
EP2130178A1 (en) * 2007-03-23 2009-12-09 Thomson Licensing System and method for region classification of 2d images for 2d-to-3d conversion
US8923602B2 (en) * 2008-07-22 2014-12-30 Comau, Inc. Automated guidance and recognition system and method of the same
KR101310213B1 (ko) 2009-01-28 2013-09-24 한국전자통신연구원 깊이 영상의 품질 개선 방법 및 장치
US9380292B2 (en) 2009-07-31 2016-06-28 3Dmedia Corporation Methods, systems, and computer-readable storage media for generating three-dimensional (3D) images of a scene
US20110025830A1 (en) 2009-07-31 2011-02-03 3Dmedia Corporation Methods, systems, and computer-readable storage media for generating stereoscopic content via depth map creation
US8508580B2 (en) 2009-07-31 2013-08-13 3Dmedia Corporation Methods, systems, and computer-readable storage media for creating three-dimensional (3D) images of a scene
CN102497888B (zh) * 2009-07-31 2014-10-29 皇家飞利浦电子股份有限公司 用于成像的全氟化合物
EP2520096A4 (en) * 2009-12-29 2013-10-09 Shenzhen Tcl New Technology PERSONALIZING A 3D TV VIEW
WO2011097306A1 (en) * 2010-02-04 2011-08-11 Sony Corporation 2d to 3d image conversion based on image content
US20110222757A1 (en) 2010-03-10 2011-09-15 Gbo 3D Technology Pte. Ltd. Systems and methods for 2D image and spatial data capture for 3D stereo imaging
US8421847B2 (en) * 2010-05-21 2013-04-16 Mediatek Inc. Apparatus and method for converting two-dimensional video frames to stereoscopic video frames
US9171578B2 (en) * 2010-08-06 2015-10-27 Futurewei Technologies, Inc. Video skimming methods and systems
CN102385894A (zh) * 2010-08-30 2012-03-21 承景科技股份有限公司 音视频处理装置、音视频处理方法及其可读取记录介质
CN101938669B (zh) * 2010-09-13 2012-01-11 福州瑞芯微电子有限公司 一种2d转3d的自适应视频转换系统
WO2012061549A2 (en) * 2010-11-03 2012-05-10 3Dmedia Corporation Methods, systems, and computer program products for creating three-dimensional video sequences
US9230315B2 (en) 2010-12-08 2016-01-05 Thomson Licensing Complexity estimation of a 2D/3D conversion
EP2656315B1 (en) * 2010-12-22 2016-10-05 Legend3D, Inc. System and method for minimal iteration workflow for image sequence depth enhancement
US10200671B2 (en) 2010-12-27 2019-02-05 3Dmedia Corporation Primary and auxiliary image capture devices for image processing and related methods
WO2012092246A2 (en) 2010-12-27 2012-07-05 3Dmedia Corporation Methods, systems, and computer-readable storage media for identifying a rough depth map in a scene and for determining a stereo-base distance for three-dimensional (3d) content creation
US8274552B2 (en) 2010-12-27 2012-09-25 3Dmedia Corporation Primary and auxiliary image capture devices for image processing and related methods
TWI469088B (zh) 2010-12-31 2015-01-11 Ind Tech Res Inst 前景深度地圖產生模組及其方法
US8861836B2 (en) 2011-01-14 2014-10-14 Sony Corporation Methods and systems for 2D to 3D conversion from a portrait image
US9407904B2 (en) 2013-05-01 2016-08-02 Legend3D, Inc. Method for creating 3D virtual reality from 2D images
US9288476B2 (en) 2011-02-17 2016-03-15 Legend3D, Inc. System and method for real-time depth modification of stereo images of a virtual reality environment
US9282321B2 (en) 2011-02-17 2016-03-08 Legend3D, Inc. 3D model multi-reviewer system
US9241147B2 (en) 2013-05-01 2016-01-19 Legend3D, Inc. External depth map transformation method for conversion of two-dimensional images to stereoscopic images
US9094771B2 (en) 2011-04-18 2015-07-28 Dolby Laboratories Licensing Corporation Method and system for upmixing audio to generate 3D audio
KR20140045349A (ko) * 2011-05-19 2014-04-16 삼성전자주식회사 3d컨텐츠제공장치 및 3d컨텐츠제공방법
CN102427539B (zh) * 2011-08-26 2014-08-27 庞志勇 视频图像2d转3d的方法
CN102982804B (zh) 2011-09-02 2017-05-03 杜比实验室特许公司 音频分类方法和系统
CA2855190C (en) 2011-10-05 2017-02-07 Bitanimate, Inc. Resolution enhanced 3d video rendering systems and methods
KR101861590B1 (ko) * 2011-10-26 2018-05-29 삼성전자주식회사 휴대용 단말기에서 입체 데이터를 생성하기 위한 장치 및 방법
US9414048B2 (en) 2011-12-09 2016-08-09 Microsoft Technology Licensing, Llc Automatic 2D-to-stereoscopic video conversion
US8897542B2 (en) * 2011-12-15 2014-11-25 Sony Corporation Depth map generation based on soft classification
US9007365B2 (en) 2012-11-27 2015-04-14 Legend3D, Inc. Line depth augmentation system and method for conversion of 2D images to 3D images
US9547937B2 (en) * 2012-11-30 2017-01-17 Legend3D, Inc. Three-dimensional annotation system and method
US9007404B2 (en) 2013-03-15 2015-04-14 Legend3D, Inc. Tilt-based look around effect image enhancement method
US9438878B2 (en) 2013-05-01 2016-09-06 Legend3D, Inc. Method of converting 2D video to 3D video using 3D object models
CN103686139B (zh) 2013-12-20 2016-04-06 华为技术有限公司 帧图像转换方法、帧视频转换方法及装置
US9591290B2 (en) * 2014-06-10 2017-03-07 Bitanimate, Inc. Stereoscopic video generation
US9609307B1 (en) * 2015-09-17 2017-03-28 Legend3D, Inc. Method of converting 2D video to 3D video using machine learning
WO2017202712A1 (en) * 2016-05-24 2017-11-30 Koninklijke Philips N.V. Depth-enhanced tomosynthesis reconstruction
CN107563257B (zh) * 2016-07-01 2021-06-15 北京旷视科技有限公司 视频理解方法及装置
GB2569979B (en) * 2018-01-05 2021-05-19 Sony Interactive Entertainment Inc Rendering a mixed reality scene using a combination of multiple reference viewing points
CN108615532B (zh) * 2018-05-03 2021-12-07 张晓雷 一种应用于声场景的分类方法及装置
CN113497953A (zh) * 2020-04-07 2021-10-12 北京达佳互联信息技术有限公司 音乐的场景识别方法、装置、服务器及存储介质
US11475668B2 (en) 2020-10-09 2022-10-18 Bank Of America Corporation System and method for automatic video categorization

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6091421A (en) * 1996-12-19 2000-07-18 U.S. Philips Corporation Displaying autostereograms of various depths until proper 3D perception is achieved
RU2159017C2 (ru) * 1995-06-21 2000-11-10 Араухо Де Соуза Маурисио Способ для ввода и монтирования изображений так, чтобы получить эффект виртуальной глубины
EP1128679A1 (en) * 2000-02-21 2001-08-29 Soft4D Co., Ltd. Method and apparatus for generating stereoscopic image using MPEG data
EP1150254A2 (en) * 1995-03-29 2001-10-31 SANYO ELECTRIC Co., Ltd. Methods for creating an image for a three-dimensional display, for calculating depth information, and for image processing using the depth information
WO2003049038A1 (en) * 2001-12-05 2003-06-12 Koninklijke Philips Electronics N.V. Method and system for generation of a 3d illusion from a 2d image sequence
RU2237284C2 (ru) * 2001-11-27 2004-09-27 Самсунг Электроникс Ко., Лтд. Способ генерирования структуры узлов, предназначенных для представления трехмерных объектов с использованием изображений с глубиной
EP1501317A1 (en) * 2002-04-25 2005-01-26 Sharp Kabushiki Kaisha Image data creation device, image data reproduction device, and image data recording medium
EP1551190A1 (en) * 2002-08-20 2005-07-06 Kazunari Era Method and device for creating 3-dimensional view image

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5903454A (en) * 1991-12-23 1999-05-11 Hoffberg; Linda Irene Human-factored interface corporating adaptive pattern recognition based controller apparatus
JP2846836B2 (ja) * 1994-09-22 1999-01-13 三洋電機株式会社 2次元映像を3次元映像に変換する方法
JP3276931B2 (ja) * 1996-08-07 2002-04-22 三洋電機株式会社 3次元映像の立体感調整方法及び立体感調整装置
US5828809A (en) * 1996-10-01 1998-10-27 Matsushita Electric Industrial Co., Ltd. Method and apparatus for extracting indexing information from digital video data
US5840032A (en) * 1997-05-07 1998-11-24 General Electric Company Method and apparatus for three-dimensional ultrasound imaging using transducer array having uniform elevation beamwidth
MY124160A (en) * 1997-12-05 2006-06-30 Dynamic Digital Depth Res Pty Improved image conversion and encoding techniques
JPH11289555A (ja) * 1998-04-02 1999-10-19 Toshiba Corp 立体映像表示装置
US6266053B1 (en) * 1998-04-03 2001-07-24 Synapix, Inc. Time inheritance scene graph for representation of media content
AUPP603798A0 (en) * 1998-09-18 1998-10-15 Canon Kabushiki Kaisha Automated image interpretation and retrieval system
JP2000261828A (ja) * 1999-03-04 2000-09-22 Toshiba Corp 立体映像生成方法
JP2003044880A (ja) * 2001-07-31 2003-02-14 Canon Inc 立体画像形成装置、立体画像形成方法、プログラム、及び記憶媒体
US20040246199A1 (en) * 2003-02-21 2004-12-09 Artoun Ramian Three-dimensional viewing apparatus and method
GB2429597B (en) * 2004-02-06 2009-09-23 Agency Science Tech & Res Automatic video event detection and indexing
US7262767B2 (en) * 2004-09-21 2007-08-28 Victor Company Of Japan, Limited Pseudo 3D image creation device, pseudo 3D image creation method, and pseudo 3D image display system

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1150254A2 (en) * 1995-03-29 2001-10-31 SANYO ELECTRIC Co., Ltd. Methods for creating an image for a three-dimensional display, for calculating depth information, and for image processing using the depth information
RU2159017C2 (ru) * 1995-06-21 2000-11-10 Араухо Де Соуза Маурисио Способ для ввода и монтирования изображений так, чтобы получить эффект виртуальной глубины
US6091421A (en) * 1996-12-19 2000-07-18 U.S. Philips Corporation Displaying autostereograms of various depths until proper 3D perception is achieved
EP1128679A1 (en) * 2000-02-21 2001-08-29 Soft4D Co., Ltd. Method and apparatus for generating stereoscopic image using MPEG data
RU2237284C2 (ru) * 2001-11-27 2004-09-27 Самсунг Электроникс Ко., Лтд. Способ генерирования структуры узлов, предназначенных для представления трехмерных объектов с использованием изображений с глубиной
WO2003049038A1 (en) * 2001-12-05 2003-06-12 Koninklijke Philips Electronics N.V. Method and system for generation of a 3d illusion from a 2d image sequence
EP1501317A1 (en) * 2002-04-25 2005-01-26 Sharp Kabushiki Kaisha Image data creation device, image data reproduction device, and image data recording medium
EP1551190A1 (en) * 2002-08-20 2005-07-06 Kazunari Era Method and device for creating 3-dimensional view image

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2517727C2 (ru) * 2012-07-11 2014-05-27 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ расчета движения с коррекцией окклюзий
RU2642367C2 (ru) * 2013-04-09 2018-01-24 Битанимейт, Инк. Система и способ преобразования двухмерной видеозаписи в трехмерную видеозапись

Also Published As

Publication number Publication date
US8493448B2 (en) 2013-07-23
CN101563935A (zh) 2009-10-21
CN101563935B (zh) 2011-12-28
US20100026784A1 (en) 2010-02-04
JP5366824B2 (ja) 2013-12-11
EP2092760A1 (en) 2009-08-26
KR20090092839A (ko) 2009-09-01
RU2009127757A (ru) 2011-01-27
WO2008075276A1 (en) 2008-06-26
JP2010514318A (ja) 2010-04-30

Similar Documents

Publication Publication Date Title
RU2454025C2 (ru) Способ и система для преобразования двухмерного видео в трехмерное видео
RU2693906C2 (ru) Основанный на правилах анализ важности видео
RU2743732C2 (ru) Способ и устройство для обработки видео- и аудиосигналов и программа
CN113709561B (zh) 视频剪辑方法、装置、设备及存储介质
RU2494566C2 (ru) Устройство и способ управления отображением
US20160034786A1 (en) Computerized machine learning of interesting video sections
US20100220920A1 (en) Method, apparatus and system for processing depth-related information
CN110012302A (zh) 一种网络直播监测方法及装置、数据处理方法
WO2009039046A2 (en) Advertisment insertion points detection for online video advertising
US10224073B2 (en) Auto-directing media construction
Bano et al. ViComp: composition of user-generated videos
US20140205270A1 (en) Automated Video Production System and Method
US10123090B2 (en) Visually representing speech and motion
KR101820456B1 (ko) 깊이 맵 생성 방법 및 장치
Lluís et al. Points2Sound: from mono to binaural audio using 3D point cloud scenes
Milani et al. Audio tampering detection using multimodal features
KR101064946B1 (ko) 다중 영상 분석 기반의 객체추출 장치 및 그 방법
CN117641073A (zh) 视频封面生成方法、装置、设备及存储介质
CN112995530A (zh) 视频的生成方法、装置及设备
CN115512104A (zh) 一种数据处理方法及相关设备
Tiwari et al. Development of Algorithm for Object Detection & Tracking Using RGB Model
CN116527956B (zh) 基于目标事件触发的虚拟对象直播方法、装置及系统
Fearghail et al. Use of saliency estimation in cinematic vr post-production to assist viewer guidance
CN111062337B (zh) 人流方向检测方法及装置、存储介质和电子设备
CN111259781B (zh) 视频分类方法及装置、存储介质和电子设备

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20141215