MXPA03001171A - Tecnicas de conversion y codificacion de imagenes. - Google Patents

Tecnicas de conversion y codificacion de imagenes.

Info

Publication number
MXPA03001171A
MXPA03001171A MXPA03001171A MXPA03001171A MXPA03001171A MX PA03001171 A MXPA03001171 A MX PA03001171A MX PA03001171 A MXPA03001171 A MX PA03001171A MX PA03001171 A MXPA03001171 A MX PA03001171A MX PA03001171 A MXPA03001171 A MX PA03001171A
Authority
MX
Mexico
Prior art keywords
depth
image
algorithm
pixel
value
Prior art date
Application number
MXPA03001171A
Other languages
English (en)
Inventor
Philip Victor Harman
Original Assignee
Dynamic Digital Depth Res Pty
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from AUPQ9292A external-priority patent/AUPQ929200A0/en
Priority claimed from AUPR0455A external-priority patent/AUPR045500A0/en
Application filed by Dynamic Digital Depth Res Pty filed Critical Dynamic Digital Depth Res Pty
Publication of MXPA03001171A publication Critical patent/MXPA03001171A/es

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/579Depth or shape recovery from multiple images from motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/507Depth or shape recovery from shading
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Graphics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

La presente invención se refiere a un método para crear un mapa de profundidad, que incluye los pasos de asignar una profundidad a al menos un pixel o porción de una imagen, determinar la ubicación relativa y las características de la imagen, para cada uno del al menos un pixel o porción de la imagen, utilizar la(s) profundidad(es), las características de la imagen y la ubicación respectiva, para determinar un algoritmo para evaluar las características de profundidad como una función de la ubicación relativa y de las características de la imagen, utilizar el algoritmo para calcular características de profundidad para cada pixel o porción de la imagen, en donde las características de profundidad forman un mapa de profundidad para la imagen. En una segunda fase de procesamiento, los mapas de profundidad forman cuadros clave para la generación de mapas de profundidad para los cuadros no claves, usando la ubicación relativa, las características de la imagen y la distancia que hay al (a los) cuadro (s) clave(

Description

TÉCNICAS DE CONVKRSION Y CODIFICACIÓN DE IMÁGENES CAMPO DE LA INVENCIÓN La presente invención consiste en una técnica para derivar mapas de profundidad, a partir de una o más imágenes tridimensionales .
ANTECEDENTES DE LA INVENCIÓN Cierto número de tareas de procesamiento de imágenes requieren que se conozca la profundidad de los objetos que se encuentran en una imagen. Esas tareas incluyen la aplicación de efectos especiales a secuencias de películas y video, y la conversión de imágenes bidimensionales en imágenes tridimensionales estereoscópicas. A la determinación de la profundidad de objetos puede hacerse referencia como el proceso de crear un mapa de profundidad. En un mapa de profundidad cada objeto es coloreado con un tono de gris, de manera tal que el tono indica la profundidad del objeto desde un punto fijo. Típicamente un objeto que se encuentre distante será coloreado con un tono de gris oscuro, mientras que un objeto cercano será más claro. Una convención estándar para la creación de mapas de profundidad tiene que ser adoptada todavía, y puede usarse el coloreado inverso o REF.: 145157 pueden usarse diferentes colores para indicar diferentes profundidades. Para propósitos de explicación, en esta descripción los objetos distantes estarán coloreados más obscuros que los objetos más cercanos, y el coloreado será típicamente en una escala de gris. Históricamente, la creación de un mapa de profundidad, a partir de una imagen bidimensional existente, se ha llevado a cabo manualmente. Se apreciará que una imagen es solamente una serie de pixeles en una computadora, mientras que un operador humano es capaz de distinguir objetos y sus profundidades relativas. La creación de mapas de profundidad involucra un sistema por el cual cada objeto de la imagen que se va a convertir, se traza manualmente y se le asigna una profundidad al objeto. Este proceso es comprensiblemente lento, tardado y costoso. El paso del trazado se lleva a cabo comúnmente usando un programa de cómputo (software) , junto con un ratón. Ejemplos de programas de cómputo (software) que pueden usarse para llevar a cabo esta tarea, es el Adobe "After Effects". Un operador que use After Effects dibujaría típicamente el contorno de cada objeto que requiera de la asignación de una profundidad, y luego rellenaría o "colorearía" el objeto, con los tonos de gris deseados, que definan la profundidad o distancia requerida desde el observador. Este proceso se repetirla después para cada objeto en la imagen. Además, en donde se encuentren involucradas cierto número de imágenes, por ejemplo en una película, también será necesario llevar a cabo estos pasos para cada imagen o cuadro de la película. En el sistema tradicional, el trazado de la imagen se describiría típicamente como cierta forma de curva, por ejemplo una curva Bezier. El uso de esa curva permite al operador alterar la forma del contorno, de manera tal que el contorno del objeto pueda alinearse en forma exacta con el objeto. Si una serie de imágenes requiriese de la transformación de la profundidad, por ejemplo, una película o video, entonces el proceso se repetiría para cada cuadro en la secuencia. Es probable que el tamaño, posición y/o profundidad de un objeto, puedan cambiar a través de una secuencia. En este caso se requiere que el operador rastree manualmente el objeto en cada cuadro y procese cada cuadro corrigiendo la curva, y actualizando la profundidad del objeto, cambiando el tono de gris según sea necesario. Se apreciará que este es un proceso lento, tedioso, tardado y caro . Se han realizado intentos previos para mejorar este proceso. La técnica anterior describe procedimientos que intentan rastrear automáticamente el contorno del objeto, a medida que se mueve de cuadro a cuadro. Un ejemplo de esa técnica es la aplicación de Contornos Activos (referencia: Active Contours - Andrew Blake and Michael Isard - ISBN 3-40-76217-5) . La principal limitación de este enfoque es la necesidad de enseñar al software la implementación de la técnica en el movimiento esperado del objeto que se rastree. Esta es una limitación significativa, ya sea cuando el movimiento esperado no se conozca, se anticipen deformaciones complejas, o se requieran rastrear simultáneamente numerosos objetos con diferentes características de movimiento. También se han usado enfoques de rastreo por puntos, para definir el movimiento de los contornos. Estos son populares en ambientes de edición tales como Commotion y After Effects. Sin embargo, su aplicación es muy limitada porque frecuentemente es imposible identificar un punto de rastreo apropiado, cuyo movimiento refleje el movimiento del objeto como un todo. El rastreo por puntos es aceptable a veces cuando los objetos sufren traslaciones simples, pero no manejarán deformaciones de forma, oclusiones, o cierta variedad de otros problemas comunes. Una compañía Israelí, AutoMedia, ha producido un software llamado Auto asker. Este permite a un operador dibujar el contorno de un objeto y rastrearlo de cuadro a cuadro. El producto se basa en el rastreo del color de un objeto y por lo tanto falla cuando objetos de color similar se intersecan. El producto tiene también dificultad en rastrear objetos cuyo tamaño cambie en cuadros subsecuentes, por ejemplo, cuando un objeto se aproxime a un observador o se mueva hacia delante sobre la pantalla. Ninguno de estos enfoques pueden asignar ni rastrear, aceptablemente, mapas de profundidad, y por lo tanto la creación de los mapas de profundidad es todavía un sistema manual. Otras técnicas se describen en el arte previo y se basan en la reconstrucción del movimiento de la cámara originalmente usada para grabar la secuencia bidimensional . La limitación de estas técnicas es la necesidad del movimiento de la cámara dentro de la secuencia original de imágenes, y la presencia de características bien definidas, dentro de cada cuadro, que puedan usarse como puntos de rastreo .
BREVE DESCRIPCIÓN DE LA INVENCIÓN Actualmente es necesario que un operador cree manualmente un mapa de profundidad para cada cuadro de una imagen, a fin de obtener resultados aceptables. Un objeto de la presente invención es reducir el número de cuadros que requieran de la creación manual de la profundidad, reduciendo por ello el compromiso de tiempo de los operadores que creen los mapas de profundidad. Todavía existe un grupo de cuadros para los cuales se deben crear todavía manualmente mapas de profundidad. Un objeto adicional de la invención es ayudar al proceso manual de creación de mapas de profundidad, para estos cuadros. Teniendo en mente los objetos anteriores, la presente invención proporciona un método para crear un mapa de profundidad, el cual incluye los pasos de: asignar una profundidad a al menos un pixel o porción de ¦ una imagen; determinar la ubicación relativa y características de la imagen, para cada uno del al menos un pixel o porción de la imagen; utilizar la(s) profundidad ( es ) , características de la imagen y ubicación relativa, respectiva, para determinar una configuración de un primer algoritmo para evaluar las características de profundidad como una función de la ubicación relativa y características de la imagen; utilizar el primer algoritmo para calcular una característica de profundidad para cada pixel o porción de la imagen; en donde las características de profundidad forman un mapa de profundidad para esa imagen. En otro aspecto la presente invención proporciona un método para crear un mapa de profundidad, el cual incluye los pasos de: asignar una profundidad a al menos un pixel o porción de una imagen; determinar las coordenadas x,y y características de la imagen, para cada uno del al menos un pixel o porción de la imagen; utilizar la(s) profundidad ( es ) , características de la imagen y coordenadas x,y respectivas, para determinar un primer algoritmo, a fin de evaluar las características de profundidad como una función de las coordenadas x,y y características de la imagen; utilizar el primer algoritmo para calcular una característica de profundidad para cada pixel o porción de esa imagen; en donde las características de profundidad forman un mapa de profundidad para esa imagen. En un aspecto adicional, la presente invención proporciona un método para crear una serie de mapas de profundidad para una secuencia de imágenes, que incluye los pasos de: recibir un mapa de profundidad para al menos un cuadro de la secuencia de imágenes ; utilizar el mapa de profundidad para determinar una configuración de un algoritmo, para evaluar las características de profundidad como una función de la posición relativa y características de la imagen; utilizar el algoritmo para crear un mapa de profundidad, para cada cuadro de la secuencia de imágenes . Todavía en un aspecto adicional, la presente invención proporciona un método para crear una serie de mapas de profundidad, para una secuencia de imágenes, el cual incluye los pasos de: seleccionar al menos un cuadro clave, a partir de la secuencia de imágenes; para cada uno del al menos un cuadro clave, asignar una profundidad a al menos un pixel o porción de cada cuadro; determinar la posición relativa (por ejemplo las coordenadas x,y) y características de la imagen, para cada uno del al menos un pixel o porción de cada cuadro; utilizar la (s) profundidad (es ) , características de la imagen y posición relativa, para cada uno del al menos un cuadro, para determinar una configuración de un algoritmo para cada uno del al menos un cuadro, para evaluar las características de profundidad como una función de la posición relativa y características de profundidad; utilizar cada configuración del algoritmo, para calcular las características de profundidad para cada pixel o porción de cada uno del al menos un cuadro; en donde las características de profundidad forman un mapa de profundidad para cada uno del al menos un cuadro; utilizar cada mapa de profundidad para determinar una segunda configuración de un segundo algoritmo, para evaluar las características de profundidad para cada cuadro, como una función de la posición relativa y características de la imagen; utilizar el segundo algoritmo para crear mapas de profundidad respectivos, para cada cuadro de la secuencia de imágenes. Se comprenderá que el sistema, al referirse a un algoritmo, puede de hecho crear cierto número de funciones diferentes a fin de crear los mapas de profundidad, como un resultado de la posición relativa y características de la imagen. En el sistema preferido, la posición relativa será una medida de las coordenadas x,y. Un sistema que implemente la presente invención puede elegir predeterminar qué cuadros, en una secuencia, van a ser considerados cuadros clave, por ejemplo cada quinto cuadro. El algoritmo considerará también idealmente al tiempo como un dato de entrada al algoritmo, para refinar adiciona lmente el procesamiento.
BREVE DESCRIPCIÓN DE LA INVENCIÓN La invención pretende mejorar el proceso de producción de mapas de profundidad, para imágenes tridimensionales asociadas. Esta modalidad preferida involucra dos fases de generación de mapas de profundidad de cuadros clave, y la generación de los mapas restantes. La primera fase obtiene una pequeña cantidad de datos del usuario. Estos datos indican la estructura básica de la escena. La imagen bidimensional y estos datos asociados, se presentan a un algoritmo que sea capaz de aprender la relación entre la profundidad z asignada por el usuario a varios pixeles de la imagen, su ubicación x e y, y las características de la imagen. Las características de la imagen incluyen, aunque no están limitadas a, el valor RGB para cada pixel. En general el algoritmo resuelve la ecuación z = f(x,y,R,G,B) para cada pixel en el cuadro gue haya definido el usuario. El algoritmo aplica después esta relación aprendida, a los pixeles restantes en la imagen, para generar un mapa de profundidad. Si es necesario, el usuario puede retinar sus datos para mejorar la exactitud del mapa de profundidad. Deberá observarse que los datos de profundidad iniciales, no necesitan ser, en forma necesaria, especificados por un usuario; pueden ser determinados a través de algún otro proceso que incluya, aunque no esté limitado a, el uso de una estructura automatizada de un algoritmo de movimiento o la derivación de estimados de profundidad, a partir de imágenes estéreo. La segunda fase requiere que las imágenes bidimensionales y mapas de profundidad asociados, sean proporcionadas en los cuadros clave seleccionados. Los mapas de profundidad en estos cuadros clave, pueden ser generados por ejemplo, tal como fue descrito previamente por los solicitantes, o pueden ser producidos automáticamente usando técnicas de captura de profundidad, que incluyan, aunque no estén limitados a, buscadores del tipo radar láser, es decir dispositivos LIDAR (Dirección y Alcance de la Luz) y técnicas de profundidad desde el foco. La imagen bidimensional y el (los) mapa(s) de profundidad asociado (s) , para cada cuadro clave se presenta a un algoritmo que es capaz de aprender la relación entre la profundidad z asignada a cada pixel en los cuadros restantes, su ubicación x e y, y las características de la imagen. Las características de la imagen incluyen, aunque no están limitadas a, el valor RGB de cada pixel. En general el algoritmo resuelve la ecuación z = f(x,y,R,G,B) para cada pixel en los cuadros clave. El algoritmo se presenta después con cada cuadro subsecuente, entre los cuadros clave adyacentes, y para cada pixel usa el algoritmo para calcular el valor de z.
BREVE DESCRIPCIÓN DE LOS DIBUJOS La figura 1 muestra una modalidad del proceso de adiestramiento de la Fase Uno. La figura 2 muestra una modalidad del proceso de conversión de la Fase Uno. La figura 3 muestra una modalidad del proceso de adiestramiento de la Fase Dos. La figura 4 muestra una modalidad del proceso de conversión de la Fase Dos. La figura 5 ilustra cómo el proceso de aprendizaje puede dividir el espacio de características. La figura 6 muestra un proceso alternativo de generación de mapas de profundidad para la Fase Dos. La figura 7 muestra un método alternativo para determinar la profundidad de un pixel individual en la Fase Dos. La figura 8 ilustra el proceso de búsqueda de muestras de adiestramiento candidatos. La figura 9 ilustra el cálculo de la profundidad a partir de cierto número de muestras de adiestramiento candidatos.
DESCRIPCIÓN DETALLADA DE LA INVENCIÓN La invención proporciona una técnica mejorada para derivar mapas de profundidad, a partir de una o más imágenes bidimensionales . La invención incluye preferentemente dos fases, cada una de las cuales incorpora idealmente un proceso de aprendizaje automatizado.
Fase uno La primera fase opera en una sola imagen. A un usuario se le presenta una imagen y define profundidades aproximadas para varias regiones en la imagen, usando una interfaz gráfica simple. La interfaz gráfica puede proporcionar herramientas para ayudar al usuario a asignar profundidades a los pixeles, incluyendo, aunque no limitadas a, herramientas de pluma y brocha, herramientas de rellenado de áreas y herramientas que asignen una profundidad en base al color del pixel. El resultado de este proceso es que se define la profundidad para un subconjunto de pixeles en la imagen . Esto se ejemplifica en la figura 1, en donde una imagen bidimens ional 1 se puede presentar al usuario. El usuario puede asignar después la profundidad a varios pixeles en de la imagen 2. En el ejemplo de la figura 1 los pixeles marcados con "X" son pixeles para los cuales no ha sido especificada una profundidad por el usuario. El sistema correlaciona después la imagen bidimensional 1 con los datos de profundidad 2 proporcionados por el usuario, y utiliza un algoritmo de adiestramiento 3 para ayudar a la creación de una función de transformación 4 que sea capaz de resolver una función para la profundidad de cada pixel en la imagen. La información proporcionada por el usuario define los datos de adiestramiento que se usan con el proceso de aprendizaje, descrito posteriormente, para asociar una profundidad con cada pixel en la imagen individual. Este proceso puede ser interactivo, porque el usuario puede definir profundidades aproximadas, únicamente para unas cuantas regiones. En base a los resultados del proceso de aprendizaje para esas regiones, el usuario puede proporcionar estimados de profundidades adicionales, para regiones en donde el proceso de aprendizaje funcione pobremente. Esta interacción entre el usuario y el proceso de aprendizaje puede repetirse cierto número de veces. En efecto, el usuario puede guiar el proceso de aprendizaje en esta etapa. Deberá observarse que los datos iniciales de profundidad no necesitan, en forma necesaria, ser especificados por un usuario, ya que pueden ser determinados a través de algún otro proceso, tal como se describió anteriormente.
Creación de la Función de Transformación Una vez que el sistema es mejorado con la imagen y algunas profundidades de pixeles, el sistema analiza después los pixeles con profundidades definidas, a fin de crear una función de transformación. La función de transformación puede ser un proceso o función que tome como dato de entrada cualquier medida de un pixel o un conjunto de pixeles de la imagen, y proporcione como dato de salida un valor de profundidad para el pixel o conjunto de pixeles. Las mediciones de pixeles individuales pueden consistir de valores del rojo, verde y azul, u otras mediciones tales como luminancia, crominancia, contraste y mediciones especiales tales como la ubicación horizontal y vertical en la imagen. Alternativamente, la función de transformación puede operar en características de la imagen, de mayor nivel, tales como conjuntos más grandes de pixeles y mediciones en un conjunto de pixeles, tal como la media y varianza o bordes, esquinas, etc. (es decir, la respuesta de un detector de características). Conjuntos más grandes de pixeles pueden representar, por ejemplo, segmentos en la imagen, que sean conjuntos de pixeles conectados, que formen una región homogénea. Por propósitos ilustrativos únicamente, un pixel puede ser representado en la forma x, y, , G, B, z en donde x e y representan la posición relativa como las coordenadas x e y del pixel, R,G,B representan los valores del rojo, verde y azul, de ese pixel, y z representa la profundidad de ese pixel. Valores de z se encuentran definidos únicamente en donde el usuario haya especificado un valo . La función de transformación se aprende capturando la relación entre datos de imágenes y datos de profundidad, para los pixeles identificados por el usuario. La función de transformación puede tomar la forma de cualquier unidad de procesamiento genérica, en donde se reciben datos de entrada, se procesan, y se proporciona una salida. Preferentemente, esta unidad de procesamiento está sujeta a un proceso de aprendizaje, en donde su naturaleza se determina por el examen de los datos del usuario y datos de imagen correspondiente. El proceso de aprendizaje de esta relación entre los datos de entrada, y la salida deseada, será comprendido por aquellos que hayan trabaiado en las áreas de la inteligencia artificial o del aprendizaje de máquinas, y puede tomar muchas formas. Se observa que estas personas no trabajarían normalmente en las áreas de sistemas estereoscópicos, o en la conversión de imágenes bidimensionales a tridimensionales. En el aprendizaje de máquinas, esas funciones de transformación se conocen e incluyen, aunque no están limitadas a, redes neuronales, árboles de decisión, gráficas de decisión, árboles de modelos y clasificadores de proximidad más cercana. Las modalidades preferidas de un algoritmo de aprendizaje son aquellas que buscan diseñar una función de transformación que minimice cierta medida del error de la transformación y que generalice satisf ctoriamente los valores que se encuentren afuera del conjunto original de datos. El algoritmo de aprendizaje puede, ya sea intentar determinar la relación entre la información de la imagen bidimensional y la profundidad, glcbalmente en toda la imagen o localmente en áreas espaciales más pequeñas. Esta relación puede aplicarse después para completar los mapas de profundidad, para la secuencia completa . Esto puede ejemplificarse mediante la figura 2, en la cual se introducen datos desde la imagen bidimensional 1, en la función de transformación creada 4, para crear un mapa de profundidad 5 de la imagen bidimensional 1. Ejemplos de algoritmos de aprendizaje exitosos son el algoritmo de retropropagación, para el aprendizaje de redes neuronales, el algoritmo C4.5 para el aprendizaje de árboles de decisión, la regresión lineal con ponderación local y el algoritmo de Medias K para el aprendizaje de clasificadores de tipo grupos. Para propósitos ilustrativos únicamente, puede considerarse que el algoritmo de aprendizaje calcula la siguiente relación para cada pixel en el cuadro de la secuencia de imágenes bidimensionales zn = ka.xn + kb.yn + kc.Rn+ kd.Gr. + ke . Bn en donde n es el enésimo pixel en la imagen del cuadro clave zn es el valor de la profundidad asignado al pixel en xri,yn de ka a ke son constantes y son determinadas por el algoritmo Rn es el valor del componente Rojo del pixel en ¾/ yn Gn es el valor del componente Verde del pixel Bn es el valor del componente Azul del pixel en xn,yn Este proceso se ilustra en la figura 1. Los experimentados en la técnica apreciarán que la ecuación anterior es una simplificación para propósitos de explicación únicamente, y en la práctica no funcionaría idealmente. En una implementación práctica que usa, por ejemplo, una red neuronal y dado el gran número de pixeles en una imagen, la red aprenderla una gran ecuación que contendría muchos valores k, multiplicaciones y sumas. Además, los valores k pueden variar a través de diferentes posiciones x,y en la imagen, adaptándose a características de imágenes locales.
Aplicación de la Función de Transformación a una Imagen Bidimensional La invención toma después esta función de transformación y la aplica a todo el cuadro de la secuencia de imágenes bidimensionales . Para un pixel determinado, los datos de entrada a la función de transformación, se determinan en una manera similar a la presentada a la función de transformación durante el proceso de aprendizaje. Por ejemplo, si la función de transformación iba a aprender a través de la presentación de las mediciones de un solo pixel como dato de entrada, la función de transformación requerirá ahora estas mismas mediciones como dato de entrada. Con estos datos de entrada, la función de transformación realiza su tarea de aprendizaje y emite una medición de profundidad. Nuevamente, en el ejemplo para un solo pixel, esta medición de profundidad puede ser un valor de profundidad simple. En este ejemplo, la función de transformación se aplica a través de toda la imagen, para completar un conjunto completo de datos de profundidad para la imagen. Alternativamente, si la función de transformación fue adiestrada usando conjuntos más grandes de pixeles, se requiere ahora generar esos conjuntos más grandes de pixeles para la imagen. Se realizan mediciones de mayor nivel, en estos conjuntos de pixeles, tal como la media y la varianza, en la misma manera que durante el proceso de aprendizaje. Una vez establecidos estos de entrada, la función de transformación produce la medición de profundidad requerida para ese conjunto de pixeles. Este proceso se ilustra en la figura 2, y da por resultado un mapa de profundidades total para la imagen bidimensional . Si el mapa de profundidades resultante contiene regiones de error, se pueden realizar modificaciones a los datos del usuario y se repite el proceso para corregir estas regiones. La función de transformación puede aplicarse también a otros cuadros, para generar mapas de profundidad. Los experimentados en la técnica del aprendizaje de máquinas apreciarán que la etapa de adiestramiento puede ser implementada por una configuración genérica del algoritmo. A este enfoque se hace referencia como un aprendizaje basado en casos, e incluye, aunque no está limitado a, técnicas tales como la regresión lineal con ponderación local. En una modalidad alternativa, el usuario puede definir un conjunto de objetos y asignar pixeles a los objetos. En esta modalidad, el proceso de generalización de los datos del usuario, para los pixeles restantes de la imagen, segmenta toda la imagen en el conjunto de objetos inicialmente identificados por el usuario. La función de transformación, que define los objetos o los objetos mismos, puede ser la salida requerida de esta modalidad. Alternativamente se pueden aplicar funciones a los objetos para especificar la profundidad de estos objetos, construyendo por ello un mapa de profundidad para la imagen. Estas funciones pueden tomar la forma de rampas de profundidad y otras formas de definir la profundidad de objetos, tal como se define en la solicitud previa de los solicitantes PCT/AUOO/00700. En una modalidad alternativa, adicional, el algoritmo de adiestramiento puede intentar introducir un componente aleatorio a la información del usuario. Con cualquier algoritmo de aprendizaje esto ayuda a superar la dificultad de adiestramiento excesivo. Adiestramiento excesivo se refiere a la situación en donde el algoritmo de aprendizaje recuerda simplemente la información del adiestramiento. Esto es análogo a la situación en la que un niño aprenda escribiendo las tablas de multiplicar sin lograr comprensión del concepto de multiplicación mismo. Este problema es conocido en el campo del aprendizaje de máquinas, y un enfoque para solucionar el problema es introducir ruido aleatorio en los datos de adiestramiento. Un buen algoritmo de aprendizaje será forzado a distinguir entre el ruido que se encuentra en los datos de adiestramiento, y la información de calidad. Al hacer esto, se estimulará el aprendizaje de la naturaleza de los datos, en vez que simplemente recordarlos. Una modalidad ejemplar de este enfoque se refiere al ejemplo previo, en donde el algoritmo de adiestramiento aprende la función: zn = ka.xn + kb.yn+ kc.Rn+ kd.Gn + ke.Bn Cuando se presentan los datos de entrada al algoritmo de adiestramiento, que son z,x,y,R,G y B, a estos valores se adiciona un componente de ruido pequeño. El componente de ruido puede ser un número aleatorio pequeño, positivo o negativo. En la modalidad preferida no se adiciona ruido al componente z.
Proceso de Aprendizaje En la modalidad preferida los datos de entrada del proceso de aprendizaje son: 1. Un número de muestras de adiestramiento que tienen atribuidas ciertas características que incluyen la profundidad . 2. Un número de muestras de "clasificación" que tienen atribuidas características que coinciden con las muestras de adiestramiento, y cuya profundidad se va a determinar mediante el proceso de aprendizaje.
Las muestras de adiestramiento consisten de pixeles individuales cuyas características incluyen la posición (x,y), el color (R,G,B) y la profundidad (z) del pixel. El propósito del proceso de aprendizaje es calcular una profundidad (z) para cada uno de los pixeles de clasificación cuyas características incluyan la posición (x, y) y el color (R, G, B) . Para cada muestra de clasificación, la primera etapa del algoritmo de aprendizaje involucra identificar un subconjunto de las muestras de adiestramiento que compartan características de imagen "similares" a los pixeles de clasificación en cuestión.
Búsqueda de Candidatos de Adiestramiento Para identificar muestras de adiestramiento con características similares a la muestra de clasificación actual, se considera un espacio de características n-dimensíonal en el que se encuentren presentes muestras. En la modalidad preferida este es un espacio de 5 dimensiones en donde cada dimensión representa una de las características de la imagen: x,y,R,G,B. El eje de este espacio se normaliza para tomar en cuenta las diferencias en el alcance de cada dimensión. Por lo tanto se puede hacer referencia a las diferencias entre muestras, usando porcentajes relativos. Por ejemplo, el componente R de una muestra dada puede diferir en 10 % (del alcance absoluto del componente R) con relación a una segunda muestra. La distancia entre dos muestras en este espacio es una medida de su similitud. Para detectar muestras de adiestramiento que sean similares a la muestra de clasificación actual, se define un radio de búsqueda. Cualquier muestra de adiestramiento cuya distancia desde la muestra de clasificación, sea menor que el radio de búsqueda, se considera similar a la muestra de clasificación, y se usa en el cálculo de la profundidad. La distancia en el espacio de búsqueda n-dimensional se mide usando una métrica Euclidiana simple. En datos que no ocupen una porción significativa del espacio de características n-dimensional, se usan métricas de distancia de Mahalanobis, para proporcionar mejores resultados. Medios alternativos para ampliar el alcance de los datos, tal como igualación de histograma o el análisis de componentes principales de los componentes RGB, YUV o HSV, proporcionan beneficios similares . El radio de búsqueda es un parámetro crítico en la estimación exacta de la profundidad y está configurado con relación a las características de los datos. En datos que exhiban alta autocorrelacion espacial o temporal, el radio se fija en valores más pequeños que para imágenes con baja autocorrelacion espacial o temporal.
El radio de búsqueda puede ser diferente para cada dimensión del espacio de características. Por ejemplo, el radio de búsqueda en el eje x puede ser diferente del radie de búsqueda en el eje que represente la intensidad del color rojo. Además, el proceso de aprendizaje puede adaptar estos parámetros a los datos, dentro de ciertos límites definidos por el usuario. Por ejemplo, si no se identifican muestras de adiestramiento apropiadas, dentro de un radio espacial de 5% y un radio del color de 10%, entonces el radio espacial se incrementa a 10%. La figura 8 ilustra un ejemplo simplificado del proceso de búsqueda candidato. La figura representa un espacio de búsqueda bidimensional , con variaciones en la coordenada espacial x de muestras grafícadas contra variaciones en la intensidad del color rojo, para propósitos de ilustración. Dentro de este espacio se encuentra cierto número de muestras de adiestramiento 20. Dentro de una distancia de un primer radio 21 del pixel objetivo 11 no existen muestras de adiestramiento. El proceso de aprendizaje expande entonces su búsqueda a un segundo radio de búsqueda 22 del pixel objetivo 11 e identifica 3 muestras de adiestramiento candidatos. Se pueden usar estrategias de búsqueda alternativas, para identificar candidatos de adiestramiento apropiados. En esas estrategias los datos de adiestramiento se almacenan en estructuras tal como un árbol de decisiones, un árbol k-d o un diagrama de Voronoi n-dimensional . Aunque esas estrategias pueden incrementar la velocidad con la cual se identifican muestras de adiestramiento candidatos, no afecta la naturaleza de la invención. Similarmente, las estrategias de búsqueda que exploten la proximidad de muestras de clasificación subsecuentes, en el espacio de características, aplicando la función memo a las muestras de adiestramiento, pueden mejorar la velocidad con la cual se identifiquen muestras de adiestramiento candidatos, pero no añaden nada significativo a la invención.
Aprendizaje con Ponderación de la Distancia Para calcular una profundidad para cualquier muestra de clasificación dada, se requiere de una o más muestras de adiestramiento que se consideren similares a la muestra de clasificación, tal como se describió anteriormente. A estas muestras de adiestramiento se hace referencia como las muestras de adiestramiento "candidatos". Se calcula la profundidad de la muestra de clasificación, como un promedio ponderado de la profundidad de las muestras de adiestramiento candidatos. El peso atribuido a cualquier muestra de adiestramiento candidato es relativo a su distancia desde la muestra de clasificación en el espacio n-dimensional . Como se describió anteriormente, la distancia se normaliza y los datos pueden sesgarse usando la métrica de Mahalanobis o análisis de estilo de componentes principales . La figura 9 ilustra un ejemplo simplificado del proceso de cálculo de la profundidad. Como en la figura 8, la figura 9 representa un espacio de búsqueda bidimensional con variaciones en la coordenada espacial x de muestras graficadas contra variaciones en la intensidad de color rojo, para el propósito de ilustración. Se muestran 3 muestras de adiestramiento candidatos 19 a diferentes distancias (marcadas como wl,w2,w3) del pixel objetivo 11. La profundidad puede calcularse como un promedio ponderado de las muestras de adiestramiento candidatos, usando: (w1*D1+w2*D2+w3*D3) Profundidad del Pixel Objetivo = .. . (w1+w2+w3) En donde Di es la profundidad de la muestra de adiestramiento, a una distancia de wl desde el pixel objetivo 11, D2 es la profundidad de la muestra de adiestramiento a una distancia w2 del pixel objetivo, y D3 es la profundidad de la muestra de adiestramiento a una distancia 3 del pixel objetivo 11. En la modalidad preferida los pesos de ponderación son inversamente proporcionales al cuadrado de la distancia en el espacio n-dimensional .
Modalidad Alternativa En una modalidad alternativa, el proceso de aprendizaje analiza en conjunto completo de datos de adiestramiento disponibles e infiere reglas que gobiernen la relación de las características de la imagen, con la profundidad de una muestra. En este proceso el espacio de características n-dimensional , se divide o parte en un conjunto de regiones. La figura 5 ilustra una representación simplificada de este principio. En este ejemplo, el espacio n-dimensional se divide por límites de decisión 23 en cierto número de regiones rectangulares. Se asigna un valor de profundidad al pixel objetivo 11 en base a la región que ocupa. En la práctica, el algoritmo de árbol modelo M5 se usa para llevar a cabo la división del espacio de características. El algoritmo M5 mejora con respecto al ejemplo básico descrito anteriormente, en dos formas. Los límites de decisión no tienen que ser perpendiculares a los ejes del espacio de características, y las profundidades pueden variar dentro de regiones individuales, como una función lineal de las características de la imagen. Los experimentados en la técnica del Aprendizaje de Máquinas apreciarán que pueden usarse varios esquemas de aprendizaje, en lugar del algoritmo de árbol modelo M5, incluyendo redes neuronales, árboles de decisión, gráficas de decisión y clasificadores de proximidad más cercana. La naturaleza exacta del algoritmo de aprendizaje no afecta la novedad de la invención. En la modalidad preferida, el proceso de aprendizaje opera en las características de la imagen x,y,R,G,B. Modalidades alternativas pueden operar en características de la imagen de mayor nivel, tales como conjuntos pixeles más grandes y mediciones en un conjunto de pixeles, tales como la media y varianza o bordes, esquinas, etc. (es decir, la respuesta de un detector de características). Conjuntos más grandes de pixeles pueden representar, por ejemplo, segmentos en la imagen, siendo conjuntos de pixeles conectados, que formen una región homogénea .
Fase Dos La segunda fase opera en una secuencia de imágenes en la que al menos un cuadro haya sido identificado como un cuadro clave. Recibe datos estéreo tridimensionales para cada cuadro clave, típicamente en la forma de mapas de profundidad. Los mapas de profundidad pueden deberse a cualquier proceso, tal como, aunque no limitado a, especificación humana, la salida de la primera fase descrita anteriormente, la profundidad determinada a partir de imágenes estéreo o la adquisición directa de la profundidad usando sistemas de búsqueda de alcance. Alternativamente, la información estéreo tridimensional puede ser en cierta forma diferente a los mapas de profundidad, por ejemplo información de disparidad obtenida de un cuadro clave que contenga un par estéreo . Para todos los otros cuadros en la secuencia de imágenes bidimensionales , la invención proporciona especificación de los mapas de profundidad, en base a la información de cuadros clave disponible inicialmente . Se espera que el número de cuadros clave sea una pequeña fracción del número total de cuadros. De aquí que la invención proporciona una forma para reducir en gran medida la cantidad de mapas de profundidad que se requieren generar inicialmente .
Creación de la Función de Transformación Una vez que el sistema está provisto de los cuadros clave y sus mapas de profundidad correspondientes, el sistema analiza los cuadros clave y el mapa de profundidad correspondiente disponible inicialmente, a fin de crear una función de t ansformación. La función de transformación puede ser un proceso o función que tome como dato de entrada cualquier medición determinada de una imagen bidimensional , y proporciona como salida un mapa de profundidad para esa imagen. Esta transformación se aprende capturando la relación entre los datos de imagen del cuadro clave y los datos del mapa de profundidad disponibles para esas imágenes. La función de transformación puede tomar la forma de cualquier unidad de procesamiento genérica en donde se reciban datos de entrada, se procesen, y proporcione una salida. Preferentemente esta unidad de procesamiento puede ser sometida a un proceso de aprendizaje, en donde su naturaleza sea determinada por el examen de los datos del cuadro clave, y su mapa de profundidad correspondiente. En el campo de aprendizaje de máquinas, esas funciones de transformación son conocidas e incluyen, aunque no están limitadas a, redes neuronales, árboles de decisión, gráficas de decisión, árboles modelo y clasificadores de proximidad más cercana. El sistema intenta aprender las relaciones entre los datos de entrada y los datos de salida deseados. En un proceso de aprendizaje, la información proveniente de la imagen del cuadro clave bidimensional, se presenta al algoritmo de adiestramiento. Esta información puede ser presentada en una base de pixel por pixel, en donde se proporcionen mediciones de pixeles, tales como valores de rojo, verde y azul, u otras mediciones tales como la luminancia, crominancia, contraste y medidas espaciales tales como la ubicación horizontal y vertical en la imagen. Alternativamente, la información se puede presentar en la forma de característica de imagen de mayor nivel, tal como conjuntos más grandes de pixeles y mediciones de un conjunto de pixeles, tales como una media y varianza, o bordes, esquinas, etc. (es decir, la respuesta de un detector de característica). Conjuntos más grandes de pixeles pueden representar, por ejemplo, segmentos en la imagen, siendo conjuntos de pixeles conectados que forman una región homogénea. Para propósitos ilustrativos únicamente, la imagen bidimensional puede ser representada en la forma x,y,R,G,B en donde x e y representan las coordenadas x e y de cada pixel y R,G,B representan el valor del rojo, verde y azul de ese pixel . Después, el mapa de profundidad correspondiente se presenta al algoritmo de adiestramiento, de manera tal que pueda aprender su transformación requerida. Normalmente los pixeles individuales se presentan al algoritmo de adiestramiento. Sin embargo, si se usan características de imagen de mayor nivel, tales como conjuntos más grandes de pixeles, o segmentos, el mapa de profundidad puede ser una medida de la profundidad de ese conjunto de pixeles, tal como la media y la varianza.
Para propósitos ilustrativos únicamente, el mapa de profundidad puede ser representado en la forma z,x,y en donde x e y representan las coordenadas x e y de cada pixel y z representa el valor de profundidad asignado a ese pixel correspondiente. El proceso de aprendizaje de esta relación entre datos de entrada, y la salida deseada, será comprendido por aquellos que hayan trabajado en el área de la inteligencia artificial, y puede tomar muchas formas. Modalidades preferidas de un algoritmo de aprendizaje son aquellas que busquen diseñar una función de transformación que minimice cierta medida del error de transformación. El algoritmo de aprendizaje intenta generalizar las relaciones entre la información de imágenes bidimensionales y el mapa de profundidad presente en los ejemplos de cuadros clave. Esta generalización se aplicará después para completar los mapas de profundidad para toda la secuencia. Ejemplos de algoritmos de aprendizaje exitosos, conocidos en la técnica, son el algoritmo de retropropagación, para redes neuronales de aprendizaje, el algoritmo C .5 para árboles de decisión de aprendizaje, y el algoritmo de medias K para clasificadores de aprendizaje de tipo grupos. Para propósitos ilustrativos únicamente, se puede considerar que el algoritmo de aprendizaje calcula la siguiente relación para cada pixel en la imagen bidimensional zn = ka . xn + kb . yn + kc . Rn + k^-G^ + ke.Bn en donde n es el enésimo pixel en la imagen del cuadro clave zn es el valor de la profundidad asignado al pixel en xn,yn de ka a ke son constantes y son determinadas por el algoritmo Rn es el valor del componente Rojo del pixel en xn i Yn Gn es el valor del componente Verde del pixel en xn,yn Bn es el valor del componente Azul del pixel en Los experimentados en la técnica apreciarán que la ecuación anterior es una simplificación para propósitos de explicación únicamente, y en la práctica no funcionará. En una implementación práctica, usando por ejemplo una red neuronal y dado el gran número de pixeles en una imagen, la red aprendería una gran ecuación que contendría k valores, multiplicaciones y sumas- Este proceso se ilustra en la figura 3, la cual muestra un proceso similar que podría usar un número diferente de cuadros clave.
Aplicación de la Función de Transformación La dimensión toma después esta función de transformación y la aplica a través de un conjunto de imágenes bidimensionales que todavía no tienen disponibles mapas de profundidad. Para una imagen bidimensional determinada, en ese conjunto, los datos de entrada a la función de transformación son determinados en una manera similar a la presentada a la función de transformación durante el proceso de aprendizaje. Por ejemplo, si la función de t ansformación estaba aprendiendo mediante la presentación de las medidas de un solo pixel como dato de entrada, la función de transformación requerirá ahora estas mismas medidas para los pixeles que se encuentren en la nueva imagen. Con estos datos de entrada, la función de transformación realiza su tarea de aprendizaje y produce una medida de profundidad. Nuevamente, en el ejemplo para un solo pixel, esta medida de profundidad puede ser un valor de profundidad simple. En este ejemplo, la función de transformación se aplica a través de toda la secuencia de imágenes, para completar un conjunto completo de datos de profundidad para la secuencia de imágenes. Alternativamente, si la función de transformación fue adiestrada usando conjunto más grande de pixeles, se requiere ahora generar esos conjuntos más grandes de pixeles para la nueva imagen. En estos conjuntos de pixeles se realizan mediciones de mayor nivel, tales como la media y la varianza, en la misma manera que durante el proceso de aprendizaje. Con estos datos de entrada ahora establecidos, la función de transformación produce la medida de profundidad requerida, para ese conjunto de pixeles. Para una secuencia de imágenes bidimensionales , cuadros clave con mapas de profundidad pueden separarse a través de toda la secuencia, en cualquier forma arbitraria. En la modalidad preferida, la función de transformaciones será presentada con un conjunto de cuadros clave, y sus mapas de profundidad correspondientes, que abarquen un conjunto de imágenes bidimensionales que tengan algo en común. En el caso más simple, se usan dos cuadros clave para adiestrar la función de transformación, y la función de transformación se usa después para determinar los mapas de profundidad para las imágenes bidimensionales entre los dos cuadros clave mencionados. Sin embargo, no hay restricción del número de cuadros clave que puedan usarse para adiestrar una función de transformación. Además, no hay restricción del número de funciones de transformación que se usen para completar un conjunto completo de imágenes bidimensionales. En la modalidad preferida dos cuadros clave, separados por uno o más cuadros interventores, se definen como datos de entrada a esta segunda fase de procesamiento. El propósito de esta fase es asignar un mapa de profundidad a cada uno de estos cuadros interventores. El orden preferido en el cual se asignen mapas de profundidad a los cuadros interventores, es procesando prirnerc cuadros más cercanos en el tiempo a los cuadros clave. Los cuadros que han sido procesados llegan a ser entonces cuadros claves para los cuadros subsecuentes del mapa de profundidad. La adición de esta variable tiempo ayuda a la función de adiestramiento a generalizar la información disponible en los cuadros clave. En la ausencia de una variable tiempo, es posible que la información de profundidad en dos cuadros clave puedan contradecirse una con la otra. Esto podria ocurrir cuando pixeles de un color similar se encuentren en la misma región espacial en ambos cuadros clave, pero pertenezcan a diferentes objetos. Por ejemplo, en el primer cuadro clave, se puede observar un carro verde en el centro de la imagen, con una característica de profundidad que lo lleve a primer plano. En el próximo cuadro clave, el carro puede haberse movido, revelando detrás del mismo un prado verde, cuya característica de profundidad especifica una región de fondo central. El algoritmo de adiestramiento se presenta con dos cuadros clave, ambos de los cuales tienen pixeles verdes en el centro de la imagen, pero tienen diferentes características de fondo. No será posible resolver este conflicto, y no se espera que la función de transformación se desempeñe bien en esa región. Con la introducción de una variable tiempo, el algoritmo será capaz de resolver el conflicto, reconociendo que los pixeles verdes en el centro de la imagen, son pixeles de primer plano en un tiempo cercano al primer cuadro clave en la secuencia de imágenes. A medida gue el tiempo progresa hacia el segundo cuadro clave, el algoritmo de adiestramiento se inclinará más a reconocer pixeles verdes en el centro de la imagen como la profundidad de fondo medio del prado verde. Este proceso se ilustra mediante el ejemplo de la figura 6. Los recuadros representan cuadros individuales de una secuencia de imágenes. La hilera superior 6 representa los cuadros fuente, que están numerados de acuerdo con su posición relativa en la secuencia de imágenes. La hilera inferior representa los mapas de profundidad generados por esta fase. La numeración indica el orden en el que se generan mapas de profundidad. Sin embargo, se comprenderá que los cuadros de profundidad 1 y 2 pueden ser procesados en orden inverso, similarmente los cuadros de profundidad 3 y 4 pueden invertirse, etc. Los cuadros clave 7 se proporcionan como entradas al proceso descrito anteriormente. El primer mapa de profundidad que se va a generar está asociado con el cuadro fuente 1 tal como se indica. Cualquier mapa de profundidad subsecuente se genera usando los dos mapas de profundidad previos, generados.
Modalidad Preferida Para cada pixel en el cuadro al que se le va realizar la transformación de la profundidad, se usan las características de la imagen, del pixel objetivo, para determinar la profundidad asociada con ese pixel. En la modalidad preferida se recuperan dos estimados de profundidad, uno de cada cuadro clave. Este proceso se ilustra en la figura 7 la cual muestra cómo se compara un pixel objetivo 11 con el cuadro clave, fuente, más cercano, 6, antes y después del cuadro en la secuencia de imágenes (pasos 12 y 13) . El proceso de aprendizaje, similar al descrito previamente, usa un radio de búsqueda 14 para identificar pixeles con características de imagen similares, y usa la profundidad asociada con esos pixeles (paso 15 y 16) para calcular una profundidad para el pixel objetivo (pasos 17 y 18) . Cada cuadro clave genera un estimado de la profundidad del pixel objetivo, que se definirá como Di y D2. Para determinar una profundidad final asociada con el pixel objetivo, las profundidades DI y D2 deben combinarse. En la modalidad preferida se calcula un promedio ponderado de estos valores, usando la posición de los cuadros clave como el parámetro de ponderación. Si la distancia desde el cuadro actual hasta el primer cuadro clave es TI y la distancia al segundo cuadro clave es T2, entonces la profundidad del pixel objetivo está dada como: wl w2 profundidad = *D1+ *D2 (wl+w2) En donde DI y D2 son la profundidad calculada a partir del cuadro clave 1 y del cuadro clave 2, respectivamente . En algunos casos, el proceso de aprendizaje no puede determinar un valor de profundidad para un pixel determinado. Si durante el proceso de calculo anterior, uno de los estimados de profundidad de los dos cuadros clave, no puede ser determinado, entonces el pixel objetivo se asigna al estimado de profundidad del cuadro clave que sea asignado y no se usa ponderación. Si ninguno de los dos estimados DI y D2 son definidos, entonces el radio de búsqueda se expande y el proceso se repite. Deberá observarse que únicamente es necesario un cuadro clave para generar mapas de profundidad para cualquier otro cuadro. Sin embargo, en situaciones en donde la profundidad de los objetos cambie en una secuencia de imágenes, dos o más cuadros clave ponderados, tal como se describió anteriormente, proporcionarán resultados mejorados. Deberá apreciarse que el orden en el que se procesen los cuadros, y la manera en que se combinen los resultados de múltiples cuadros clave, pueden variarse sin afectar substancialmente la naturaleza de la invención. Como en el caso de una imagen bidimensional se apreciará que la etapa de adiestramiento puede ser incluida por el aprendizaje basado en casos, a fin de determinar un estimado de profundidad en cualquier pixel de una imagen en la secuencia. Este proceso se ilustra en la figura 4. Se observa que un proceso de aprendizaje, similar al usado para la fase 1, puede implementarse en la fase 2. Ambcs procesos consideran la relación entre los datos de entrada y la salida deseada, especialmente la profundidad. La principal diferencia es que el proceso de aprendizaje para la fase dos deberá considerar un elemento de tiempo dependiente del número de cuadros, mientras que la fase 1 no necesita considerar un elemento de tiempo.
Otras Aplicaciones Las funciones de transformación dan una representación total de la información de profundidad, para todas las imágenes de cuadros no claves, en la secuencia. Esto puede explotarse como una codificación de esta información de profundidad. Se espera que la función de transformación pueda ser transmitida con una cantidad de datos relativamente pequeña, y de aquí que represente una compresión significativa de la información de profundidad.
Considérese el caso en donde hay dos cuadros clave, separados 20 cuadros en la secuencia. Una función de transformación ha sido aprendida para estos dos cuadros clave, y esta función de transformación proporciona ahora toda la información de profundidad para los cuadros intermedios. La función de transformación misma representa una compresión de toda esta información de profundidad, a través de los 20 cuadros. Para propósitos de ejemplo únicamente, si la función de transformación puede ser escrita en un archivo usando 6000 bytes, entonces por este costo se ganan un valor de 20 cuadros de información de profundidad. Efectivamente, esto representa un tamaño de archivo de 6000/20 = 300 bytes por cuadro. En una implementación práctica la compresión efectiva será substancial. En una aplicación adicional, esta compresión anterior puede permitir la transmisión eficiente de información tridimensional, insertada en una fuente de imágenes bidimensionales, es decir una imagen tridimensional compatible con imágenes bidimensionales. Dado que las funciones de transformación requieren de una longitud de archivo que es típicamente una diminuta fracción de los datos de imagen bidimensional para la cual proporciona información tridimensional, la adición de información tridimensional a la secuencia de imágenes bidimensionales, se consigue con un gasto muy pequeño.
En este caso, la información tridimensional se genera antes de la observación, o en tiempo real, en el extremo de observación, aplicando simplemente la función de transformación en cada imagen bidimensional en la secuencia, a medida que se observa. Esto se hace posible por el hecho de que los tipos de funciones de transformación encontrados en el aprendizaje de máquina son muy eficientes para proporcionar cálculos después de que han sido adiestradas. Típicamente el proceso de adiestramiento es lento y requiere de muchos recursos, y usualmente se lleva a cabo afuera de línea durante el proceso de construcción del contenido de imagen tridimensional. Una vez adiestrada, la función de transformación puede ser transmitida al extremo del observador y se desempeñará con un rendimiento muy alto, apropiado para la conversión, en tiempo real, de la imagen bidimensional en una tridimensional. Las descripciones previas propiedad, de la solicitante, se han relacionado a técnicas para convertir imágenes bidimensionales en imágenes tridimensionales estereoscópicas. Los procesos de conversión descritos incorporaron la generación de un mapa de profundidad que estaba asociado con una imagen bidimensional. En una modalidad los mapas de profundidad fueron creados manualmente en una base cuadro por cuadro. La mejora descrita en esta solicitud permite que se creen mapas de profundidad en un menor número de cuadros clave, y se calculan los mapas de profundidad intermedios. Dado que los cuadros clave representan una pequeña fracción del número total de cuadros, esta nueva técnica representa una mejora substancial en la eficiencia de la conversión, en términos tanto de tiempo como de costo. Un intento especifico de esta descripción es que la invención se aplique a la creación de mapas de profundidad para otras situaciones diferentes a la producción de imágenes estereoscópicas. Los experimentados en la técnica sabrán que los mapas de profundidad se usan ampliamente dentro de la industria de los efectos especiales, en un proceso llamado rotoscopia. A fin de componer una acción en vivo, o imágenes generadas por computadora, para obtener una imagen bidimensional , frecuentemente es necesario producir manualmente una trama o mapa de profundidad, para cada cuadro de la imagen bidimensional. Estas tramas permiten que se compongan imágenes adicionales a fin de que parezcan moverse con la geometría apropiada en la imagen bidimensional original. La invención descrita anteriormente permite la generación rápida de esas tramas. También es conocido que se están desarrollando cámaras que permiten obtener un mapa de profundidad a partir de una escena en vivo. Típicamente éstas usan técnicas de búsqueda de alcance con láser, y son conocidas genéricamente como dispositivos LIDAR a fin de capturar mapas de profundidad a velocidades de cuadros de la televisión, se requiere de un sistema caro y complejo. La aplicación de esta invención permitiría construir dispositivos LIDAR más simples y menos complejos, que únicamente necesiten capturar mapas de profundidad, a una fracción de la velocidad del campo de video, o a otros períodos no frecuentes, y los mapas de profundidad faltantes serían producidos por interpolación usando las técnicas descritas en esta invención. Se hace constar que con relación a esta fecha, el mejor método conocido por la solicitante para llevar a la práctica la citada invención, es el que resulta claro de la presente descripción de la invención.

Claims (38)

  1. REIVINDICACIONES
  2. Habiéndose descrito la invención como antecede se reclama como propiedad lo contenido en las siguientes rei indicaciones : 1. Un método para crear un mapa de profundidad, caracterizado porque incluye los pasos de: asignar una profundidad a al menos un pixel o porción de una imagen; determinar la ubicación relativa y las características de la imagen, para cada uno del al menos un pixel o porción de esa imagen; utilizar la(s) profundidad (es ) , características de la imagen y ubicación relativa, respectiva, para determinar una configuración de un primer algoritmo para evaluar las características de profundidad como una función de la ubicación relativa y características de la imagen; utilizar el primer algoritmo para calcular una característica de profundidad para cada pixel o porción de la imagen; en donde las características de profundidad forman un mapa de profundidad para esa imagen. 2. Un método para crear un mapa de profundidad, caracterizado porque incluyen los pasos de: asignar una profundidad a al menos un pixel o porción de una imagen; determinar las coordenadas x,y y características de la imagen, para cada uno del al menos un pixel o porción de la imagen; utilizar la(s) profundidad (es) , las características de la imagen y las coordenadas x,y respectivas, para determinar un primer algoritmo para evaluar las características de profundidad como una función de las coordenadas x,y, así como de las características de la imagen; utilizar el primer algoritmo para calcular una característica de profundidad para cada pixel o porción de la imagen; en donde las características de profundidad forman un mapa de profundidad para esa imagen.
  3. 3. Un método de conformidad con la reivindicación 1, caracterizado porque las características de la imagen incluyen valores del rojo, verde y azul (RGB) .
  4. 4. Un método de conformidad con cualesquiera de las reivindicaciones precedentes, caracterizado porque incluye además el paso de reasignar una profundidad a cualquier pixel o porción de esa imagen, para corregir cualquier inconsistencia.
  5. 5. Un método de conformidad con cualesquiera de las reivindicaciones precedentes, caracterizado porque las características de la imagen incluyen al menos una seleccionada entre la luminancia, crominancia, contraste o medidas espaciales.
  6. 6. Un método de conformidad con cualesquiera de las reivindicaciones precedentes, caracterizado porque el primer algoritmo puede ser representado por la ecuación: z = f (x,y,R,G,B) en donde x e y definen la ubicación relativa de una muestra.
  7. 7. Un método de conformidad con cualesquiera de las reivindicaciones precedentes, caracterizado porque se utiliza un algoritmo de aprendizaje para determinar la configuración del primer algoritmo.
  8. 8. Un método de conformidad con la reivindicación 7, caracterizado porque, para cada pixel en la imagen, el algoritmo de aprendizaje calcula: zn = ka.xn + kb.yn + kc.Rn + kd.Gn + ke.Bn en donde n es el enésimo pixel en la imagen del cuadro clave zn es el valor de la profundidad asignado al pixel en xn Yn de ka a ke son constantes y son determinadas por el algoritmo Rn es el valor del componente Rojo del pixel en Gn es el valor del componente Verde del pixel en xn,yn n es el valor del componente Azul del pixel en
  9. 9. Un método de conformidad con la reivindicación 7 ú 8, caracteri ado porque se introduce un componente aleatorio al algoritmo de aprendizaje, para reducir el adiestramiento excesivo.
  10. 10. Un método de conformidad con la reivindicación 9, caracterizado porque el componente aleatorio es un número aleatorio pequeño, positivo o negativo .
  11. 11. Un método de conformidad con cualesquiera de las reivindicaciones de la 7 a la 10, caracterizado porque el algoritmo de aprendizaje identifica inicialmente pixeles que tienen características similares a un pixel conocido.
  12. 12. Un método de conformidad con la reivindicación 11, caracterizado porque se buscan pixeles similares dentro de un radio de búsqueda.
  13. 13. Un método de conformidad con la reivindicación 12, caracterizado porque el radio de búsqueda varía para cada característica.
  14. 14. Un método de conformidad con cualesquiera de las reivindicaciones de la 11 a la 13, caracterizado porque la profundidad de un pixel se determina a través de un promedio ponderado de distancias desde pixeles similares.
  15. 15. Un método de conformidad con la reivindicación 14, caracterizado porque los pesos de ponderación son inversamente proporcionales a la distancia.
  16. 16. Un método de conformidad con la reivindicación 7, caracterizado porque cada característica se divide o parte en un conjunto de regiones, y se asigna un valor de profundidad en base a la región que es ocupada.
  17. 17. Un método para crear una serie de mapas de profundidad, para una secuencia de imágenes, caracterizado porque incluye los pasos de: recibir un mapa de profundidad para al menos un cuadro de la secuencia de imágenes, utilizar el al menos un mapa de profundidad, para determinar una segunda configuración de un segundo algoritmo, para evaluar las características de profundidad, como una función de la ubicación relativa y de las características de la imagen; utilizar el algoritmo para crear un mapa de profundidad para cada cuadro de esa secuencia de imágenes.
  18. 18. Un método para crear una serie de mapas de profundidad para una secuencia de imágenes, caracterizado porque incluye los pasos de: recibir un mapa de profundidad para al menos un cuadro de la secuencia de imágenes; utilizar el al menos un mapa de profundidad para determinar un segundo algoritmo para evaluar las características de profundidad como una función de las coordenadas x,y y de las características de la imagen; utilizar el algoritmo para crear un mapa de profundidad para cada cuadro de la secuencia de imágenes.
  19. 19. Un método de conformidad con la reivindicación 17 ó con la reivindicación 18, caracterizado porque se reciben al menos dos mapas de profundidad que corresponden a al menos dos cuadros de la secuencia de imágenes .
  20. 20. Un método de conformidad con cualesquiera de las reivindicaciones de la 17 a la 19, caracterizado porque las características de la imagen incluyen valores RGB.
  21. 21. Un método de conformidad con cualesquiera de "las reivindicaciones de la 17 a la 20, caracterizado porque las características de la imagen incluyen al menos una seleccionada entre la luminancia, crominancia, contraste o medidas espaciales.
  22. 22. Un método de conformidad con cualesquiera de las reivindicaciones de la 17 a la 21, caracterizado porque se utiliza un algoritmo de aprendizaje para determinar la configuración del segundo algoritmo.
  23. 23. Un método de conformidad con la reivindicación 22, caracterizado porque el algoritmo de aprendizaje es uno seleccionado entre el algoritmo de retropropagación, algoritmo C4.5, o algoritmo de medias K.
  24. 24. Un método de conformidad con la reivindicación 22 ó 23, caracterizado porque el segundo algoritmo calcula: zn = ka . xn + . yn + kc . Rn + kd . Gn + ke . Bn en donde n es el enésimo pixel en la imagen del cuadro clave Zn es el valor de la profundidad asignado al pixel en xn/ yn de ka a ke son constantes y son determinadas por el algoritmo Rn es el valor del componente Rojo del pixel en X-n, Yn ' Gn es el valor del componente Verde del pixel en xn,yn Bn es el valor del componente Azul del pixel en
  25. 25. Un método de conformidad con cualesquiera de las reivindicaciones de la 17 a la 24, caracterizado porque se crean configuraciones de algoritmos, adicionales, para cada par de cuadros para el cual se han recibido mapas de profundidad.
  26. 26. Un método para crear una serie de mapas de profundidad para una secuencia de imágenes, caracterizado porque incluye los pasos de: recibir mapas de profundidad para al menos dos cuadros clave de la secuencia de imágenes; utilizar los mapas de profundidad para determinar un segundo algoritmo para evaluar las características de profundidad como una función de las coordenadas x,y, así como de las características de la imagen; utilizar el algoritmo para crear un mapa de profundidad de cada cuadro de la secuencia de imágenes, en donde los cuadros adyacentes a los cuadros clave se procesan antes de los cuadros no adyacentes .
  27. 27. Un método de conformidad con la reivindicación 26, caracterizado porque una vez que se procesa el cuadro clave adyacente, el cuadro clave adyacente se considera después un cuadro clave para la creación de mapas de profundidad adicionales .
  28. 28. Un método de conformidad con la reivindicación 22, 23, 26 ó 27, caracterizado porque el segundo algoritmo calcula: zn = ka . xn + kb . yn + kc . Rn + kd . Gn + ke . Bn + kf . T en donde n es el enésimo pixel en la imagen del cuadro clave zn es el valor de la profundidad asignado al pixel en xn,yn de ka a kf son constantes y son determinadas por el algoritmo Rn es el valor del componente Rojo del pixel en Xn, yn Gn es el valor del componente Verde del pixel en xn,yn Bn es el valor del componente Azul del pixel en Xn, Yn T es una medida del tiempo, para este cuadro particular en la secuencia.
  29. 29. Un método para crear una serie de mapas de profundidad para una secuencia de imágenes, caracterizado porque incluye los pasos de: seleccionar al menos un cuadro clave de la secuencia de imágenes; para cada uno del al menos un cuadro clave, asignar una profundidad a al menos un pixel o porción de cada cuadro ; determinar la ubicación relativa y características de la imagen, para cada uno del al menos un pixel o porción de cada cuadro clave; utilizar la(s) profundidad (es) , las características de la imagen y la ubicación relativa, respectiva, para cada uno del al menos un cuadro clave, para determinar una primera configuración de un primer algoritmo para cada uno del al menos un cuadro, para evaluar las caracteristicas de profundidad como una función de la ubicación relativa y de las caracteristicas de profundidad; utilizar el primer algoritmo para calcular las caracteristicas de profundidad para cada pixel o porción de cada uno del al menos un cuadro clave; en donde las caracteristicas de profundidad forman un mapa de profundidad para cada uno del al menos un cuadro clave; utilizar cada mapa de profundidad para determinar una segunda configuración de un segundo algoritmo, para evaluar las caracteristicas de profundidad para cada cuadro como una función de la ubicación relativa y de las caracteristicas de la imagen; utilizar el segundo algoritmo para crear mapas de profundidad respectivos, para cada cuadro de la secuencia de imágenes.
  30. 30. Un método de conformidad con la reivindicación 29, caracterizado porque los cuadros adyacentes a los cuadros clave se procesan antes que los cuadros no adyacentes.
  31. 31. Un método de conformidad con la reivindicación 30, caracterizado porque seguido al procesamiento, los cuadros adyacentes se consideran como cuadros clave para el procesamiento adicional.
  32. 32. Un método para codificar una serie de cuadros, caracterizado porque incluye transmitir al menos una función de transformación, junto con los cuadros, en donde la función de transformación incluye un algoritmo para evaluar las características de profundidad como una función de la ubicación relativa y de las características de la imagen.
  33. 33. Un método de conformidad con la reivindicación 32, caracterizado porque las características de la imagen incluyen valores RGB.
  34. 34. Un método de conformidad con la reivindicación 32 ó 33, caracterizado porque las características de la imagen incluyen al menos una seleccionada entre la luminancia, crominancia, contraste o medidas espaciales.
  35. 35. Un método de conformidad con cualesquiera de las reivindicaciones de la 32 a la 34, caracterizado porque se utiliza un algoritmo de aprendizaje para determinar la función de transformación.
  36. 36. Un método de conformidad con la reivindicación 35, caracterizado porque el algoritmo de aprendizaje es uno seleccionado entre el algoritmo de retropropagación, algoritmo C4.5, o algoritmo de medias K.
  37. 37. Un método de conformidad con la reivindicación 35 ó 36, caracterizado porque la función de transformación calcula: zn = ka.xn + kb . yn + kc . Rn + kd.Gn + ke.Bn en donde n es el enésimo pixel en la imagen del cuadro clave zn es el valor de la profundidad asignado al pixel en xn,yn de ka a ke son constantes y son determinadas por el algoritmo Rn es el valor del componente Rojo del pixel en ??, yn Gn es el valor del componente Verde del pixel en xn,yn Bn es el valor del componente Azul del pixel en
  38. 38. Un método de conformidad con cualesquiera de las reivindicaciones de la 32 a la 37, caracterizado porque se crean algoritmos adicionales para cada par de cuadros para los cuales se han recibido mapas de profundidad.
MXPA03001171A 2000-08-09 2001-08-09 Tecnicas de conversion y codificacion de imagenes. MXPA03001171A (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
AUPQ9292A AUPQ929200A0 (en) 2000-08-09 2000-08-09 Image conversion and encoding techniques
AUPR0455A AUPR045500A0 (en) 2000-09-29 2000-09-29 Image conversion and encoding techniques
PCT/AU2001/000975 WO2002013141A1 (en) 2000-08-09 2001-08-09 Image conversion and encoding techniques

Publications (1)

Publication Number Publication Date
MXPA03001171A true MXPA03001171A (es) 2003-06-30

Family

ID=25646397

Family Applications (1)

Application Number Title Priority Date Filing Date
MXPA03001171A MXPA03001171A (es) 2000-08-09 2001-08-09 Tecnicas de conversion y codificacion de imagenes.

Country Status (7)

Country Link
US (1) US7035451B2 (es)
EP (1) EP1316068A1 (es)
JP (1) JP2004505393A (es)
KR (1) KR20030062313A (es)
CA (1) CA2418800A1 (es)
MX (1) MXPA03001171A (es)
WO (1) WO2002013141A1 (es)

Families Citing this family (88)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8396328B2 (en) 2001-05-04 2013-03-12 Legend3D, Inc. Minimal artifact image sequence depth enhancement system and method
US7907793B1 (en) 2001-05-04 2011-03-15 Legend Films Inc. Image sequence depth enhancement system and method
US7116324B2 (en) 1998-05-27 2006-10-03 In-Three, Inc. Method for minimizing visual artifacts converting two-dimensional motion pictures into three-dimensional motion pictures
US20050231505A1 (en) * 1998-05-27 2005-10-20 Kaye Michael C Method for creating artifact free three-dimensional images converted from two-dimensional images
US7116323B2 (en) * 1998-05-27 2006-10-03 In-Three, Inc. Method of hidden surface reconstruction for creating accurate three-dimensional images converted from two-dimensional images
US9286941B2 (en) 2001-05-04 2016-03-15 Legend3D, Inc. Image sequence enhancement and motion picture project management system
US8401336B2 (en) * 2001-05-04 2013-03-19 Legend3D, Inc. System and method for rapid image sequence depth enhancement with augmented computer-generated elements
US7489812B2 (en) * 2002-06-07 2009-02-10 Dynamic Digital Depth Research Pty Ltd. Conversion and encoding techniques
AUPS283602A0 (en) 2002-06-07 2002-06-27 Dynamic Digital Depth Research Pty Ltd Improved conversion and encoding techniques
JP4061305B2 (ja) 2002-08-20 2008-03-19 一成 江良 立体視用画像を作成する方法および装置
US9692964B2 (en) * 2003-06-26 2017-06-27 Fotonation Limited Modification of post-viewing parameters for digital images using image region or feature information
KR100543706B1 (ko) * 2003-11-28 2006-01-20 삼성전자주식회사 비젼기반 사람 검출방법 및 장치
US7333652B2 (en) * 2004-08-03 2008-02-19 Sony Corporation System and method for efficiently performing a depth map recovery procedure
US20090073170A1 (en) * 2004-10-26 2009-03-19 Koninklijke Philips Electronics, N.V. Disparity map
US7822000B2 (en) * 2005-06-30 2010-10-26 Symbol Technologies, Inc. Time division multiplexing for access ports in a wireless network
CA2553473A1 (en) * 2005-07-26 2007-01-26 Wa James Tam Generating a depth map from a tw0-dimensional source image for stereoscopic and multiview imaging
US7929801B2 (en) * 2005-08-15 2011-04-19 Sony Corporation Depth information for auto focus using two pictures and two-dimensional Gaussian scale space theory
US20070189750A1 (en) * 2006-02-16 2007-08-16 Sony Corporation Method of and apparatus for simultaneously capturing and generating multiple blurred images
US7616254B2 (en) 2006-03-16 2009-11-10 Sony Corporation Simple method for calculating camera defocus from an image scene
KR101228304B1 (ko) * 2006-06-16 2013-01-30 삼성전자주식회사 깊이 정보 맵 구성 장치 및 방법, 깊이 정보 맵을 이용한이미지 디스플레이 장치 및 방법
US7711201B2 (en) * 2006-06-22 2010-05-04 Sony Corporation Method of and apparatus for generating a depth map utilized in autofocusing
JP5615552B2 (ja) * 2006-11-21 2014-10-29 コーニンクレッカ フィリップス エヌ ヴェ 画像の深度マップの生成
WO2008091615A1 (en) * 2007-01-23 2008-07-31 Monte Ramstad High-fidelity printed anaglyphs and viewing filters
US8077964B2 (en) * 2007-03-19 2011-12-13 Sony Corporation Two dimensional/three dimensional digital information acquisition and display device
US20110043540A1 (en) * 2007-03-23 2011-02-24 James Arthur Fancher System and method for region classification of 2d images for 2d-to-3d conversion
CA2627999C (en) * 2007-04-03 2011-11-15 Her Majesty The Queen In Right Of Canada, As Represented By The Minister Of Industry Through The Communications Research Centre Canada Generation of a depth map from a monoscopic color image for rendering stereoscopic still and video images
US8213711B2 (en) * 2007-04-03 2012-07-03 Her Majesty The Queen In Right Of Canada As Represented By The Minister Of Industry, Through The Communications Research Centre Canada Method and graphical user interface for modifying depth maps
US8854425B2 (en) 2007-07-26 2014-10-07 Koninklijke Philips N.V. Method and apparatus for depth-related information propagation
US8660402B2 (en) 2007-12-14 2014-02-25 Koninklijke Philips N.V. 3D mode selection mechanism for video playback
CN102016917A (zh) * 2007-12-20 2011-04-13 皇家飞利浦电子股份有限公司 图像数据的分割
US9196080B2 (en) 2008-02-05 2015-11-24 Disney Enterprises, Inc. Medial axis decomposition of 2D objects to synthesize binocular depth
US8471898B2 (en) * 2008-02-05 2013-06-25 Disney Enterprises, Inc. Medial axis decomposition of 2D objects to synthesize binocular depth
EP2261852B1 (en) * 2008-03-06 2013-10-16 Fujitsu Limited Image photographic device, image photographic method, and image photographic program
US8280194B2 (en) * 2008-04-29 2012-10-02 Sony Corporation Reduced hardware implementation for a two-picture depth map algorithm
CA2724212A1 (en) * 2008-05-15 2009-11-19 Siemens Aktiengesellschaft Sensor device
WO2009155688A1 (en) * 2008-06-23 2009-12-30 Craig Summers Method for seeing ordinary video in 3d on handheld media players without 3d glasses or lenticular optics
US8553093B2 (en) * 2008-09-30 2013-10-08 Sony Corporation Method and apparatus for super-resolution imaging using digital imaging devices
US8194995B2 (en) * 2008-09-30 2012-06-05 Sony Corporation Fast camera auto-focus
US8233664B2 (en) * 2008-11-12 2012-07-31 Eastman Kodak Company Determining relative depth of points in multiple videos
EP2194504A1 (en) 2008-12-02 2010-06-09 Koninklijke Philips Electronics N.V. Generation of a depth map
US8405742B2 (en) * 2008-12-30 2013-03-26 Massachusetts Institute Of Technology Processing images having different focus
TW201028964A (en) * 2009-01-23 2010-08-01 Ind Tech Res Inst Depth calculating method for two dimension video and apparatus thereof
TWI457853B (zh) * 2009-03-24 2014-10-21 Ind Tech Res Inst 提供深度資訊之影像處理方法及其影像處理系統
US20100302365A1 (en) * 2009-05-29 2010-12-02 Microsoft Corporation Depth Image Noise Reduction
IT1399417B1 (it) 2010-04-12 2013-04-16 Sisvel Technology Srl Metodo per la generazione e ricostruzione di un flusso video stereoscopico compatibile e relativi dispositivi di codifica e decodifica.
KR101665567B1 (ko) * 2010-05-20 2016-10-12 삼성전자주식회사 3차원 뎁스 영상 시간 보간 방법 및 장치
IT1401731B1 (it) 2010-06-28 2013-08-02 Sisvel Technology Srl Metodo per la decodifica 2d-compatibile di flussi video stereoscopici
US8831273B2 (en) 2010-09-10 2014-09-09 Reald Inc. Methods and systems for pre-processing two-dimensional image files to be converted to three-dimensional image files
US9485497B2 (en) 2010-09-10 2016-11-01 Reald Inc. Systems and methods for converting two-dimensional images into three-dimensional images
US8730232B2 (en) 2011-02-01 2014-05-20 Legend3D, Inc. Director-style based 2D to 3D movie conversion system and method
US9407904B2 (en) 2013-05-01 2016-08-02 Legend3D, Inc. Method for creating 3D virtual reality from 2D images
US9241147B2 (en) 2013-05-01 2016-01-19 Legend3D, Inc. External depth map transformation method for conversion of two-dimensional images to stereoscopic images
US9288476B2 (en) 2011-02-17 2016-03-15 Legend3D, Inc. System and method for real-time depth modification of stereo images of a virtual reality environment
US9282321B2 (en) 2011-02-17 2016-03-08 Legend3D, Inc. 3D model multi-reviewer system
US9113130B2 (en) 2012-02-06 2015-08-18 Legend3D, Inc. Multi-stage production pipeline system
EP2525581A3 (en) * 2011-05-17 2013-10-23 Samsung Electronics Co., Ltd. Apparatus and Method for Converting 2D Content into 3D Content, and Computer-Readable Storage Medium Thereof
KR20120133571A (ko) * 2011-05-31 2012-12-11 삼성전자주식회사 3d 영상변환장치, 3d 영상변환장치에 의해 구현되는 방법 및 그 저장매체
EP2536160B1 (en) * 2011-06-14 2018-09-26 Samsung Electronics Co., Ltd. Display system with image conversion mechanism and method of operation thereof
KR101870764B1 (ko) * 2011-06-14 2018-06-25 삼성전자주식회사 영상 변환 메커니즘을 활용한 디스플레이 장치 및 그 동작 방법
CN102905141A (zh) * 2011-07-28 2013-01-30 联咏科技股份有限公司 二维转三维转换装置及其方法
TWI481262B (zh) 2011-07-28 2015-04-11 Ind Tech Res Inst 影像編碼系統及影像編碼方法
US9471988B2 (en) * 2011-11-02 2016-10-18 Google Inc. Depth-map generation for an input image using an example approximate depth-map associated with an example similar image
KR20130084341A (ko) * 2012-01-17 2013-07-25 삼성전자주식회사 이미지 변환 메커니즘을 갖는 디스플레이 시스템 및 그 운용 방법
US9111350B1 (en) 2012-02-10 2015-08-18 Google Inc. Conversion of monoscopic visual content to stereoscopic 3D
EP2834973A1 (en) 2012-04-04 2015-02-11 Naxos Finance SA System for generating and receiving a stereoscopic-2d backward compatible video stream, and method thereof
CN102761768A (zh) * 2012-06-28 2012-10-31 中兴通讯股份有限公司 一种实现立体成像的方法及装置
RU2493602C1 (ru) * 2012-08-10 2013-09-20 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ и система для выделения ключевых кадров из видео последовательностей
JP5949314B2 (ja) * 2012-08-20 2016-07-06 株式会社日本自動車部品総合研究所 視差マップ生成装置および視差マップ生成装置用のプログラム
KR20140030735A (ko) 2012-09-03 2014-03-12 삼성전자주식회사 디스플레이 장치 및 방법
US9007365B2 (en) 2012-11-27 2015-04-14 Legend3D, Inc. Line depth augmentation system and method for conversion of 2D images to 3D images
US9547937B2 (en) 2012-11-30 2017-01-17 Legend3D, Inc. Three-dimensional annotation system and method
US9674498B1 (en) 2013-03-15 2017-06-06 Google Inc. Detecting suitability for converting monoscopic visual content to stereoscopic 3D
US9007404B2 (en) 2013-03-15 2015-04-14 Legend3D, Inc. Tilt-based look around effect image enhancement method
US9532032B2 (en) * 2013-04-18 2016-12-27 Ellis Amalgamated, LLC Astigmatic depth from defocus imaging using intermediate images and a merit function map
US9438878B2 (en) 2013-05-01 2016-09-06 Legend3D, Inc. Method of converting 2D video to 3D video using 3D object models
TWI460523B (zh) * 2013-05-02 2014-11-11 Altek Semiconductor Corp 自動對焦方法及自動對焦裝置
US9383259B2 (en) 2013-08-29 2016-07-05 Nokia Technologies Oy Method, apparatus and computer program product for sensing of visible spectrum and near infrared spectrum
US20150309663A1 (en) * 2014-04-28 2015-10-29 Qualcomm Incorporated Flexible air and surface multi-touch detection in mobile platform
CN104732518B (zh) * 2015-01-19 2017-09-01 北京工业大学 一种基于智能机器人地面特征的ptam改进方法
CN104994365B (zh) * 2015-04-30 2017-09-26 西安电子科技大学 一种获取非关键帧深度图像的方法以及2d视频立体化方法
CN104994368B (zh) * 2015-07-10 2017-10-27 孙建德 2d‑3d视频转换中的非关键帧排序方法
US9609307B1 (en) 2015-09-17 2017-03-28 Legend3D, Inc. Method of converting 2D video to 3D video using machine learning
EP3709271B1 (en) 2016-09-15 2022-11-02 Google LLC Image depth prediction neural networks
US11747444B2 (en) * 2018-08-14 2023-09-05 Intel Corporation LiDAR-based object detection and classification
US10990826B1 (en) * 2019-03-20 2021-04-27 Xilinx, Inc. Object detection in video
US20210374467A1 (en) * 2020-05-29 2021-12-02 Fei Company Correlated slice and view image annotation for machine learning
JP2022069007A (ja) * 2020-10-23 2022-05-11 株式会社アフェクション 情報処理システム、情報処理方法および情報処理プログラム
JPWO2023286301A1 (es) * 2021-07-16 2023-01-19

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4925294A (en) * 1986-12-17 1990-05-15 Geshwind David M Method to convert two dimensional motion pictures for three-dimensional systems
US5469535A (en) * 1992-05-04 1995-11-21 Midway Manufacturing Company Three-dimensional, texture mapping display system
GB9406515D0 (en) * 1994-03-31 1994-05-25 Argonaut Software Limited Texture mapping for 3-d computer graphics
JPH07282292A (ja) * 1994-04-05 1995-10-27 Toshiba Corp テクスチャマッピング方法及び画像処理装置
US5767857A (en) * 1996-08-30 1998-06-16 Pacific Data Images, Inc. Method, apparatus, and software product for generating outlines for raster-based rendered images
US6055330A (en) * 1996-10-09 2000-04-25 The Trustees Of Columbia University In The City Of New York Methods and apparatus for performing digital image and video segmentation and compression using 3-D depth information
JP4698831B2 (ja) * 1997-12-05 2011-06-08 ダイナミック ディジタル デプス リサーチ プロプライエタリー リミテッド 画像変換および符号化技術

Also Published As

Publication number Publication date
JP2004505393A (ja) 2004-02-19
CA2418800A1 (en) 2002-02-14
EP1316068A1 (en) 2003-06-04
KR20030062313A (ko) 2003-07-23
US7035451B2 (en) 2006-04-25
WO2002013141A1 (en) 2002-02-14
US20020048395A1 (en) 2002-04-25

Similar Documents

Publication Publication Date Title
US7035451B2 (en) Image conversion and encoding techniques
US11983893B2 (en) Systems and methods for hybrid depth regularization
CN108038905B (zh) 一种基于超像素的目标重建方法
Huang et al. Indoor depth completion with boundary consistency and self-attention
RU2382406C1 (ru) Способ улучшения карты диспарантности и устройство для реализации способа
US6072903A (en) Image processing apparatus and image processing method
KR100793076B1 (ko) 에지 적응형 스테레오/다시점 영상 정합 장치 및 그 방법
CN110084243B (zh) 一种基于二维码和单目相机的档案识别与定位方法
CN111724439A (zh) 一种动态场景下的视觉定位方法及装置
Gupta et al. Real-time stereo matching using adaptive binary window
CN111738265B (zh) Rgb-d图像的语义分割方法、系统、介质及电子设备
JP2006091011A (ja) マルチビュー視差表示
WO2021076185A1 (en) Joint depth prediction from dual-cameras and dual-pixels
KR101125061B1 (ko) Ldi 기법 깊이맵을 참조한 2d 동영상의 3d 동영상 전환방법
KR102419011B1 (ko) 종래의 cad 모델들을 사용한 이미지들로부터 객체 인식
CN1466737A (zh) 图像转换和编码技术
US9936189B2 (en) Method for predicting stereoscopic depth and apparatus thereof
CN116958393A (zh) 一种增量式图像渲染方法及装置
Kim et al. Real-time human segmentation from RGB-D video sequence based on adaptive geodesic distance computation
Mahajan et al. An end-to-end approach for automatic and consistent colorization of gray-scale videos using deep-learning techniques
Kanchan et al. Recent trends in 2D to 3D image conversion: algorithm at a glance
CN115719323A (zh) 生成训练数据以生成合成类真实原始深度图的方法和设备
Mohaghegh et al. Depth estimation from single images using modified stacked generalization
RO135781A0 (ro) Metodă pentru esti- marea normalelor pentru camere cu informaţie de distanţă emiţătoare de impul- suri, folosind reţele neuronale convo- luţionale
Holešovský et al. MovingCables: Moving Cable Segmentation Method and Dataset