MXPA03001171A

MXPA03001171A - Tecnicas de conversion y codificacion de imagenes.

Info

Publication number: MXPA03001171A
Application number: MXPA03001171A
Authority: MX
Inventors: Philip Victor Harman
Original assignee: Dynamic Digital Depth Res Pty
Priority date: 2000-08-09
Filing date: 2001-08-09
Publication date: 2003-06-30
Also published as: JP2004505393A; CA2418800A1; EP1316068A1; KR20030062313A; US7035451B2; WO2002013141A1; US20020048395A1

Abstract

La presente invención se refiere a un método para crear un mapa de profundidad, que incluye los pasos de asignar una profundidad a al menos un pixel o porción de una imagen, determinar la ubicación relativa y las características de la imagen, para cada uno del al menos un pixel o porción de la imagen, utilizar la(s) profundidad(es), las características de la imagen y la ubicación respectiva, para determinar un algoritmo para evaluar las características de profundidad como una función de la ubicación relativa y de las características de la imagen, utilizar el algoritmo para calcular características de profundidad para cada pixel o porción de la imagen, en donde las características de profundidad forman un mapa de profundidad para la imagen. En una segunda fase de procesamiento, los mapas de profundidad forman cuadros clave para la generación de mapas de profundidad para los cuadros no claves, usando la ubicación relativa, las características de la imagen y la distancia que hay al (a los) cuadro (s) clave(

Description

TÉCNICAS DE CONVKRSION Y CODIFICACIÓN DE IMÁGENES CAMPO DE LA INVENCIÓN La presente invención consiste en una técnica para derivar mapas de profundidad, a partir de una o más imágenes tridimensionales .

ANTECEDENTES DE LA INVENCIÓN Cierto número de tareas de procesamiento de imágenes requieren que se conozca la profundidad de los objetos que se encuentran en una imagen. Esas tareas incluyen la aplicación de efectos especiales a secuencias de películas y video, y la conversión de imágenes bidimensionales en imágenes tridimensionales estereoscópicas. A la determinación de la profundidad de objetos puede hacerse referencia como el proceso de crear un mapa de profundidad. En un mapa de profundidad cada objeto es coloreado con un tono de gris, de manera tal que el tono indica la profundidad del objeto desde un punto fijo. Típicamente un objeto que se encuentre distante será coloreado con un tono de gris oscuro, mientras que un objeto cercano será más claro. Una convención estándar para la creación de mapas de profundidad tiene que ser adoptada todavía, y puede usarse el coloreado inverso o REF.: 145157 pueden usarse diferentes colores para indicar diferentes profundidades. Para propósitos de explicación, en esta descripción los objetos distantes estarán coloreados más obscuros que los objetos más cercanos, y el coloreado será típicamente en una escala de gris. Históricamente, la creación de un mapa de profundidad, a partir de una imagen bidimensional existente, se ha llevado a cabo manualmente. Se apreciará que una imagen es solamente una serie de pixeles en una computadora, mientras que un operador humano es capaz de distinguir objetos y sus profundidades relativas. La creación de mapas de profundidad involucra un sistema por el cual cada objeto de la imagen que se va a convertir, se traza manualmente y se le asigna una profundidad al objeto. Este proceso es comprensiblemente lento, tardado y costoso. El paso del trazado se lleva a cabo comúnmente usando un programa de cómputo (software) , junto con un ratón. Ejemplos de programas de cómputo (software) que pueden usarse para llevar a cabo esta tarea, es el Adobe "After Effects". Un operador que use After Effects dibujaría típicamente el contorno de cada objeto que requiera de la asignación de una profundidad, y luego rellenaría o "colorearía" el objeto, con los tonos de gris deseados, que definan la profundidad o distancia requerida desde el observador. Este proceso se repetirla después para cada objeto en la imagen. Además, en donde se encuentren involucradas cierto número de imágenes, por ejemplo en una película, también será necesario llevar a cabo estos pasos para cada imagen o cuadro de la película. En el sistema tradicional, el trazado de la imagen se describiría típicamente como cierta forma de curva, por ejemplo una curva Bezier. El uso de esa curva permite al operador alterar la forma del contorno, de manera tal que el contorno del objeto pueda alinearse en forma exacta con el objeto. Si una serie de imágenes requiriese de la transformación de la profundidad, por ejemplo, una película o video, entonces el proceso se repetiría para cada cuadro en la secuencia. Es probable que el tamaño, posición y/o profundidad de un objeto, puedan cambiar a través de una secuencia. En este caso se requiere que el operador rastree manualmente el objeto en cada cuadro y procese cada cuadro corrigiendo la curva, y actualizando la profundidad del objeto, cambiando el tono de gris según sea necesario. Se apreciará que este es un proceso lento, tedioso, tardado y caro . Se han realizado intentos previos para mejorar este proceso. La técnica anterior describe procedimientos que intentan rastrear automáticamente el contorno del objeto, a medida que se mueve de cuadro a cuadro. Un ejemplo de esa técnica es la aplicación de Contornos Activos (referencia: Active Contours - Andrew Blake and Michael Isard - ISBN 3-40-76217-5) . La principal limitación de este enfoque es la necesidad de enseñar al software la implementación de la técnica en el movimiento esperado del objeto que se rastree. Esta es una limitación significativa, ya sea cuando el movimiento esperado no se conozca, se anticipen deformaciones complejas, o se requieran rastrear simultáneamente numerosos objetos con diferentes características de movimiento. También se han usado enfoques de rastreo por puntos, para definir el movimiento de los contornos. Estos son populares en ambientes de edición tales como Commotion y After Effects. Sin embargo, su aplicación es muy limitada porque frecuentemente es imposible identificar un punto de rastreo apropiado, cuyo movimiento refleje el movimiento del objeto como un todo. El rastreo por puntos es aceptable a veces cuando los objetos sufren traslaciones simples, pero no manejarán deformaciones de forma, oclusiones, o cierta variedad de otros problemas comunes. Una compañía Israelí, AutoMedia, ha producido un software llamado Auto asker. Este permite a un operador dibujar el contorno de un objeto y rastrearlo de cuadro a cuadro. El producto se basa en el rastreo del color de un objeto y por lo tanto falla cuando objetos de color similar se intersecan. El producto tiene también dificultad en rastrear objetos cuyo tamaño cambie en cuadros subsecuentes, por ejemplo, cuando un objeto se aproxime a un observador o se mueva hacia delante sobre la pantalla. Ninguno de estos enfoques pueden asignar ni rastrear, aceptablemente, mapas de profundidad, y por lo tanto la creación de los mapas de profundidad es todavía un sistema manual. Otras técnicas se describen en el arte previo y se basan en la reconstrucción del movimiento de la cámara originalmente usada para grabar la secuencia bidimensional . La limitación de estas técnicas es la necesidad del movimiento de la cámara dentro de la secuencia original de imágenes, y la presencia de características bien definidas, dentro de cada cuadro, que puedan usarse como puntos de rastreo .

BREVE DESCRIPCIÓN DE LA INVENCIÓN Actualmente es necesario que un operador cree manualmente un mapa de profundidad para cada cuadro de una imagen, a fin de obtener resultados aceptables. Un objeto de la presente invención es reducir el número de cuadros que requieran de la creación manual de la profundidad, reduciendo por ello el compromiso de tiempo de los operadores que creen los mapas de profundidad. Todavía existe un grupo de cuadros para los cuales se deben crear todavía manualmente mapas de profundidad. Un objeto adicional de la invención es ayudar al proceso manual de creación de mapas de profundidad, para estos cuadros. Teniendo en mente los objetos anteriores, la presente invención proporciona un método para crear un mapa de profundidad, el cual incluye los pasos de: asignar una profundidad a al menos un pixel o porción de ¦ una imagen; determinar la ubicación relativa y características de la imagen, para cada uno del al menos un pixel o porción de la imagen; utilizar la(s) profundidad ( es ) , características de la imagen y ubicación relativa, respectiva, para determinar una configuración de un primer algoritmo para evaluar las características de profundidad como una función de la ubicación relativa y características de la imagen; utilizar el primer algoritmo para calcular una característica de profundidad para cada pixel o porción de la imagen; en donde las características de profundidad forman un mapa de profundidad para esa imagen. En otro aspecto la presente invención proporciona un método para crear un mapa de profundidad, el cual incluye los pasos de: asignar una profundidad a al menos un pixel o porción de una imagen; determinar las coordenadas x,y y características de la imagen, para cada uno del al menos un pixel o porción de la imagen; utilizar la(s) profundidad ( es ) , características de la imagen y coordenadas x,y respectivas, para determinar un primer algoritmo, a fin de evaluar las características de profundidad como una función de las coordenadas x,y y características de la imagen; utilizar el primer algoritmo para calcular una característica de profundidad para cada pixel o porción de esa imagen; en donde las características de profundidad forman un mapa de profundidad para esa imagen. En un aspecto adicional, la presente invención proporciona un método para crear una serie de mapas de profundidad para una secuencia de imágenes, que incluye los pasos de: recibir un mapa de profundidad para al menos un cuadro de la secuencia de imágenes ; utilizar el mapa de profundidad para determinar una configuración de un algoritmo, para evaluar las características de profundidad como una función de la posición relativa y características de la imagen; utilizar el algoritmo para crear un mapa de profundidad, para cada cuadro de la secuencia de imágenes . Todavía en un aspecto adicional, la presente invención proporciona un método para crear una serie de mapas de profundidad, para una secuencia de imágenes, el cual incluye los pasos de: seleccionar al menos un cuadro clave, a partir de la secuencia de imágenes; para cada uno del al menos un cuadro clave, asignar una profundidad a al menos un pixel o porción de cada cuadro; determinar la posición relativa (por ejemplo las coordenadas x,y) y características de la imagen, para cada uno del al menos un pixel o porción de cada cuadro; utilizar la (s) profundidad (es ) , características de la imagen y posición relativa, para cada uno del al menos un cuadro, para determinar una configuración de un algoritmo para cada uno del al menos un cuadro, para evaluar las características de profundidad como una función de la posición relativa y características de profundidad; utilizar cada configuración del algoritmo, para calcular las características de profundidad para cada pixel o porción de cada uno del al menos un cuadro; en donde las características de profundidad forman un mapa de profundidad para cada uno del al menos un cuadro; utilizar cada mapa de profundidad para determinar una segunda configuración de un segundo algoritmo, para evaluar las características de profundidad para cada cuadro, como una función de la posición relativa y características de la imagen; utilizar el segundo algoritmo para crear mapas de profundidad respectivos, para cada cuadro de la secuencia de imágenes. Se comprenderá que el sistema, al referirse a un algoritmo, puede de hecho crear cierto número de funciones diferentes a fin de crear los mapas de profundidad, como un resultado de la posición relativa y características de la imagen. En el sistema preferido, la posición relativa será una medida de las coordenadas x,y. Un sistema que implemente la presente invención puede elegir predeterminar qué cuadros, en una secuencia, van a ser considerados cuadros clave, por ejemplo cada quinto cuadro. El algoritmo considerará también idealmente al tiempo como un dato de entrada al algoritmo, para refinar adiciona lmente el procesamiento.

BREVE DESCRIPCIÓN DE LA INVENCIÓN La invención pretende mejorar el proceso de producción de mapas de profundidad, para imágenes tridimensionales asociadas. Esta modalidad preferida involucra dos fases de generación de mapas de profundidad de cuadros clave, y la generación de los mapas restantes. La primera fase obtiene una pequeña cantidad de datos del usuario. Estos datos indican la estructura básica de la escena. La imagen bidimensional y estos datos asociados, se presentan a un algoritmo que sea capaz de aprender la relación entre la profundidad z asignada por el usuario a varios pixeles de la imagen, su ubicación x e y, y las características de la imagen. Las características de la imagen incluyen, aunque no están limitadas a, el valor RGB para cada pixel. En general el algoritmo resuelve la ecuación z = f(x,y,R,G,B) para cada pixel en el cuadro gue haya definido el usuario. El algoritmo aplica después esta relación aprendida, a los pixeles restantes en la imagen, para generar un mapa de profundidad. Si es necesario, el usuario puede retinar sus datos para mejorar la exactitud del mapa de profundidad. Deberá observarse que los datos de profundidad iniciales, no necesitan ser, en forma necesaria, especificados por un usuario; pueden ser determinados a través de algún otro proceso que incluya, aunque no esté limitado a, el uso de una estructura automatizada de un algoritmo de movimiento o la derivación de estimados de profundidad, a partir de imágenes estéreo. La segunda fase requiere que las imágenes bidimensionales y mapas de profundidad asociados, sean proporcionadas en los cuadros clave seleccionados. Los mapas de profundidad en estos cuadros clave, pueden ser generados por ejemplo, tal como fue descrito previamente por los solicitantes, o pueden ser producidos automáticamente usando técnicas de captura de profundidad, que incluyan, aunque no estén limitados a, buscadores del tipo radar láser, es decir dispositivos LIDAR (Dirección y Alcance de la Luz) y técnicas de profundidad desde el foco. La imagen bidimensional y el (los) mapa(s) de profundidad asociado (s) , para cada cuadro clave se presenta a un algoritmo que es capaz de aprender la relación entre la profundidad z asignada a cada pixel en los cuadros restantes, su ubicación x e y, y las características de la imagen. Las características de la imagen incluyen, aunque no están limitadas a, el valor RGB de cada pixel. En general el algoritmo resuelve la ecuación z = f(x,y,R,G,B) para cada pixel en los cuadros clave. El algoritmo se presenta después con cada cuadro subsecuente, entre los cuadros clave adyacentes, y para cada pixel usa el algoritmo para calcular el valor de z.

BREVE DESCRIPCIÓN DE LOS DIBUJOS La figura 1 muestra una modalidad del proceso de adiestramiento de la Fase Uno. La figura 2 muestra una modalidad del proceso de conversión de la Fase Uno. La figura 3 muestra una modalidad del proceso de adiestramiento de la Fase Dos. La figura 4 muestra una modalidad del proceso de conversión de la Fase Dos. La figura 5 ilustra cómo el proceso de aprendizaje puede dividir el espacio de características. La figura 6 muestra un proceso alternativo de generación de mapas de profundidad para la Fase Dos. La figura 7 muestra un método alternativo para determinar la profundidad de un pixel individual en la Fase Dos. La figura 8 ilustra el proceso de búsqueda de muestras de adiestramiento candidatos. La figura 9 ilustra el cálculo de la profundidad a partir de cierto número de muestras de adiestramiento candidatos.

DESCRIPCIÓN DETALLADA DE LA INVENCIÓN La invención proporciona una técnica mejorada para derivar mapas de profundidad, a partir de una o más imágenes bidimensionales . La invención incluye preferentemente dos fases, cada una de las cuales incorpora idealmente un proceso de aprendizaje automatizado.

Fase uno La primera fase opera en una sola imagen. A un usuario se le presenta una imagen y define profundidades aproximadas para varias regiones en la imagen, usando una interfaz gráfica simple. La interfaz gráfica puede proporcionar herramientas para ayudar al usuario a asignar profundidades a los pixeles, incluyendo, aunque no limitadas a, herramientas de pluma y brocha, herramientas de rellenado de áreas y herramientas que asignen una profundidad en base al color del pixel. El resultado de este proceso es que se define la profundidad para un subconjunto de pixeles en la imagen . Esto se ejemplifica en la figura 1, en donde una imagen bidimens ional 1 se puede presentar al usuario. El usuario puede asignar después la profundidad a varios pixeles en de la imagen 2. En el ejemplo de la figura 1 los pixeles marcados con "X" son pixeles para los cuales no ha sido especificada una profundidad por el usuario. El sistema correlaciona después la imagen bidimensional 1 con los datos de profundidad 2 proporcionados por el usuario, y utiliza un algoritmo de adiestramiento 3 para ayudar a la creación de una función de transformación 4 que sea capaz de resolver una función para la profundidad de cada pixel en la imagen. La información proporcionada por el usuario define los datos de adiestramiento que se usan con el proceso de aprendizaje, descrito posteriormente, para asociar una profundidad con cada pixel en la imagen individual. Este proceso puede ser interactivo, porque el usuario puede definir profundidades aproximadas, únicamente para unas cuantas regiones. En base a los resultados del proceso de aprendizaje para esas regiones, el usuario puede proporcionar estimados de profundidades adicionales, para regiones en donde el proceso de aprendizaje funcione pobremente. Esta interacción entre el usuario y el proceso de aprendizaje puede repetirse cierto número de veces. En efecto, el usuario puede guiar el proceso de aprendizaje en esta etapa. Deberá observarse que los datos iniciales de profundidad no necesitan, en forma necesaria, ser especificados por un usuario, ya que pueden ser determinados a través de algún otro proceso, tal como se describió anteriormente.

Creación de la Función de Transformación Una vez que el sistema es mejorado con la imagen y algunas profundidades de pixeles, el sistema analiza después los pixeles con profundidades definidas, a fin de crear una función de transformación. La función de transformación puede ser un proceso o función que tome como dato de entrada cualquier medida de un pixel o un conjunto de pixeles de la imagen, y proporcione como dato de salida un valor de profundidad para el pixel o conjunto de pixeles. Las mediciones de pixeles individuales pueden consistir de valores del rojo, verde y azul, u otras mediciones tales como luminancia, crominancia, contraste y mediciones especiales tales como la ubicación horizontal y vertical en la imagen. Alternativamente, la función de transformación puede operar en características de la imagen, de mayor nivel, tales como conjuntos más grandes de pixeles y mediciones en un conjunto de pixeles, tal como la media y varianza o bordes, esquinas, etc. (es decir, la respuesta de un detector de características). Conjuntos más grandes de pixeles pueden representar, por ejemplo, segmentos en la imagen, que sean conjuntos de pixeles conectados, que formen una región homogénea. Por propósitos ilustrativos únicamente, un pixel puede ser representado en la forma x, y, , G, B, z en donde x e y representan la posición relativa como las coordenadas x e y del pixel, R,G,B representan los valores del rojo, verde y azul, de ese pixel, y z representa la profundidad de ese pixel. Valores de z se encuentran definidos únicamente en donde el usuario haya especificado un valo . La función de transformación se aprende capturando la relación entre datos de imágenes y datos de profundidad, para los pixeles identificados por el usuario. La función de transformación puede tomar la forma de cualquier unidad de procesamiento genérica, en donde se reciben datos de entrada, se procesan, y se proporciona una salida. Preferentemente, esta unidad de procesamiento está sujeta a un proceso de aprendizaje, en donde su naturaleza se determina por el examen de los datos del usuario y datos de imagen correspondiente. El proceso de aprendizaje de esta relación entre los datos de entrada, y la salida deseada, será comprendido por aquellos que hayan trabaiado en las áreas de la inteligencia artificial o del aprendizaje de máquinas, y puede tomar muchas formas. Se observa que estas personas no trabajarían normalmente en las áreas de sistemas estereoscópicos, o en la conversión de imágenes bidimensionales a tridimensionales. En el aprendizaje de máquinas, esas funciones de transformación se conocen e incluyen, aunque no están limitadas a, redes neuronales, árboles de decisión, gráficas de decisión, árboles de modelos y clasificadores de proximidad más cercana. Las modalidades preferidas de un algoritmo de aprendizaje son aquellas que buscan diseñar una función de transformación que minimice cierta medida del error de la transformación y que generalice satisf ctoriamente los valores que se encuentren afuera del conjunto original de datos. El algoritmo de aprendizaje puede, ya sea intentar determinar la relación entre la información de la imagen bidimensional y la profundidad, glcbalmente en toda la imagen o localmente en áreas espaciales más pequeñas. Esta relación puede aplicarse después para completar los mapas de profundidad, para la secuencia completa . Esto puede ejemplificarse mediante la figura 2, en la cual se introducen datos desde la imagen bidimensional 1, en la función de transformación creada 4, para crear un mapa de profundidad 5 de la imagen bidimensional 1. Ejemplos de algoritmos de aprendizaje exitosos son el algoritmo de retropropagación, para el aprendizaje de redes neuronales, el algoritmo C4.5 para el aprendizaje de árboles de decisión, la regresión lineal con ponderación local y el algoritmo de Medias K para el aprendizaje de clasificadores de tipo grupos. Para propósitos ilustrativos únicamente, puede considerarse que el algoritmo de aprendizaje calcula la siguiente relación para cada pixel en el cuadro de la secuencia de imágenes bidimensionales zn = ka.xn + kb.yn + kc.Rn+ kd.Gr. + ke . Bn en donde n es el enésimo pixel en la imagen del cuadro clave zn es el valor de la profundidad asignado al pixel en xri,yn de ka a ke son constantes y son determinadas por el algoritmo Rn es el valor del componente Rojo del pixel en ¾/ yn Gn es el valor del componente Verde del pixel Bn es el valor del componente Azul del pixel en xn,yn Este proceso se ilustra en la figura 1. Los experimentados en la técnica apreciarán que la ecuación anterior es una simplificación para propósitos de explicación únicamente, y en la práctica no funcionaría idealmente. En una implementación práctica que usa, por ejemplo, una red neuronal y dado el gran número de pixeles en una imagen, la red aprenderla una gran ecuación que contendría muchos valores k, multiplicaciones y sumas. Además, los valores k pueden variar a través de diferentes posiciones x,y en la imagen, adaptándose a características de imágenes locales.

Aplicación de la Función de Transformación a una Imagen Bidimensional La invención toma después esta función de transformación y la aplica a todo el cuadro de la secuencia de imágenes bidimensionales . Para un pixel determinado, los datos de entrada a la función de transformación, se determinan en una manera similar a la presentada a la función de transformación durante el proceso de aprendizaje. Por ejemplo, si la función de transformación iba a aprender a través de la presentación de las mediciones de un solo pixel como dato de entrada, la función de transformación requerirá ahora estas mismas mediciones como dato de entrada. Con estos datos de entrada, la función de transformación realiza su tarea de aprendizaje y emite una medición de profundidad. Nuevamente, en el ejemplo para un solo pixel, esta medición de profundidad puede ser un valor de profundidad simple. En este ejemplo, la función de transformación se aplica a través de toda la imagen, para completar un conjunto completo de datos de profundidad para la imagen. Alternativamente, si la función de transformación fue adiestrada usando conjuntos más grandes de pixeles, se requiere ahora generar esos conjuntos más grandes de pixeles para la imagen. Se realizan mediciones de mayor nivel, en estos conjuntos de pixeles, tal como la media y la varianza, en la misma manera que durante el proceso de aprendizaje. Una vez establecidos estos de entrada, la función de transformación produce la medición de profundidad requerida para ese conjunto de pixeles. Este proceso se ilustra en la figura 2, y da por resultado un mapa de profundidades total para la imagen bidimensional . Si el mapa de profundidades resultante contiene regiones de error, se pueden realizar modificaciones a los datos del usuario y se repite el proceso para corregir estas regiones. La función de transformación puede aplicarse también a otros cuadros, para generar mapas de profundidad. Los experimentados en la técnica del aprendizaje de máquinas apreciarán que la etapa de adiestramiento puede ser implementada por una configuración genérica del algoritmo. A este enfoque se hace referencia como un aprendizaje basado en casos, e incluye, aunque no está limitado a, técnicas tales como la regresión lineal con ponderación local. En una modalidad alternativa, el usuario puede definir un conjunto de objetos y asignar pixeles a los objetos. En esta modalidad, el proceso de generalización de los datos del usuario, para los pixeles restantes de la imagen, segmenta toda la imagen en el conjunto de objetos inicialmente identificados por el usuario. La función de transformación, que define los objetos o los objetos mismos, puede ser la salida requerida de esta modalidad. Alternativamente se pueden aplicar funciones a los objetos para especificar la profundidad de estos objetos, construyendo por ello un mapa de profundidad para la imagen. Estas funciones pueden tomar la forma de rampas de profundidad y otras formas de definir la profundidad de objetos, tal como se define en la solicitud previa de los solicitantes PCT/AUOO/00700. En una modalidad alternativa, adicional, el algoritmo de adiestramiento puede intentar introducir un componente aleatorio a la información del usuario. Con cualquier algoritmo de aprendizaje esto ayuda a superar la dificultad de adiestramiento excesivo. Adiestramiento excesivo se refiere a la situación en donde el algoritmo de aprendizaje recuerda simplemente la información del adiestramiento. Esto es análogo a la situación en la que un niño aprenda escribiendo las tablas de multiplicar sin lograr comprensión del concepto de multiplicación mismo. Este problema es conocido en el campo del aprendizaje de máquinas, y un enfoque para solucionar el problema es introducir ruido aleatorio en los datos de adiestramiento. Un buen algoritmo de aprendizaje será forzado a distinguir entre el ruido que se encuentra en los datos de adiestramiento, y la información de calidad. Al hacer esto, se estimulará el aprendizaje de la naturaleza de los datos, en vez que simplemente recordarlos. Una modalidad ejemplar de este enfoque se refiere al ejemplo previo, en donde el algoritmo de adiestramiento aprende la función: zn = ka.xn + kb.yn+ kc.Rn+ kd.Gn + ke.Bn Cuando se presentan los datos de entrada al algoritmo de adiestramiento, que son z,x,y,R,G y B, a estos valores se adiciona un componente de ruido pequeño. El componente de ruido puede ser un número aleatorio pequeño, positivo o negativo. En la modalidad preferida no se adiciona ruido al componente z.

Proceso de Aprendizaje En la modalidad preferida los datos de entrada del proceso de aprendizaje son: 1. Un número de muestras de adiestramiento que tienen atribuidas ciertas características que incluyen la profundidad . 2. Un número de muestras de "clasificación" que tienen atribuidas características que coinciden con las muestras de adiestramiento, y cuya profundidad se va a determinar mediante el proceso de aprendizaje.

Las muestras de adiestramiento consisten de pixeles individuales cuyas características incluyen la posición (x,y), el color (R,G,B) y la profundidad (z) del pixel. El propósito del proceso de aprendizaje es calcular una profundidad (z) para cada uno de los pixeles de clasificación cuyas características incluyan la posición (x, y) y el color (R, G, B) . Para cada muestra de clasificación, la primera etapa del algoritmo de aprendizaje involucra identificar un subconjunto de las muestras de adiestramiento que compartan características de imagen "similares" a los pixeles de clasificación en cuestión.

Búsqueda de Candidatos de Adiestramiento Para identificar muestras de adiestramiento con características similares a la muestra de clasificación actual, se considera un espacio de características n-dimensíonal en el que se encuentren presentes muestras. En la modalidad preferida este es un espacio de 5 dimensiones en donde cada dimensión representa una de las características de la imagen: x,y,R,G,B. El eje de este espacio se normaliza para tomar en cuenta las diferencias en el alcance de cada dimensión. Por lo tanto se puede hacer referencia a las diferencias entre muestras, usando porcentajes relativos. Por ejemplo, el componente R de una muestra dada puede diferir en 10 % (del alcance absoluto del componente R) con relación a una segunda muestra. La distancia entre dos muestras en este espacio es una medida de su similitud. Para detectar muestras de adiestramiento que sean similares a la muestra de clasificación actual, se define un radio de búsqueda. Cualquier muestra de adiestramiento cuya distancia desde la muestra de clasificación, sea menor que el radio de búsqueda, se considera similar a la muestra de clasificación, y se usa en el cálculo de la profundidad. La distancia en el espacio de búsqueda n-dimensional se mide usando una métrica Euclidiana simple. En datos que no ocupen una porción significativa del espacio de características n-dimensional, se usan métricas de distancia de Mahalanobis, para proporcionar mejores resultados. Medios alternativos para ampliar el alcance de los datos, tal como igualación de histograma o el análisis de componentes principales de los componentes RGB, YUV o HSV, proporcionan beneficios similares . El radio de búsqueda es un parámetro crítico en la estimación exacta de la profundidad y está configurado con relación a las características de los datos. En datos que exhiban alta autocorrelacion espacial o temporal, el radio se fija en valores más pequeños que para imágenes con baja autocorrelacion espacial o temporal.

El radio de búsqueda puede ser diferente para cada dimensión del espacio de características. Por ejemplo, el radio de búsqueda en el eje x puede ser diferente del radie de búsqueda en el eje que represente la intensidad del color rojo. Además, el proceso de aprendizaje puede adaptar estos parámetros a los datos, dentro de ciertos límites definidos por el usuario. Por ejemplo, si no se identifican muestras de adiestramiento apropiadas, dentro de un radio espacial de 5% y un radio del color de 10%, entonces el radio espacial se incrementa a 10%. La figura 8 ilustra un ejemplo simplificado del proceso de búsqueda candidato. La figura representa un espacio de búsqueda bidimensional , con variaciones en la coordenada espacial x de muestras grafícadas contra variaciones en la intensidad del color rojo, para propósitos de ilustración. Dentro de este espacio se encuentra cierto número de muestras de adiestramiento 20. Dentro de una distancia de un primer radio 21 del pixel objetivo 11 no existen muestras de adiestramiento. El proceso de aprendizaje expande entonces su búsqueda a un segundo radio de búsqueda 22 del pixel objetivo 11 e identifica 3 muestras de adiestramiento candidatos. Se pueden usar estrategias de búsqueda alternativas, para identificar candidatos de adiestramiento apropiados. En esas estrategias los datos de adiestramiento se almacenan en estructuras tal como un árbol de decisiones, un árbol k-d o un diagrama de Voronoi n-dimensional . Aunque esas estrategias pueden incrementar la velocidad con la cual se identifican muestras de adiestramiento candidatos, no afecta la naturaleza de la invención. Similarmente, las estrategias de búsqueda que exploten la proximidad de muestras de clasificación subsecuentes, en el espacio de características, aplicando la función memo a las muestras de adiestramiento, pueden mejorar la velocidad con la cual se identifiquen muestras de adiestramiento candidatos, pero no añaden nada significativo a la invención.

Aprendizaje con Ponderación de la Distancia Para calcular una profundidad para cualquier muestra de clasificación dada, se requiere de una o más muestras de adiestramiento que se consideren similares a la muestra de clasificación, tal como se describió anteriormente. A estas muestras de adiestramiento se hace referencia como las muestras de adiestramiento "candidatos". Se calcula la profundidad de la muestra de clasificación, como un promedio ponderado de la profundidad de las muestras de adiestramiento candidatos. El peso atribuido a cualquier muestra de adiestramiento candidato es relativo a su distancia desde la muestra de clasificación en el espacio n-dimensional . Como se describió anteriormente, la distancia se normaliza y los datos pueden sesgarse usando la métrica de Mahalanobis o análisis de estilo de componentes principales . La figura 9 ilustra un ejemplo simplificado del proceso de cálculo de la profundidad. Como en la figura 8, la figura 9 representa un espacio de búsqueda bidimensional con variaciones en la coordenada espacial x de muestras graficadas contra variaciones en la intensidad de color rojo, para el propósito de ilustración. Se muestran 3 muestras de adiestramiento candidatos 19 a diferentes distancias (marcadas como wl,w2,w3) del pixel objetivo 11. La profundidad puede calcularse como un promedio ponderado de las muestras de adiestramiento candidatos, usando: (w1*D1+w2*D2+w3*D3) Profundidad del Pixel Objetivo = .. . (w1+w2+w3) En donde Di es la profundidad de la muestra de adiestramiento, a una distancia de wl desde el pixel objetivo 11, D2 es la profundidad de la muestra de adiestramiento a una distancia w2 del pixel objetivo, y D3 es la profundidad de la muestra de adiestramiento a una distancia 3 del pixel objetivo 11. En la modalidad preferida los pesos de ponderación son inversamente proporcionales al cuadrado de la distancia en el espacio n-dimensional .

Modalidad Alternativa En una modalidad alternativa, el proceso de aprendizaje analiza en conjunto completo de datos de adiestramiento disponibles e infiere reglas que gobiernen la relación de las características de la imagen, con la profundidad de una muestra. En este proceso el espacio de características n-dimensional , se divide o parte en un conjunto de regiones. La figura 5 ilustra una representación simplificada de este principio. En este ejemplo, el espacio n-dimensional se divide por límites de decisión 23 en cierto número de regiones rectangulares. Se asigna un valor de profundidad al pixel objetivo 11 en base a la región que ocupa. En la práctica, el algoritmo de árbol modelo M5 se usa para llevar a cabo la división del espacio de características. El algoritmo M5 mejora con respecto al ejemplo básico descrito anteriormente, en dos formas. Los límites de decisión no tienen que ser perpendiculares a los ejes del espacio de características, y las profundidades pueden variar dentro de regiones individuales, como una función lineal de las características de la imagen. Los experimentados en la técnica del Aprendizaje de Máquinas apreciarán que pueden usarse varios esquemas de aprendizaje, en lugar del algoritmo de árbol modelo M5, incluyendo redes neuronales, árboles de decisión, gráficas de decisión y clasificadores de proximidad más cercana. La naturaleza exacta del algoritmo de aprendizaje no afecta la novedad de la invención. En la modalidad preferida, el proceso de aprendizaje opera en las características de la imagen x,y,R,G,B. Modalidades alternativas pueden operar en características de la imagen de mayor nivel, tales como conjuntos pixeles más grandes y mediciones en un conjunto de pixeles, tales como la media y varianza o bordes, esquinas, etc. (es decir, la respuesta de un detector de características). Conjuntos más grandes de pixeles pueden representar, por ejemplo, segmentos en la imagen, siendo conjuntos de pixeles conectados, que formen una región homogénea .

Fase Dos La segunda fase opera en una secuencia de imágenes en la que al menos un cuadro haya sido identificado como un cuadro clave. Recibe datos estéreo tridimensionales para cada cuadro clave, típicamente en la forma de mapas de profundidad. Los mapas de profundidad pueden deberse a cualquier proceso, tal como, aunque no limitado a, especificación humana, la salida de la primera fase descrita anteriormente, la profundidad determinada a partir de imágenes estéreo o la adquisición directa de la profundidad usando sistemas de búsqueda de alcance. Alternativamente, la información estéreo tridimensional puede ser en cierta forma diferente a los mapas de profundidad, por ejemplo información de disparidad obtenida de un cuadro clave que contenga un par estéreo . Para todos los otros cuadros en la secuencia de imágenes bidimensionales , la invención proporciona especificación de los mapas de profundidad, en base a la información de cuadros clave disponible inicialmente . Se espera que el número de cuadros clave sea una pequeña fracción del número total de cuadros. De aquí que la invención proporciona una forma para reducir en gran medida la cantidad de mapas de profundidad que se requieren generar inicialmente .

Creación de la Función de Transformación Una vez que el sistema está provisto de los cuadros clave y sus mapas de profundidad correspondientes, el sistema analiza los cuadros clave y el mapa de profundidad correspondiente disponible inicialmente, a fin de crear una función de t ansformación. La función de transformación puede ser un proceso o función que tome como dato de entrada cualquier medición determinada de una imagen bidimensional , y proporciona como salida un mapa de profundidad para esa imagen. Esta transformación se aprende capturando la relación entre los datos de imagen del cuadro clave y los datos del mapa de profundidad disponibles para esas imágenes. La función de transformación puede tomar la forma de cualquier unidad de procesamiento genérica en donde se reciban datos de entrada, se procesen, y proporcione una salida. Preferentemente esta unidad de procesamiento puede ser sometida a un proceso de aprendizaje, en donde su naturaleza sea determinada por el examen de los datos del cuadro clave, y su mapa de profundidad correspondiente. En el campo de aprendizaje de máquinas, esas funciones de transformación son conocidas e incluyen, aunque no están limitadas a, redes neuronales, árboles de decisión, gráficas de decisión, árboles modelo y clasificadores de proximidad más cercana. El sistema intenta aprender las relaciones entre los datos de entrada y los datos de salida deseados. En un proceso de aprendizaje, la información proveniente de la imagen del cuadro clave bidimensional, se presenta al algoritmo de adiestramiento. Esta información puede ser presentada en una base de pixel por pixel, en donde se proporcionen mediciones de pixeles, tales como valores de rojo, verde y azul, u otras mediciones tales como la luminancia, crominancia, contraste y medidas espaciales tales como la ubicación horizontal y vertical en la imagen. Alternativamente, la información se puede presentar en la forma de característica de imagen de mayor nivel, tal como conjuntos más grandes de pixeles y mediciones de un conjunto de pixeles, tales como una media y varianza, o bordes, esquinas, etc. (es decir, la respuesta de un detector de característica). Conjuntos más grandes de pixeles pueden representar, por ejemplo, segmentos en la imagen, siendo conjuntos de pixeles conectados que forman una región homogénea. Para propósitos ilustrativos únicamente, la imagen bidimensional puede ser representada en la forma x,y,R,G,B en donde x e y representan las coordenadas x e y de cada pixel y R,G,B representan el valor del rojo, verde y azul de ese pixel . Después, el mapa de profundidad correspondiente se presenta al algoritmo de adiestramiento, de manera tal que pueda aprender su transformación requerida. Normalmente los pixeles individuales se presentan al algoritmo de adiestramiento. Sin embargo, si se usan características de imagen de mayor nivel, tales como conjuntos más grandes de pixeles, o segmentos, el mapa de profundidad puede ser una medida de la profundidad de ese conjunto de pixeles, tal como la media y la varianza.

Para propósitos ilustrativos únicamente, el mapa de profundidad puede ser representado en la forma z,x,y en donde x e y representan las coordenadas x e y de cada pixel y z representa el valor de profundidad asignado a ese pixel correspondiente. El proceso de aprendizaje de esta relación entre datos de entrada, y la salida deseada, será comprendido por aquellos que hayan trabajado en el área de la inteligencia artificial, y puede tomar muchas formas. Modalidades preferidas de un algoritmo de aprendizaje son aquellas que busquen diseñar una función de transformación que minimice cierta medida del error de transformación. El algoritmo de aprendizaje intenta generalizar las relaciones entre la información de imágenes bidimensionales y el mapa de profundidad presente en los ejemplos de cuadros clave. Esta generalización se aplicará después para completar los mapas de profundidad para toda la secuencia. Ejemplos de algoritmos de aprendizaje exitosos, conocidos en la técnica, son el algoritmo de retropropagación, para redes neuronales de aprendizaje, el algoritmo C .5 para árboles de decisión de aprendizaje, y el algoritmo de medias K para clasificadores de aprendizaje de tipo grupos. Para propósitos ilustrativos únicamente, se puede considerar que el algoritmo de aprendizaje calcula la siguiente relación para cada pixel en la imagen bidimensional zn = ka . xn + kb . yn + kc . Rn + k^-G^ + ke.Bn en donde n es el enésimo pixel en la imagen del cuadro clave zn es el valor de la profundidad asignado al pixel en xn,yn de ka a ke son constantes y son determinadas por el algoritmo Rn es el valor del componente Rojo del pixel en xn i Yn Gn es el valor del componente Verde del pixel en xn,yn Bn es el valor del componente Azul del pixel en Los experimentados en la técnica apreciarán que la ecuación anterior es una simplificación para propósitos de explicación únicamente, y en la práctica no funcionará. En una implementación práctica, usando por ejemplo una red neuronal y dado el gran número de pixeles en una imagen, la red aprendería una gran ecuación que contendría k valores, multiplicaciones y sumas- Este proceso se ilustra en la figura 3, la cual muestra un proceso similar que podría usar un número diferente de cuadros clave.

Aplicación de la Función de Transformación La dimensión toma después esta función de transformación y la aplica a través de un conjunto de imágenes bidimensionales que todavía no tienen disponibles mapas de profundidad. Para una imagen bidimensional determinada, en ese conjunto, los datos de entrada a la función de transformación son determinados en una manera similar a la presentada a la función de transformación durante el proceso de aprendizaje. Por ejemplo, si la función de t ansformación estaba aprendiendo mediante la presentación de las medidas de un solo pixel como dato de entrada, la función de transformación requerirá ahora estas mismas medidas para los pixeles que se encuentren en la nueva imagen. Con estos datos de entrada, la función de transformación realiza su tarea de aprendizaje y produce una medida de profundidad. Nuevamente, en el ejemplo para un solo pixel, esta medida de profundidad puede ser un valor de profundidad simple. En este ejemplo, la función de transformación se aplica a través de toda la secuencia de imágenes, para completar un conjunto completo de datos de profundidad para la secuencia de imágenes. Alternativamente, si la función de transformación fue adiestrada usando conjunto más grande de pixeles, se requiere ahora generar esos conjuntos más grandes de pixeles para la nueva imagen. En estos conjuntos de pixeles se realizan mediciones de mayor nivel, tales como la media y la varianza, en la misma manera que durante el proceso de aprendizaje. Con estos datos de entrada ahora establecidos, la función de transformación produce la medida de profundidad requerida, para ese conjunto de pixeles. Para una secuencia de imágenes bidimensionales , cuadros clave con mapas de profundidad pueden separarse a través de toda la secuencia, en cualquier forma arbitraria. En la modalidad preferida, la función de transformaciones será presentada con un conjunto de cuadros clave, y sus mapas de profundidad correspondientes, que abarquen un conjunto de imágenes bidimensionales que tengan algo en común. En el caso más simple, se usan dos cuadros clave para adiestrar la función de transformación, y la función de transformación se usa después para determinar los mapas de profundidad para las imágenes bidimensionales entre los dos cuadros clave mencionados. Sin embargo, no hay restricción del número de cuadros clave que puedan usarse para adiestrar una función de transformación. Además, no hay restricción del número de funciones de transformación que se usen para completar un conjunto completo de imágenes bidimensionales. En la modalidad preferida dos cuadros clave, separados por uno o más cuadros interventores, se definen como datos de entrada a esta segunda fase de procesamiento. El propósito de esta fase es asignar un mapa de profundidad a cada uno de estos cuadros interventores. El orden preferido en el cual se asignen mapas de profundidad a los cuadros interventores, es procesando prirnerc cuadros más cercanos en el tiempo a los cuadros clave. Los cuadros que han sido procesados llegan a ser entonces cuadros claves para los cuadros subsecuentes del mapa de profundidad. La adición de esta variable tiempo ayuda a la función de adiestramiento a generalizar la información disponible en los cuadros clave. En la ausencia de una variable tiempo, es posible que la información de profundidad en dos cuadros clave puedan contradecirse una con la otra. Esto podria ocurrir cuando pixeles de un color similar se encuentren en la misma región espacial en ambos cuadros clave, pero pertenezcan a diferentes objetos. Por ejemplo, en el primer cuadro clave, se puede observar un carro verde en el centro de la imagen, con una característica de profundidad que lo lleve a primer plano. En el próximo cuadro clave, el carro puede haberse movido, revelando detrás del mismo un prado verde, cuya característica de profundidad especifica una región de fondo central. El algoritmo de adiestramiento se presenta con dos cuadros clave, ambos de los cuales tienen pixeles verdes en el centro de la imagen, pero tienen diferentes características de fondo. No será posible resolver este conflicto, y no se espera que la función de transformación se desempeñe bien en esa región. Con la introducción de una variable tiempo, el algoritmo será capaz de resolver el conflicto, reconociendo que los pixeles verdes en el centro de la imagen, son pixeles de primer plano en un tiempo cercano al primer cuadro clave en la secuencia de imágenes. A medida gue el tiempo progresa hacia el segundo cuadro clave, el algoritmo de adiestramiento se inclinará más a reconocer pixeles verdes en el centro de la imagen como la profundidad de fondo medio del prado verde. Este proceso se ilustra mediante el ejemplo de la figura 6. Los recuadros representan cuadros individuales de una secuencia de imágenes. La hilera superior 6 representa los cuadros fuente, que están numerados de acuerdo con su posición relativa en la secuencia de imágenes. La hilera inferior representa los mapas de profundidad generados por esta fase. La numeración indica el orden en el que se generan mapas de profundidad. Sin embargo, se comprenderá que los cuadros de profundidad 1 y 2 pueden ser procesados en orden inverso, similarmente los cuadros de profundidad 3 y 4 pueden invertirse, etc. Los cuadros clave 7 se proporcionan como entradas al proceso descrito anteriormente. El primer mapa de profundidad que se va a generar está asociado con el cuadro fuente 1 tal como se indica. Cualquier mapa de profundidad subsecuente se genera usando los dos mapas de profundidad previos, generados.

Modalidad Preferida Para cada pixel en el cuadro al que se le va realizar la transformación de la profundidad, se usan las características de la imagen, del pixel objetivo, para determinar la profundidad asociada con ese pixel. En la modalidad preferida se recuperan dos estimados de profundidad, uno de cada cuadro clave. Este proceso se ilustra en la figura 7 la cual muestra cómo se compara un pixel objetivo 11 con el cuadro clave, fuente, más cercano, 6, antes y después del cuadro en la secuencia de imágenes (pasos 12 y 13) . El proceso de aprendizaje, similar al descrito previamente, usa un radio de búsqueda 14 para identificar pixeles con características de imagen similares, y usa la profundidad asociada con esos pixeles (paso 15 y 16) para calcular una profundidad para el pixel objetivo (pasos 17 y 18) . Cada cuadro clave genera un estimado de la profundidad del pixel objetivo, que se definirá como Di y D2. Para determinar una profundidad final asociada con el pixel objetivo, las profundidades DI y D2 deben combinarse. En la modalidad preferida se calcula un promedio ponderado de estos valores, usando la posición de los cuadros clave como el parámetro de ponderación. Si la distancia desde el cuadro actual hasta el primer cuadro clave es TI y la distancia al segundo cuadro clave es T2, entonces la profundidad del pixel objetivo está dada como: wl w2 profundidad = *D1+ *D2 (wl+w2) En donde DI y D2 son la profundidad calculada a partir del cuadro clave 1 y del cuadro clave 2, respectivamente . En algunos casos, el proceso de aprendizaje no puede determinar un valor de profundidad para un pixel determinado. Si durante el proceso de calculo anterior, uno de los estimados de profundidad de los dos cuadros clave, no puede ser determinado, entonces el pixel objetivo se asigna al estimado de profundidad del cuadro clave que sea asignado y no se usa ponderación. Si ninguno de los dos estimados DI y D2 son definidos, entonces el radio de búsqueda se expande y el proceso se repite. Deberá observarse que únicamente es necesario un cuadro clave para generar mapas de profundidad para cualquier otro cuadro. Sin embargo, en situaciones en donde la profundidad de los objetos cambie en una secuencia de imágenes, dos o más cuadros clave ponderados, tal como se describió anteriormente, proporcionarán resultados mejorados. Deberá apreciarse que el orden en el que se procesen los cuadros, y la manera en que se combinen los resultados de múltiples cuadros clave, pueden variarse sin afectar substancialmente la naturaleza de la invención. Como en el caso de una imagen bidimensional se apreciará que la etapa de adiestramiento puede ser incluida por el aprendizaje basado en casos, a fin de determinar un estimado de profundidad en cualquier pixel de una imagen en la secuencia. Este proceso se ilustra en la figura 4. Se observa que un proceso de aprendizaje, similar al usado para la fase 1, puede implementarse en la fase 2. Ambcs procesos consideran la relación entre los datos de entrada y la salida deseada, especialmente la profundidad. La principal diferencia es que el proceso de aprendizaje para la fase dos deberá considerar un elemento de tiempo dependiente del número de cuadros, mientras que la fase 1 no necesita considerar un elemento de tiempo.

Otras Aplicaciones Las funciones de transformación dan una representación total de la información de profundidad, para todas las imágenes de cuadros no claves, en la secuencia. Esto puede explotarse como una codificación de esta información de profundidad. Se espera que la función de transformación pueda ser transmitida con una cantidad de datos relativamente pequeña, y de aquí que represente una compresión significativa de la información de profundidad.

Considérese el caso en donde hay dos cuadros clave, separados 20 cuadros en la secuencia. Una función de transformación ha sido aprendida para estos dos cuadros clave, y esta función de transformación proporciona ahora toda la información de profundidad para los cuadros intermedios. La función de transformación misma representa una compresión de toda esta información de profundidad, a través de los 20 cuadros. Para propósitos de ejemplo únicamente, si la función de transformación puede ser escrita en un archivo usando 6000 bytes, entonces por este costo se ganan un valor de 20 cuadros de información de profundidad. Efectivamente, esto representa un tamaño de archivo de 6000/20 = 300 bytes por cuadro. En una implementación práctica la compresión efectiva será substancial. En una aplicación adicional, esta compresión anterior puede permitir la transmisión eficiente de información tridimensional, insertada en una fuente de imágenes bidimensionales, es decir una imagen tridimensional compatible con imágenes bidimensionales. Dado que las funciones de transformación requieren de una longitud de archivo que es típicamente una diminuta fracción de los datos de imagen bidimensional para la cual proporciona información tridimensional, la adición de información tridimensional a la secuencia de imágenes bidimensionales, se consigue con un gasto muy pequeño.

En este caso, la información tridimensional se genera antes de la observación, o en tiempo real, en el extremo de observación, aplicando simplemente la función de transformación en cada imagen bidimensional en la secuencia, a medida que se observa. Esto se hace posible por el hecho de que los tipos de funciones de transformación encontrados en el aprendizaje de máquina son muy eficientes para proporcionar cálculos después de que han sido adiestradas. Típicamente el proceso de adiestramiento es lento y requiere de muchos recursos, y usualmente se lleva a cabo afuera de línea durante el proceso de construcción del contenido de imagen tridimensional. Una vez adiestrada, la función de transformación puede ser transmitida al extremo del observador y se desempeñará con un rendimiento muy alto, apropiado para la conversión, en tiempo real, de la imagen bidimensional en una tridimensional. Las descripciones previas propiedad, de la solicitante, se han relacionado a técnicas para convertir imágenes bidimensionales en imágenes tridimensionales estereoscópicas. Los procesos de conversión descritos incorporaron la generación de un mapa de profundidad que estaba asociado con una imagen bidimensional. En una modalidad los mapas de profundidad fueron creados manualmente en una base cuadro por cuadro. La mejora descrita en esta solicitud permite que se creen mapas de profundidad en un menor número de cuadros clave, y se calculan los mapas de profundidad intermedios. Dado que los cuadros clave representan una pequeña fracción del número total de cuadros, esta nueva técnica representa una mejora substancial en la eficiencia de la conversión, en términos tanto de tiempo como de costo. Un intento especifico de esta descripción es que la invención se aplique a la creación de mapas de profundidad para otras situaciones diferentes a la producción de imágenes estereoscópicas. Los experimentados en la técnica sabrán que los mapas de profundidad se usan ampliamente dentro de la industria de los efectos especiales, en un proceso llamado rotoscopia. A fin de componer una acción en vivo, o imágenes generadas por computadora, para obtener una imagen bidimensional , frecuentemente es necesario producir manualmente una trama o mapa de profundidad, para cada cuadro de la imagen bidimensional. Estas tramas permiten que se compongan imágenes adicionales a fin de que parezcan moverse con la geometría apropiada en la imagen bidimensional original. La invención descrita anteriormente permite la generación rápida de esas tramas. También es conocido que se están desarrollando cámaras que permiten obtener un mapa de profundidad a partir de una escena en vivo. Típicamente éstas usan técnicas de búsqueda de alcance con láser, y son conocidas genéricamente como dispositivos LIDAR a fin de capturar mapas de profundidad a velocidades de cuadros de la televisión, se requiere de un sistema caro y complejo. La aplicación de esta invención permitiría construir dispositivos LIDAR más simples y menos complejos, que únicamente necesiten capturar mapas de profundidad, a una fracción de la velocidad del campo de video, o a otros períodos no frecuentes, y los mapas de profundidad faltantes serían producidos por interpolación usando las técnicas descritas en esta invención. Se hace constar que con relación a esta fecha, el mejor método conocido por la solicitante para llevar a la práctica la citada invención, es el que resulta claro de la presente descripción de la invención.

Claims

REIVINDICACIONES
Habiéndose descrito la invención como antecede se reclama como propiedad lo contenido en las siguientes rei indicaciones : 1. Un método para crear un mapa de profundidad, caracterizado porque incluye los pasos de: asignar una profundidad a al menos un pixel o porción de una imagen; determinar la ubicación relativa y las características de la imagen, para cada uno del al menos un pixel o porción de esa imagen; utilizar la(s) profundidad (es ) , características de la imagen y ubicación relativa, respectiva, para determinar una configuración de un primer algoritmo para evaluar las características de profundidad como una función de la ubicación relativa y características de la imagen; utilizar el primer algoritmo para calcular una característica de profundidad para cada pixel o porción de la imagen; en donde las características de profundidad forman un mapa de profundidad para esa imagen. 2. Un método para crear un mapa de profundidad, caracterizado porque incluyen los pasos de: asignar una profundidad a al menos un pixel o porción de una imagen; determinar las coordenadas x,y y características de la imagen, para cada uno del al menos un pixel o porción de la imagen; utilizar la(s) profundidad (es) , las características de la imagen y las coordenadas x,y respectivas, para determinar un primer algoritmo para evaluar las características de profundidad como una función de las coordenadas x,y, así como de las características de la imagen; utilizar el primer algoritmo para calcular una característica de profundidad para cada pixel o porción de la imagen; en donde las características de profundidad forman un mapa de profundidad para esa imagen.
3. Un método de conformidad con la reivindicación 1, caracterizado porque las características de la imagen incluyen valores del rojo, verde y azul (RGB) .
4. Un método de conformidad con cualesquiera de las reivindicaciones precedentes, caracterizado porque incluye además el paso de reasignar una profundidad a cualquier pixel o porción de esa imagen, para corregir cualquier inconsistencia.
5. Un método de conformidad con cualesquiera de las reivindicaciones precedentes, caracterizado porque las características de la imagen incluyen al menos una seleccionada entre la luminancia, crominancia, contraste o medidas espaciales.
6. Un método de conformidad con cualesquiera de las reivindicaciones precedentes, caracterizado porque el primer algoritmo puede ser representado por la ecuación: z = f (x,y,R,G,B) en donde x e y definen la ubicación relativa de una muestra.
7. Un método de conformidad con cualesquiera de las reivindicaciones precedentes, caracterizado porque se utiliza un algoritmo de aprendizaje para determinar la configuración del primer algoritmo.
8. Un método de conformidad con la reivindicación 7, caracterizado porque, para cada pixel en la imagen, el algoritmo de aprendizaje calcula: zn = ka.xn + kb.yn + kc.Rn + kd.Gn + ke.Bn en donde n es el enésimo pixel en la imagen del cuadro clave zn es el valor de la profundidad asignado al pixel en xn Yn de ka a ke son constantes y son determinadas por el algoritmo Rn es el valor del componente Rojo del pixel en Gn es el valor del componente Verde del pixel en xn,yn n es el valor del componente Azul del pixel en
9. Un método de conformidad con la reivindicación 7 ú 8, caracteri ado porque se introduce un componente aleatorio al algoritmo de aprendizaje, para reducir el adiestramiento excesivo.
10. Un método de conformidad con la reivindicación 9, caracterizado porque el componente aleatorio es un número aleatorio pequeño, positivo o negativo .
11. Un método de conformidad con cualesquiera de las reivindicaciones de la 7 a la 10, caracterizado porque el algoritmo de aprendizaje identifica inicialmente pixeles que tienen características similares a un pixel conocido.
12. Un método de conformidad con la reivindicación 11, caracterizado porque se buscan pixeles similares dentro de un radio de búsqueda.
13. Un método de conformidad con la reivindicación 12, caracterizado porque el radio de búsqueda varía para cada característica.
14. Un método de conformidad con cualesquiera de las reivindicaciones de la 11 a la 13, caracterizado porque la profundidad de un pixel se determina a través de un promedio ponderado de distancias desde pixeles similares.
15. Un método de conformidad con la reivindicación 14, caracterizado porque los pesos de ponderación son inversamente proporcionales a la distancia.
16. Un método de conformidad con la reivindicación 7, caracterizado porque cada característica se divide o parte en un conjunto de regiones, y se asigna un valor de profundidad en base a la región que es ocupada.
17. Un método para crear una serie de mapas de profundidad, para una secuencia de imágenes, caracterizado porque incluye los pasos de: recibir un mapa de profundidad para al menos un cuadro de la secuencia de imágenes, utilizar el al menos un mapa de profundidad, para determinar una segunda configuración de un segundo algoritmo, para evaluar las características de profundidad, como una función de la ubicación relativa y de las características de la imagen; utilizar el algoritmo para crear un mapa de profundidad para cada cuadro de esa secuencia de imágenes.
18. Un método para crear una serie de mapas de profundidad para una secuencia de imágenes, caracterizado porque incluye los pasos de: recibir un mapa de profundidad para al menos un cuadro de la secuencia de imágenes; utilizar el al menos un mapa de profundidad para determinar un segundo algoritmo para evaluar las características de profundidad como una función de las coordenadas x,y y de las características de la imagen; utilizar el algoritmo para crear un mapa de profundidad para cada cuadro de la secuencia de imágenes.
19. Un método de conformidad con la reivindicación 17 ó con la reivindicación 18, caracterizado porque se reciben al menos dos mapas de profundidad que corresponden a al menos dos cuadros de la secuencia de imágenes .
20. Un método de conformidad con cualesquiera de las reivindicaciones de la 17 a la 19, caracterizado porque las características de la imagen incluyen valores RGB.
21. Un método de conformidad con cualesquiera de "las reivindicaciones de la 17 a la 20, caracterizado porque las características de la imagen incluyen al menos una seleccionada entre la luminancia, crominancia, contraste o medidas espaciales.
22. Un método de conformidad con cualesquiera de las reivindicaciones de la 17 a la 21, caracterizado porque se utiliza un algoritmo de aprendizaje para determinar la configuración del segundo algoritmo.
23. Un método de conformidad con la reivindicación 22, caracterizado porque el algoritmo de aprendizaje es uno seleccionado entre el algoritmo de retropropagación, algoritmo C4.5, o algoritmo de medias K.
24. Un método de conformidad con la reivindicación 22 ó 23, caracterizado porque el segundo algoritmo calcula: zn = ka . xn + . yn + kc . Rn + kd . Gn + ke . Bn en donde n es el enésimo pixel en la imagen del cuadro clave Zn es el valor de la profundidad asignado al pixel en xn/ yn de ka a ke son constantes y son determinadas por el algoritmo Rn es el valor del componente Rojo del pixel en X-n, Yn ' Gn es el valor del componente Verde del pixel en xn,yn Bn es el valor del componente Azul del pixel en
25. Un método de conformidad con cualesquiera de las reivindicaciones de la 17 a la 24, caracterizado porque se crean configuraciones de algoritmos, adicionales, para cada par de cuadros para el cual se han recibido mapas de profundidad.
26. Un método para crear una serie de mapas de profundidad para una secuencia de imágenes, caracterizado porque incluye los pasos de: recibir mapas de profundidad para al menos dos cuadros clave de la secuencia de imágenes; utilizar los mapas de profundidad para determinar un segundo algoritmo para evaluar las características de profundidad como una función de las coordenadas x,y, así como de las características de la imagen; utilizar el algoritmo para crear un mapa de profundidad de cada cuadro de la secuencia de imágenes, en donde los cuadros adyacentes a los cuadros clave se procesan antes de los cuadros no adyacentes .
27. Un método de conformidad con la reivindicación 26, caracterizado porque una vez que se procesa el cuadro clave adyacente, el cuadro clave adyacente se considera después un cuadro clave para la creación de mapas de profundidad adicionales .
28. Un método de conformidad con la reivindicación 22, 23, 26 ó 27, caracterizado porque el segundo algoritmo calcula: zn = ka . xn + kb . yn + kc . Rn + kd . Gn + ke . Bn + kf . T en donde n es el enésimo pixel en la imagen del cuadro clave zn es el valor de la profundidad asignado al pixel en xn,yn de ka a kf son constantes y son determinadas por el algoritmo Rn es el valor del componente Rojo del pixel en Xn, yn Gn es el valor del componente Verde del pixel en xn,yn Bn es el valor del componente Azul del pixel en Xn, Yn T es una medida del tiempo, para este cuadro particular en la secuencia.
29. Un método para crear una serie de mapas de profundidad para una secuencia de imágenes, caracterizado porque incluye los pasos de: seleccionar al menos un cuadro clave de la secuencia de imágenes; para cada uno del al menos un cuadro clave, asignar una profundidad a al menos un pixel o porción de cada cuadro ; determinar la ubicación relativa y características de la imagen, para cada uno del al menos un pixel o porción de cada cuadro clave; utilizar la(s) profundidad (es) , las características de la imagen y la ubicación relativa, respectiva, para cada uno del al menos un cuadro clave, para determinar una primera configuración de un primer algoritmo para cada uno del al menos un cuadro, para evaluar las caracteristicas de profundidad como una función de la ubicación relativa y de las caracteristicas de profundidad; utilizar el primer algoritmo para calcular las caracteristicas de profundidad para cada pixel o porción de cada uno del al menos un cuadro clave; en donde las caracteristicas de profundidad forman un mapa de profundidad para cada uno del al menos un cuadro clave; utilizar cada mapa de profundidad para determinar una segunda configuración de un segundo algoritmo, para evaluar las caracteristicas de profundidad para cada cuadro como una función de la ubicación relativa y de las caracteristicas de la imagen; utilizar el segundo algoritmo para crear mapas de profundidad respectivos, para cada cuadro de la secuencia de imágenes.
30. Un método de conformidad con la reivindicación 29, caracterizado porque los cuadros adyacentes a los cuadros clave se procesan antes que los cuadros no adyacentes.
31. Un método de conformidad con la reivindicación 30, caracterizado porque seguido al procesamiento, los cuadros adyacentes se consideran como cuadros clave para el procesamiento adicional.
32. Un método para codificar una serie de cuadros, caracterizado porque incluye transmitir al menos una función de transformación, junto con los cuadros, en donde la función de transformación incluye un algoritmo para evaluar las características de profundidad como una función de la ubicación relativa y de las características de la imagen.
33. Un método de conformidad con la reivindicación 32, caracterizado porque las características de la imagen incluyen valores RGB.
34. Un método de conformidad con la reivindicación 32 ó 33, caracterizado porque las características de la imagen incluyen al menos una seleccionada entre la luminancia, crominancia, contraste o medidas espaciales.
35. Un método de conformidad con cualesquiera de las reivindicaciones de la 32 a la 34, caracterizado porque se utiliza un algoritmo de aprendizaje para determinar la función de transformación.
36. Un método de conformidad con la reivindicación 35, caracterizado porque el algoritmo de aprendizaje es uno seleccionado entre el algoritmo de retropropagación, algoritmo C4.5, o algoritmo de medias K.
37. Un método de conformidad con la reivindicación 35 ó 36, caracterizado porque la función de transformación calcula: zn = ka.xn + kb . yn + kc . Rn + kd.Gn + ke.Bn en donde n es el enésimo pixel en la imagen del cuadro clave zn es el valor de la profundidad asignado al pixel en xn,yn de ka a ke son constantes y son determinadas por el algoritmo Rn es el valor del componente Rojo del pixel en ??, yn Gn es el valor del componente Verde del pixel en xn,yn Bn es el valor del componente Azul del pixel en
38. Un método de conformidad con cualesquiera de las reivindicaciones de la 32 a la 37, caracterizado porque se crean algoritmos adicionales para cada par de cuadros para los cuales se han recibido mapas de profundidad.