MX2012007593A - Metodo para el reconocimiento de una cabeza. - Google Patents

Metodo para el reconocimiento de una cabeza.

Info

Publication number
MX2012007593A
MX2012007593A MX2012007593A MX2012007593A MX2012007593A MX 2012007593 A MX2012007593 A MX 2012007593A MX 2012007593 A MX2012007593 A MX 2012007593A MX 2012007593 A MX2012007593 A MX 2012007593A MX 2012007593 A MX2012007593 A MX 2012007593A
Authority
MX
Mexico
Prior art keywords
depth
intensity
source image
contour
head
Prior art date
Application number
MX2012007593A
Other languages
English (en)
Inventor
Xavier Baele
Gonzalez Javier Martinez
Kevin Simons
Julien Thollot
Original Assignee
Softkinetic Software
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Softkinetic Software filed Critical Softkinetic Software
Publication of MX2012007593A publication Critical patent/MX2012007593A/es

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/162Detection; Localisation; Normalisation using pixel segmentation or colour matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Health & Medical Sciences (AREA)
  • Geometry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Length Measuring Devices By Optical Means (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

Lo que se describe en este documento es un método para el reconocimiento de una cabeza de humano en una imagen fuente; el método comprende detectar un contorno de por lo menos parte de un cuerpo humano en la imagen fuente, calcular una profundidad del cuerpo humano en la imagen fuente: a partir de la imagen fuente, se calculan un tamaño de radio mayor y un tamaño de radio menor de una elipse que corresponde a una cabeza de humano en la profundidad, y, para por lo menos varios de un conjunto de pixeles del contorno detectado, generar en un matriz de acumuladores por lo menos un segmento de una elipse centrada en la posición del pixel de contorno y que tiene los tamaños de radios mayor y menor; las posiciones de la máxima intensidad local en el arreglo de acumuladores se seleccionan como correspondientes a posiciones de los candidatos de cabezas de humano en la imagen fuente.

Description

MÉTODO PARA EL RECONOCIMIENTO DE UNA CABEZA CAMPO DE LA INVENCIÓN La presente invención se refiere a un método y a un sistema de computadora para el reconocimiento de una cabeza de humano en una imagen fuente. En particular, la presente invención se refiere a un método para utilizar información de profundidad para predecir el tamaño más probable percibido de la cabeza de humano a fin de ayudar en su reconocimiento.
ANTECEDENTES DE LA INVENCIÓN En varios sistemas de formación de imágenes y aplicaciones de tratamiento de imágenes, es ventajoso reconocer automáticamente la posición y/o la orientación de una cabeza de humano en una imagen fuente. Por ejemplo, un usuario puede interactuar con un programa que se ejecuta en un sistema de computadora, por ejemplo, un programa de videojuego, moviendo su cabeza dentro del rango de un dispositivo de formación de imágenes. De manera alternativa, tal método para el reconocimiento de una cabeza también se puede utilizar en un dispositivo de formación de imágenes para ajustar parámetros tales como apertura, tiempo de exposición, profundidad de foco, etc. con el fin de optimizarlos para retrato.
La interacción con los sistemas de computadora, y, en particular la entrada de datos y comandos, es un aspecto generalmente conocido. De manera convencional, dicha interacción tiene lugar a través de dispositivos de entrada físicos tales como teclados, ratones, ruedas de desplazamiento, plumas, pantallas táctiles, palancas de mando Goysticks), carpetas de juegos, etc. los cuales producen señales en respuesta a una acción física del usuario. Sin embargo, tales dispositivos de entrada físicos tienen muchos inconvenientes. Por ejemplo, solamente pueden ofrecer una cantidad limitada de señales de entrada diferentes, que en algunas aplicaciones tales como entornos de "realidad virtual" tridimensionales se sentirán poco prácticos y carentes de realismo. Además, son susceptibles al desgaste y su uso continuo puede inclusive tener consecuencias negativas para la salud del usuario, tal como Lesiones por Esfuerzo Repetitivo (LER).
También se conocen dispositivos y métodos de entrada alternativos. Por ejemplo, sistemas prácticos para el reconocimiento de voz son disponibles. Sin embargo, el reconocimiento de voz no es una alternativa práctica para algunas aplicaciones, tales como juegos de acción, en donde se requieren entradas rápidas, precisas y repetitivas por parte del usuario. Además, su eficacia se ve afectada de manera adversa por el ruido de segundo plano, y por lo general requieren un período de aprendizaje para reconocer un comando particular de la voz del usuario.
Otra alternativa es el reconocimiento de imágenes. En su forma más simple, los sistemas de reconocimiento de imágenes reconocen patrones binarios en colores contrastantes, tales como códigos de barras, y convierten estos patrones en señales binarias para su procesamiento. Los sistemas de reconocimiento de imágenes más avanzados pueden reconocer patrones más complejos en imágenes y producir una gran variedad de señales en respuesta. Tales sistemas de reconocimiento de imágenes se han propuesto, por ejemplo, en la Patente norteamericana No. 6256033, para reconocer los gestos de un usuario en un rango de un sistema de formación de imágenes. Sin embargo, los sistemas de formación de imágenes convencionales no tienen percepción de la profundidad y pueden producir simplemente una proyección en 2D de dicho usuario. Como resultado, el reconocimiento de los gestos del usuario es inherentemente defectuoso, limitado en el rango de posibles entradas y lleno de posibles errores de reconocimiento. En particular, tales sistemas tienen problemas que separan al usuario de su segundo plano.
El desarrollo de sistemas de formación de imágenes en 3D, sin embargo, ofrece la posibilidad de desarrollar métodos y dispositivos de reconocimiento de formas que permiten, por ejemplo, un mejor reconocimiento de gestos del usuario. Un sistema de formación de imágenes en 3D de este tipo se describe en G. Yahav, G. J. Iddam y D. Mandelboum, "3D Imaging Camera for Gaming Application". El sistema de formación de imágenes en 3D descrito en este documento es del denominado "Tiempo-De- Vuelo" o tipo TOF (por sus siglas en inglés), en el cual se obtiene una percepción de profundidad a partir de la forma de un frente de onda de luz reflejada de objetos en el rango del sistema de formación de imágenes en 3D. Sin embargo, también se han propuesto otros tipos de sistemas de formación de imágenes, como cámaras estéreo, LIDAR (un acrónimo del inglés Láser Imaging Detection and Ranging), radar, sonar, etc.
Se ha propuesto, por ejemplo, en la Solicitud de Patente Internacional con Número de Publicación WO 2008/128568 A1 capturar una imagen en 3D de una escena, para seleccionar un sujeto, tal como un cuerpo humano, en dicha imagen en 3D, y segmentar este sujeto en una pluralidad de regiones discretas incluyendo una cabeza.
En la Patente norteamericana No. 7,203,356, se propone, entre varias alternativas, utilizar el ajuste de elipse o elipsoide con el fin de determinar la posición de una cabeza de humano en una imagen fuente capturada por un sistema de formación de imágenes en 3D. Sin embargo, este documento del arte previo no describe cómo se obtienen los parámetros de la elipse o elipsoide que modelan la cabeza.
Un método de ajuste de modelo en 3D similar se ha propuesto por Zhengcheng Hu, Tetsuya Kawamura y Keiichi Uchimura en "Grayscale Correlation based 3D Model Fitting for Occupant Head Detection and Tracking", Stereo Vision, ISBN 978-953-7619-22-0, noviembre de 2008, I-Tech, Viena, Austria, pp. 91-102.
Todavía otro método que utiliza datos en 3D y ajuste de elipse con el fin de seguir una cabeza de humano se propuso por Ehsan Parvizi y Q. M. Jonathan Wu en "Real-Time 3D Head Tracking Based on Tools with Depth Sensor", 19a Conferencia Internacional de IEEE sobre Herramientas con Inteligencia Artificial. Sin embargo, este documento también falló en describir cómo se iban a obtener los parámetros preferidos del modelo preferido de una cabeza.
En "Transformée de Hough elliptique floue rapide", C. Leignel, O. Bernier, D. Collobert, y R. Seguier describieron un método implementado por computadora particularmente eficaz para reconocer un contorno elíptico en una imagen, y su aplicación para el reconocimiento de una cabeza. En este método, un tipo particular de transformada de Hough elíptica se utiliza para reconocer una forma elíptica en una imagen de contorno generada a partir de una imagen fuente.
Una transformada de Hough es un método para encontrar en una imagen una instancia imperfecta de un objeto dentro de una cierta clase mediante un procedimiento de votación. Este procedimiento de votación se lleva a cabo en un llamado matriz de acumuladores, a partir del cual se obtienen candidatos de objeto como máxima intensidad local. El arreglo de acumuladores está poblado generando, en posiciones que corresponden a aquellas de puntos individuales en la imagen, instancias del objeto que se busca. En el caso particular de una transformada de Hough elíptica, el objeto es una elipse. La máxima intensidad local en el arreglo de acumuladores, es decir, las posiciones en las que una pluralidad de elipses se interseca, representa posiciones de candidatos para una elipse similar en la imagen. En el método descrito por Leignel et al, con el fin de aumentar la velocidad de cómputo, el arreglo de acumuladores está poblado con solamente segmentos representativos de estas elipses. Para aumentar el grado de detección, se utilizan elipses difusas, con, por ejemplo, una distribución de intensidad decreciente alrededor de la forma elíptica ideal.
Sin embargo, sin conocimiento previo del tamaño esperado de la cabeza en la imagen, debe encontrarse un arreglo entre la velocidad de cómputo y una probabilidad de falsos positivos. Para aliviar este problema, en este método del arte previo solamente se toman en cuenta los contornos de las áreas de color piel. Sin embargo, si el usuario usa ropa de color piel, el riesgo de falsos positivos se aumenta. Además, este método del arte previo está limitado a la detección de cabezas de humanos dentro de un rango de distancia relativamente limitado del sistema de formación de imágenes, es decir, de 1 a 2.5 metros.
Otros métodos de localización de una cabeza de humano en una imagen de profundidad de la fuente se describen en las Solicitudes de Patente de E.U.A. publicadas 2005/031166, 2005/058337 y 2003/235341.
Adicionalmente, Clabian M et al, han publicado, en Internet, un artículo titulado "Head detection and localization from sparse 3D data", INTERNET CITATION 2002, XP002389335 recuperado de URL: http://www.prip.tuwien.ac.at/~krw/papers/2002/DAGM/Clabian.pdf, relacionado con la detección de una cabeza. Krotosky SJ et al. también han publicado un artículo titulado "Occupant posture análisis using reflectance and stereo images for smart airbag deployment", SIMPOSIO DE VEHÍCULOS INTELIGENTES, 2004 IEEE Parma, Italia, 14-17 de junio de 2004, Piscatawy, NJ, EE.UU., IEEE LNKD-DOI: 10.1 109/VS.2004.1336469, 14 de junio de 2004, páginas 698 a 703, XP010727732 ISPB: 978-0-7803-8310-4, que se refiere a la detección de un ocupante de un asiento en un vehículo para controlar el despliegue de una bolsa de aire.
BREVE DESCRIPCIÓN DE LA INVENCIÓN El objeto de la presente invención es proporcionar un método rápido, pero preciso para el reconocimiento de una cabeza de humano en una imagen fuente.
Para este propósito, una modalidad de un método de conformidad con la presente invención comprende las etapas de: - detectar un contorno de por lo menos parte de un cuerpo humano en dicha imagen fuente; - calcular una profundidad de dicho cuerpo humano en dicha imagen fuente; - calcular un tamaño de radio mayor y un tamaño de radio menor de una elipse que corresponde a una cabeza de humano en dicha profundidad en dicha imagen fuente; - generar en un arreglo de acumuladores, para por lo menos varios de un conjunto de pixeles de dicho contorno, por lo menos un segmento de una elipse centrada en la posición del pixel de contorno y teniendo dichos tamaños de radios mayor y menor; - seleccionar las posiciones de máxima intensidad local en dicha matriz de acumuladores como correspondientes a posiciones de los mejores candidatos de una cabeza de humano en la imagen fuente; y - seleccionar un mejor candidato de una cabeza entre aquellos que tienen la energía más alta en el arreglo de acumuladores y que son ponderados positivamente mediante métodos de detección adicionales.
Dado que la proporción del tamaño real de una cabeza de humano a la altura del cuerpo, aunque depende de la edad y el género, por lo general se mantiene dentro de un rango relativamente estrecho independientemente de la edad o el sexo, la variable más importante para determinar su tamaño aparente en una imagen es la distancia a la cabeza de humano, es decir, el valor de medición de profundidad de la cabeza dentro de la imagen. Los tamaños de radios mayor y menor de una elipse que encuadra la cabeza en la imagen serán sustancialmente proporcionales a esta profundidad. Al utilizar esta información para llevar a cabo una transformada de Hough elíptica de un contorno de por lo menos parte de un cuerpo humano, la velocidad de cómputo se puede aumentar, mientras que se reduce simultáneamente el grado de falsos positivos.
Los datos de profundidad se pueden obtener en una variedad de maneras diferentes, tales como, por ejemplo, una cámara de tiempo de vuelo, una cámara estéreo, LIDAR, radar, sonar, etc. De manera ventajosa, dicha profundidad puede ser una profundidad promedio del cuerpo humano en la imagen fuente en un momento dado. De manera alternativa, dicha profundidad y dichos tamaños de radios mayor y menor se pueden calcular individualmente para cada pixel de contorno.
Para aumentar adicionalmente las posibilidades de reconocer una cabeza de humano en la imagen fuente, una dilatación morfológica de dicho contorno se puede llevar a cabo de manera ventajosa antes de generar dicho por lo menos un segmento de una elipse en dicho matriz de acumuladores. Al ampliar el contorno, la superficie sobre la cual se lleva a cabo la transformada de Hough posterior se maximiza, y de esta manera también la probabilidad de reconocer una elipse.
De manera ventajosa, dicho por lo menos un segmento de una elipse puede ser difuso. Por "difuso" se entiende que, en lugar de una línea claramente definida, el por lo menos un segmento de una elipse se proyecta en el arreglo de acumuladores como una línea borrosa con una distribución de intensidad, por ejemplo una distribución de intensidad Gaussiana, alrededor de la línea elíptica ideal.
De manera ventajosa, la etapa de detección de contorno también puede comprender la detección de una orientación de contorno local para cada pixel de contorno. Por ejemplo, aplicar el algoritmo de Shen-Castan para la detección de contorno también proporciona esta información adicional, que se puede utilizar para aumentar adicionalmente la velocidad y la exactitud del método para el reconocimiento de una cabeza de la invención. Por ejemplo, de manera aún más ventajosa, dicho por lo menos un segmento de una elipse se puede orientar de conformidad con la orientación de contorno local del pixel de contorno correspondiente.
Es un objeto adicional de la presente invención reducir al mínimo el número de falsos positivos. Tales falsos positivos pueden ser debidos, entre otros, a los contornos de brazos y piernas. Tales contornos suelen formar pares de líneas paralelas que son capaces de generar, cuando se lleva a cabo la transformada de Hough elíptica, rebordes de intensidad en el arreglo de acumuladores. Con el fin de discriminar la máxima intensidad local localizada en tales rebordes de intensidad a partir de la máxima intensidad local aislada correspondiente a la posición de la cabeza, en una modalidad particular del método de conformidad con la presente invención, antes de dicha etapa de selección, se pueden llevar a cabo las siguientes etapas en cada uno de una pluralidad de máximas intensidades locales en dicho matriz de acumuladores: - localizar una primera posición en una circunferencia centrada en cada máxima intensidad local en el arreglo de acumuladores, en donde dicha primera posición tiene la intensidad más alta en dicha circunferencia; - localizar una segunda posición en dicha circunferencia, en donde dicha segunda posición tiene la intensidad más alta en un arco de dicha circunferencia opuesta a la primera posición; - ponderar la intensidad m de la máxima intensidad local con un factor W = m2/mc1»mc2, en donde mc es la intensidad en dicha primera posición, y mc2 es la intensidad en dicha segunda posición.
Si la máxima intensidad local está dentro de un reborde de intensidad, los valores de tanto mci, como mC2 por lo general serán cercanos a aquel de m. El factor de ponderación W por lo tanto no será mucho mayor que uno. Por otra parte, si la máxima intensidad local está aislada, los valores de mci y mC2 serán considerablemente menores que m, y el factor de ponderación W de esta manera aumentará en consecuencia. Este factor de ponderación de esta manera acentuará la máxima intensidad local que corresponde más probable a las cabezas de humano.
De manera ventajosa, también con el fin de reducir al mínimo los falsos positivos, en particular aquellos causados por hombros y codos, antes de dicha etapa de selección, la intensidad de cada una de una pluralidad de máximas intensidades locales en el arreglo de acumuladores se puede ponderar adicionalmente con base en la salida de por lo menos un método para el reconocimiento de una cabeza adicional seleccionado de entre un grupo que comprende el reconocimiento de tono de la piel, la adaptación de patrones, el reconocimiento de cabello, la detección de la barbilla, la detección de agujeros, la detección de una conexión con un centro de masa o una extremidad de dicho cuerpo humano, la distancia a una columna vertebral virtual, la distancia a un eje superior del cuerpo, y/o la distancia a la posición de la cabeza anterior en una secuencia de video. De esta manera al combinar por lo menos dos métodos diferentes, pero rápidos para el reconocimiento de una cabeza, la fiabilidad del método de conformidad con la invención de esta manera se puede aumentar.
De manera ventajosa, si dicha imagen fuente es un cuadro actual de una secuencia de video, y una posición seleccionada en un cuadro precedente está ocluida en el cuadro actual, hacer caso omiso de cualquier máxima intensidad local y mantener la posición seleccionada en el cuadro precedente como correspondiente a la posición de la cabeza en el cuadro actual.
Es un objeto adicional de la presente invención proporcionar un sistema de computadora para el reconocimiento de una cabeza en una imagen fuente. En una modalidad particular de la invención, un sistema de computadora de esta manera se programa para llevar a cabo un método de conformidad con la invención. De manera ventajosa, dicho sistema de computadora puede comprender un dispositivo de formación de imágenes, preferentemente un dispositivo de formación de imágenes en 3D, para capturar dicha imagen fuente y posiblemente dicha profundidad.
En otra modalidad particular, se proporciona un medio de almacenamiento de datos legible por computadora que contiene instrucciones ejecutables por computadora para llevar a cabo un método implementado por computadora de conformidad con la invención.
Por "medio de almacenamiento de datos legible por computadora", se entiende cualquier soporte legible por computadora que contiene datos digitales, incluyendo, pero no limitados a, una memoria de estado sólido tal como una memoria de acceso aleatorio, una memoria flash, o una memoria de solamente lectura, sino también un medio de almacenamiento de datos magnético tal como una unidad de disco duro o una cinta magnética, un medio de almacenamiento de datos óptico tal como un disco óptico, etc.
BREVE DESCRIPCIÓN DE LAS FIGURAS Estos y otros objetos de la presente invención llegarán a ser más fácilmente evidentes tras la lectura de la siguiente descripción detallada y con referencia a los dibujos adjuntos en los cuales: La Fig. 1 muestra una habitación con un usuario humano de pie en frente de un dispositivo de formación de imágenes en 3D; La Fig. 2 muestra datos de imágenes tridimensionales de la misma habitación, en la forma de puntos distribuidos en el espacio tridimensional, como capturados por el sistema de formación de imágenes en 3D; La Fig. 3 muestra una imagen de máscara de mapa de bits del usuario; La Fig. 4 muestra una imagen de contorno del usuario; La Fig. 5 muestra una imagen de contorno dilatado del usuario; La Fig. 6 muestra esquemáticamente la generación de una elipse difusa en el arreglo de acumuladores, correspondiente a un punto en la imagen de contorno; La Fig. 6A muestra una modalidad particular en la cual la elipse difusa está orientada de conformidad con la orientación de contorno local, y La Fig. 6B muestra una modalidad particular en la cual la elipse difusa orientada está trunca; La Fig. 7 muestra esquemáticamente la imagen en el arreglo de acumuladores; La Fig. 8 muestra una máxima local en un reborde de intensidad, y los puntos de intersección de dicho reborde de intensidad con una circunferencia centrada sobre dicha máxima local; La Fig. 9 muestra la imagen de máscara de mapa de bits de la Fig. 3 con una columna vertebral virtual; La Fig. 10 muestra la imagen de máscara de mapa de bits de la Fig. 3 con una dirección principal del eje superior del cuerpo; La Fig. 1 1 muestra la imagen de máscara de mapa de bits de la Fig. 3 con un centro de masa y líneas que vinculan ese centro de masa con dos posiciones de cabeza del candidato; La Fig. 12 muestra un área rectangular de inspección de profundidad superpuesta sobre parte de la imagen de máscara de mapa de bits de la Fig. 3; La Fig. 13 muestra un histograma de profundidad correspondiente al área rectangular de inspección de profundidad de la Fig. 12; La Fig. 14 muestra una imagen de máscara de mapa de bits de un usuario humano que sostiene ambas manos en la cabeza; y La Fig. 15 muestra la imagen de máscara de mapa de bits de la Fig. 3 dividida en regiones interconectadas.
Aunque la presente invención es susceptible de varias modificaciones y formas alternativas, modalidades específicas de la misma se han mostrado a modo de ejemplo en los dibujos y se describirán en este documento con detalle. Se debe entender, sin embargo, que no se pretende limitar la invención a las formas particulares descritas, sino por el contrario, la intención es cubrir todas las modificaciones, equivalentes y alternativas que caigan dentro del alcance de la invención tal como se expresa en las reivindicaciones anexas.
DESCRIPCIÓN DETALLADA DE LA INVENCIÓN Uno de los posibles usos de una modalidad del método de reconocimiento de una cabeza implementado por computadora y el sistema de computadora de conformidad con la invención se ilustra en la Fig. 1. En esta aplicación, este sistema y método se utilizan para el reconocimiento de los gestos de un objeto de interés, en este caso un usuario humano 1 , con el fin de interactuar con un sistema de computadora 2 que genera un entorno virtual desplegado al usuario humano 1.
El sistema de reconocimiento de volumen comprende un sistema de formación de imágenes en 3D, en esta modalidad particular, una cámara 3D de tiempo de vuelo (TOF) 3. Esta cámara 3D TOF 3 está conectada al sistema de computadora 2 con el cual el usuario humano 1 va a interactuar. En esta modalidad, este sistema de computadora 2 se programa por sí mismo para llevar a cabo, en cooperación con la cámara 3D TOF 3, el método de reconocimiento de volumen de la invención. De manera alternativa, un dispositivo de procesamiento de datos separado programado para llevar a cabo dicho método podría estar conectado entre la cámara 3D TOF y el sistema de computadora 2 a fin de permitir al usuario humano interactuar con dicho sistema de computadora 2.
La cámara 3D TOF 3 captura datos de imágenes en 3D de la habitación 4 en la cual está parado el usuario humano 1 , comprendiendo una imagen fuente en 2D de la habitación con una pluralidad de pixeles y un valor de profundidad para cada pixel que corresponde a la distancia a la cámara 3D TOF 3 del punto reflejado por ese pixel. Dado que las posiciones X y Y de los pixeles en la imagen en 2D se corresponden con ángulos de cénit y azimut de los puntos que representan con respecto a la cámara 3D TOF 3, estos datos de imágenes en 3D se pueden ilustrar como en la Fig. 2 mediante una nube tridimensional de puntos 5 que corresponde a los puntos visibles de los objetos en el rango de la cámara 3D TOF 3.
Si (I) es un mapa de profundidad de la imagen fuente capturada por la cámara 3D 3, y (l0) es un mapa de profundidad inicial de la misma escena sin el usuario 1 , una sustracción morfológica aislará el cuerpo del usuano humano 1 en un mapa de profundidad (lndg), como sigue: (I) - (h) = (I„dg) Este mapa de profundidad (lndg) posteriormente se binariza con el fin de obtener una imagen de mapa de bits (Ib) en el cual se marca el cuerpo del usuario humano 1 por "1" pixeles, y el segundo plano por "0" pixeles. Tal imagen de mapa de bits (Ib) se ilustra en la Fig. 3.
Después de que se ha aislado una imagen de mapa de bits del cuerpo del usuario humano 1 con estas etapas, un detector de bordes, tal como el detector de bordes de Shen-Castan en la forma descrita en "Transformée de Hough elliptique Floue rapide", o el detector de bordes de Canny como se describió originalmente por J. Canny en "Una Aproximación Computacional para la Detección de Bordes", IEEE Trans. Análisis de Patrones e Inteligencia de Máquinas, 8:679-714, 1986, se pueden utilizar posteriormente para detectar el contorno del cuerpo del usuario 1 a fin de generar una imagen de contorno (lc) como se ilustra en la Fig. 4.
Para aumentar el grado de detección del método de la presente invención, en la siguiente etapa, la línea de contorno se puede ampliar aplicando, a esta imagen de contorno (lc), una dilatación morfológica, obteniendo una imagen de contorno dilatado ((ld) como se ilustra en la Fig. 5.
En una primera modalidad, la profundidad de la nube tridimensional de los puntos 5 que corresponde al cuerpo del usuario 1 se promedia posteriormente. Esto se puede llevar a cabo en por lo menos dos maneras alternativas: En la primera alternativa de esta primera modalidad, si un conglomerado de puntos 5 se ha identificado como correspondiente al cuerpo del usuario, utilizando por ejemplo el método descrito en la Solicitud de Patente Internacional con Número de Publicación WO 2008/128568 A1 , la profundidad del centroide de este conglomerado de puntos 5 será considerada como la profundidad promedio del cuerpo del usuario 1 en la imagen.
En la segunda alternativa de esta primera modalidad, se puede promediar la profundidad de los puntos 5 que representan el usuario 1 en el mapa de profundidad (Ug). Por ejemplo, se puede utilizar la siguiente ecuación: en donde dav es la profundidad media aritmética, y n y m son las dimensiones de la imagen de mapa de profundidad. En lugar de una media aritmética, un tipo diferente de promedio, tal como, por ejemplo, la mediana, se puede considerar en su lugar por la persona experta de conformidad con las circunstancias.
En la siguiente etapa, el tamaño de radio mayor a y el tamaño de radio menor b esperados de una elipse virtual que encuadra la cabeza del usuario 1 en la imagen fuente a esa profundidad promedio dav, se calcula con base en las dimensiones reales esperadas de la cabeza, la longitud focal, y dicha profundidad, siguiendo las ecuaciones: en donde F es la longitud focal, y A y B son la altura y la anchura esperadas, reales de la cabeza.
Estas dimensiones esperadas, reales de la cabeza A y B se pueden almacenar en una memoria del sistema de computadora 2 como dimensiones absolutas o dimensiones relativas con respecto al tamaño real del usuario 1 (que se puede calcular por sí mismo sobre la base del tamaño del usuario 1 en la imagen fuente, la longitud focal y la profundidad).
En la siguiente etapa, una transformada de Hough elíptica se lleva a cabo posteriormente en la imagen de contorno dilatado (ld). En esta operación, para cada pixel en esta imagen de contorno dilatado (ld), se genera una elipse (o por lo menos un segmento de la misma) con dichos tamaños de radios mayor y menor a y b centrada en una posición correspondiente en un matriz de acumuladores (le). Cada posición en tal elipse tiene un valor de intensidad, y estos valores se agregan en donde las elipses se superponen en el arreglo de acumuladores. En un modo preferido, ilustrado en la Fig. 6, la elipse generada en el arreglo de acumuladores (lh) es una elipse difusa, lo que resulta de una circunvolución T del pixel 6 de la imagen de contorno dilatado (Id) con una máscara elíptica 7 con las dimensiones a, b, y con una máscara borrosa 8 con una distribución de intensidad gradualmente decreciente alrededor de su centro. Esta distribución de intensidad puede ser, por ejemplo, Gaussiana.
De esta manera, por ejemplo, para un pixel en las posiciones x, y: T(ld(x,y)) += 3 (es decir, el arreglo de acumuladores se incrementa en 3 unidades en las posiciones de una elipse básica); T(ld(x±1 ,y)) += 2 (es decir, el arreglo de acumuladores se incrementa en 2 unidades en las posiciones directamente derecha e izquierda de cada posición de la elipse básica); T(ld(x,y±1 )) += 2 (es decir, el arreglo de acumuladores se incrementa en 2 unidades en las posiciones directamente arriba y debajo de cada posición de la elipse básica); T(ld(x±1 ,y+1)) += 1 (es decir, el arreglo de acumuladores se incrementa en 1 unidad en las posiciones directamente arriba a la derecha, arriba a la izquierda, abajo a la derecha y abajo a la izquierda de cada posición de la elipse básica).
De manera ventajosa, si la imagen de contorno (lc) se generó utilizando un detector de bordes, tal como el detector de bordes de Shen-Castan, el cual también proporciona información acerca de la orientación local de la línea de contorno, esta información también se puede emplear para modificar la máscara elíptica 7. Por ejemplo, como se ilustra en la Fig. 6A, la máscara elíptica 7 se puede orientar con la dirección del radio mayor siguiendo la orientación local de la línea de contorno a lo largo del eje M, o como se ¡lustra en la Fig. 6B, la máscara elíptica 7 puede estar trunca en su parte inferior para reflejar la no apariencia potencial de la barbilla en la imagen de contorno dilatado (Id).
En una segunda modalidad, en lugar de calcular las dimensiones a y b de la máscara elíptica 7 sobre la base de la profundidad promedio dav, la profundidad individual d(i, j) de cada uno de los pixeles en la imagen de contorno dilatado (Id) se puede considerar en su lugar para las dimensiones de la máscara elíptica 7 que serán aplicadas a cada pixel individual. Esto se puede llevar a cabo, por ejemplo, utilizando un mapa de profundidad de contorno dilatado (le) = (Id) * (Indg) y las ecuaciones: En ambas modalidades, el resultado final es un matriz de acumuladores como se representa en la Fig. 7, en donde los picos de intensidad 8 están en las posiciones en donde la posibilidad de la ocurrencia de una cabeza de humano en la imagen fuente es más alta.
Sin embargo, debido a la presencia eventual de las extremidades del usuario 1 en la imagen fuente, lo que resulta en líneas casi paralelas en la imagen de contorno (lc), la Fig. 7 también puede presentar, además de dichos picos de intensidad 8, rebordes de intensidad 9 (Fig. 8) que corresponden a estas extremidades. Con el fin de suprimir falsos positivos derivados de la presencia de estos rebordes de intensidad 9 en el arreglo de acumuladores, es ventajoso discriminar la máxima intensidad local correspondiente a picos de intensidad aislados 8 a partir de la máxima intensidad local localizada en rebordes de intensidad 9.
Por lo tanto, en una etapa siguiente ilustrada en la Fig. 8, un factor de ponderación W se puede introducir para discriminar los rebordes de intensidad 9. Para calcular este factor de ponderación para cada máxima intensidad local, una circunferencia 10 centrada alrededor de la posición 1 1 de esta máxima intensidad local y que tiene un radio predeterminado r > b (normalmente r = b) se traza en el arreglo de acumuladores. Una primera posición 12 con la intensidad más alta en esta circunferencia posteriormente se localiza, y su valor de intensidad se almacena como mci . Posteriormente, el sistema de computadora 2 localiza una segunda posición 13, la cual tiene la intensidad más alta en un segmento 14 de esta circunferencia 10 (típicamente una mitad de circunferencia) opuesta a la primera posición 12, y almacena su valor de intensidad almacenado como mC2. Si el valor de intensidad en la posición 1 1 de esta máxima intensidad local se designa como m, el factor de ponderación W se calcula de conformidad con la ecuación W = m2/mci »mC2. Dado que en un reborde de intensidad 9 como se representa en la Fig. 8, tanto mc como mc2 tendrán valores cercanos a m, los valores de intensidad de la máxima intensidad local localizados en tales rebordes de intensidad 9 serán ponderados con un factor de ponderación W solamente ligeramente mayor que uno, mientras que la máxima intensidad local aislada, que es más probable que incluya una máxima intensidad local correspondiente a la posición de una cabeza de humano en la imagen fuente, se ponderará con un factor de ponderación significativamente mayor.
Finalmente, el conjunto restante de candidatos entre la máxima intensidad local más alta también se puede ponderar utilizando las salidas de por lo menos un método de detección de una cabeza suplementario. Los candidatos se pueden ponderar con un factor de ponderación adecuado para cada método suplementario. Un procedimiento de votación se puede utilizar posteriormente para seleccionar uno o un conjunto de candidatos que corresponden a las cabezas de humano en la imagen fuente.
Uno de estos métodos complementarios implica el cálculo de una columna vertebral virtual 15 en la forma de una función de segundo grado o tercer grado que va a través de la longitud máxima del cuerpo del usuario humano 1 como se representa en la imagen de mapa de bits (lb), como se ilustra en la Fig. 9. La probabilidad de que una elipse de candidato 16 representa la cabeza del usuario humano 1 disminuirá con la distancia entre esta columna vertebral virtual y la elipse de candidato 16.
Un método complementario similar se basa en el cálculo de un eje de cuerpo superior principal 18 centrado en el centro de masa del usuario humano 1 como se representa en la imagen de mapa de bits (Ib). Esto se ilustra en la Fig. 10. Normalmente, la cabeza del usuario humano 1 se debe alinear estrechamente con este eje, y por lo tanto, la probabilidad de que una elipse de candidato 16 representa la cabeza del usuario humano 1 también disminuirá con la distancia entre este eje y la elipse de candidato 16.
Otro de estos métodos suplementarios es el de comprobar la continuidad de la imagen de mapa de bits (lb) del cuerpo del usuario humano entre su centro de masa 17 y una elipse de candidato 16, como se ilustra en la Fig. 1 1. Para esta prueba, se puede utilizar un algoritmo de Brezenham. Si la salida de prueba es negativa, la probabilidad de que la elipse de candidato 16 representa la cabeza del usuario humano 1 será menor.
Todavía otro de estos métodos suplementarios es el del reconocimiento de tono de la piel. Si la cámara 3D es una cámara de color, se puede estimar si el candidato tiene colores asociados a tonos de piel conocidos. Si este no es el caso, la probabilidad de que este candidato representa la cabeza del usuario humano será menor. De manera ventajosa, los algoritmos de transformación de color se pueden utilizar para transformar los datos de color, tales como los datos RGB, capturados por la cámara 3D, en un espacio de color más apropiado para el reconocimiento de tono de la piel, tales como, por ejemplo, un dispositivo de espacio de color CIE 1931 XYZ independiente, o CIE 1976 L*a*b perceptualmente uniforme o un espacio de color CIECAM02.
Todavía otro de estos métodos suplementarios es el de la detección de cabello. En particular, si la cámara 3D es una cámara TOF con un detector de telemetría por infrarrojos, y puesto que el cabello en gran medida absorbe cualquier radiación infrarroja incidente, la probabilidad de que una elipse de candidato representa la cabeza de un usuario humano será mayor si existe un área dentro de una distancia predeterminada del borde y, en particular el borde superior, de la elipse de candidato, que no devuelve una señal de profundidad bien definida.
Todavía otro de estos métodos suplementarios es el de la adaptación de la nube de puntos correspondiente a la elipse de candidato con un patrón específico o general representativo de una cabeza de humano. Si esta prueba de adaptación de patrones devuelve un resultado positivo, entonces la probabilidad de que la elipse de candidato representa la cabeza de un usuario humano será mayor.
Todavía otro de estos métodos suplementarios es el de la detección de la barbilla. Cuando un usuario humano se enfrenta a la cámara 3D, esta última registrará una diferencia de profundidad por lo general entre 4 y 9 cm entre la barbilla y el cuello del usuario humano. Si tal etapa se detecta en el borde inferior de la elipse de candidato, la probabilidad de que la elipse de candidato representa la cabeza de un usuario humano es mayor. Las Figs. 12 y 13 muestran cómo se puede detectar tal etapa. Un área rectangular de inspección 9, por ejemplo, de 20 cm de altura por 10 cm de ancho; orientada de acuerdo con el eje principal de la elipse de candidato y centrada en su borde inferior se selecciona en el mapa de profundidad (lndg). La barbilla se detecta si los valores de profundidad medidos en esta área de inspección están concentrados alrededor de dos máximas frecuencias distintas 20, 21 aproximadamente de 4 a 9 cm de distancia, como se muestra en el histograma de la Fig. 13.
Cuando el usuario mantiene por lo menos un brazo en la cabeza, el codo puede formar otra elipse de candidato 16, como se muestra en la Fig. 14. De manera simultánea, un agujero 22 se forma entre la cabeza y este codo en la silueta del usuario humano 1 formado por la imagen de mapa de bits (lb). En otro método suplementario, se detecta la formación de tales agujeros 22 en la silueta, y a todas las nuevas elipses de candidato creadas simultáneamente 16 que están adyacentes al agujero 22 se les dará una ponderación inferior.
Cuando los puntos capturados por la cámara 3D que corresponden al usuario humano se han agrupado en una red de regiones interconectadas, como se describe en Solicitud de Patente Internacional con Número de Publicación WO 2008/128528, se puede utilizar todavía otro método suplementario, el cual implica la detección de las extremidades en esta red. En el documento WO 2008/128568, se describe un método para reconocer un volumen dentro de un espacio tridimensional en el cual los datos de imágenes en tres dimensiones comprenden una pluralidad de puntos dentro del espacio tridimensional. Estos puntos están conglomerados y un conglomerado se selecciona como un punto de interés. Los puntos dentro del conglomerado seleccionado se reagrupan en subconglomerados, cada uno de los cuales tiene un centroide y un volumen asociado con el centroide. Los centroides se pueden conectar para formar una red indicativa de un objeto y las extremidades están identificadas como un centroide que está conectado a solamente otro centroide.
Como se ilustra en la Fig. 15, aquellas regiones que tampoco están conectadas directamente a una sola región se consideran como extremidades 23. Aquellas regiones que están directamente conectadas a más de una otra región también se pueden considerar como extremidades, pero solamente si las líneas 24 que conectan sus centroides a los centroides de las regiones adyacentes están dentro de un ángulo máximo, tal como, por ejemplo, 45°. Una elipse de candidato 16, la cual coincide con tal extremidad 23 será más probable que represente la cabeza del usuario 1.
En una secuencia de video, la coherencia de tiempo y las oclusiones temporales también se pueden tomar en cuenta. Por ejemplo, si el candidato clasificado por los métodos anteriores ha saltado por más de una distancia predeterminada de un cuadro anterior al cuadro actual, un candidato clasificado como inferior se puede considerar si está dentro de dicha distancia predeterminada desde la posición de la cabeza en el cuadro anterior. Si el área que corresponde al candidato clasificado como el más alto en un cuadro anterior, está ocluida en el nuevo cuadro, se puede hacer caso omiso de los candidatos en el nuevo cuadro, y mantener la posición de la cabeza del cuadro anterior, eventualmente hasta que termina la oclusión.
Aunque la presente invención se ha descrito con referencia a modalidades específicas ejemplares, será evidente que se pueden realizar varias modificaciones y cambios a estas modalidades sin apartarse del alcance más amplio de la invención como se establece en las reivindicaciones. En consecuencia, la descripción y los dibujos deben ser considerados en un sentido ilustrativo en lugar de un sentido restrictivo.

Claims (14)

NOVEDAD DE LA INVENCIÓN REIVINDICACIONES
1 .- Un método implementado por computadora para el reconocimiento de una cabeza de humano en una imagen fuente, la imagen fuente teniendo valores de profundidad para cada pixel de la misma, el método comprende las etapas de: a) segmentar por lo menos parte de un cuerpo humano de un segundo plano en dicha imagen de profundidad fuente; b) detectar bordes de dicha parte segmentada de un cuerpo humano para determinar un contorno de dicha parte; y c) determinar la posición de una cabeza de humano dentro de la imagen fuente; caracterizado porque la etapa c) comprende adicionalmente las etapas de: c1 ) calcular una profundidad de dicha parte de un cuerpo humano en dicha imagen fuente; c2) calcular un tamaño de radio mayor y un tamaño de radio menor de una elipse que corresponde al tamaño de una cabeza de humano a dicha profundidad calculada en dicha imagen fuente; c3) generar un arreglo de acumuladores para por lo menos un segmento de una elipse centrada en las posiciones de un conjunto de pixeles de contorno, dicho por lo menos un segmento de dicha elipse teniendo dichos tamaños de radios mayor y menor; y c4) seleccionar una posición de una máxima intensidad local en dicha matriz de acumuladores que corresponde a la posición de una cabeza de humano en la imagen fuente.
2.- El método implementado por computadora de conformidad con la reivindicación 1 , caracterizado además porque dicha profundidad es una profundidad promedio de dicha parte de un cuerpo humano en dicha imagen fuente.
3.- El método implementado por computadora de conformidad con la reivindicación 1 , caracterizado además porque dicha profundidad y dichos tamaños de radio mayor y menor se calculan individualmente para cada pixel de contorno.
4. - El método implementado por computadora de conformidad con cualquiera de las reivindicaciones anteriores, caracterizado además porque comprende adicionalmente la etapa de llevar a cabo una dilatación morfológica de dicho contorno antes de la etapa c2), y esa etapa c2) se lleva a cabo en dicho contorno dilatado.
5. - El método implementado por computadora de conformidad con cualquiera de las reivindicaciones anteriores, caracterizado además porque dicho por lo menos un segmento de una elipse es difusa.
6. - El método implementado por computadora de conformidad con cualquiera de las reivindicaciones anteriores, caracterizado además porque la etapa b) comprende adicionalmente la detección de una orientación de contorno local para cada pixel en dicho contorno.
7. - El método implementado por computadora de conformidad con la reivindicación 6, caracterizado además porque dicho por lo menos un segmento de una elipse está orientado de acuerdo con dicha orientación de contorno local.
8. - El método implementado por computadora de conformidad con cualquiera de las reivindicaciones anteriores, caracterizado además porque, antes de la etapa c4), las siguientes etapas se llevan a cabo en cada una de una pluralidad de máximas intensidades locales en dicha matriz de acumuladores: (i) localizar una primera posición en una circunferencia centrada en cada máxima intensidad local en el arreglo de acumuladores, en donde dicha primera posición tiene la intensidad más alta en dicha circunferencia; (ii) localizar una segunda posición en dicha circunferencia, en donde dicha segunda posición tiene la intensidad más alta en un arco de dicha circunferencia opuesta a la primera posición; y (iii) ponderar la intensidad m de la máxima intensidad local con un factor W = m2/mc1»mc2> en donde mci es la intensidad en dicha primera posición, y mC2 es la intensidad en dicha segunda posición.
9. - El método implementado por computadora de conformidad con cualquiera de las reivindicaciones anteriores, caracterizado además porque, antes de la etapa c4), la intensidad de cada una de una pluralidad de máximas intensidades locales en el arreglo de acumuladores se pondera con base en la salida de por lo menos un método para el reconocimiento de una cabeza adicional seleccionado de entre un grupo que comprende el reconocimiento de tono de la piel, la adaptación de patrones, el reconocimiento de cabello, la detección de la barbilla, la detección de agujeros, la detección de una conexión con un centro de masa o una extremidad de dicho cuerpo humano, la distancia a una columna vertebral virtual, un eje superior del cuerpo, y/o posición anterior de la cabeza en una secuencia de video.
10.- El método implementado por computadora de conformidad con cualquiera de las reivindicaciones anteriores, caracterizado además porque comprende adicionalmente, si dicha imagen fuente es un cuadro actual de una secuencia de video, y una posición seleccionada en un cuadro precedente está ocluida en dicho cuadro actual.
1 1.- Un medio de almacenamiento de datos legibles por computadora, que contiene instrucciones ejecutables por computadora para llevar a cabo un método implementado por computadora de conformidad con cualquiera de las reivindicaciones anteriores.
12. - Un sistema de computadora programado para llevar a cabo un método de conformidad con cualquiera de las reivindicaciones 1 a 10.
13. - El sistema de computadora de conformidad con la reivindicación 12 y que comprende un dispositivo de formación de imágenes para capturar dicha imagen fuente.
14. - El sistema de computadora de conformidad con la reivindicación 3, caracterizado además porque dicho dispositivo de formación de imágenes es un dispositivo de formación de imágenes en 3D para capturar también dicha profundidad.
MX2012007593A 2009-12-28 2010-12-28 Metodo para el reconocimiento de una cabeza. MX2012007593A (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP20090180783 EP2339507B1 (en) 2009-12-28 2009-12-28 Head detection and localisation method
PCT/EP2010/070817 WO2011080280A1 (en) 2009-12-28 2010-12-28 Head recognition method

Publications (1)

Publication Number Publication Date
MX2012007593A true MX2012007593A (es) 2012-11-29

Family

ID=42199070

Family Applications (1)

Application Number Title Priority Date Filing Date
MX2012007593A MX2012007593A (es) 2009-12-28 2010-12-28 Metodo para el reconocimiento de una cabeza.

Country Status (13)

Country Link
US (1) US9081999B2 (es)
EP (1) EP2339507B1 (es)
JP (1) JP5514918B2 (es)
KR (1) KR101362631B1 (es)
CN (1) CN102812474B (es)
AU (1) AU2010338283B2 (es)
BR (1) BR112012015986A2 (es)
CA (1) CA2784554C (es)
MX (1) MX2012007593A (es)
SG (1) SG181597A1 (es)
TW (1) TW201142719A (es)
WO (1) WO2011080280A1 (es)
ZA (1) ZA201204263B (es)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9001190B2 (en) * 2011-07-05 2015-04-07 Microsoft Technology Licensing, Llc Computer vision system and method using a depth sensor
TWI496090B (zh) * 2012-09-05 2015-08-11 Ind Tech Res Inst 使用深度影像的物件定位方法與裝置
CN103336948A (zh) * 2013-06-24 2013-10-02 深圳锐取信息技术股份有限公司 一种基于人脸识别的视频跟踪方法
KR101501487B1 (ko) * 2013-07-18 2015-03-12 전자부품연구원 깊이 영상 기반 머리 검출방법 및 장치
KR102106135B1 (ko) * 2013-10-01 2020-05-04 한국전자통신연구원 행동 인식 기반의 응용 서비스 제공 장치 및 그 방법
TWI510953B (zh) * 2013-12-20 2015-12-01 Wistron Corp 身份驗證防僞方法與應用此方法的身份驗證裝置
US10140533B1 (en) 2015-01-13 2018-11-27 State Farm Mutual Automobile Insurance Company Apparatuses, systems and methods for generating data representative of vehicle occupant postures
JP6481537B2 (ja) * 2015-07-14 2019-03-13 コニカミノルタ株式会社 被監視者監視装置および被監視者監視方法
US20170255821A1 (en) * 2016-03-02 2017-09-07 National Taiwan University Gesture recognition system and related method
US11321951B1 (en) 2017-01-19 2022-05-03 State Farm Mutual Automobile Insurance Company Apparatuses, systems and methods for integrating vehicle operator gesture detection within geographic maps
CN107093182B (zh) * 2017-03-23 2019-10-11 东南大学 一种基于特征拐点的人体高度估计方法
US10431000B2 (en) * 2017-07-18 2019-10-01 Sony Corporation Robust mesh tracking and fusion by using part-based key frames and priori model
CN107631691A (zh) * 2017-09-13 2018-01-26 南京云计趟信息技术有限公司 一种基于tof技术的车载货物体积计算方法
CN109859158A (zh) * 2018-11-27 2019-06-07 邦鼓思电子科技(上海)有限公司 一种基于视觉的工作区域边界的检测系统、方法及机器设备

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09138471A (ja) * 1995-09-13 1997-05-27 Fuji Photo Film Co Ltd 特定形状領域の抽出方法、特定領域の抽出方法及び複写条件決定方法
US6072494A (en) 1997-10-15 2000-06-06 Electric Planet, Inc. Method and apparatus for real-time gesture recognition
JP2003028635A (ja) * 2001-07-16 2003-01-29 Honda Motor Co Ltd 画像測距装置
US20030169906A1 (en) * 2002-02-26 2003-09-11 Gokturk Salih Burak Method and apparatus for recognizing objects
US7203356B2 (en) * 2002-04-11 2007-04-10 Canesta, Inc. Subject segmentation and tracking using 3D sensing technology for video compression in multimedia applications
JP2004295776A (ja) 2003-03-28 2004-10-21 Minolta Co Ltd 画像認識装置および画像認識プログラム
US7379559B2 (en) * 2003-05-28 2008-05-27 Trw Automotive U.S. Llc Method and apparatus for determining an occupant's head location in an actuatable occupant restraining system
US7372977B2 (en) * 2003-05-29 2008-05-13 Honda Motor Co., Ltd. Visual tracking using depth data
JP4546956B2 (ja) * 2003-06-12 2010-09-22 本田技研工業株式会社 奥行き検出を用いた対象の向きの推定
US20050196015A1 (en) * 2004-03-02 2005-09-08 Trw Automotive U.S. Llc Method and apparatus for tracking head candidate locations in an actuatable occupant restraining system
CN101120379B (zh) * 2005-02-17 2010-12-08 富士通株式会社 图像处理方法和图像处理系统
JP2006318350A (ja) * 2005-05-16 2006-11-24 Sony Corp 物体追跡方法、物体追跡方法のプログラム、物体追跡方法のプログラムを記録した記録媒体及び物体追跡装置
DE102005047160B4 (de) 2005-09-30 2007-06-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung, Verfahren und Computerprogramm zum Ermitteln einer Information über eine Form und/oder eine Lage einer Ellipse in einem graphischen Bild
US20070127787A1 (en) * 2005-10-24 2007-06-07 Castleman Kenneth R Face recognition system and method
JP3962803B2 (ja) 2005-12-16 2007-08-22 インターナショナル・ビジネス・マシーンズ・コーポレーション 頭部検出装置、頭部検出方法および頭部検出プログラム
JP5041458B2 (ja) 2006-02-09 2012-10-03 本田技研工業株式会社 三次元物体を検出する装置
CA2717154A1 (en) 2007-03-13 2008-09-18 Advanced Liquid Logic, Inc. Droplet actuator devices, configurations, and methods for improving absorbance detection
DE102007018802B3 (de) 2007-04-20 2008-08-28 Universität Tübingen Abhör- und manipulationssichere Verschlüsselung für Online-Accounts
KR101184170B1 (ko) 2007-04-20 2012-09-19 소프트키네틱 에스.에이. 볼륨 인식 방법 및 시스템
JP5227888B2 (ja) * 2009-05-21 2013-07-03 富士フイルム株式会社 人物追跡方法、人物追跡装置および人物追跡プログラム

Also Published As

Publication number Publication date
KR101362631B1 (ko) 2014-02-12
JP5514918B2 (ja) 2014-06-04
CA2784554A1 (en) 2011-07-07
BR112012015986A2 (pt) 2016-04-19
US9081999B2 (en) 2015-07-14
EP2339507B1 (en) 2013-07-17
AU2010338283A1 (en) 2012-07-26
AU2010338283B2 (en) 2013-11-21
CA2784554C (en) 2015-02-10
AU2010338283A2 (en) 2012-08-09
KR20120130090A (ko) 2012-11-28
WO2011080280A1 (en) 2011-07-07
TW201142719A (en) 2011-12-01
EP2339507A1 (en) 2011-06-29
SG181597A1 (en) 2012-07-30
US20130022262A1 (en) 2013-01-24
ZA201204263B (en) 2013-09-25
CN102812474A (zh) 2012-12-05
CN102812474B (zh) 2015-06-17
JP2013516013A (ja) 2013-05-09

Similar Documents

Publication Publication Date Title
US9081999B2 (en) Head recognition from depth image
Simon et al. Complexer-yolo: Real-time 3d object detection and tracking on semantic point clouds
Tombari et al. Classification and evaluation of cost aggregation methods for stereo correspondence
Hasan et al. RETRACTED ARTICLE: Static hand gesture recognition using neural networks
Holte et al. View-invariant gesture recognition using 3D optical flow and harmonic motion context
US8824781B2 (en) Learning-based pose estimation from depth maps
JP5715833B2 (ja) 姿勢状態推定装置および姿勢状態推定方法
CN104504410A (zh) 基于三维点云的三维人脸识别装置和方法
US20150117708A1 (en) Three Dimensional Close Interactions
US20150206003A1 (en) Method for the Real-Time-Capable, Computer-Assisted Analysis of an Image Sequence Containing a Variable Pose
CN114022830A (zh) 一种目标确定方法以及目标确定装置
KR20180055070A (ko) 재질 인식 및 재질 트레이닝을 수행하는 방법 및 장치
JP6409433B2 (ja) 画像生成装置、画像検出システム及び画像生成方法
Stiene et al. Contour-based object detection in range images
Juang et al. Stereo-camera-based object detection using fuzzy color histograms and a fuzzy classifier with depth and shape estimations
López-Fernández et al. independent gait recognition through morphological descriptions of 3D human reconstructions
Walia et al. A novel approach of multi-stage tracking for precise localization of target in video sequences
Lehment et al. Using segmented 3D point clouds for accurate likelihood approximation in human pose tracking
KR101350387B1 (ko) 깊이 정보를 이용한 손 검출 방법 및 그 장치
Jacques et al. Improved head-shoulder human contour estimation through clusters of learned shape models
Benlamri Range image segmentation of scenes with occluded curved objects
Kerdvibulvech Hybrid model of human hand motion for cybernetics application
Layher et al. Robust stereoscopic head pose estimation in human-computer interaction and a unified evaluation framework
Webster Automatic rain drop detection for improved sensing in automotive computer vision applications
Hofmann et al. Single-frame 3D human pose recovery from multiple views

Legal Events

Date Code Title Description
FG Grant or registration