MX2009001254A

MX2009001254A - Sistema de vigilancia de video y metodo con reconocimiento de video y audio combinado.

Info

Publication number: MX2009001254A
Application number: MX2009001254A
Authority: MX
Inventors: Martin G Kienzle; Vadim Sheinin
Original assignee: Ibm
Priority date: 2006-08-03
Filing date: 2006-08-03
Publication date: 2009-02-11
Also published as: WO2008016360A1; CN101501564A; JP5043940B2; BRPI0621897A2; BRPI0621897B1; CA2656268A1; JP2009545911A; CN101501564B

Abstract

Un sistema de vigilancia de video novedoso está constituido de un motor de compresión de video y audio, un dispositivo de almacenamiento y, un motor de reconocimiento de video y audio. El motor de reconocimiento de video detecta eventos como el reconocimiento de caras, detección de movimiento, etc., mientras que el motor de reconocimiento de audio detecta voz y otras firmas de sonido que indiquen una situación de alarma potencial, por ejemplo voces de pánico como chillidos y grito, o sonidos como detonaciones, explosiones. El reconocimiento combinado de señales de audio y video proporciona una mayor generación de alarmas verdaderas y un menor nivel de alarmas falsas del sistema de vigilancia. Adicionalmente, el motor de reconocimiento de audio proporciona información para dirigir las cámaras de video en la dirección de interés que permite una mejor captura de una escena interesante.

Description

SISTEMA DE VIGILANCIA DE VIDEO Y METODO CON RECONOCIMIENTO DE VIDEO Y AUDIO COMBINADO CAMPO DE LA INVENCION La presente invención se relaciona de manera general con sistemas y métodos de vigilancia para proporcionar seguridad, y, de manera más particular con un sistema y proceso de reconocimiento de video y audio en linea en (tiempo real) novedoso para sistemas.de vigilancia.

ANTECEDENTES DE LA INVENCION Los sistemas de vigilancia de video convencionales típicamente no incluyen ninguna funcionalidad o provisión para la verificación de audio; es decir, que los sistemas de vigilancia no incluyen entradas de audio del todo. En el mejor de los casos, los sistemas de vigilancia de video típicos como los descritos en las Patentes Estadounidenses Nos. 6,724,421 y 6,175,382 proporcionan el registro simultáneo de información visual y de audio. En ambos tipos de sistemas de vigilancia de video descritos en esas referencias, los datos de video son analizados por motores de video inteligentes y son comprimidos para su almacenamiento digital. Esos motores implementan varios algoritmos de reconocimiento como reconocimiento de caras, detección de movimiento, detección de pánico, detección de movimiento asesino, etc. Una situación de alarma, por ejemplo, cuando se verifica una entrada a un edificio elevado implica un movimiento rápido súbito de una persona hacia otra, implicando un robo, agresión o actividad similar potencial. Un motor de vigilancia inteligente en este caso reconocerá (con algún nivel de éxito la cual es menor del 100%) el movimiento súbito rápido y generará una alarma en la estación de verificación. Las fuerzas policiacas pueden ser despachadas al lugar verificado como consecuencia de esa alarma. Obviamente, el movimiento súbito rápido podría haber sido generado por un niño corriendo hacia su padre/amigo y en este caso la alarma generada se convierte en una alarma falsa, lo cual producirá un despacho caro de la fuerza policíaca. Otro resultado de la detección errónea del motor de vigilancia inteligente es una ausencia de generación de alarma en el caso de una emergencia real. En este caso, puede surgir, por ejemplo, cuando exista más de una persona en la escena. No enviar una fuerza policíaca cuando esté tomando lugar una situación de urgencia real es otra desventaja de los sistemas de vigilancia actuales. El sistema de vigilancia de video únicamente de la técnica anterior es descrito en la Figura 1. Un arreglo de cámara 10 alimenta información de video a un motor de compresión de video 12 a través del enlace de video 11. La información de video es comprimida y enviada a través del enlace 16 a un dispositivo de almacenamiento 14 para un almacenamiento a largo plazo. La información de video es alimentada adicionalmente a un motor de reconocimiento de video 13 a través del mismo enlace de video 11. El motor de reconocimiento de video 13 efectúa tareas de reconocimiento de video, como el reconocimiento de caras, detección de movimiento y otros y genera eventos y alarmas que son enviadas a través del enlace 17 a una base de datos de eventos 15 y la estación de verificación 18. La estación de verificación 18 puede comprender una estación de verificación tripulada en la que un operador efectúe la verificación visual en el tiempo real de una cantidad particular de cámaras. Cuando tome lugar una situación de urgencia, de acuerdo a lo interpretado por el operador, es su decisión si o no despachar una fuerza policiaca u otro' equipo de respuesta de urgencia al área verificada. Esta claro de la descripción anterior que no existe el uso de información de audio aunque esa información está con mucha frecuencia disponible en el área verificada. El sistema de vigilancia de video de la técnica anterior con registro de audio se muestra en la Figura 2. El arreglo de cámara 20 alimenta información de video al motor de compresión de video y audio 22 a través del enlace de video 21. Simultáneamente se alimenta información de audio desde el arreglo de micrófono 29 a través de un enlace de audio 30 al motor de compresión de video y audio 22. La información de video y audio es comprimida y enviada a través del enlace 26 a un dispositivo de almacenamiento 24 para un almacenamiento a largo plazo. La información de video es igualmente alimentada al motor de reconocimiento de video 23 a través del mismo enlace de video 21. El motor de reconocimiento de video 23 efectúa tareas de reconocimiento de video, como reconocimiento de caras, detección de movimiento y otras, y genera eventos y alarmas que son a enviadas a través del enlace 27 a una base de datos 25 y estación de verificación 28. La estación de verificación 28 es una estación de verificación tripulada donde un operador efectúa la verificación visual de una cantidad particular de cámaras. Cuando toma lugar una situación de urgencia, de acuerdo a lo interpretado por el operador, es su decisión de si o no se despacha una fuerza policiaca u otro equipo de respuesta de urgencia al área verificada. Está claro de la descripción anterior que no existe extracción de información útil de las entradas de audio aunque esa información está con mucha frecuencia disponible en las señales de audio obtenidas del área verificada. Como se describió anteriormente, el segundo tipo de sistema de vigilancia registra simultáneamente información de video y audio y también implementa motores de vigilancia inteligentes para varias tareas de reconocimiento de video.

Hoy en día, en esos sistemas, la información de audio es comprimida y registrada sin ser analizada. Los sistemas de vigilancia de hoy en día simplemente no utilizan esa preciada información de audio cuando analizan la entrada de video. Obviamente, esta información de audio está disponible y en muchos escenarios de vigilancia puede ser usada de manera muy exhaustiva. De este modo, sería altamente deseable incorporar el uso de la información de audio en los sistemas de vigilancia de video con la expectativa de que el uso de la información de audio haga disminuir el número de alarmas falsas generadas por el sistema de vigilancia y también incrementa el porcentaje de alarmas verdaderas detectadas, proporcionando al mismo tiempo más información a la persona que evalúe una alarma. Adicionalmente, algunos eventos pueden ser detectados usando la información de audio y video en oposición a eventos que no sean detectados usando información de video únicamente.

SUMARIO DE LA INVENCION De este modo un objetivo de la presente invención es proporcionar un sistema y método de vigilancia de video que incorpore el uso de información de video acoplada con la información de audio obtenida del área bajo vigilancia. El sistema de vigilancia de la invención incluye entradas de señales de video y audio. Las entradas de video son originadas de cámaras digitales o analógicas de las entradas de audio son recibidas de micrófonos instalados en un área verificada. La información de video y audio es comprimida y enviada a un dispositivo de almacenamiento digital. La compresión de la información de audio y video es preferida para ahorrar la cantidad de almacenamiento digital requerida para todas las cámaras y micrófonos implementados. Simultáneamente con el registro, las entradas de video y audio son alimentadas a un motor de reconocimiento inteligente que efectúa el reconocimiento de video, reconocimiento de audio y efectúa la correlación instantánea de los resultados del reconocimiento de video-audio para detectar/reconocer un conjunto particular de eventos, indicativos de una situación de pánico, por ejemplo, voces altamente estridentes, explosiones, detonaciones, etc. Las alarmas generadas por el motor de reconocimiento inteligente pueden ser enviadas a una estación de verificación donde un operador humano decide si despacha un personal de policía o emergencia a un área verificada. De acuerdo a un aspecto de la invención, el motor de reconocimiento inteligente ejecuta algoritmos de reconocimiento de video disponibles, como reconocimiento de caras, detección de movimiento, etc. así como algoritmos de reconocimiento de audio/frecuencia vocal para el reconocimiento de frecuencia vocal de un vocabulario particular ("Ayuda" "Robo", etc.)- El motor de reconocimiento de audio puede ser entrenado para reconocer señales de audio especiales, como detonaciones, explosiones, etc. asi como firmas de voz de alta frecuencia y otras indicativas de una situación de alarma o emergencia. Usando los arreglos de micrófonos colocados en orientaciones particulares, puede determinarse direcciones de sonidos. La información de audio direccional puede entonces ser proporcionada a una unidad de control de cámara para dirigir una cámara/cámaras en la dirección de interés. Además el reconocimiento de video/audio puede entonces ser efectuado con mejor eficiencia. De este modo, por ejemplo, el sonido de una explosión puede ser detectado por el motor de reconocimiento de audio usando un arreglo de micrófonos en un área verificada. Como consecuencia, las cámaras serán dirigidas hacia la dirección de la explosión y tomarán lugar acciones de seguimiento en el motor de reconocimiento de video - de la alarma de la estación de verificación hasta el reconocimiento/comprensión de la escena. Este uso instantáneo de resultados de reconocimiento de video y audio para dirigir la evaluación adicional de audio y video registrado, y para dirigir un mejor registro de nuevas entradas de audio y video, mejora de manera ventajosa la exactitud de la detección, reduce el tiempo que toma determinar la naturaleza de una alarma, y proporciona más información a un operador de mano que evalúe la situación. Las salidas del motor de reconocimiento de video y el motor de reconocimiento de audio son analizadas por el motor de reconocimiento mutuo y como consecuencia son generadas y enviadas a alarmas finales a la estación de verificación . En concordancia con esos y otros objetivos de acuerdo a un aspecto preferido de la invención, se proporciona un sistema y un método de vigilancia, y un producto de programa de computadora, donde el sistema comprende : medios para generar señales de video en tiempo real que comprenden información de video tomada sobre un área de vigilancia; medios para obtener señales de audio en tiempo real que comprende información de audio del área bajo vigilancia; medios para recibir simultáneamente las señales de video y señales de audio, determinando información de reconocimiento de video y audio relevante de las mismas, y correlacionando mutuamente la información de audio y video en tiempo real para determinar la probabilidad de ocurrencia de un evento particular; y medios para generar una condición de alarma sobre la base de la ocurrencia del evento particular.

BREVE DESCRIPCION DE LOS DIBUJOS Las características, aspectos y ventajas adicionales de las estructuras y métodos de la presente invención serán mejor comprendidas con respecto a la siguiente descripción, las reivindicaciones anexas y los dibujos acompañantes donde: La Figura 1 ilustra un sistema de vigilancia de video únicamente de acuerdo a la técnica anterior; La Figura 2 ilustra un Sistema de Vigilancia de Video con capacidad de Registro de Audio de acuerdo a la técnica anterior; La Figura 3 ilustra un Sistema de Vigilancia de Video con Reconocimiento de Video y Audio de acuerdo a la invención; y La Figura 4 ilustra los detalles del Motor de Reconocimiento Inteligente de acuerdo a la invención.

DESCRIPCION DETALLADA DE LAS MODALIDADES PREFERIDAS La Figura 3 ilustra un Sistema de Vigilancia de Video con reconocimiento de video y audio de acuerdo a la invención. Como se muestra en la Figura 3 un arreglo de cámara 40 que comprende una o más cámaras electrónicas estáticas o de video, por ejemplo, cámaras CCD o CMOS, ya sea de color o monocromáticas o que tengan una combinación equivalente de componentes que capturan un área bajo vigilancia alimenta señales de video a un motor de compresión de video y audio digital 42 a través de un enlace de comunicaciones de video 41. El movimiento y operación de cada dispositivo de cámara del arreglo de cámara 40 puede ser controlado por señales de control recibidas, por ejemplo, bajo el control de la computadora y/o programas y sistemas de programación o software. Además, los parámetros de operación para cada cámara en el arreglo de cámara 40 incluyen un espejo panorámico/inclinado, sistema de lentes, motor de enfoque, motor panorámico y el control del motor de inclinación son controlados por las señales de control recibidas, como será explicado con mayor detalle aquí. Antes de enviar la señales de video digitales, pueden ser aplicadas muchas técnicas de procesamiento de señales para reducir el ruido o proporcionar técnicas de filtración/mejora de imágenes por ejemplo. Simultáneamente, un arreglo de micrófonos 49 que comprende dispositivos de detección de micrófono (micrófonos omnidireccionales y/o altamente direccionales ) que pueden convertir la presión acústica en señales eléctricas son proporcionados para alimentar información de audio al motor de compresión de video y audio digital 42 a través del enlace de comunicaciones de audio 50. Como es sabido por los expertos en la técnica, un nivel de directividad del arreglo de micrófonos varia con respecto a las frecuencias de sonido de modo que el numero de micrófonos y la distancia entre los micrófonos pueda ser determinada en consideración de un intervalo de frecuencia requerido capaz de proporcionar cualquier grado de directividad. Los micrófonos implementados en el' arreglo pueden ser controlados bajo el control de programas y sistemas de programación o software, por ejemplo, para lograr esos fines y, incluyen transductores configurados para tener un patrón de captación que pueda ser desviado de manera distinta hacia varias recepciones de frecuencia, por ejemplo en el intervalo de la frecuencia vocal humana, explosiones, detonaciones, etc. De esta manera se asegura que el arreglo de micrófonos sea receptivo para responder de sonido de un evento acústico con un alto grado de exactitud. Además pueden ser aplicadas técnicas de acondicionamiento de señales de audio para digitalizar las señales de audio analógicas obtenidas usando un convertidor A/D por ejemplo, para proporcionar control de ganancia, en reducir/filtrar ruido, por ejemplo. La información de video y audio digitalizada es comprimida digitalmente y enviada a través del enlace 46 a un dispositivo de almacenamiento de memoria 44 para su almacenamiento a largo plazo, por ejemplo, una base de datos, una unidad de disco duro, medios magnéticos u ópticos incluyendo pero sin limitarse a: CD-ROM, DVD, cinta, placa, arreglo de disco o similares. La salida de cada cámara del arreglo de cámaras 40 se almacena en medio de almacenamiento en un formato comprimido, como MPEG1, MPEG2, y similares. Además, la salida de cada cámara del arreglo de cámaras puede ser almacenada en un lugar particular en el medio de almacenamiento asociado con esa cámara o, se almacena con unA indicación a cual cámara corresponde cada salida almacenada. Como se muestra además en la Figura 3, la misma información de video e información de audio es adicionalmente alimentada simultáneamente a un motor de reconocimiento inteligente 43 a través del enlace de video 41 y el enlace de audio 50 respectivo. Debe comprenderse que los enlaces de comunicación 41 y 50 entre un arreglo de cámaras y el arreglo de micrófonos de audio respectivo y el motor de compresión de video y audio 42 y el motor de reconocimiento inteligente 43 puede ser alámbrico, o pueden emplearse enlaces inalámbricos. Además, está dentro del alcance de la presente invención para esos enlaces de comunicación tomar la forma de la transmisión por cable, satélite, RF y microondas, fibra óptica, y similares . Como será descrito con mayor detalle aquí, y como .se describe en la Figura 4, el motor de reconocimiento inteligente 43 comprende un motor de reconocimiento de video 62, motor de reconocimiento de audio 63, un motor de reconocimiento mutuo y un módulo de generación de alarma 64. El motor de reconocimiento inteligente 43 implementa programas y sistemas de programación o software para controlar un dispositivo de computadora para efectuar los métodos y procesos para ejecutar algoritmos de reconocimiento de video y algoritmos de reconocimiento de caras. Esos pueden ser ejecutados con y en conjunto con algoritmos de detección de movimiento (por ejemplo, los algoritmos de correlación de corrección o seguimiento bien conocidos que siguen los puntos individuales) para estimar el movimiento de elementos en el flujo de imágenes) , etc. El motor de reconocimiento inteligente 43 adicionalmente implementa programas y sistemas de programación o software para controlar un dispositivo de computadora para efectuar los métodos y procesos para ejecutar los algoritmos de reconocimiento de audio y reconocimiento de frecuencia vocal. Los algoritmos de reconocimiento de frecuencia vocal implementados como instrucciones legibles por computadora, estructuras de datos, módulos de programa, etc. pueden ser usados para reconocer palabras habladas particulares que puedan ser potencialmente indicativas de una situación de urgencia o dignas de alarma ("Ayuda", "Robo", etc.). Un motor de reconocimiento de audio 63, que comprende instrucciones legibles por computadora, estructuras de datos, módulos de programa u otros datos, puede ser entregado para reconocer señales de audio especiales como detonaciones, explosiones, etc., asi como sonidos altos, como gritos o alaridos, chillidos, y otros sonidos y firmas de voz asociadas con eventos que provoquen una alarma potencial conocidos. Debe comprenderse sin embargo, que los diferentes algoritmos de reconocimiento que pueden ser empleados de acuerdo a la invención no requieren un entrenamiento previo. Los dispositivos de cómputo implementados incluyen un dispositivo de cómputo para propósitos generales como una PC, dispositivo, computadora portátil, dispositivo móvil, y similares, que tenga componentes que incluya, pero no se limitan a una unidad de procesamiento, una memoria de sistema, y un canal de sistema que acople los diferentes componentes del sistema incluyendo la memoria del sistema a la unidad de procesamiento. El dispositivo de computadora implementa esos componentes para ejecutar el motor de reconocimiento inteligente y un motor de reconocimiento de audio que están almacenados en un medio legible por computadora bien conocido que comprende cualquier medio disponible al que pueda tenerse acceso por medio de un dispositivo de cómputo incluyendo medios removibles, no removibles, volátiles y medios no volátiles. El registro legible por computadora puede ser centralizado en un lugar o descentralizado sobre sistemas de computadora conectados vía una red, por ejemplo, y los algoritmos de reconocimiento legibles por computadora pueden ser almacenados en el medio de registro legible por computadora y ejecutados en una forma descentralizada. Regresando a la Figura 3, usando el arreglo de micrófonos 49 en orientaciones particulares, las direcciones de los sonidos son determinables . La información direccional relacionada con un evento de audio detectado es proporcionada al módulo de control de cámaras/micrófonos 52 a través de un enlace de comunicación alámbrica o inalámbrica 53. El módulo de control de cámaras/micrófonos 52 incluye todos los programas y sistemas de programación o software necesarios para implementar el control de posición del motor para dirigir la cámara/cámaras del arreglo 40 y controlar las posiciones del arreglo de micrófonos 49 en la dirección de interés por medio de señales de control 54. Por ejemplo, las señales de control pueden ser alimentadas al arreglo de cámaras 40 para ajusfar o controlar los componentes y subsistemas de los espejos panorámico/de inclinación de la cámara, sistemas de lentes, motor de enfoque, motor panorámico y motor de inclinación. Esas señales de control son usadas adicionalmente para dirigir automáticamente el campo de observación visto por las cámaras para obtener una imagen mejor centrada o, más agrandada, enfocada o una imagen más resuelta con más información con respecto a la alarma o evento de alarma real. En un ejemplo no limitante, en respuesta al reconocimiento de audio de una señal de audio de una detonación por el motor dé reconocimiento inteligente, pueden ser generadas señales de control que dirijan una o más cámaras del arreglo de cámaras a la escena para "ver" en la dirección de la detonación. Si el arreglo de cámaras de video es dirigido al lugar de un crimen de reconocimiento de audio de la detonación, entonces el reconocimiento del "evento criminal" será mejor debido a que se tiene disponible más información acerca de la detonación. De manera alternativa, o además, esas señales de control pueden ser generadas y usadas para ajustar automáticamente la orientación de los micrófonos y la distancia entre los micrófonos para recibir mejor la información de audio acompañante. La orientación de los micrófonos puede ser ajustada adicionalmente en consideración de la detección de las señales de audio y un intervalo de frecuencia requerido, o proporcionando cualquier grado de directividad dado. De este modo, por ejemplo, uno o más micrófonos pueden ser redirigidos para "escuchar" desde una dirección particular en respuesta a un evento de reconocimiento de video. De manera más especifica, como se muestra en la Figura 4, las salidas del motor de reconocimiento de video 62 y el motor de reconocimiento de audio 63 son analizadas por el motor de reconocimiento mutuo 64 para procesar la información de reconocimiento de video y audio recibida simultáneamente y finalmente determinar si existe una condición de alarma. De esta manera, las alarmas que puedan ser generadas son enviadas a la estación de verificación 48 a través de enlaces de comunicación 47. Es decir, que el proceso de reconocimiento empleado como instrucciones legibles por computadora, instrucciones de datos, módulos de programa, etc. usados en el motor de reconocimiento mutuo 64 se basan generalmente en un patrón de comparación y/o evaluación de hipótesis. Durante una fase de evaluación, se determina una estimación de las probabilidades de varios eventos. Esto puede ser logrado determinado que la información de reconocimiento de video en tiempo real y las señales de audio en que grado existe una correlación entre las escenas de video reconocidas y las firmas de voz o audio reconocidas acompañantes respectivas. En un ejemplo de evento de reconocimiento, para reconocer un movimiento asesino, la información de video es usada con el propósito de tratar de evaluar las probabilidades de varias escenas de video. Se sabe que esas escenas estarían acompañadas por voz de alta frecuencia (gritos o alaridos, etc.), detectar entonces una alta frecuencia de la entrada de audio incrementará la probabilidad de que esto sea resultado de un movimiento asesino como el capturado en las señales de video. Un operador efectúa la verificación visual de un área particular vigilada por el arreglo de cámaras 40 y cuando tome lugar una indicación de alarma proporcionada por la unidad generadora de alarma, es la decisión del operador despachar o no despachar un policía o personal de urgencia al área verificada. Está claro que la descripción anterior que existe una extracción de información útil de las entradas de audio la cual, al ser combinada con los eventos de reconocimiento de video, mejora la operación total del sistema de vigilancia . Como se muestra además en la Figura 4, el enlace de comunicación 60 entre el motor de reconocimiento de video 62 y el motor de reconocimiento mutuo 64 es bidireccional , como lo son el enlace de comunicación 61 entre el motor de reconocimiento de audio 63 y el motor de reconocimiento mutuo 64. La bidireccionalidad de los enlaces 60 y 61 permite la influencia mutua de los algoritmos de reconocimiento de video y audio en la forma que se describió, lo cual, como consecuencia, da un mejor nivel de reconocimiento para video y audio así como la posibilidad de implementar la detección de eventos particulares que hasta ahora eran imposibles de detectar . Aunque la invención ha sido mostrada y descrita particularmente con respecto a modalidades ilustrativas y preformadas de la misma, será comprendido por aquellos expertos en la técnica que pueden hacer los cambios anteriores y otros en la forma y detalle sin apartarse del espíritu y alcance de la invención el cual será limitado únicamente por el alcance de las reivindicaciones anexas.

Claims

REIVINDICACIONES 1. Un sistema de vigilancia que utiliza reconocimiento de video y audio caracterizado porque comprende : medios para generar señales de video en tiempo real que comprenden información de video tomada sobre un área bajo vigilancia ; medios para obtener señales de audio en tiempo real que comprenden información de audio del área bajo vigilancia; medios para recibir simultáneamente las señales de video y señales de audio, determinando información de reconocimiento de video y audio relevante de las mismas, y correlacionando mutuamente la información de audio y video en tiempo real para determinar la probabilidad de ocurrencia de un evento particular; y medios para generar una' condición de alarma sobre la base de la ocurrencia del evento particular.
2. El sistema de conformidad con la reivindicación 1, caracterizado porque los medios de procesamiento comprenden un primer motor de reconocimiento para procesar las señales de video para determinar la información de reconocimiento de video.
3. El sistema de conformidad con la reivindicación 2, caracterizado porque los medios de procesamiento comprenden un segundo motor de reconocimiento para procesar las señales de audio para determinar la información de reconocimiento de audio.
4. El sistema de conformidad con la reivindicación 1, caracterizado porque los medios de procesamiento comprenden medios de reconocimiento mutuo para correlacionar la información de reconocimiento de audio y video e incrementar la capacidad de detectar la ocurrencia de un evento particular.
5. El sistema de conformidad con la reivindicación 4, caracterizado porque los medios para generar señales de video en tiempo real comprenden uno o más dispositivos de cámara de video, comprendiendo los medios de reconocimiento mutuo además medios para generar señales de control para dirigir una o más cámaras de los dispositivos de cámara para capturar señales de video en la dirección de un evento particular en respuesta al reconocimiento de la ocurrencia de ese evento sobre la base de reconocimiento de audio del evento.
6. El sistema de conformidad con la reivindicación 5, caracterizado porque cada dispositivo de cámara de video comprende uno o más ' componentes de espejos panorámicos/inclinados, sistema de lentes, motor de enfoque, motor panorámico, motor de inclinación que responden a la señales de control para ajusfar uno o más de los parámetros de control panorámico, de inclinación, acercamiento, rotación, travelin, traslado de los dispositivos de cámara de video .
7. El sistema de conformidad con la reivindicación 4, caracterizado porque los medios para generar señales de audio en tiempo real comprenden uno o más dispositivos de micrófono, comprendiendo los medios de reconocimiento mutuo además medios para generar señales de control para dirigir uno o más micrófonos de los dispositivos de micrófono para permitir la captura de información de reconocimiento de audio en la dirección del evento particular en respuesta al reconocimiento de la ocurrencia de un evento potencial sobre la base del reconocimiento de video del evento.
8. El sistema de conformidad con la reivindicación 7, caracterizado porque cada uno de los dispositivos de micrófono responde a las señales de control para ajusfar automáticamente la orientación de los micrófonos en consideración de la detección de las señales de audio de un intervalo de frecuencia requerido.
9. El sistema de conformidad con la reivindicación 7, caracterizado porque cada uno de los dispositivos de micrófono responde a las señales de control para ajusfar automáticamente la orientación de los micrófonos en con consideración de la recepción de señales de audio en cualquier grado de directividad dado.
10. El sistema de conformidad con la reivindicación 1, caracterizado porque comprende además medios para almacenar los datos de audio y video.
11. El sistema de conformidad con la reivindicación 10, caracterizado porque comprende además medios para comprimir los datos de audio y video antes de almacenar éstos en los medios de almacenamiento.
12. Un método de vigilancia que utiliza reconocimiento de video y audio, caracterizado porque comprende los pasos de: recibir simultáneamente en medios de procesamiento señales de video en tiempo real que comprenden información de video tomada sobre un área bajo vigilancia y señales de audio en tiempo real que comprenden información de audio del área bajo vigilancia, ¦ determinar información de reconocimiento de video y reconocimiento de audio relevante de las señales de video y audio recibidas; correlacionar mutuamente la información de reconocimiento de audio y video en tiempo real para determinar la probabilidad de ocurrencia de un evento particular; y generar una condición de alarma sobre la base de la ocurrencia del evento particular.
13. El método de vigilancia de conformidad con la Reivindicación 12, caracterizado porque los medios de procesamiento comprenden un primer motor de reconocimiento que implementa los pasos de procesamiento para determinar la información de reconocimiento de video de las señales de video .
14. El método de vigilancia de conformidad con la Reivindicación 13, caracterizado porque los medios de procesamiento comprenden un segundo motor de reconocimiento que implementa los pasos de procesamiento para determinar la información de reconocimiento de audio de las señales de audio.
15. El método de vigilancia de conformidad con la Reivindicación 12, caracterizado porque los medios de procesamiento comprenden medios de reconocimiento mutuo para correlacionar la información de reconocimiento de audio y video e incrementar la capacidad de detectar la ocurrencia de un evento particular.
16. El método de vigilancia de conformidad con la Reivindicación 15, caracterizado porque concurrentemente con el paso de recepción, un paso de obtención de las señales de video en tiempo real por uno o más dispositivos de cámara de video, comprendiendo además los medios de reconocimiento mutuo medios para generar señales de control adaptadas para dirigir una o más cámaras de los dispositivos de cámara para capturar señales de video en la dirección del evento particular en respuesta al reconocimiento de la ocurrencia potencial del evento sobre la base del reconocimiento de audio del evento.
17. El método de vigilancia de conformidad con la Reivindicación 16, caracterizado porque cada uno o más dispositivos de cámara de video comprende uno o más componentes de espejos panorámico/inclinado, sistema de lentes, motor de enfoque, motor panorámico, y motor de inclinación que responden a las señales de control para ajusfar uno o más de los parámetros de control panorámico, de inclinación, el acercamiento, rotación, traslación de los dispositivos de cámara de video.
18. El método de vigilancia de conformidad con la Reivindicación 15, caracterizado por concurrentemente con el paso de recepción, un paso de obtención de las señales de audio en tiempo real por uno o más dispositivos de micrófono comprendiendo los medios de reconocimiento mutuo además medios para generar señales de control adaptadas para dirigir uno o más micrófonos de los dispositivos de micrófono para capturar señales de audio en la dirección del evento particular en respuesta al reconocimiento de la ocurrencia potencial de ese evento sobre la base del reconocimiento de video del evento.
19. El método de vigilancia de conformidad con la Reivindicación 18, caracterizado porque cada uno de los dispositivos de micrófono responde a las señales de control para ajustar automáticamente la orientación de los micrófonos en consideración de la detección de las señales de audio de un intervalo de frecuencia requerido.
20. El método de vigilancia de conformidad con la Reivindicación 18, caracterizado porque cada uno de los dispositivos de micrófono responde a las señales de control para ajustar automáticamente la orientación de los micrófonos en consideración de la recepción de señales de audio en cualquier grado de directividad dado.
21. El método de vigilancia de conformidad con la Reivindicación 12, caracterizado porque comprende además los pasos de almacenar los datos de audio y video en el dispositivo de almacenamiento de datos.
22. El método de vigilancia de conformidad con la Reivindicación 21, caracterizado porque comprende además el paso de: comprimir los datos de audio y video antes de almacenar en el dispositivo de almacenamiento de datos.
23. Un dispositivo de almacenamiento de programas legible por una máquina, que incorpora de manera tangible un programa de instrucciones ejecutables por la máquina para implementar los pasos del método para efectuar la vigilancia de un área usando el reconocimiento de video y audio, los pasos del método se caracterizan porque incluyen los pasos de: recibir simultáneamente en un medio de procesamiento señales de video en tiempo real que comprende información de video tomada sobre un área bajo vigilancia y señales de audio en tiempo real que comprenden información de audio del área bajo vigilancia, determinar información de reconocimiento de video y reconocimiento de audio relevante de las señales de video y audio recibidas; correlacionar mutuamente la información de reconocimiento de audio y video en tiempo real para determinar la probabilidad de ocurrencia de un evento particular; y generar una condición de alarmas sobre la base de la ocurrencia del evento particular.
24. El dispositivo de almacenamiento de programas legible por una máquina de conformidad con la Reivindicación 23, caracterizado porque los medios de procesamiento comprenden: un primer motor de reconocimiento que implementa los pasos de procesamiento para determinar la información de reconocimiento de video de las señales de video, y un segundo motor de reconocimiento que implementa los pasoas de procesamiento para determinar la información de reconocimiento de audio de las señales de audio.
25. El dispositivo de almacenamiento de programas legible por una máquina de conformidad con la Reivindicación 24, caracterizado porque los medios de procesamiento comprenden medios de reconocimiento mutuo para correlacionar la información de reconocimiento de audio y video e incrementar la capacidad de detectar la ocurrencia de un evento particular.
26. El dispositivo de almacenamiento de programas legible por una máquina de conformidad con la Reivindicación 25, caracterizado por concurrentemente con el paso de recepción, un paso de obtención de señales de video en tiempo real por uno o más dispositivos de cámara de video, comprendiendo además los medios de reconocimiento mutuo medios para generar señales de control adaptadas para dirigir una o más cámaras de los dispositivos de cámara para capturar señales de video en la dirección del evento particular en respuesta al reconocimiento de la ocurrencia potencial de ese evento sobre la base de reconocimiento de audio del evento.
27. El dispositivo de almacenamiento de programas legible por una máquina de conformidad con la Reivindicación 25, caracterizado por concurrentemente con el paso de recepción, un paso de obtención de señales de audio en tiempo real por uno o más dispositivos de micrófono, comprendiendo los medios de reconocimiento mutuo además medios para generar señales de control adaptadas para dirigir uno o más micrófonos de los dispositivos de micrófono para capturar señales de audio en la dirección del evento particular en respuesta al reconocimiento de la ocurrencia potencial de ese evento en reconocimiento de video del evento.