MX2009001254A - Sistema de vigilancia de video y metodo con reconocimiento de video y audio combinado. - Google Patents

Sistema de vigilancia de video y metodo con reconocimiento de video y audio combinado.

Info

Publication number
MX2009001254A
MX2009001254A MX2009001254A MX2009001254A MX2009001254A MX 2009001254 A MX2009001254 A MX 2009001254A MX 2009001254 A MX2009001254 A MX 2009001254A MX 2009001254 A MX2009001254 A MX 2009001254A MX 2009001254 A MX2009001254 A MX 2009001254A
Authority
MX
Mexico
Prior art keywords
video
audio
recognition
signals
information
Prior art date
Application number
MX2009001254A
Other languages
English (en)
Inventor
Martin G Kienzle
Vadim Sheinin
Original Assignee
Ibm
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ibm filed Critical Ibm
Publication of MX2009001254A publication Critical patent/MX2009001254A/es

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/181Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B13/00Burglar, theft or intruder alarms
    • G08B13/16Actuation by interference with mechanical vibrations in air or other fluid
    • G08B13/1654Actuation by interference with mechanical vibrations in air or other fluid using passive vibration detection systems
    • G08B13/1672Actuation by interference with mechanical vibrations in air or other fluid using passive vibration detection systems using sonic detecting means, e.g. a microphone operating in the audio frequency range
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B13/00Burglar, theft or intruder alarms
    • G08B13/18Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength
    • G08B13/189Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems
    • G08B13/194Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems
    • G08B13/196Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems using television cameras
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B19/00Alarms responsive to two or more different undesired or abnormal conditions, e.g. burglary and fire, abnormal temperature and abnormal rate of flow
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B31/00Predictive alarm systems characterised by extrapolation or other computation using updated historic data

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Emergency Management (AREA)
  • Signal Processing (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Burglar Alarm Systems (AREA)
  • Alarm Systems (AREA)

Abstract

Un sistema de vigilancia de video novedoso está constituido de un motor de compresión de video y audio, un dispositivo de almacenamiento y, un motor de reconocimiento de video y audio. El motor de reconocimiento de video detecta eventos como el reconocimiento de caras, detección de movimiento, etc., mientras que el motor de reconocimiento de audio detecta voz y otras firmas de sonido que indiquen una situación de alarma potencial, por ejemplo voces de pánico como chillidos y grito, o sonidos como detonaciones, explosiones. El reconocimiento combinado de señales de audio y video proporciona una mayor generación de alarmas verdaderas y un menor nivel de alarmas falsas del sistema de vigilancia. Adicionalmente, el motor de reconocimiento de audio proporciona información para dirigir las cámaras de video en la dirección de interés que permite una mejor captura de una escena interesante.

Description

SISTEMA DE VIGILANCIA DE VIDEO Y METODO CON RECONOCIMIENTO DE VIDEO Y AUDIO COMBINADO CAMPO DE LA INVENCION La presente invención se relaciona de manera general con sistemas y métodos de vigilancia para proporcionar seguridad, y, de manera más particular con un sistema y proceso de reconocimiento de video y audio en linea en (tiempo real) novedoso para sistemas.de vigilancia.
ANTECEDENTES DE LA INVENCION Los sistemas de vigilancia de video convencionales típicamente no incluyen ninguna funcionalidad o provisión para la verificación de audio; es decir, que los sistemas de vigilancia no incluyen entradas de audio del todo. En el mejor de los casos, los sistemas de vigilancia de video típicos como los descritos en las Patentes Estadounidenses Nos. 6,724,421 y 6,175,382 proporcionan el registro simultáneo de información visual y de audio. En ambos tipos de sistemas de vigilancia de video descritos en esas referencias, los datos de video son analizados por motores de video inteligentes y son comprimidos para su almacenamiento digital. Esos motores implementan varios algoritmos de reconocimiento como reconocimiento de caras, detección de movimiento, detección de pánico, detección de movimiento asesino, etc. Una situación de alarma, por ejemplo, cuando se verifica una entrada a un edificio elevado implica un movimiento rápido súbito de una persona hacia otra, implicando un robo, agresión o actividad similar potencial. Un motor de vigilancia inteligente en este caso reconocerá (con algún nivel de éxito la cual es menor del 100%) el movimiento súbito rápido y generará una alarma en la estación de verificación. Las fuerzas policiacas pueden ser despachadas al lugar verificado como consecuencia de esa alarma. Obviamente, el movimiento súbito rápido podría haber sido generado por un niño corriendo hacia su padre/amigo y en este caso la alarma generada se convierte en una alarma falsa, lo cual producirá un despacho caro de la fuerza policíaca. Otro resultado de la detección errónea del motor de vigilancia inteligente es una ausencia de generación de alarma en el caso de una emergencia real. En este caso, puede surgir, por ejemplo, cuando exista más de una persona en la escena. No enviar una fuerza policíaca cuando esté tomando lugar una situación de urgencia real es otra desventaja de los sistemas de vigilancia actuales. El sistema de vigilancia de video únicamente de la técnica anterior es descrito en la Figura 1. Un arreglo de cámara 10 alimenta información de video a un motor de compresión de video 12 a través del enlace de video 11. La información de video es comprimida y enviada a través del enlace 16 a un dispositivo de almacenamiento 14 para un almacenamiento a largo plazo. La información de video es alimentada adicionalmente a un motor de reconocimiento de video 13 a través del mismo enlace de video 11. El motor de reconocimiento de video 13 efectúa tareas de reconocimiento de video, como el reconocimiento de caras, detección de movimiento y otros y genera eventos y alarmas que son enviadas a través del enlace 17 a una base de datos de eventos 15 y la estación de verificación 18. La estación de verificación 18 puede comprender una estación de verificación tripulada en la que un operador efectúe la verificación visual en el tiempo real de una cantidad particular de cámaras. Cuando tome lugar una situación de urgencia, de acuerdo a lo interpretado por el operador, es su decisión si o no despachar una fuerza policiaca u otro' equipo de respuesta de urgencia al área verificada. Esta claro de la descripción anterior que no existe el uso de información de audio aunque esa información está con mucha frecuencia disponible en el área verificada. El sistema de vigilancia de video de la técnica anterior con registro de audio se muestra en la Figura 2. El arreglo de cámara 20 alimenta información de video al motor de compresión de video y audio 22 a través del enlace de video 21. Simultáneamente se alimenta información de audio desde el arreglo de micrófono 29 a través de un enlace de audio 30 al motor de compresión de video y audio 22. La información de video y audio es comprimida y enviada a través del enlace 26 a un dispositivo de almacenamiento 24 para un almacenamiento a largo plazo. La información de video es igualmente alimentada al motor de reconocimiento de video 23 a través del mismo enlace de video 21. El motor de reconocimiento de video 23 efectúa tareas de reconocimiento de video, como reconocimiento de caras, detección de movimiento y otras, y genera eventos y alarmas que son a enviadas a través del enlace 27 a una base de datos 25 y estación de verificación 28. La estación de verificación 28 es una estación de verificación tripulada donde un operador efectúa la verificación visual de una cantidad particular de cámaras. Cuando toma lugar una situación de urgencia, de acuerdo a lo interpretado por el operador, es su decisión de si o no se despacha una fuerza policiaca u otro equipo de respuesta de urgencia al área verificada. Está claro de la descripción anterior que no existe extracción de información útil de las entradas de audio aunque esa información está con mucha frecuencia disponible en las señales de audio obtenidas del área verificada. Como se describió anteriormente, el segundo tipo de sistema de vigilancia registra simultáneamente información de video y audio y también implementa motores de vigilancia inteligentes para varias tareas de reconocimiento de video.
Hoy en día, en esos sistemas, la información de audio es comprimida y registrada sin ser analizada. Los sistemas de vigilancia de hoy en día simplemente no utilizan esa preciada información de audio cuando analizan la entrada de video. Obviamente, esta información de audio está disponible y en muchos escenarios de vigilancia puede ser usada de manera muy exhaustiva. De este modo, sería altamente deseable incorporar el uso de la información de audio en los sistemas de vigilancia de video con la expectativa de que el uso de la información de audio haga disminuir el número de alarmas falsas generadas por el sistema de vigilancia y también incrementa el porcentaje de alarmas verdaderas detectadas, proporcionando al mismo tiempo más información a la persona que evalúe una alarma. Adicionalmente, algunos eventos pueden ser detectados usando la información de audio y video en oposición a eventos que no sean detectados usando información de video únicamente.
SUMARIO DE LA INVENCION De este modo un objetivo de la presente invención es proporcionar un sistema y método de vigilancia de video que incorpore el uso de información de video acoplada con la información de audio obtenida del área bajo vigilancia. El sistema de vigilancia de la invención incluye entradas de señales de video y audio. Las entradas de video son originadas de cámaras digitales o analógicas de las entradas de audio son recibidas de micrófonos instalados en un área verificada. La información de video y audio es comprimida y enviada a un dispositivo de almacenamiento digital. La compresión de la información de audio y video es preferida para ahorrar la cantidad de almacenamiento digital requerida para todas las cámaras y micrófonos implementados. Simultáneamente con el registro, las entradas de video y audio son alimentadas a un motor de reconocimiento inteligente que efectúa el reconocimiento de video, reconocimiento de audio y efectúa la correlación instantánea de los resultados del reconocimiento de video-audio para detectar/reconocer un conjunto particular de eventos, indicativos de una situación de pánico, por ejemplo, voces altamente estridentes, explosiones, detonaciones, etc. Las alarmas generadas por el motor de reconocimiento inteligente pueden ser enviadas a una estación de verificación donde un operador humano decide si despacha un personal de policía o emergencia a un área verificada. De acuerdo a un aspecto de la invención, el motor de reconocimiento inteligente ejecuta algoritmos de reconocimiento de video disponibles, como reconocimiento de caras, detección de movimiento, etc. así como algoritmos de reconocimiento de audio/frecuencia vocal para el reconocimiento de frecuencia vocal de un vocabulario particular ("Ayuda" "Robo", etc.)- El motor de reconocimiento de audio puede ser entrenado para reconocer señales de audio especiales, como detonaciones, explosiones, etc. asi como firmas de voz de alta frecuencia y otras indicativas de una situación de alarma o emergencia. Usando los arreglos de micrófonos colocados en orientaciones particulares, puede determinarse direcciones de sonidos. La información de audio direccional puede entonces ser proporcionada a una unidad de control de cámara para dirigir una cámara/cámaras en la dirección de interés. Además el reconocimiento de video/audio puede entonces ser efectuado con mejor eficiencia. De este modo, por ejemplo, el sonido de una explosión puede ser detectado por el motor de reconocimiento de audio usando un arreglo de micrófonos en un área verificada. Como consecuencia, las cámaras serán dirigidas hacia la dirección de la explosión y tomarán lugar acciones de seguimiento en el motor de reconocimiento de video - de la alarma de la estación de verificación hasta el reconocimiento/comprensión de la escena. Este uso instantáneo de resultados de reconocimiento de video y audio para dirigir la evaluación adicional de audio y video registrado, y para dirigir un mejor registro de nuevas entradas de audio y video, mejora de manera ventajosa la exactitud de la detección, reduce el tiempo que toma determinar la naturaleza de una alarma, y proporciona más información a un operador de mano que evalúe la situación. Las salidas del motor de reconocimiento de video y el motor de reconocimiento de audio son analizadas por el motor de reconocimiento mutuo y como consecuencia son generadas y enviadas a alarmas finales a la estación de verificación . En concordancia con esos y otros objetivos de acuerdo a un aspecto preferido de la invención, se proporciona un sistema y un método de vigilancia, y un producto de programa de computadora, donde el sistema comprende : medios para generar señales de video en tiempo real que comprenden información de video tomada sobre un área de vigilancia; medios para obtener señales de audio en tiempo real que comprende información de audio del área bajo vigilancia; medios para recibir simultáneamente las señales de video y señales de audio, determinando información de reconocimiento de video y audio relevante de las mismas, y correlacionando mutuamente la información de audio y video en tiempo real para determinar la probabilidad de ocurrencia de un evento particular; y medios para generar una condición de alarma sobre la base de la ocurrencia del evento particular.
BREVE DESCRIPCION DE LOS DIBUJOS Las características, aspectos y ventajas adicionales de las estructuras y métodos de la presente invención serán mejor comprendidas con respecto a la siguiente descripción, las reivindicaciones anexas y los dibujos acompañantes donde: La Figura 1 ilustra un sistema de vigilancia de video únicamente de acuerdo a la técnica anterior; La Figura 2 ilustra un Sistema de Vigilancia de Video con capacidad de Registro de Audio de acuerdo a la técnica anterior; La Figura 3 ilustra un Sistema de Vigilancia de Video con Reconocimiento de Video y Audio de acuerdo a la invención; y La Figura 4 ilustra los detalles del Motor de Reconocimiento Inteligente de acuerdo a la invención.
DESCRIPCION DETALLADA DE LAS MODALIDADES PREFERIDAS La Figura 3 ilustra un Sistema de Vigilancia de Video con reconocimiento de video y audio de acuerdo a la invención. Como se muestra en la Figura 3 un arreglo de cámara 40 que comprende una o más cámaras electrónicas estáticas o de video, por ejemplo, cámaras CCD o CMOS, ya sea de color o monocromáticas o que tengan una combinación equivalente de componentes que capturan un área bajo vigilancia alimenta señales de video a un motor de compresión de video y audio digital 42 a través de un enlace de comunicaciones de video 41. El movimiento y operación de cada dispositivo de cámara del arreglo de cámara 40 puede ser controlado por señales de control recibidas, por ejemplo, bajo el control de la computadora y/o programas y sistemas de programación o software. Además, los parámetros de operación para cada cámara en el arreglo de cámara 40 incluyen un espejo panorámico/inclinado, sistema de lentes, motor de enfoque, motor panorámico y el control del motor de inclinación son controlados por las señales de control recibidas, como será explicado con mayor detalle aquí. Antes de enviar la señales de video digitales, pueden ser aplicadas muchas técnicas de procesamiento de señales para reducir el ruido o proporcionar técnicas de filtración/mejora de imágenes por ejemplo. Simultáneamente, un arreglo de micrófonos 49 que comprende dispositivos de detección de micrófono (micrófonos omnidireccionales y/o altamente direccionales ) que pueden convertir la presión acústica en señales eléctricas son proporcionados para alimentar información de audio al motor de compresión de video y audio digital 42 a través del enlace de comunicaciones de audio 50. Como es sabido por los expertos en la técnica, un nivel de directividad del arreglo de micrófonos varia con respecto a las frecuencias de sonido de modo que el numero de micrófonos y la distancia entre los micrófonos pueda ser determinada en consideración de un intervalo de frecuencia requerido capaz de proporcionar cualquier grado de directividad. Los micrófonos implementados en el' arreglo pueden ser controlados bajo el control de programas y sistemas de programación o software, por ejemplo, para lograr esos fines y, incluyen transductores configurados para tener un patrón de captación que pueda ser desviado de manera distinta hacia varias recepciones de frecuencia, por ejemplo en el intervalo de la frecuencia vocal humana, explosiones, detonaciones, etc. De esta manera se asegura que el arreglo de micrófonos sea receptivo para responder de sonido de un evento acústico con un alto grado de exactitud. Además pueden ser aplicadas técnicas de acondicionamiento de señales de audio para digitalizar las señales de audio analógicas obtenidas usando un convertidor A/D por ejemplo, para proporcionar control de ganancia, en reducir/filtrar ruido, por ejemplo. La información de video y audio digitalizada es comprimida digitalmente y enviada a través del enlace 46 a un dispositivo de almacenamiento de memoria 44 para su almacenamiento a largo plazo, por ejemplo, una base de datos, una unidad de disco duro, medios magnéticos u ópticos incluyendo pero sin limitarse a: CD-ROM, DVD, cinta, placa, arreglo de disco o similares. La salida de cada cámara del arreglo de cámaras 40 se almacena en medio de almacenamiento en un formato comprimido, como MPEG1, MPEG2, y similares. Además, la salida de cada cámara del arreglo de cámaras puede ser almacenada en un lugar particular en el medio de almacenamiento asociado con esa cámara o, se almacena con unA indicación a cual cámara corresponde cada salida almacenada. Como se muestra además en la Figura 3, la misma información de video e información de audio es adicionalmente alimentada simultáneamente a un motor de reconocimiento inteligente 43 a través del enlace de video 41 y el enlace de audio 50 respectivo. Debe comprenderse que los enlaces de comunicación 41 y 50 entre un arreglo de cámaras y el arreglo de micrófonos de audio respectivo y el motor de compresión de video y audio 42 y el motor de reconocimiento inteligente 43 puede ser alámbrico, o pueden emplearse enlaces inalámbricos. Además, está dentro del alcance de la presente invención para esos enlaces de comunicación tomar la forma de la transmisión por cable, satélite, RF y microondas, fibra óptica, y similares . Como será descrito con mayor detalle aquí, y como .se describe en la Figura 4, el motor de reconocimiento inteligente 43 comprende un motor de reconocimiento de video 62, motor de reconocimiento de audio 63, un motor de reconocimiento mutuo y un módulo de generación de alarma 64. El motor de reconocimiento inteligente 43 implementa programas y sistemas de programación o software para controlar un dispositivo de computadora para efectuar los métodos y procesos para ejecutar algoritmos de reconocimiento de video y algoritmos de reconocimiento de caras. Esos pueden ser ejecutados con y en conjunto con algoritmos de detección de movimiento (por ejemplo, los algoritmos de correlación de corrección o seguimiento bien conocidos que siguen los puntos individuales) para estimar el movimiento de elementos en el flujo de imágenes) , etc. El motor de reconocimiento inteligente 43 adicionalmente implementa programas y sistemas de programación o software para controlar un dispositivo de computadora para efectuar los métodos y procesos para ejecutar los algoritmos de reconocimiento de audio y reconocimiento de frecuencia vocal. Los algoritmos de reconocimiento de frecuencia vocal implementados como instrucciones legibles por computadora, estructuras de datos, módulos de programa, etc. pueden ser usados para reconocer palabras habladas particulares que puedan ser potencialmente indicativas de una situación de urgencia o dignas de alarma ("Ayuda", "Robo", etc.). Un motor de reconocimiento de audio 63, que comprende instrucciones legibles por computadora, estructuras de datos, módulos de programa u otros datos, puede ser entregado para reconocer señales de audio especiales como detonaciones, explosiones, etc., asi como sonidos altos, como gritos o alaridos, chillidos, y otros sonidos y firmas de voz asociadas con eventos que provoquen una alarma potencial conocidos. Debe comprenderse sin embargo, que los diferentes algoritmos de reconocimiento que pueden ser empleados de acuerdo a la invención no requieren un entrenamiento previo. Los dispositivos de cómputo implementados incluyen un dispositivo de cómputo para propósitos generales como una PC, dispositivo, computadora portátil, dispositivo móvil, y similares, que tenga componentes que incluya, pero no se limitan a una unidad de procesamiento, una memoria de sistema, y un canal de sistema que acople los diferentes componentes del sistema incluyendo la memoria del sistema a la unidad de procesamiento. El dispositivo de computadora implementa esos componentes para ejecutar el motor de reconocimiento inteligente y un motor de reconocimiento de audio que están almacenados en un medio legible por computadora bien conocido que comprende cualquier medio disponible al que pueda tenerse acceso por medio de un dispositivo de cómputo incluyendo medios removibles, no removibles, volátiles y medios no volátiles. El registro legible por computadora puede ser centralizado en un lugar o descentralizado sobre sistemas de computadora conectados vía una red, por ejemplo, y los algoritmos de reconocimiento legibles por computadora pueden ser almacenados en el medio de registro legible por computadora y ejecutados en una forma descentralizada. Regresando a la Figura 3, usando el arreglo de micrófonos 49 en orientaciones particulares, las direcciones de los sonidos son determinables . La información direccional relacionada con un evento de audio detectado es proporcionada al módulo de control de cámaras/micrófonos 52 a través de un enlace de comunicación alámbrica o inalámbrica 53. El módulo de control de cámaras/micrófonos 52 incluye todos los programas y sistemas de programación o software necesarios para implementar el control de posición del motor para dirigir la cámara/cámaras del arreglo 40 y controlar las posiciones del arreglo de micrófonos 49 en la dirección de interés por medio de señales de control 54. Por ejemplo, las señales de control pueden ser alimentadas al arreglo de cámaras 40 para ajusfar o controlar los componentes y subsistemas de los espejos panorámico/de inclinación de la cámara, sistemas de lentes, motor de enfoque, motor panorámico y motor de inclinación. Esas señales de control son usadas adicionalmente para dirigir automáticamente el campo de observación visto por las cámaras para obtener una imagen mejor centrada o, más agrandada, enfocada o una imagen más resuelta con más información con respecto a la alarma o evento de alarma real. En un ejemplo no limitante, en respuesta al reconocimiento de audio de una señal de audio de una detonación por el motor dé reconocimiento inteligente, pueden ser generadas señales de control que dirijan una o más cámaras del arreglo de cámaras a la escena para "ver" en la dirección de la detonación. Si el arreglo de cámaras de video es dirigido al lugar de un crimen de reconocimiento de audio de la detonación, entonces el reconocimiento del "evento criminal" será mejor debido a que se tiene disponible más información acerca de la detonación. De manera alternativa, o además, esas señales de control pueden ser generadas y usadas para ajustar automáticamente la orientación de los micrófonos y la distancia entre los micrófonos para recibir mejor la información de audio acompañante. La orientación de los micrófonos puede ser ajustada adicionalmente en consideración de la detección de las señales de audio y un intervalo de frecuencia requerido, o proporcionando cualquier grado de directividad dado. De este modo, por ejemplo, uno o más micrófonos pueden ser redirigidos para "escuchar" desde una dirección particular en respuesta a un evento de reconocimiento de video. De manera más especifica, como se muestra en la Figura 4, las salidas del motor de reconocimiento de video 62 y el motor de reconocimiento de audio 63 son analizadas por el motor de reconocimiento mutuo 64 para procesar la información de reconocimiento de video y audio recibida simultáneamente y finalmente determinar si existe una condición de alarma. De esta manera, las alarmas que puedan ser generadas son enviadas a la estación de verificación 48 a través de enlaces de comunicación 47. Es decir, que el proceso de reconocimiento empleado como instrucciones legibles por computadora, instrucciones de datos, módulos de programa, etc. usados en el motor de reconocimiento mutuo 64 se basan generalmente en un patrón de comparación y/o evaluación de hipótesis. Durante una fase de evaluación, se determina una estimación de las probabilidades de varios eventos. Esto puede ser logrado determinado que la información de reconocimiento de video en tiempo real y las señales de audio en que grado existe una correlación entre las escenas de video reconocidas y las firmas de voz o audio reconocidas acompañantes respectivas. En un ejemplo de evento de reconocimiento, para reconocer un movimiento asesino, la información de video es usada con el propósito de tratar de evaluar las probabilidades de varias escenas de video. Se sabe que esas escenas estarían acompañadas por voz de alta frecuencia (gritos o alaridos, etc.), detectar entonces una alta frecuencia de la entrada de audio incrementará la probabilidad de que esto sea resultado de un movimiento asesino como el capturado en las señales de video. Un operador efectúa la verificación visual de un área particular vigilada por el arreglo de cámaras 40 y cuando tome lugar una indicación de alarma proporcionada por la unidad generadora de alarma, es la decisión del operador despachar o no despachar un policía o personal de urgencia al área verificada. Está claro que la descripción anterior que existe una extracción de información útil de las entradas de audio la cual, al ser combinada con los eventos de reconocimiento de video, mejora la operación total del sistema de vigilancia . Como se muestra además en la Figura 4, el enlace de comunicación 60 entre el motor de reconocimiento de video 62 y el motor de reconocimiento mutuo 64 es bidireccional , como lo son el enlace de comunicación 61 entre el motor de reconocimiento de audio 63 y el motor de reconocimiento mutuo 64. La bidireccionalidad de los enlaces 60 y 61 permite la influencia mutua de los algoritmos de reconocimiento de video y audio en la forma que se describió, lo cual, como consecuencia, da un mejor nivel de reconocimiento para video y audio así como la posibilidad de implementar la detección de eventos particulares que hasta ahora eran imposibles de detectar . Aunque la invención ha sido mostrada y descrita particularmente con respecto a modalidades ilustrativas y preformadas de la misma, será comprendido por aquellos expertos en la técnica que pueden hacer los cambios anteriores y otros en la forma y detalle sin apartarse del espíritu y alcance de la invención el cual será limitado únicamente por el alcance de las reivindicaciones anexas.

Claims (27)

  1. REIVINDICACIONES 1. Un sistema de vigilancia que utiliza reconocimiento de video y audio caracterizado porque comprende : medios para generar señales de video en tiempo real que comprenden información de video tomada sobre un área bajo vigilancia ; medios para obtener señales de audio en tiempo real que comprenden información de audio del área bajo vigilancia; medios para recibir simultáneamente las señales de video y señales de audio, determinando información de reconocimiento de video y audio relevante de las mismas, y correlacionando mutuamente la información de audio y video en tiempo real para determinar la probabilidad de ocurrencia de un evento particular; y medios para generar una' condición de alarma sobre la base de la ocurrencia del evento particular.
  2. 2. El sistema de conformidad con la reivindicación 1, caracterizado porque los medios de procesamiento comprenden un primer motor de reconocimiento para procesar las señales de video para determinar la información de reconocimiento de video.
  3. 3. El sistema de conformidad con la reivindicación 2, caracterizado porque los medios de procesamiento comprenden un segundo motor de reconocimiento para procesar las señales de audio para determinar la información de reconocimiento de audio.
  4. 4. El sistema de conformidad con la reivindicación 1, caracterizado porque los medios de procesamiento comprenden medios de reconocimiento mutuo para correlacionar la información de reconocimiento de audio y video e incrementar la capacidad de detectar la ocurrencia de un evento particular.
  5. 5. El sistema de conformidad con la reivindicación 4, caracterizado porque los medios para generar señales de video en tiempo real comprenden uno o más dispositivos de cámara de video, comprendiendo los medios de reconocimiento mutuo además medios para generar señales de control para dirigir una o más cámaras de los dispositivos de cámara para capturar señales de video en la dirección de un evento particular en respuesta al reconocimiento de la ocurrencia de ese evento sobre la base de reconocimiento de audio del evento.
  6. 6. El sistema de conformidad con la reivindicación 5, caracterizado porque cada dispositivo de cámara de video comprende uno o más ' componentes de espejos panorámicos/inclinados, sistema de lentes, motor de enfoque, motor panorámico, motor de inclinación que responden a la señales de control para ajusfar uno o más de los parámetros de control panorámico, de inclinación, acercamiento, rotación, travelin, traslado de los dispositivos de cámara de video .
  7. 7. El sistema de conformidad con la reivindicación 4, caracterizado porque los medios para generar señales de audio en tiempo real comprenden uno o más dispositivos de micrófono, comprendiendo los medios de reconocimiento mutuo además medios para generar señales de control para dirigir uno o más micrófonos de los dispositivos de micrófono para permitir la captura de información de reconocimiento de audio en la dirección del evento particular en respuesta al reconocimiento de la ocurrencia de un evento potencial sobre la base del reconocimiento de video del evento.
  8. 8. El sistema de conformidad con la reivindicación 7, caracterizado porque cada uno de los dispositivos de micrófono responde a las señales de control para ajusfar automáticamente la orientación de los micrófonos en consideración de la detección de las señales de audio de un intervalo de frecuencia requerido.
  9. 9. El sistema de conformidad con la reivindicación 7, caracterizado porque cada uno de los dispositivos de micrófono responde a las señales de control para ajusfar automáticamente la orientación de los micrófonos en con consideración de la recepción de señales de audio en cualquier grado de directividad dado.
  10. 10. El sistema de conformidad con la reivindicación 1, caracterizado porque comprende además medios para almacenar los datos de audio y video.
  11. 11. El sistema de conformidad con la reivindicación 10, caracterizado porque comprende además medios para comprimir los datos de audio y video antes de almacenar éstos en los medios de almacenamiento.
  12. 12. Un método de vigilancia que utiliza reconocimiento de video y audio, caracterizado porque comprende los pasos de: recibir simultáneamente en medios de procesamiento señales de video en tiempo real que comprenden información de video tomada sobre un área bajo vigilancia y señales de audio en tiempo real que comprenden información de audio del área bajo vigilancia, ¦ determinar información de reconocimiento de video y reconocimiento de audio relevante de las señales de video y audio recibidas; correlacionar mutuamente la información de reconocimiento de audio y video en tiempo real para determinar la probabilidad de ocurrencia de un evento particular; y generar una condición de alarma sobre la base de la ocurrencia del evento particular.
  13. 13. El método de vigilancia de conformidad con la Reivindicación 12, caracterizado porque los medios de procesamiento comprenden un primer motor de reconocimiento que implementa los pasos de procesamiento para determinar la información de reconocimiento de video de las señales de video .
  14. 14. El método de vigilancia de conformidad con la Reivindicación 13, caracterizado porque los medios de procesamiento comprenden un segundo motor de reconocimiento que implementa los pasos de procesamiento para determinar la información de reconocimiento de audio de las señales de audio.
  15. 15. El método de vigilancia de conformidad con la Reivindicación 12, caracterizado porque los medios de procesamiento comprenden medios de reconocimiento mutuo para correlacionar la información de reconocimiento de audio y video e incrementar la capacidad de detectar la ocurrencia de un evento particular.
  16. 16. El método de vigilancia de conformidad con la Reivindicación 15, caracterizado porque concurrentemente con el paso de recepción, un paso de obtención de las señales de video en tiempo real por uno o más dispositivos de cámara de video, comprendiendo además los medios de reconocimiento mutuo medios para generar señales de control adaptadas para dirigir una o más cámaras de los dispositivos de cámara para capturar señales de video en la dirección del evento particular en respuesta al reconocimiento de la ocurrencia potencial del evento sobre la base del reconocimiento de audio del evento.
  17. 17. El método de vigilancia de conformidad con la Reivindicación 16, caracterizado porque cada uno o más dispositivos de cámara de video comprende uno o más componentes de espejos panorámico/inclinado, sistema de lentes, motor de enfoque, motor panorámico, y motor de inclinación que responden a las señales de control para ajusfar uno o más de los parámetros de control panorámico, de inclinación, el acercamiento, rotación, traslación de los dispositivos de cámara de video.
  18. 18. El método de vigilancia de conformidad con la Reivindicación 15, caracterizado por concurrentemente con el paso de recepción, un paso de obtención de las señales de audio en tiempo real por uno o más dispositivos de micrófono comprendiendo los medios de reconocimiento mutuo además medios para generar señales de control adaptadas para dirigir uno o más micrófonos de los dispositivos de micrófono para capturar señales de audio en la dirección del evento particular en respuesta al reconocimiento de la ocurrencia potencial de ese evento sobre la base del reconocimiento de video del evento.
  19. 19. El método de vigilancia de conformidad con la Reivindicación 18, caracterizado porque cada uno de los dispositivos de micrófono responde a las señales de control para ajustar automáticamente la orientación de los micrófonos en consideración de la detección de las señales de audio de un intervalo de frecuencia requerido.
  20. 20. El método de vigilancia de conformidad con la Reivindicación 18, caracterizado porque cada uno de los dispositivos de micrófono responde a las señales de control para ajustar automáticamente la orientación de los micrófonos en consideración de la recepción de señales de audio en cualquier grado de directividad dado.
  21. 21. El método de vigilancia de conformidad con la Reivindicación 12, caracterizado porque comprende además los pasos de almacenar los datos de audio y video en el dispositivo de almacenamiento de datos.
  22. 22. El método de vigilancia de conformidad con la Reivindicación 21, caracterizado porque comprende además el paso de: comprimir los datos de audio y video antes de almacenar en el dispositivo de almacenamiento de datos.
  23. 23. Un dispositivo de almacenamiento de programas legible por una máquina, que incorpora de manera tangible un programa de instrucciones ejecutables por la máquina para implementar los pasos del método para efectuar la vigilancia de un área usando el reconocimiento de video y audio, los pasos del método se caracterizan porque incluyen los pasos de: recibir simultáneamente en un medio de procesamiento señales de video en tiempo real que comprende información de video tomada sobre un área bajo vigilancia y señales de audio en tiempo real que comprenden información de audio del área bajo vigilancia, determinar información de reconocimiento de video y reconocimiento de audio relevante de las señales de video y audio recibidas; correlacionar mutuamente la información de reconocimiento de audio y video en tiempo real para determinar la probabilidad de ocurrencia de un evento particular; y generar una condición de alarmas sobre la base de la ocurrencia del evento particular.
  24. 24. El dispositivo de almacenamiento de programas legible por una máquina de conformidad con la Reivindicación 23, caracterizado porque los medios de procesamiento comprenden: un primer motor de reconocimiento que implementa los pasos de procesamiento para determinar la información de reconocimiento de video de las señales de video, y un segundo motor de reconocimiento que implementa los pasoas de procesamiento para determinar la información de reconocimiento de audio de las señales de audio.
  25. 25. El dispositivo de almacenamiento de programas legible por una máquina de conformidad con la Reivindicación 24, caracterizado porque los medios de procesamiento comprenden medios de reconocimiento mutuo para correlacionar la información de reconocimiento de audio y video e incrementar la capacidad de detectar la ocurrencia de un evento particular.
  26. 26. El dispositivo de almacenamiento de programas legible por una máquina de conformidad con la Reivindicación 25, caracterizado por concurrentemente con el paso de recepción, un paso de obtención de señales de video en tiempo real por uno o más dispositivos de cámara de video, comprendiendo además los medios de reconocimiento mutuo medios para generar señales de control adaptadas para dirigir una o más cámaras de los dispositivos de cámara para capturar señales de video en la dirección del evento particular en respuesta al reconocimiento de la ocurrencia potencial de ese evento sobre la base de reconocimiento de audio del evento.
  27. 27. El dispositivo de almacenamiento de programas legible por una máquina de conformidad con la Reivindicación 25, caracterizado por concurrentemente con el paso de recepción, un paso de obtención de señales de audio en tiempo real por uno o más dispositivos de micrófono, comprendiendo los medios de reconocimiento mutuo además medios para generar señales de control adaptadas para dirigir uno o más micrófonos de los dispositivos de micrófono para capturar señales de audio en la dirección del evento particular en respuesta al reconocimiento de la ocurrencia potencial de ese evento en reconocimiento de video del evento.
MX2009001254A 2006-08-03 2006-08-03 Sistema de vigilancia de video y metodo con reconocimiento de video y audio combinado. MX2009001254A (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2006/030560 WO2008016360A1 (en) 2006-08-03 2006-08-03 Video surveillance system and method with combined video and audio recognition

Publications (1)

Publication Number Publication Date
MX2009001254A true MX2009001254A (es) 2009-02-11

Family

ID=38997456

Family Applications (1)

Application Number Title Priority Date Filing Date
MX2009001254A MX2009001254A (es) 2006-08-03 2006-08-03 Sistema de vigilancia de video y metodo con reconocimiento de video y audio combinado.

Country Status (6)

Country Link
JP (1) JP5043940B2 (es)
CN (1) CN101501564B (es)
BR (1) BRPI0621897B1 (es)
CA (1) CA2656268A1 (es)
MX (1) MX2009001254A (es)
WO (1) WO2008016360A1 (es)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2466242B (en) * 2008-12-15 2013-01-02 Audio Analytic Ltd Sound identification systems
US9286911B2 (en) 2008-12-15 2016-03-15 Audio Analytic Ltd Sound identification systems
CN102082948B (zh) * 2009-11-30 2012-07-25 中国移动通信集团北京有限公司 视频信息获取系统、方法及设备
CN103067655A (zh) * 2011-10-24 2013-04-24 鸿富锦精密工业(深圳)有限公司 控制摄影机装置的系统及方法
CN103136899B (zh) * 2013-01-23 2016-01-20 宁凯 基于Kinect体感设备的智能报警监控方法
JP5958833B2 (ja) 2013-06-24 2016-08-02 パナソニックIpマネジメント株式会社 指向性制御システム
CN103747217A (zh) * 2014-01-26 2014-04-23 国家电网公司 视频监控方法及装置
EP2927885A1 (en) * 2014-03-31 2015-10-07 Panasonic Corporation Sound processing apparatus, sound processing system and sound processing method
US10182280B2 (en) 2014-04-23 2019-01-15 Panasonic Intellectual Property Management Co., Ltd. Sound processing apparatus, sound processing system and sound processing method
EP2938097B1 (en) * 2014-04-24 2017-12-27 Panasonic Corporation Sound processing apparatus, sound processing system and sound processing method
CN105338294A (zh) * 2014-08-07 2016-02-17 富士通株式会社 监控装置和方法
CN104269016A (zh) * 2014-09-22 2015-01-07 北京奇艺世纪科技有限公司 一种报警方法及装置
CN104333686B (zh) * 2014-11-27 2018-03-27 天地伟业技术有限公司 基于人脸和声纹识别的智能监控摄像机及其控制方法
US9813484B2 (en) 2014-12-31 2017-11-07 Motorola Solutions, Inc. Method and apparatus analysis of event-related media
US20160241818A1 (en) * 2015-02-18 2016-08-18 Honeywell International Inc. Automatic alerts for video surveillance systems
JP6682222B2 (ja) * 2015-09-24 2020-04-15 キヤノン株式会社 検知装置及びその制御方法、コンピュータプログラム
US9598076B1 (en) * 2015-10-22 2017-03-21 Ford Global Technologies, Llc Detection of lane-splitting motorcycles
CN105491336B (zh) * 2015-12-08 2018-07-06 成都芯软科技发展有限公司 一种低功耗图像识别模块
CN106028217B (zh) * 2016-06-20 2020-01-21 咻羞科技(深圳)有限公司 一种基于音频识别技术的智能设备互动系统及方法
CN106023515A (zh) * 2016-07-06 2016-10-12 中警科技(江苏)开发有限公司 一种远程自动报警警务亭
WO2018075068A1 (en) 2016-10-21 2018-04-26 Empire Technology Development Llc Selecting media from mass social monitoring devices
CN106600876A (zh) * 2017-01-24 2017-04-26 璧典寒 自动化机房值班报警系统及报警方法
US10810854B1 (en) 2017-12-13 2020-10-20 Alarm.Com Incorporated Enhanced audiovisual analytics
CN109033997A (zh) * 2018-07-02 2018-12-18 厦门快商通信息技术有限公司 一种伐木事件检测方法及系统
CN112425157A (zh) * 2018-07-24 2021-02-26 索尼公司 信息处理装置和方法以及程序
CN109089087B (zh) * 2018-10-18 2020-09-29 广州市盛光微电子有限公司 多通道影音联动装置
CN109543538A (zh) * 2018-10-23 2019-03-29 深圳壹账通智能科技有限公司 获取警情对象的轨迹的方法、装置、计算机设备和存储介质
TWI687753B (zh) * 2018-12-06 2020-03-11 宏碁股份有限公司 全景攝影機與全景攝影系統
CN110336976A (zh) * 2019-06-13 2019-10-15 长江大学 一种智能监控探头及系统
CN111091073A (zh) * 2019-11-29 2020-05-01 清华大学 一种将视频和音频联合的异常事件监控设备及方法
EP3839909A1 (en) * 2019-12-18 2021-06-23 Koninklijke Philips N.V. Detecting the presence of an object in a monitored environment
CN111460907B (zh) * 2020-03-05 2023-06-20 浙江大华技术股份有限公司 一种恶意行为识别方法、系统及存储介质
DE102020209025A1 (de) 2020-07-20 2022-01-20 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren zur Bestimmung einer auffälligen Teil-Sequenz einer Überwachungs-Bildersequenz
CN111818237A (zh) * 2020-07-21 2020-10-23 南京智金科技创新服务中心 一种视频监控分析系统和方法
CN112396801A (zh) * 2020-11-16 2021-02-23 苏州思必驰信息科技有限公司 监控报警方法、监控报警装置及存储介质
GB202019713D0 (en) * 2020-12-14 2021-01-27 Vaion Ltd Security system
CN112929372A (zh) * 2021-02-06 2021-06-08 北京第七九七音响股份有限公司 一种网络智能音频终端、监控方法及监控系统
CN113920660B (zh) * 2021-09-30 2023-04-18 中国工商银行股份有限公司 适用于安全存储设备的安全监控方法及系统
GB2620594A (en) * 2022-07-12 2024-01-17 Ava Video Security Ltd Computer-implemented method, security system, video-surveillance camera, and server

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3381343B2 (ja) * 1993-12-03 2003-02-24 株式会社日立製作所 監視装置
JPH0983856A (ja) * 1995-09-07 1997-03-28 Nippon Telegr & Teleph Corp <Ntt> インテリジェントカメラ装置
US6175382B1 (en) * 1997-11-24 2001-01-16 Shell Oil Company Unmanned fueling facility
US6611206B2 (en) * 2001-03-15 2003-08-26 Koninklijke Philips Electronics N.V. Automatic system for monitoring independent person requiring occasional assistance
CN1186923C (zh) * 2003-04-03 2005-01-26 上海交通大学 异常目标自动发现及跟踪摄像机系统
JP4175180B2 (ja) * 2003-05-29 2008-11-05 松下電工株式会社 監視通報システム
CN1716329A (zh) * 2004-06-29 2006-01-04 乐金电子(沈阳)有限公司 利用婴儿哭声频率的婴儿监视系统及其方法
CN200966113Y (zh) * 2006-11-08 2007-10-24 天津三星电子有限公司 具有音频锁定功能的监控装置

Also Published As

Publication number Publication date
WO2008016360A1 (en) 2008-02-07
CN101501564A (zh) 2009-08-05
JP5043940B2 (ja) 2012-10-10
BRPI0621897A2 (pt) 2011-03-29
BRPI0621897B1 (pt) 2018-03-20
CA2656268A1 (en) 2008-02-07
JP2009545911A (ja) 2009-12-24
CN101501564B (zh) 2012-02-08

Similar Documents

Publication Publication Date Title
MX2009001254A (es) Sistema de vigilancia de video y metodo con reconocimiento de video y audio combinado.
US20080309761A1 (en) Video surveillance system and method with combined video and audio recognition
US9875410B2 (en) Camera system for transmitting and receiving an audio signal and operating method of the same
KR101445367B1 (ko) 이상 음원에 대한 인식율 향상을 통하여 긴급상황 판별 성능을 개선한 지능형 영상감시 시스템 및 이를 이용한 긴급상황 판별방법
JP6135880B2 (ja) 音声処理方法、音声処理システム、及び記憶媒体
WO1997008896A1 (en) Open area security system
CN111601074A (zh) 安防监控方法、装置、机器人和存储介质
US10497356B2 (en) Directionality control system and sound output control method
CN109151393A (zh) 一种声音定位识别侦测方法
KR101687296B1 (ko) 음향 및 행동 패턴 인식 기반의 하이브리드 패턴 분석이 가능한 객체 추적 시스템 및 객체 추적 방법
KR101384781B1 (ko) 이상 음원 탐지 장치 및 방법
JP2008219227A (ja) 映像監視システムおよび映像監視方法
CN110634506A (zh) 一种语音数据的处理方法及装置
KR101444843B1 (ko) 영상 감시 시스템 및 그의 동작 방법
JP6447976B2 (ja) 指向性制御システム及び音声出力制御方法
WO2015151130A1 (ja) 音声処理装置、音声処理システム、及び音声処理方法
Park et al. Sound learning–based event detection for acoustic surveillance sensors
JP4175180B2 (ja) 監視通報システム
JP4940205B2 (ja) 監視システム
CN111627178A (zh) 一种声音识别定位警戒系统及其方法
EP2927885A1 (en) Sound processing apparatus, sound processing system and sound processing method
KR20160086131A (ko) 무선 음향 센서들을 채용한 감시 시스템
CN110730378A (zh) 一种信息处理方法及系统
EP2938097B1 (en) Sound processing apparatus, sound processing system and sound processing method
TWI814651B (zh) 整合影像、音訊定位與全方位收音陣列之具警示功能輔聽裝置與方法

Legal Events

Date Code Title Description
HH Correction or change in general
FG Grant or registration