WO2011089276A1

WO2011089276A1 - Método y sistema de análisis de archivos multimedia

Info

Publication number: WO2011089276A1
Application number: PCT/ES2010/070024
Authority: WO
Inventors: Igor García Olaizola; Naiara Aginako Bengoa; Gorka Marcos Ortego
Original assignee: Vicomtech-Visual Interaction And Communication Technologies Center
Priority date: 2010-01-19
Filing date: 2010-01-19
Publication date: 2011-07-28

Abstract

Método y sistema de análisis de archivos multimedia (1) con una cabecera (2) y un contenido (3), que detecta campos erróneos o incompletos de la cabecera, analiza el contenido, e inserta una nueva cabecera en el archivo incluyendo datos corregidos para dichos campos. Asimismo, completa o crea los metadatos de dichos archivos a partir de los módulos de análisis.

Description

MÉTODO Y SISTEMA DE ANÁLISIS DE ARCHIVOS MULTIMEDIA

D E S C R I P C I Ó N CAMPO DE LA INVENCIÓN

La presente invención se aplica al campo de la difusión y almacenamiento de información multimedia, y más específicamente, al análisis de contenido multimedia. ANTECEDENTES DE LA INVENCIÓN

En el campo de la difusión de contenido multimedia, es frecuente trabajar con bases de datos con un gran número de archivos multimedia, para cuya gestión se utiliza información sobre los mismos almacenada tanto en la cabecera del archivo, como en metadatos que pueden estar almacenados en el propio archivo o en ficheros independientes indexados al archivo multimedia.

No obstante, dicha información no siempre es correcta y completa. Al transmitir o modificar los archivos multimedia, pueden perderse datos en la cabecera de los mismos, o puede darse el caso de que ya no correspondan con el contenido real del archivo, y por lo tanto proporcionen una información errónea.

Son conocidos diversos sistemas que intentan gestionar grandes bases de datos de archivos multimedia. Por ejemplo WO 2009/26433 trata el etiquetado de grandes volúmenes de datos audiovisuales, con aplicaciones en diversos campos como seguimiento de contenido, filtrado de video, reconocimiento de objetos, etc ..

US 20080228928 también se centra en el etiquetado de contenido multimedia, en concreto para realizar posteriormente un filtrado selectivo de contenidos.

US 6,192,151 extrae fotogramas representativos de un archivo de vídeo y los etiqueta utilizando un código binario dependiente de la presencia en dichos fotogramas de unos ciertos rasgos. US 534251 utiliza diversos módulos de extracción de características para luego realizar una clasificación mediante una red neuronal con el resultado de dichos módulos.

Existen también un gran número de aplicaciones que extraen información concreta de un flujo de datos de audio o vídeo, como por ejemplo la posición de los pasos por negro, los silencios, o imágenes o elementos determinados. Por ejemplo US 6,100,941 detecta los pasos por negro de un flujo de vídeo y analiza una serie de parámetros asociados a dichos pasos por negro para determinar la presencia de anuncios. US 5,920,360 también presenta un sistema de detección de transiciones en video, en este caso mediante división de la imagen en celdas independientes.

No obstante, ninguno de los sistemas anteriores presenta soluciones al problema de la degradación o pérdida de los datos de cabecera de un archivo multimedia.

RESUMEN DE LA INVENCIÓN

La presente invención soluciona los problemas anteriormente descritos mediante un método y sistema que permiten detectar información incompleta o errónea en la cabecera de un archivo multimedia y sustituirla por información corregida tras analizar el contenido del archivo, tal y como se describe a continuación.

En un primer aspecto de la invención se presenta un sistema que opera sobre archivos multimedia (audio, video, audio+video...), que contienen una cabecera y un contenido. El sistema comprende:

-Un módulo de análisis de cabecera que localizan campos incompletos y campos erróneos de la cabecera original.

-Unos módulos de análisis de contenido, que determinan el valor correcto de dichos campos.

-Un módulo de inserción de cabecera que inserta en el archivo multimedia una cabecera con dichos datos correctos. Preferentemente, el sistema utiliza también metadatos en este proceso a través de un módulo de análisis de metadatos y, más preferentemente, un módulo de escritura de metadatos. Dichos metadatos pueden extraerse tanto del propio archivo multimedia como de otros archivos auxiliares, y a su vez, los nuevos metadatos generados por el sistema pueden almacenarse en el propio archivo multimedia, en nuevos archivos, o modificando archivos auxiliares ya existentes.

Preferentemente, el sistema incluye los siguientes módulos de análisis, que permiten extraer información de flujos de vídeo de cara a, por ejemplo, generar metadatos asociados a dichos flujos.

-Detección de paso por negro

-Detección de entrevistas

-Detección de relación de aspecto.

En otro aspecto de la presente invención, se presenta un método de análisis de archivos multimedia que comprende los siguientes pasos:

-Localizar campos incompletos y campos erróneos en la cabecera de un archivo multimedia.

-Determinar el valor correcto dichos campos, mediante análisis del contenido del archivo.

-Insertar en el archivo multimedia una cabecera modificada que incluye el valor correcto de los campos incompletos y los campos erróneos.

Preferentemente, también comprende incluir en el análisis unos metadatos asociados al archivo multimedia, y escribir nuevos metadatos en caso de que éstos sean generados, ya sea en el propio archivo multimedia o en otros archivos.

Por lo tanto, se consigue con la presente invención corregir toda aquella información de cabecera que ha sido perdida o degenerada. Estas y otras ventajas serán aparentes a la vista de la descripción detallada de la misma. Asimismo dota al sistema de herramientas para la anotación del contenido multimedia. BREVE DESCRIPCIÓN DE LAS FIGURAS

Con objeto de ayudar a una mejor comprensión de las características del invento de acuerdo con un ejemplo preferente de realización práctica del mismo y para complementar esta descripción, se acompaña como parte integrante de la misma la siguiente figura, cuyo carácter es ilustrativo y no limitativo:

La figura 1 muestra un esquema de un sistema de análisis de contenido multimedia de acuerdo con una realización particular de la presente invención.

DESCRIPCIÓN DETALLADA DE LA INVENCIÓN

En este texto, el término "comprende" y sus derivaciones (como "comprendiendo", etc.) no deben entenderse en un sentido excluyente, es decir, estos términos no deben interpretarse como excluyentes de la posibilidad de que lo que se describe y define pueda incluir más elementos, etapas, etc.

La figura 1 presenta una realización preferente del sistema de la invención, que a su vez ejecuta una realización preferente del método de la invención. El sistema comprende un módulo de análisis de información técnica 4, un módulo de escritura 9 y un módulo de análisis de contenido multimedia 7, y opera sobre archivos multimedia 1 que comprenden una cabecera 2 y un contenido 3. Adicionalmente, el archivo multimedia 1 puede llevar asociados unos metadatos 12, que pueden encontrarse almacenados en el propio archivo multimedia 1 o en un archivo externo.

MÓDULO DE ANÁLISIS DE CONTENIDO MULTIMEDIA 7

Este módulo comprende una pluralidad de submódulos de análisis 8, cada uno de los cuales actúa de forma independiente para extraer una información del contenido 3 del archivo multimedia 1 que está siendo analizado. Preferentemente, los submódulos de análisis 8 actúan en paralelo para optimizar el tiempo de procesado. No obstante, los submódulos de análisis 8 pueden estar comunicados, ejecutándose en serie en caso de que un submodulo requiera como entrada la salida de otro submodulo. Para facilitar dichas comunicaciones, se define un formato de entrada y salida común a todos los submódulos.

Un ejemplo de submódulo de análisis 8 es el de detección de paso por negro. Actualmente, muchas agencias de noticias utilizan la inserción de imágenes negras como indicador del final de una noticia dentro de un mismo archivo multimedia. Una vez recibidos esos archivos multimedia en el broadcaster, es necesario procesar los archivos multimedia e identificar la localización de las imágenes negras para poder segmentar las noticias. Esta labor es realizada en muchas ocasiones de forma manual, pudiendo agilizarse el proceso mediante su realización con el submódulo de análisis 8 correspondiente. Una implementación del mismo se detalla más adelante.

MÓDULO DE ANÁLISIS DE INFORMACIÓN TÉCNICA 4

Este módulo comprende a su vez dos módulos principales: un módulo de análisis de datos de cabecera 6 y un módulo de análisis de metadatos 5. El módulo de análisis de datos de cabecera 6 extrae los datos de la cabecera 2 e identifica los campos que no están completos o son erróneos. Teniendo en cuenta dichos datos incompletos o erróneos, determina qué módulos de análisis de contenido multimedia 8 han de ejecutarse para rellenar la información de la cabecera. Una vez que los módulos de análisis de contenido multimedia 8 han procesado el contenido 3 multimedia y han extraído la información requerida, indican al módulo de análisis de datos de cabecera 5 los resultados, el cual comunica al módulo de inserción de cabecera qué datos ha de introducir y en qué campos.

Otra de las funcionalidades del módulo de análisis de datos de cabecera 5 es la de extraer los parámetros que describen el contenido del archivo multimedia para indicar al módulo de análisis de contenido 7 las variables que debe tener en cuenta.

Por ejemplo, hoy en día los broadcasters tienen el problema al guardar los archivos multimedia en algunos tipos de servidores se pierde la información de la relación de aspecto del vídeo que contienen (16:9,4:3,...). Por lo tanto, los usuarios de los vídeos que están almacenados en dichos servidores no conocen la relación de aspecto de los vídeos. Para poder recuperar dicha información, un submódulo de análisis 8 analiza el propio contenido 3 multimedia y determina la relación de aspecto. Una vez extraída dicha información del contenido 3, se rellena el campo de la cabecera 2 en donde se indica la relación de aspecto del vídeo. El funcionamiento del submódulo de determinación de relación de aspecto se detalla más adelante.

El módulo de análisis de metadatos 6 analiza los metadatos 12 indexados al archivo multimedia 1 actual en caso de que estos existan. Este módulo es capaz de procesar tanto los metadatos que están dentro del archivo multimedia como los metadatos que están almacenados en un archivo independiente.

Una vez analizados los metadatos del archivo multimedia, esta información pasa al módulo de análisis de contenido 7. Dependiendo de las necesidades del usuario y de los submodulos de análisis 8 contenidos en el módulo de análisis de contenido 7, se ejecutan los submodulos necesarios. El resultado de este análisis pasa directamente al módulo de inserción/creación de metadatos 1 1 .

Por ejemplo, las entrevistas son situaciones de importancia tanto para los usuarios profesionales como usuarios no profesionales. En caso de querer añadir a un archivo multimedia la información de si dentro de este archivo hay una entrevista o no, se pueden realizar varios análisis de contenido, tal y como se detalla más adelante. En caso afirmativo, el resultado se inserta como metadatos del archivo multimedia. Además se pueden añadir resultados intermedios en caso de considerarlo de interés.

MÓDULO DE ESCRITURA 9

El objetivo principal de este módulo es el de escribir tanto en los metadatos como en los datos de cabecera del archivo. Para ello, se identifican dos submodulos:

Un módulo de inserción de cabecera 10, que rellena los campos de la cabecera 2 que no están completos o son erróneos a partir de los resultados obtenidos por el módulo de análisis de contenido multimedia 7. Un módulo de inserción/creación de metadatos 1 1 , que crea un archivo de metadatos con nuevos metadatos generados por el módulo de análisis de contenido 12, o en caso de los estándares que así lo permiten, inserta dichos metadatos en el propio archivo multimedia 1 . Si ya existe un archivo de metadatos, la información contenida en él se tiene en cuenta, de modo que los nuevos metadatos sean compatibles con los que ya están contenidos en el archivo de metadatos, o corrigiéndolos en caso contrario.

SUBMÓDULO DE DETECCIÓN DE PASO POR NEGRO

Hoy en día, muchas agencias de noticias y productoras utilizan la inserción de imágenes negras para indicar el fin de una noticia, la recomendación de inserción de anuncios en una serie o película, y otras aplicaciones. Por ello, uno de los primeros pasos a dar en la edición de estas películas, series o paquetes de noticias es la detección de dichas escenas negras. Estas escenas negras deberán localizarse e identificarse. Esta labor, la realiza un editor de forma manual, buscando las escenas negras del vídeo visualmente. Para facilitar esta labor, una realización preferente del sistema de la invención incluye un submódulo que a través del análisis automático de los vídeos, es capaz de detectar las escenas negras y ayudar al editor en su tarea.

Para ello se utiliza un algoritmo que toma como entrada el contenido del propio vídeo. Para poder analizar cada una de las escenas, se extraen los coeficientes DCT de cada una de las imágenes que compone el vídeo. Por ello, el algoritmo que se explica a continuación sólo es aplicable para formatos de compresión de vídeo en que se usan los coeficientes DCT que hoy en día son la gran mayoría como pueden ser el H264, MPEG y DVCPRO.

Para poder extraer cada una de las imágenes que forma un vídeo es necesario descomprimir el vídeo y extraer las imágenes. Este proceso se da principalmente en dos pasos: extracción de los coeficientes DCT del contenedor de vídeo y creación de la imagen a partir de dichos coeficientes. A este proceso se le conoce como descompresión del vídeo.

En el algoritmo que se detalla a continuación, el procesado de las imágenes se hace directamente a partir de los coeficientes DCT. De esta manera se logra un proceso más rápido permitiendo analizar un mayor número de vídeos en el mismo tiempo. El tiempo es una característica a tener en cuenta puesto que este sistema de análisis multimedia se quiere aplicar en lugares donde la cantidad de archivos multimedia sea considerable.

Los coeficientes DCT son una representación frecuencial de un bloque de una imagen. Por ello, contienen un valor que identifica el valor de continua o frecuencia cero de esa imagen y varios valores que identifican los valores a distintas frecuencias. Cada imagen del vídeo estará compuesta por varios bloques y para cada bloque se extraen los coeficientes DCT.

Una vez extraídos todos los coeficientes DCT de la imagen, se suman todos los coeficientes de la imagen y todos los coeficientes DCT para la componente continua.

N

SumDCT =∑DCTcoef(t)

t=l

L

SumDCT_DC =∑DCTcoef_DC (t)

Para la detección de escenas negras se debe calcular el coeficiente de los parámetros DCT: DCT-V (DCT Valué).

SumDCT - SumDCT_r

DCT- V =

SumDCT_r

Una vez calculado el valor de DCT-V se compara este valor con un umbral fijo o un umbral fijado a partir de los coeficientes DCT de las imágenes anteriores. Si el valor calculado está por debajo de ese valor umbral, se considera que la imagen es una escena negra.

A partir del análisis del DCT-V de cada imagen se pueden realizar diferentes módulos para la detección de cambios de escena, fundidos a negro o detección de secuencias dinámicas o estáticas. SUBMÓDULO DE DETECCIÓN DE RELACIÓN DE ASPECTO

Este submódulo depende del estándar de vídeo utilizado. Por ejemplo para el caso de los vídeos comprimidos con el estándar DVCPRO, cada una de las imágenes que componen el vídeo se comprime en un bloque de tamaño fijo, y dentro de este bloque hay un subbloque VSC (VAUX source control) en el que el campo de 3 bits DISP se identifica la relación de aspecto del vídeo.

Para cada uno de los bloques del vídeo, se extraen los bits del campo DISP y se identifica si la información está completa o la información de la relación de aspecto no está definida. En caso de que dicha información no esté completa, el módulo de análisis de datos de cabecera indica al módulo de análisis que analiza el contenido de cada imagen que extraiga dicha información a partir del propio contenido de la imagen. Una vez analizada la imagen, se extrae del módulo de análisis la relación de aspecto y se escribe en la cabecera de cada una de las imágenes los bits correspondientes.

SUBMÓDULO DE DETECCIÓN DE ENTREVISTAS En el caso de que el archivo multimedia 1 haya sido grabado en un estudio, tendrá asociados unos metadatos 12 en los que se definen las partes del vídeo en donde aparecen caras en primer plano. En caso contrario se puede utilizar un submódulo de detección de caras que determina aquellas imágenes en las que existe una única cara y en tamaño grande. El módulo de análisis de metadatos 6 extrae esta información y le comunica al módulo de análisis 7 que tiene esta información y que para detectar entrevista requiere de la información de audio y escenas con flash. Para ello existe un submódulo de análisis 8 encargado de analizar la señal de audio y clasificar el audio en música y voz, y otro submódulo de análisis 8 para la detección de escenas con flash. De esta manera, se tiene la información del audio, del flash y de las caras principales en dicho archivo. Un último submódulo de análisis 8 analizará estos datos y determinará si en dicho contenido multimedia existen secuencias de entrevistas, por ejemplo en aquellos casos en los que exista una única cara, exista flash, y el audio se haya clasificado como voz. A la vista de esta descripción y figura, el experto en la materia podrá entender que la invención ha sido descrita según algunas realizaciones preferentes de la misma, pero que múltiples variaciones pueden ser introducidas en dichas realizaciones preferentes, sin salir del objeto de la invención tal y como ha sido reivindicada.

Claims

REIVINDICACIONES

1 . Sistema de análisis de archivos multimedia, comprendiendo cada archivo multimedia (1 ) una cabecera original (2) y un contenido (3), caracterizado porque el sistema comprende:

-un módulo de análisis de cabecera (6), configurado para localizar campos incompletos y campos erróneos de la cabecera original (2);

-unos módulos de análisis de contenido (8), configurados para determinar el valor correcto de los campos incompletos y los campos erróneos de la cabecera original (2);

-un módulo de inserción de cabecera (10) configurado para insertar en el archivo multimedia (1 ) una cabecera modificada que incluye el valor correcto de los campos incompletos y los campos erróneos.

2. Sistema según la reivindicación 1 caracterizado porque comprende además un módulo de análisis de metadatos (5) configurado para extraer metadatos (12) comprendidos en el archivo multimedia y/o en un archivo externo; analizar dichos metadatos (12); y enviar información de dichos metadatos (12) a los módulos de análisis de contenido (8).

3. Sistema según la reivindicación 2 caracterizado porque comprende además un módulo de creación de metadatos (1 1 ) configurado para o bien crear un archivo de metadatos, o bien insertar metadatos en el archivo multimedia (1 ).

4. Sistema según cualquiera de las reivindicaciones anteriores caracterizado porque los módulos de análisis de contenido (8) comprenden un módulo de detección de relación de aspecto de un vídeo.

5. Sistema según cualquiera de las reivindicaciones anteriores caracterizado porque los módulos de análisis de contenido (8) comprenden un módulo de detección de fotogramas negros en un vídeo.

6. Sistema según cualquiera de las reivindicaciones anteriores caracterizado porque los módulos de análisis de contenido (8) comprenden un módulo de detección de entrevistas en un vídeo.

7. Método de análisis de archivos multimedia, comprendiendo cada archivo multimedia (1 ) una cabecera original (2) y un contenido (3), caracterizado porque el método comprende:

-localizar campos incompletos y campos erróneos de la cabecera original (2) mediante unos módulos de análisis de contenido (8);

-determinar el valor correcto de los campos incompletos y los campos erróneos de la cabecera original (2);

- insertar en el archivo multimedia (1 ) una cabecera modificada que incluye el valor correcto de los campos incompletos y los campos erróneos.

8. Método según la reivindicación 7 caracterizado porque comprende además extraer metadatos (12) comprendidos en el archivo multimedia y/o en un archivo externo; analizar dichos metadatos (12); y enviar información de dichos metadatos (12) a los módulos de análisis de contenido (8).

9. Método según la reivindicación 8 caracterizado porque comprende además insertar metadatos en el archivo multimedia (1 ).

10. Método según cualquiera de las reivindicaciones 8 y 9 caracterizado porque comprende además crear un archivo auxiliar con metadatos asociados al archivo multimedia (1 ).