WO2011089276A1 - Método y sistema de análisis de archivos multimedia - Google Patents

Método y sistema de análisis de archivos multimedia Download PDF

Info

Publication number
WO2011089276A1
WO2011089276A1 PCT/ES2010/070024 ES2010070024W WO2011089276A1 WO 2011089276 A1 WO2011089276 A1 WO 2011089276A1 ES 2010070024 W ES2010070024 W ES 2010070024W WO 2011089276 A1 WO2011089276 A1 WO 2011089276A1
Authority
WO
WIPO (PCT)
Prior art keywords
metadata
fields
header
multimedia file
file
Prior art date
Application number
PCT/ES2010/070024
Other languages
English (en)
French (fr)
Inventor
Igor García Olaizola
Naiara Aginako Bengoa
Gorka Marcos Ortego
Original Assignee
Vicomtech-Visual Interaction And Communication Technologies Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vicomtech-Visual Interaction And Communication Technologies Center filed Critical Vicomtech-Visual Interaction And Communication Technologies Center
Priority to PCT/ES2010/070024 priority Critical patent/WO2011089276A1/es
Publication of WO2011089276A1 publication Critical patent/WO2011089276A1/es

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/36Monitoring, i.e. supervising the progress of recording or reproducing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • G11B27/30Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on the same track as the main recording
    • G11B27/3027Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on the same track as the main recording used signal is digitally coded

Definitions

  • the present invention applies to the field of dissemination and storage of multimedia information, and more specifically, to the analysis of multimedia content.
  • WO 2009/26433 deals with the labeling of large volumes of audiovisual data, with applications in various fields such as content tracking, video filtering, object recognition, etc.
  • US 20080228928 also focuses on the labeling of multimedia content, specifically to subsequently perform selective content filtering.
  • US 6,192,151 extracts representative frames from a video file and labels them using a binary code dependent on the presence in said frames of certain features.
  • US 534251 uses various feature extraction modules to then perform a classification through a neural network with the result of said modules.
  • US 6,100,941 detects the black steps of a video stream and analyzes a series of parameters associated with those black steps to determine the presence of advertisements.
  • US 5,920,360 also presents a video transitions detection system, in this case by dividing the image into independent cells.
  • the present invention solves the problems described above by means of a method and system that allow to detect incomplete or erroneous information in the header of a multimedia file and replace it with corrected information after analyzing the contents of the file, as described below.
  • a system that operates on multimedia files (audio, video, audio + video %), which contain a header and a content.
  • multimedia files audio, video, audio + video Certainly
  • the system also uses metadata in this process through a metadata analysis module and, more preferably, a metadata writing module.
  • metadata can be extracted from both the multimedia file itself and other auxiliary files, and in turn, the new metadata generated by the system can be stored in the multimedia file itself, in new files, or by modifying existing auxiliary files.
  • the system includes the following analysis modules, which allow to extract information from video streams in order to, for example, generate metadata associated with said streams.
  • it also includes including in the analysis some metadata associated with the multimedia file, and writing new metadata in case these are generated, either in the multimedia file itself or in other files.
  • Figure 1 shows a scheme of a multimedia content analysis system according to a particular embodiment of the present invention.
  • Figure 1 presents a preferred embodiment of the system of the invention, which in turn executes a preferred embodiment of the method of the invention.
  • the system comprises a technical information analysis module 4, a writing module 9 and a multimedia content analysis module 7, and operates on multimedia files 1 comprising a header 2 and a content 3.
  • the multimedia file 1 can carry associated metadata 12, which can be stored in the multimedia file 1 itself or in an external file.
  • This module comprises a plurality of analysis submodules 8, each of which acts independently to extract information from the content 3 of the multimedia file 1 being analyzed.
  • the analysis submodules 8 act in parallel to optimize the processing time.
  • the analysis sub-modules 8 can be communicated, running in series in case a sub-module requires as input the output of another sub-module. To facilitate such communications, a common input and output format is defined for All submodules
  • analysis submodule 8 is that of black passage detection.
  • black images are an indicator of the end of a story within the same multimedia file. Once these multimedia files have been received on the broadcaster, it is necessary to process the multimedia files and identify the location of the black images in order to segment the news. This work is done many times manually, and the process can be streamlined by carrying out the corresponding analysis sub-module 8. An implementation thereof is detailed below.
  • This module also includes two main modules: a header data analysis module 6 and a metadata analysis module 5.
  • the header data analysis module 6 extracts the data from header 2 and identifies the fields that do not They are complete or wrong. Taking this incomplete or erroneous data into account, it determines which multimedia content analysis modules 8 are to be executed to fill in the header information. Once the multimedia content analysis modules 8 have processed the multimedia content 3 and extracted the required information, they indicate to the header data analysis module 5 the results, which communicates to the header insertion module what data has to be Enter and in what fields.
  • Another of the functionalities of the header data analysis module 5 is to extract the parameters that describe the content of the multimedia file to indicate to the content analysis module 7 the variables that must be taken into account.
  • an analysis submodule 8 analyzes the multimedia content itself 3 and determines the aspect ratio. Once this information is extracted from the content 3, the field of the header 2 is filled in where the aspect ratio of the video is indicated. The operation of the aspect ratio determination sub-module is detailed below.
  • the metadata analysis module 6 analyzes the metadata 12 indexed to the current multimedia file 1 if they exist. This module is capable of processing both the metadata that is inside the multimedia file and the metadata that is stored in a separate file.
  • interviews are important situations for both professional and non-professional users. If you want to add to an multimedia file the information of whether there is an interview within this file or not, you can perform several content analyzes, as detailed below. If yes, the result is inserted as metadata from the multimedia file. In addition, intermediate results can be added if it is considered of interest.
  • the main objective of this module is to write both in metadata and in the header data of the file.
  • two sub-modules are identified:
  • a header insertion module 10 which fills the header 2 fields that are not complete or are erroneous from the results obtained by the multimedia content analysis module 7.
  • a metadata insertion / creation module 1 that creates a metadata file with new metadata generated by the analysis module of content 12, or in case of the standards that allow it, insert said metadata into the multimedia file itself 1. If a metadata file already exists, the information contained in it is taken into account, so that the new metadata is compatible with those already contained in the metadata file, or by correcting them otherwise.
  • a preferred embodiment of the system of the invention includes a submodule that, through automatic video analysis, is able to detect black scenes and assist the editor in his task.
  • the image processing is done directly from the DCT coefficients. In this way a faster process is achieved allowing to analyze a greater number of videos in it weather. Time is a characteristic to consider since this multimedia analysis system is to be applied in places where the amount of multimedia files is considerable.
  • DCT coefficients are a frequency representation of a block of an image. Therefore, they contain a value that identifies the value of continuous or zero frequency of that image and several values that identify the values at different frequencies. Each image of the video will consist of several blocks and for each block the DCT coefficients are extracted.
  • DCT-V DCT Valué
  • DCT-V Once the value of DCT-V is calculated, this value is compared with a fixed threshold or a threshold set from the DCT coefficients of the previous images. If the calculated value is below that threshold value, the image is considered to be a black scene.
  • This submodule depends on the video standard used. For example, in the case of videos compressed with the DVCPRO standard, each of the images that make up the video is compressed into a block of fixed size, and within this block there is a VSC subblock (VAUX source control) in which the 3-bit field DISP identifies the aspect ratio of the video.
  • VAUX source control VAUX source control
  • the bits of the DISP field are extracted and it is identified if the information is complete or the aspect ratio information is not defined. If this information is not complete, the header data analysis module tells the analysis module that analyzes the content of each image that extracts this information from the image content itself. Once the image is analyzed, the aspect ratio is extracted from the analysis module and the corresponding bits are written in the header of each of the images.
  • the multimedia file 1 has been recorded in a studio, it will have associated some metadata 12 in which the parts of the video where faces appear in the foreground are defined. Otherwise, a face detection submodule can be used that determines those images in which there is only one face and in large size.
  • the metadata analysis module 6 extracts this information and informs the analysis module 7 that it has this information and that in order to detect an interview it requires audio information and flash scenes.
  • an analysis submodule 8 responsible for analyzing the audio signal and classifying the audio into music and voice, and another analysis submodule 8 for the detection of flash scenes. In this way, you have the information of the audio, the flash and the main faces in that file.
  • a final analysis sub-module 8 will analyze this data and determine whether there are interview sequences in said multimedia content, for example in those cases where there is only one face, there is a flash, and the audio has been classified as voice.

Abstract

Método y sistema de análisis de archivos multimedia (1) con una cabecera (2) y un contenido (3), que detecta campos erróneos o incompletos de la cabecera, analiza el contenido, e inserta una nueva cabecera en el archivo incluyendo datos corregidos para dichos campos. Asimismo, completa o crea los metadatos de dichos archivos a partir de los módulos de análisis.

Description

MÉTODO Y SISTEMA DE ANÁLISIS DE ARCHIVOS MULTIMEDIA
D E S C R I P C I Ó N CAMPO DE LA INVENCIÓN
La presente invención se aplica al campo de la difusión y almacenamiento de información multimedia, y más específicamente, al análisis de contenido multimedia. ANTECEDENTES DE LA INVENCIÓN
En el campo de la difusión de contenido multimedia, es frecuente trabajar con bases de datos con un gran número de archivos multimedia, para cuya gestión se utiliza información sobre los mismos almacenada tanto en la cabecera del archivo, como en metadatos que pueden estar almacenados en el propio archivo o en ficheros independientes indexados al archivo multimedia.
No obstante, dicha información no siempre es correcta y completa. Al transmitir o modificar los archivos multimedia, pueden perderse datos en la cabecera de los mismos, o puede darse el caso de que ya no correspondan con el contenido real del archivo, y por lo tanto proporcionen una información errónea.
Son conocidos diversos sistemas que intentan gestionar grandes bases de datos de archivos multimedia. Por ejemplo WO 2009/26433 trata el etiquetado de grandes volúmenes de datos audiovisuales, con aplicaciones en diversos campos como seguimiento de contenido, filtrado de video, reconocimiento de objetos, etc ..
US 20080228928 también se centra en el etiquetado de contenido multimedia, en concreto para realizar posteriormente un filtrado selectivo de contenidos.
US 6,192,151 extrae fotogramas representativos de un archivo de vídeo y los etiqueta utilizando un código binario dependiente de la presencia en dichos fotogramas de unos ciertos rasgos. US 534251 utiliza diversos módulos de extracción de características para luego realizar una clasificación mediante una red neuronal con el resultado de dichos módulos.
Existen también un gran número de aplicaciones que extraen información concreta de un flujo de datos de audio o vídeo, como por ejemplo la posición de los pasos por negro, los silencios, o imágenes o elementos determinados. Por ejemplo US 6,100,941 detecta los pasos por negro de un flujo de vídeo y analiza una serie de parámetros asociados a dichos pasos por negro para determinar la presencia de anuncios. US 5,920,360 también presenta un sistema de detección de transiciones en video, en este caso mediante división de la imagen en celdas independientes.
No obstante, ninguno de los sistemas anteriores presenta soluciones al problema de la degradación o pérdida de los datos de cabecera de un archivo multimedia.
RESUMEN DE LA INVENCIÓN
La presente invención soluciona los problemas anteriormente descritos mediante un método y sistema que permiten detectar información incompleta o errónea en la cabecera de un archivo multimedia y sustituirla por información corregida tras analizar el contenido del archivo, tal y como se describe a continuación.
En un primer aspecto de la invención se presenta un sistema que opera sobre archivos multimedia (audio, video, audio+video...), que contienen una cabecera y un contenido. El sistema comprende:
-Un módulo de análisis de cabecera que localizan campos incompletos y campos erróneos de la cabecera original.
-Unos módulos de análisis de contenido, que determinan el valor correcto de dichos campos.
-Un módulo de inserción de cabecera que inserta en el archivo multimedia una cabecera con dichos datos correctos. Preferentemente, el sistema utiliza también metadatos en este proceso a través de un módulo de análisis de metadatos y, más preferentemente, un módulo de escritura de metadatos. Dichos metadatos pueden extraerse tanto del propio archivo multimedia como de otros archivos auxiliares, y a su vez, los nuevos metadatos generados por el sistema pueden almacenarse en el propio archivo multimedia, en nuevos archivos, o modificando archivos auxiliares ya existentes.
Preferentemente, el sistema incluye los siguientes módulos de análisis, que permiten extraer información de flujos de vídeo de cara a, por ejemplo, generar metadatos asociados a dichos flujos.
-Detección de paso por negro
-Detección de entrevistas
-Detección de relación de aspecto.
En otro aspecto de la presente invención, se presenta un método de análisis de archivos multimedia que comprende los siguientes pasos:
-Localizar campos incompletos y campos erróneos en la cabecera de un archivo multimedia.
-Determinar el valor correcto dichos campos, mediante análisis del contenido del archivo.
-Insertar en el archivo multimedia una cabecera modificada que incluye el valor correcto de los campos incompletos y los campos erróneos.
Preferentemente, también comprende incluir en el análisis unos metadatos asociados al archivo multimedia, y escribir nuevos metadatos en caso de que éstos sean generados, ya sea en el propio archivo multimedia o en otros archivos.
Por lo tanto, se consigue con la presente invención corregir toda aquella información de cabecera que ha sido perdida o degenerada. Estas y otras ventajas serán aparentes a la vista de la descripción detallada de la misma. Asimismo dota al sistema de herramientas para la anotación del contenido multimedia. BREVE DESCRIPCIÓN DE LAS FIGURAS
Con objeto de ayudar a una mejor comprensión de las características del invento de acuerdo con un ejemplo preferente de realización práctica del mismo y para complementar esta descripción, se acompaña como parte integrante de la misma la siguiente figura, cuyo carácter es ilustrativo y no limitativo:
La figura 1 muestra un esquema de un sistema de análisis de contenido multimedia de acuerdo con una realización particular de la presente invención.
DESCRIPCIÓN DETALLADA DE LA INVENCIÓN
En este texto, el término "comprende" y sus derivaciones (como "comprendiendo", etc.) no deben entenderse en un sentido excluyente, es decir, estos términos no deben interpretarse como excluyentes de la posibilidad de que lo que se describe y define pueda incluir más elementos, etapas, etc.
La figura 1 presenta una realización preferente del sistema de la invención, que a su vez ejecuta una realización preferente del método de la invención. El sistema comprende un módulo de análisis de información técnica 4, un módulo de escritura 9 y un módulo de análisis de contenido multimedia 7, y opera sobre archivos multimedia 1 que comprenden una cabecera 2 y un contenido 3. Adicionalmente, el archivo multimedia 1 puede llevar asociados unos metadatos 12, que pueden encontrarse almacenados en el propio archivo multimedia 1 o en un archivo externo.
MÓDULO DE ANÁLISIS DE CONTENIDO MULTIMEDIA 7
Este módulo comprende una pluralidad de submódulos de análisis 8, cada uno de los cuales actúa de forma independiente para extraer una información del contenido 3 del archivo multimedia 1 que está siendo analizado. Preferentemente, los submódulos de análisis 8 actúan en paralelo para optimizar el tiempo de procesado. No obstante, los submódulos de análisis 8 pueden estar comunicados, ejecutándose en serie en caso de que un submodulo requiera como entrada la salida de otro submodulo. Para facilitar dichas comunicaciones, se define un formato de entrada y salida común a todos los submódulos.
Un ejemplo de submódulo de análisis 8 es el de detección de paso por negro. Actualmente, muchas agencias de noticias utilizan la inserción de imágenes negras como indicador del final de una noticia dentro de un mismo archivo multimedia. Una vez recibidos esos archivos multimedia en el broadcaster, es necesario procesar los archivos multimedia e identificar la localización de las imágenes negras para poder segmentar las noticias. Esta labor es realizada en muchas ocasiones de forma manual, pudiendo agilizarse el proceso mediante su realización con el submódulo de análisis 8 correspondiente. Una implementación del mismo se detalla más adelante.
MÓDULO DE ANÁLISIS DE INFORMACIÓN TÉCNICA 4
Este módulo comprende a su vez dos módulos principales: un módulo de análisis de datos de cabecera 6 y un módulo de análisis de metadatos 5. El módulo de análisis de datos de cabecera 6 extrae los datos de la cabecera 2 e identifica los campos que no están completos o son erróneos. Teniendo en cuenta dichos datos incompletos o erróneos, determina qué módulos de análisis de contenido multimedia 8 han de ejecutarse para rellenar la información de la cabecera. Una vez que los módulos de análisis de contenido multimedia 8 han procesado el contenido 3 multimedia y han extraído la información requerida, indican al módulo de análisis de datos de cabecera 5 los resultados, el cual comunica al módulo de inserción de cabecera qué datos ha de introducir y en qué campos.
Otra de las funcionalidades del módulo de análisis de datos de cabecera 5 es la de extraer los parámetros que describen el contenido del archivo multimedia para indicar al módulo de análisis de contenido 7 las variables que debe tener en cuenta.
Por ejemplo, hoy en día los broadcasters tienen el problema al guardar los archivos multimedia en algunos tipos de servidores se pierde la información de la relación de aspecto del vídeo que contienen (16:9,4:3,...). Por lo tanto, los usuarios de los vídeos que están almacenados en dichos servidores no conocen la relación de aspecto de los vídeos. Para poder recuperar dicha información, un submódulo de análisis 8 analiza el propio contenido 3 multimedia y determina la relación de aspecto. Una vez extraída dicha información del contenido 3, se rellena el campo de la cabecera 2 en donde se indica la relación de aspecto del vídeo. El funcionamiento del submódulo de determinación de relación de aspecto se detalla más adelante.
El módulo de análisis de metadatos 6 analiza los metadatos 12 indexados al archivo multimedia 1 actual en caso de que estos existan. Este módulo es capaz de procesar tanto los metadatos que están dentro del archivo multimedia como los metadatos que están almacenados en un archivo independiente.
Una vez analizados los metadatos del archivo multimedia, esta información pasa al módulo de análisis de contenido 7. Dependiendo de las necesidades del usuario y de los submodulos de análisis 8 contenidos en el módulo de análisis de contenido 7, se ejecutan los submodulos necesarios. El resultado de este análisis pasa directamente al módulo de inserción/creación de metadatos 1 1 .
Por ejemplo, las entrevistas son situaciones de importancia tanto para los usuarios profesionales como usuarios no profesionales. En caso de querer añadir a un archivo multimedia la información de si dentro de este archivo hay una entrevista o no, se pueden realizar varios análisis de contenido, tal y como se detalla más adelante. En caso afirmativo, el resultado se inserta como metadatos del archivo multimedia. Además se pueden añadir resultados intermedios en caso de considerarlo de interés.
MÓDULO DE ESCRITURA 9
El objetivo principal de este módulo es el de escribir tanto en los metadatos como en los datos de cabecera del archivo. Para ello, se identifican dos submodulos:
Un módulo de inserción de cabecera 10, que rellena los campos de la cabecera 2 que no están completos o son erróneos a partir de los resultados obtenidos por el módulo de análisis de contenido multimedia 7. Un módulo de inserción/creación de metadatos 1 1 , que crea un archivo de metadatos con nuevos metadatos generados por el módulo de análisis de contenido 12, o en caso de los estándares que así lo permiten, inserta dichos metadatos en el propio archivo multimedia 1 . Si ya existe un archivo de metadatos, la información contenida en él se tiene en cuenta, de modo que los nuevos metadatos sean compatibles con los que ya están contenidos en el archivo de metadatos, o corrigiéndolos en caso contrario.
SUBMÓDULO DE DETECCIÓN DE PASO POR NEGRO
Hoy en día, muchas agencias de noticias y productoras utilizan la inserción de imágenes negras para indicar el fin de una noticia, la recomendación de inserción de anuncios en una serie o película, y otras aplicaciones. Por ello, uno de los primeros pasos a dar en la edición de estas películas, series o paquetes de noticias es la detección de dichas escenas negras. Estas escenas negras deberán localizarse e identificarse. Esta labor, la realiza un editor de forma manual, buscando las escenas negras del vídeo visualmente. Para facilitar esta labor, una realización preferente del sistema de la invención incluye un submódulo que a través del análisis automático de los vídeos, es capaz de detectar las escenas negras y ayudar al editor en su tarea.
Para ello se utiliza un algoritmo que toma como entrada el contenido del propio vídeo. Para poder analizar cada una de las escenas, se extraen los coeficientes DCT de cada una de las imágenes que compone el vídeo. Por ello, el algoritmo que se explica a continuación sólo es aplicable para formatos de compresión de vídeo en que se usan los coeficientes DCT que hoy en día son la gran mayoría como pueden ser el H264, MPEG y DVCPRO.
Para poder extraer cada una de las imágenes que forma un vídeo es necesario descomprimir el vídeo y extraer las imágenes. Este proceso se da principalmente en dos pasos: extracción de los coeficientes DCT del contenedor de vídeo y creación de la imagen a partir de dichos coeficientes. A este proceso se le conoce como descompresión del vídeo.
En el algoritmo que se detalla a continuación, el procesado de las imágenes se hace directamente a partir de los coeficientes DCT. De esta manera se logra un proceso más rápido permitiendo analizar un mayor número de vídeos en el mismo tiempo. El tiempo es una característica a tener en cuenta puesto que este sistema de análisis multimedia se quiere aplicar en lugares donde la cantidad de archivos multimedia sea considerable.
Los coeficientes DCT son una representación frecuencial de un bloque de una imagen. Por ello, contienen un valor que identifica el valor de continua o frecuencia cero de esa imagen y varios valores que identifican los valores a distintas frecuencias. Cada imagen del vídeo estará compuesta por varios bloques y para cada bloque se extraen los coeficientes DCT.
Una vez extraídos todos los coeficientes DCT de la imagen, se suman todos los coeficientes de la imagen y todos los coeficientes DCT para la componente continua.
N
SumDCT =∑DCTcoef(t)
t=l
L
SumDCTDC =∑DCTcoefDC (t)
Para la detección de escenas negras se debe calcular el coeficiente de los parámetros DCT: DCT-V (DCT Valué).
SumDCT - SumDCTr
DCT- V =
SumDCTr
Una vez calculado el valor de DCT-V se compara este valor con un umbral fijo o un umbral fijado a partir de los coeficientes DCT de las imágenes anteriores. Si el valor calculado está por debajo de ese valor umbral, se considera que la imagen es una escena negra.
A partir del análisis del DCT-V de cada imagen se pueden realizar diferentes módulos para la detección de cambios de escena, fundidos a negro o detección de secuencias dinámicas o estáticas. SUBMÓDULO DE DETECCIÓN DE RELACIÓN DE ASPECTO
Este submódulo depende del estándar de vídeo utilizado. Por ejemplo para el caso de los vídeos comprimidos con el estándar DVCPRO, cada una de las imágenes que componen el vídeo se comprime en un bloque de tamaño fijo, y dentro de este bloque hay un subbloque VSC (VAUX source control) en el que el campo de 3 bits DISP se identifica la relación de aspecto del vídeo.
Para cada uno de los bloques del vídeo, se extraen los bits del campo DISP y se identifica si la información está completa o la información de la relación de aspecto no está definida. En caso de que dicha información no esté completa, el módulo de análisis de datos de cabecera indica al módulo de análisis que analiza el contenido de cada imagen que extraiga dicha información a partir del propio contenido de la imagen. Una vez analizada la imagen, se extrae del módulo de análisis la relación de aspecto y se escribe en la cabecera de cada una de las imágenes los bits correspondientes.
SUBMÓDULO DE DETECCIÓN DE ENTREVISTAS En el caso de que el archivo multimedia 1 haya sido grabado en un estudio, tendrá asociados unos metadatos 12 en los que se definen las partes del vídeo en donde aparecen caras en primer plano. En caso contrario se puede utilizar un submódulo de detección de caras que determina aquellas imágenes en las que existe una única cara y en tamaño grande. El módulo de análisis de metadatos 6 extrae esta información y le comunica al módulo de análisis 7 que tiene esta información y que para detectar entrevista requiere de la información de audio y escenas con flash. Para ello existe un submódulo de análisis 8 encargado de analizar la señal de audio y clasificar el audio en música y voz, y otro submódulo de análisis 8 para la detección de escenas con flash. De esta manera, se tiene la información del audio, del flash y de las caras principales en dicho archivo. Un último submódulo de análisis 8 analizará estos datos y determinará si en dicho contenido multimedia existen secuencias de entrevistas, por ejemplo en aquellos casos en los que exista una única cara, exista flash, y el audio se haya clasificado como voz. A la vista de esta descripción y figura, el experto en la materia podrá entender que la invención ha sido descrita según algunas realizaciones preferentes de la misma, pero que múltiples variaciones pueden ser introducidas en dichas realizaciones preferentes, sin salir del objeto de la invención tal y como ha sido reivindicada.

Claims

REIVINDICACIONES
1 . Sistema de análisis de archivos multimedia, comprendiendo cada archivo multimedia (1 ) una cabecera original (2) y un contenido (3), caracterizado porque el sistema comprende:
-un módulo de análisis de cabecera (6), configurado para localizar campos incompletos y campos erróneos de la cabecera original (2);
-unos módulos de análisis de contenido (8), configurados para determinar el valor correcto de los campos incompletos y los campos erróneos de la cabecera original (2);
-un módulo de inserción de cabecera (10) configurado para insertar en el archivo multimedia (1 ) una cabecera modificada que incluye el valor correcto de los campos incompletos y los campos erróneos.
2. Sistema según la reivindicación 1 caracterizado porque comprende además un módulo de análisis de metadatos (5) configurado para extraer metadatos (12) comprendidos en el archivo multimedia y/o en un archivo externo; analizar dichos metadatos (12); y enviar información de dichos metadatos (12) a los módulos de análisis de contenido (8).
3. Sistema según la reivindicación 2 caracterizado porque comprende además un módulo de creación de metadatos (1 1 ) configurado para o bien crear un archivo de metadatos, o bien insertar metadatos en el archivo multimedia (1 ).
4. Sistema según cualquiera de las reivindicaciones anteriores caracterizado porque los módulos de análisis de contenido (8) comprenden un módulo de detección de relación de aspecto de un vídeo.
5. Sistema según cualquiera de las reivindicaciones anteriores caracterizado porque los módulos de análisis de contenido (8) comprenden un módulo de detección de fotogramas negros en un vídeo.
6. Sistema según cualquiera de las reivindicaciones anteriores caracterizado porque los módulos de análisis de contenido (8) comprenden un módulo de detección de entrevistas en un vídeo.
7. Método de análisis de archivos multimedia, comprendiendo cada archivo multimedia (1 ) una cabecera original (2) y un contenido (3), caracterizado porque el método comprende:
-localizar campos incompletos y campos erróneos de la cabecera original (2) mediante unos módulos de análisis de contenido (8);
-determinar el valor correcto de los campos incompletos y los campos erróneos de la cabecera original (2);
- insertar en el archivo multimedia (1 ) una cabecera modificada que incluye el valor correcto de los campos incompletos y los campos erróneos.
8. Método según la reivindicación 7 caracterizado porque comprende además extraer metadatos (12) comprendidos en el archivo multimedia y/o en un archivo externo; analizar dichos metadatos (12); y enviar información de dichos metadatos (12) a los módulos de análisis de contenido (8).
9. Método según la reivindicación 8 caracterizado porque comprende además insertar metadatos en el archivo multimedia (1 ).
10. Método según cualquiera de las reivindicaciones 8 y 9 caracterizado porque comprende además crear un archivo auxiliar con metadatos asociados al archivo multimedia (1 ).
PCT/ES2010/070024 2010-01-19 2010-01-19 Método y sistema de análisis de archivos multimedia WO2011089276A1 (es)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/ES2010/070024 WO2011089276A1 (es) 2010-01-19 2010-01-19 Método y sistema de análisis de archivos multimedia

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/ES2010/070024 WO2011089276A1 (es) 2010-01-19 2010-01-19 Método y sistema de análisis de archivos multimedia

Publications (1)

Publication Number Publication Date
WO2011089276A1 true WO2011089276A1 (es) 2011-07-28

Family

ID=42124565

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/ES2010/070024 WO2011089276A1 (es) 2010-01-19 2010-01-19 Método y sistema de análisis de archivos multimedia

Country Status (1)

Country Link
WO (1) WO2011089276A1 (es)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US534251A (en) 1895-02-19 Box or crate machine
US5920360A (en) 1996-06-07 1999-07-06 Electronic Data Systems Corporation Method and system for detecting fade transitions in a video signal
US6100941A (en) 1998-07-28 2000-08-08 U.S. Philips Corporation Apparatus and method for locating a commercial disposed within a video data stream
US6192151B1 (en) 1993-10-20 2001-02-20 Hitachi, Ltd. Video retrieval method and apparatus
US20050080743A1 (en) * 2003-10-08 2005-04-14 Ostrover Lewis S. Electronic media player with metadata based control and method of operating the same
EP1840764A1 (en) * 2006-03-30 2007-10-03 Sony France S.A. Hybrid audio-visual categorization system and method
US20080228928A1 (en) 2007-03-15 2008-09-18 Giovanni Donelli Multimedia content filtering
EP1978524A2 (en) * 2007-04-04 2008-10-08 Sony Corporation Image recording device, player device, imaging device, player system, method of recording image, and computer program
WO2009026433A1 (en) 2007-08-21 2009-02-26 Cortica, Ltd. Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US534251A (en) 1895-02-19 Box or crate machine
US6192151B1 (en) 1993-10-20 2001-02-20 Hitachi, Ltd. Video retrieval method and apparatus
US5920360A (en) 1996-06-07 1999-07-06 Electronic Data Systems Corporation Method and system for detecting fade transitions in a video signal
US6100941A (en) 1998-07-28 2000-08-08 U.S. Philips Corporation Apparatus and method for locating a commercial disposed within a video data stream
US20050080743A1 (en) * 2003-10-08 2005-04-14 Ostrover Lewis S. Electronic media player with metadata based control and method of operating the same
EP1840764A1 (en) * 2006-03-30 2007-10-03 Sony France S.A. Hybrid audio-visual categorization system and method
US20080228928A1 (en) 2007-03-15 2008-09-18 Giovanni Donelli Multimedia content filtering
EP1978524A2 (en) * 2007-04-04 2008-10-08 Sony Corporation Image recording device, player device, imaging device, player system, method of recording image, and computer program
WO2009026433A1 (en) 2007-08-21 2009-02-26 Cortica, Ltd. Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof

Similar Documents

Publication Publication Date Title
EP1635575A1 (en) System and method for embedding scene change information in a video bitstream
US7707485B2 (en) System and method for dynamic transrating based on content
US20160337691A1 (en) System and method for detecting streaming of advertisements that occur while streaming a media program
US7555149B2 (en) Method and system for segmenting videos using face detection
EP1610557A1 (en) System and method for embedding multimedia processing information in a multimedia bitstream
US7336890B2 (en) Automatic detection and segmentation of music videos in an audio/video stream
EP1648172A1 (en) System and method for embedding multimedia editing information in a multimedia bitstream
EP2739047A1 (en) Streaming distribution device and method, streaming receiving device and method, streaming system, program, and recording medium
US8107541B2 (en) Method and system for video segmentation
US7706663B2 (en) Apparatus and method for embedding content information in a video bit stream
US20060059509A1 (en) System and method for embedding commercial information in a video bitstream
US10382835B2 (en) Apparatus and method for verifying the integrity of video file
WO2010072986A3 (fr) Procede de gestion de la detection de publicite dans un appareil electronique, par exemple un decodeur de television numerique
CN104837031B (zh) 一种高速自适应提取视频关键帧的方法
CN113596473B (zh) 视频压缩方法及装置
Mizutani et al. Commercial detection in heterogeneous video streams using fused multi-modal and temporal features
US20150356353A1 (en) Method for identifying objects in an audiovisual document and corresponding device
US9812173B2 (en) Signal recording apparatus, camera recorder, and signal processing system
CN110851301B (zh) 一种用于mp4文件的恢复方法和系统
WO2011089276A1 (es) Método y sistema de análisis de archivos multimedia
US10535369B2 (en) Information processing device, information generation device, information recording medium, information processing method, and program
US20060056506A1 (en) System and method for embedding multimedia compression information in a multimedia bitstream
KR101746162B1 (ko) 영상 데이터에 대한 무결성 검증 장치 및 이를 이용한 무결성 검증 방법
ES2553215T3 (es) Procesamiento de un flujo de datos digitales
CN105704583A (zh) 用于实现视频分级播放的方法和装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10707935

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10707935

Country of ref document: EP

Kind code of ref document: A1