MXPA05009704A

MXPA05009704A - Metodo para ver documentos audiovisuales en un receptor y receptor para ver los documentos.

Info

Publication number: MXPA05009704A
Application number: MXPA05009704A
Authority: MX
Inventors: Denis Mischler
Original assignee: Thomson Licensing
Priority date: 2004-09-17
Filing date: 2005-09-12
Publication date: 2006-05-25
Also published as: US20060061602A1; JP2013176102A; EP1638321A1; FR2875662A1; JP5305557B2; KR20060051386A; CN1750618A; KR101318459B1; US9137562B2; JP2006087098A

Abstract

La invencion se relaciona con un metodo para observar documentos audiovisuales en un dispositivo de reproduccion, que comprende una etapa para leer o recibir un documento y una etapa de presentacion para observar las imagenes en este documento, sobre una pantalla. El metodo comprende ademas una etapa para leer o recibir un atributo asociado con una banda de tiempo del documento. Un valor predeterminado del atributo activa en el dispositivo la ampliacion de una parte de la imagen en la reproduccion durante la banda de tiempo, debido a lo cual esta parte de imagen ocupa un area mayor en la pantalla. La invencion tambien se relaciona con un dispositivo para observar un documento de acuerdo con el metodo de observacion.

Description

MÉTODO PARA VER DOCUMENTOS AUDIOVISUALES EN UN RECEPTOR Y RECEPTOR PARA VER LOS DOCUMENTOS DESCRIPCIÓN DE LA INVENCIÓN La invención se relaciona con un método para ver documentos audiovisuales en un receptor, y un receptor para ver dichos documentos. La invención se relaciona de manera más específica con el procesamiento de la presentación del documento . Actualmente un usuario puede descargar un documento audiovisual desde una difusora para verlo en un dispositivo de producción. Más recientemente han aparecido en el mercado dispositivos miniaturizados nuevos para reproducir transmisiones audiovisuales. De este modo, los asistentes digitales personales (PDA) o incluso los teléfonos móviles con pantallas de gráficos a color se proporcionan con programas y memorias para almacenar documentos visuales tales como películas, documentales, sucesos deportivos, etc. Cuando la parte de interés de un usuario se relaciona con una parte pequeña de la imagen, la miniaturización de la pantalla vuelve difícil al usuario seguir el suceso. Los atributos relacionados con las señales de imágenes, digitales o analógicas, se practica ampliamente; - - estos atributos típicamente se relacionan con el título, tema o incluso con el formato de presentación. Por ejemplo, la especificación DVB-SI (difusión de video digital especificación para información de servicios) EN 300 468 VI.3.1 (publicada por la ETSI) especifica la función de atributo y formato asociados con documentos audiovisuales. Por ejemplo, un atributo especifica si las señales de video del documento son del tipo 4/3 o 16/9. El dispositivo de reproducción toma en consideración este atributo y adapta la presentación de acuerdo con su valor, lo que vuelve posible hacer un uso máximo del área de la pantalla al distorsionar la imagen. No obstante, en el caso de dispositivos con pantallas miniaturizadas , la adaptación de la presentación al tamaño de la pantalla no siempre permite seguir el suceso en condiciones satisfactorias. El documento de E.U.A. 2004/148640 - MASU URA describe un dispositivo para recibir desde una red y reproducir un documento audiovisual en una pantalla. Los atributos, denominados "metadatos" se reciben desde la red en asociación con el documento, estos metadatos definen regiones de la imagen que van a ser agrandadas de manera que pueden ser vistas más cómodamente por el usuario. La transmisión de dicha información ocupa ancho de banda y obliga a la difusora a aplicar procesamiento antes de la transmisión . Este problema se resuelve por la presente invención. La invención propone un método de observar un documento audiovisual en un dispositivo de reproducción que se proporciona con un medio de presentación, que comprende una etapa de presentación para ver en tamaño normal las imágenes de este documento en el medio de presentació ; caracterizado porque comprende en un dispositivo de reproducción, una etapa para determinar el área de por lo menos una imagen del documento, de acuerdo con el contenido de imagen, y una etapa para agrandar el área de imagen que se observa durante una banda de tiempo, el área con tamaño mayor en la pantalla en comparación con una imagen de tamaño normal . De esta manera, el usuario puede ver con facilidad acciones de interés, incluso en una pantalla pequeña. Además, el dispositivo de reproducción en si mismo determina las características del área que se va a agrandar de acuerdo con el contenido de la imagen. De esta manera, la presentación se adapta para cada dispositivo receptor. De acuerdo con una primera mejora, el dispositivo determina las características geométricas del área que se va a agrandar. De acuerdo con otra mejora, el dispositivo mismo determina la proporción de ampliación del área, de acuerdo con las características del medio de presentación, por ejemplo, una pantalla de teléfono móvil. De esta manera, el área que se va a ampliar se adapta al dispositivo. De acuerdo con otra mejora, la imagen se analiza para determinar la posición de uno o más objetos particulares, por ejemplo una pelota rodeada por varios jugadores. El área delimitada debidamente alrededor del objeto se ampliará en consecuencia. De acuerdo con otra mejora, se vuelven a calcular a intervalos regulares valores de ampliación, durante las bandas de tiempo de reproducción del documento. Durante una banda de tiempo, la etapa de ampliación se activa de acuerdo con un valor asociado. De esta manera, el dispositivo adapta el contenido visual que va a ser ampliado conforme se reproduce el documento. De acuerdo con una mejora, la ampliación se relaciona únicamente con una parte de la imagen que aparece en la pantalla, con un efecto de lupa. El usuario de esta manera ve que una parte de la imagen se amplia y puede colocarla dentro de la imagen normal . La invención también propone un dispositivo para ver documentos audiovisuales que comprenden un medio de - - presentación para ver imágenes completas de este documento en una pantalla; caracterizado porgue comprende además un medio para determinar un área de por lo menos una imagen del documento, de acuerdo con el contenido de la imagen, y un medio de ampliación para ver, durante la banda de tiempo, el área con un tamaño mayor en comparación con la imagen a tamaño normal . La presente invención ahora se volverá evidente con mayor detalle a partir de la descripción que sigue de las modalidades proporcionadas para propósitos ilustrativos y con referencia a las figuras anexas, las cuales: la figura 1 es un diagrama de bloques de un receptor audiovisual para implementar la invención, la figura 2 es un ejemplo de una imagen tomada en acercamiento (close-up) , la figura 3 es la apariencia de la imagen mostrada por una pantalla grande con el acercamiento de la figura 2 , la figura 4 es la apariencia de la imagen mostrada por una pantalla pequeña, con el acercamiento de la figura 2 , la figura 5 es un ejemplo de una imagen tomada en una toma alejada, la figura 6 es la apariencia de la imagen - - mostrada por una pantalla grande con la toma alejada de la figura 5 , la figura 7 es la apariencia de la imagen mostrada por una pantalla pequeña, con la toma alejada de la figura 5, la figura 8 es la apariencia de la imagen mostrada por una pantalla pequeña con la toma alejada de la figura 2, utilizando el método de la invención, la figura 9 es una imagen mostrada en una pantalla en la cual la parte central se ha agrandado y enmarcado, la figura 10 es un ejemplo de un diagrama de flujo de un programa para generar tomas de imagen y valores atribuibles relacionados con estas tomas . Se describe primero con la ayuda de la figura 1 el funcionamiento del dispositivo 1 de reproducción audiovisual que se proporciona con un dispositivo 2 de presentación. Este dispositivo es, por ejemplo, un descodificador digital, una computadora personal, un PDA o un dispositivo de teléfono móvil. En por lo menos dos ejemplos, el dispositivo 2 de presentación y el dispositivo se incorporan en el mismo dispositivo. El ejemplo preferido descrito en el resto del documento se relaciona con un descodificador digital unido para ver una pantalla. El dispositivo 1 incluye una unidad 3 de procesador central enlazado a un programa y una memoria 12 de trabajo (ROM y RAM, respectivamente) y una interconexión 5 para comunicación con un enlace común 6 digital de alta velocidad local utilizado para transmitir datos de audio/video en tiempo real. Esta red es, por ejemplo una red IEEE 1394. Este enlace común digital también puede utilizarse para enviar datos a un servidor. El dispositivo 1 también puede recibir datos de audio/video desde una red de transmisión vía una antena receptora asociada con un desmodulador 4. El dispositivo 1 comprende además un receptor 7 de señal infrarroja para recibir señales desde un control remoto 8 , un medio 9 de almacenamiento para almacenar documentos audiovisuales, y un circuito lógico 10 de descodificación de audio/video para generar las señales audiovisuales enviadas a la pantalla 2 de televisión. Si las transmisiones audiovisuales son digitales, el medio 9 de almacenamiento preferiblemente es un disco duro (HDD) , pero también puede ser una grabadora de video que lea cintas magnéticas o un lector/grabador de discos ópticos grabables (DVD-RAM) . El dispositivo 1 también tiene un reloj (no mostrado) para calcular el tiempo de observación de un documento .

- - El dispositivo 1 también comprende un circuito 11 para mostrar datos en la pantalla, con frecuencia denominado circuito de presentación en pantalla (OSD) . El circuito 11 OSD es un generador de texto y gráficos el cual se utiliza para presentar en la pantalla menús, pictogramas (por ejemplo un número que corresponde al canal que se observa) , o el cual puede ser utilizado para mezclar dos contenidos audiovisuales y, si es necesario, ampliar uno de estos . El circuito OSD está controlado principalmente por la unidad 3 procesadora central asociada con un módulo ejecutable denominado "módulo de administración de pantalla" (D M) . El módulo DMM típicamente comprende un módulo de programa residente en una memoria 12 de solo lectura y los parámetros almacenados en la memoria de trabajo. El módulo DMM también se puede producir en forma de un circuito adaptado, del tipo ASIC, por ejemplo. Los documentos audiovisuales transmitidos en forma digital se transmiten en paquetes a los que se les proporciona referencia y se almacenan en la memoria 9. Algunos paquetes contienen imágenes y sonido, y otros contienen atributos del documento audiovisual. De acuerdo con una modalidad ejemplar, los documentos tienen un atributo, cuyo valor especifica un tipo de observación particular. De acuerdo con una modalidad simplificada, los - - tipos reconocidos incluidos hasta el momento son: toma alejada acercamiento. La mayor parte de las imágenes de un acercamiento se supone que contienen la parte interesante, por ejemplo los acercamientos de cámara sobre dos jugadores de fútbol mediante una competencia. Mientras que las tomas alejadas, por ejemplo cuando se filma la totalidad del campo del estadio muestran solo una parte pequeña -la vecindad de la pelota- en realidad es de interés para el usuario. De acuerdo con el método que es el objetivo de la presente invención, el atributo que indica el tipo de toma, algunas veces denominado "metadato" define el tipo de presentación de video que se requiere en ciertos tipos de dispositivo de observación. De manera más específica el atributo indica si la imagen (o una parte) observada sobre ciertas pantallas debe o no ser ampliada. De acuerdo con una modalidad ejemplar particularmente sencilla, se actualiza el valor del atributo a nivel de cámara. El ajuste de toma alejada o acercamiento realizado por el camarógrafo determina el valor del atributo. El módulo simplificado no impide la posibilidad de que el atributo sea actualizado después de que se han tomado las tomas por la difusora misma. Por lo - - tanto, el atributo se relaciona con el documento transmitido. Para una difusión directa, el atributo se envía por medio de un canal dedicado en una corriente MPEG-2, el canal que corresponde a un encabezador (o PID) unido al programa completo en las tablas de programa. Finalmente, el atributo puede determinarse por análisis de la imagen en el dispositivo 1 de reproducción. Dependiendo del valor del atributo, el dispositivo de observación selecciona automáticamente un modo de pantalla; ya sea que la imagen aparezca como pantalla completa o que la imagen sea agrandada para mostrar solo la parte interesante. La tabla siguiente resume los diversos casos que pueden presentarse: Si el video es retenido, las imágenes recibidas no se modifican en la presentación, en otras palabras: la imagen completa aparece en la pantalla. Si la pantalla del dispositivo 2 de presentación es de tamaño grande, una televisión, una pantalla de plasma o LCD o incluso una imagen producida por un proyector de video, no hay necesidad de ampliar parte alguna de la imagen, debido a que las partes pequeñas aparecen suficientemente legibles. Para tomas alejadas, únicamente los dispositivos diseñados para mostrar videos convencionales pueden presentar información legible. En el caso de pantallas pequeñas, una ampliación de las imágenes o una parte de esta última es necesaria para volver legibles las imágenes . Por ejemplo: en una toma ale ada, cada jugador en un partido de fútbol o en un partido de rugby ocupa un área pequeña de las imágenes y la pelota incluso es más pequeña. Un teléfono móvil debe aplicar su muestreo de los pixeles para cada imagen con el fin de presentar esta última en una pantalla pequeña, de manera que existe el riesgo de que la pelota desaparezca y por lo tanto perjudique la compresión del suceso . En las figuras y ejemplos que siguen, se utiliza un partido de fútbol como un documento, pero evidentemente, cualquier documento audiovisual se puede aplicar en la presente invención: partido de tenis, documentales, películas, etc. La figura 2 es un ejemplo de una imagen tomada en acercamiento. Contiene dos jugadores en un campo de fútbol. La figura 3 muestra la manera en como aparece el acercamiento de la figura 2 cuando se muestra por una - - pantalla grande . Los jugadores aparecen claramente . La figura 4 muestra la manera en como aparece el acercamiento de la figura 2 cuando se presenta en una pantalla pequeña. Los jugadores nuevamente aparecen de manera clara y el usuario puede seguir su acción. Ventajosamente, el dispositivo puede utilizar un filtro contra deformaciones. Tal filtro, aplicado a cualquiera o la totalidad de las imágenes presentadas o únicamente a los contornos detectados en la imagen, se utiliza para alisar o suavizar transiciones súbitas. La figura 5 es un ejemplo de una imagen tomada con una toma alejada. Se mueven aproximadamente quince jugadores en un campo de fútbol, y la pelota de fútbol puede ser distinguida en la parte media de la pantalla. La figura 6 muestra la manera en que aparece la toma alejada de la figura 5 cuando se presenta en una pantalla grande. El usuario puede distinguir los jugadores y la pelota de fútbol sin problemas. La figura 7 muestra la manera en que aparecen una toma alejada de la figura 5 cuando se presenta en una pantalla pequeña. El usuario ahora casi no puede visualizar los jugadores y ya no puede seguir la pelota dado que es demasiado pequeña la pantalla. El método que es el objeto de la presente invención, si es necesario, ampliará la imagen de acuerdo con el tipo de dispositivo de - - reproducción de manera que la imagen mostrada nuevamente es de interés para el usuario. La figura 8 muestra la manera en que aparece una toma alejada cuando se presenta en una pantalla pequeña después del procesamiento por el módulo DMM. La imagen mostrada se relaciona únicamente con la acción en la parte media del campo y se pueden ver claramente cuatro jugadores asi como la pelota de fútbol. Ahora sigue una descripción de la manera en como el dispositivo de reproducción que se proporciona reducirá la capacidad de presentación seleccionando la parte de la imagen que se va a agrandar . De acuerdo con una modalidad preferida y particularmente sencilla de la presente invención, se puede considerar que la parte interesante de la acción se localiza en la parte media de la imagen. Debido a esto, cuando el atributo indica que la toma es alejada, el módulo DMM envía una instrucción al circuito 11 OSO que consiste en ampliación de la parte central de la imagen. De acuerdo con una mejora, el atributo transmite o especifica la lectura del valor de ampliación del área de interés. Como una variante de esta mejora, este valor se define por el usuario durante una etapa de programación de parámetro. Por ejemplo, el usuario muestra un submenú de programación e introduce el valor de ampliación con su control remoto 8, o - - cualquier otro medio de introducción de instrucciones, ya sea incorporados o no al dispositivo 1. De acuerdo con una mejora, el valor del atributo varía de acuerdo con la imagen presentada y por lo tanto mientras el documento es reproducido, por ejemplo, al regresar al ejemplo del partido de fútbol, la imagen algunas veces se relaciona con tomas alejadas del campo y algunas veces acercamientos a los jugadores. Debido a esto, el atributo comprende una serie de pareamientos de datos; el primer artículo de datos especifica una banda de tiempo del documento y el segundo es el valor del atributo durante este intervalo de tiempo. El intervalo de tiempo se basa desde el inicio del documento . El reloj del dispositivo de reproducción se utiliza para proporcionar la referencia en tiempo. La tabla a continuación ilustra la descomposición en tomas de un documento, cada toma tiene su propio valor de atributo . en donde "L" indica que la toma es alejada y "C" - - en donde indica que la toma es un acercamiento. Si la invención se utiliza para una transmisión directa de un suceso, el primer artículo de dato especifica únicamente el valor de inicio de la banda de tiempo, asociado con el valor del atributo L o C. Este valor permanecerá . álido hasta el inicio de la siguiente banda, cuando cambie el valor del atributo . Entonces, la tabla anterior se vuelve: Si el atributo requiere únicamente dos valores mutuamente excluyentes (por ejemplo cuando únicamente se detectan y utilizan tomas alejadas y acercamientos) , la transmisión de los valores iniciales de la banda de tiempo es suficiente con la condición de que el primer valor de atributo de la primera banda se haya comunicado. Entonces , la tabla anterior se vuelve ·.

Número de toma Banda de tiempo Valor de atributo 1 OhOO ' 00" L 2 OhOl 124" 3 OhOl' 54" 4 0h03112" De acuerdo con otra mejora, la parte interesante de la pantalla se especifica en otro campo del atributo. Esta parte es un rectángulo y el área de interés, delimitada debidamente se caracteriza por el centro del rectángulo. El dispositivo 1 calcula el muestreado con el fin de determinar la imagen final que se observa a través de este punto central y por lo tanto la ampliación aplicada al área de interés . Esta mejora se puede combinar fácilmente con la precedente, de manera tal que la tabla que define el atributo se mejora como sigue: - - Los datos en la tabla se pueden transmitir y almacenar en forma de metadatos directamente asociados con la corriente en un esquema MXF. De acuerdo con una mejora el atributo contiene, para cada banda de tiempo, un conjunto de pares que asocian un punto de la imagen que define el centro del área de interés y un tópico. Por ejemplo, o un sujeto. Esto se utiliza para diferenciar ciertas partes de la imagen de acuerdo con su tópico. Por ejemplo, cuando se transmite una carrera de bicicletas, una y la misma imagen puede mostrar al conductor líder, el grupo que lo sigue, las tomas circundantes, etc. Un usuario puede desear ver únicamente una de estas porciones de imagen en un formato agrandado. Para esto, el dispositivo compara la palabras claves introducidas por el usuario (por ejemplo; "primero", "grupo líder", "ambiente"), y la compara con la palabra o las palabras clave asociadas con un conjunto de datos. Si las palabras corresponden (ya sea literalmente o debido a que son sinónimos) entonces se amplia la imagen correspondiente a esta palabra clave. De acuerdo con una variante de modalidad, el módulo DMM controla el OSD de manera que se amplia una parte de la imagen reproducida. La imagen después comprende una parte ampliada que contiene la parte más interesante del documento audiovisual, la parte de la imagen que rodea a esta parte agrandada permanece en un tamaño normal . Se puede utilizar esta variante cuando el atrib to especifica un área interesante y un valor de ampliación de esta área y, una vez ampliada, esta área ocupa solo una parte de la pantalla. Ventajosamente, el video del marco que rodea a la parte ampliada se distorsiona para reforzar el hecho de que la imagen ampliada aparece con un efecto de lupa. La figura 9 muestra una imagen compuesta en la cual se ha ampliado y enmarcado la parte central . El tamaño del área de interés alrededor del punto especificado en el atributo se puede centrar manualmente utilizando un menú y botones del control remoto. Esta interconexión del usuario se incorpora en el módulo DMM. De acuerdo con otra variante se determinan las características de la parte de interés de la imagen (posición, tamaño) por el dispositivo 1 de reproducción mediante la utilización de un motor de reconocimiento de imagen. Por ejemplo, en un partido de fútbol, la acción siempre se localiza alrededor de la pelota. El motor de reconocimiento de imagen analiza los datos de video y busca un objeto en movimiento que tenga las características visuales de una pelota. El motor genera un área debido en la cual la pelota está en el centro y comunica esta área al módulo DMM el cual es responsable de ampliarla según sea apropiado. Tal motor puede ser utilizado para analizar todos los documentos de deportes en los cuales los jugadores utilizan un objeto como el interés del juego (fútbol, balón de rugby, pelota de tenis, etc.). Otra manera de determinar un área de interés dentro del dispositivo de reproducción involucra analizar la actividad de los elementos de la imagen; en la práctica, el contenido de esta área normalmente contiene la actividad más importante que el resto de la imagen. Esta medición de actividad se basa en una medición previa del movimiento de la cámara entre la imagen actual y la presente. Posteriormente, el movimiento entre cada pixel de la imagen actual y cada pixel de la imagen precedente se calcula al restar el movimiento unido característico al movimiento de la cámara, calculado previamente. Pos eriormente el resultado, para cada pixel es el valor del movimiento intrínseco del objeto. El baricentro de cada pixel se toma como el centro de área de interés . De acuerdo con esta variante, el módulo D M determina el área que se va a ampliar durante las bandas de tiempo predeterminadas . La determinación se puede realizar a intervalos regulares, cada segundo, por ejemplo, de manera que se define la duración de la banda de tiempo. De esta manera, el dispositivo determina constantemente si la imagen recibida contiene un área que requiere ampliación tomando en consideración el medio de presentación y, cuando sea apropiado, parámetros introducidos por el usuario. Otro método consiste en detectar rupturas entre las secuencias y el corrimiento de una etapa para determinar el área que se va a ampliar únicamente en el momento de las rupturas. En la práctica, cuando la toma es un acercamiento, no hay una necesidad previa de ampliar la imagen, pero cuando la imagen aparece en una toma alejada, es necesario determinar si la ampliación es necesaria para una buena legibilidad en el medio de presentación. En una manera más sofisticada, el modulo DMM incorporado en el dispositivo de reproducción contiene un programa representado por el diagrama de flujo que se ilustra en la figura 10. Este programa constituye un método para generar tomas y valores de atributo relacionadas con estas tomas. La primera etapa de este programa consiste en el preprocesamiento para dividir el video en tomas, una toma está caracterizada por una unidad de toma. Se calcula un histograma de luminancia a partir de una versión submuestreada de cada imagen de una secuencia de video. Para video intercalado, cada marco se procesa a la vez. Para video comprimido, las imágenes de baja resolución se obtienen directamente de los coeficientes de DC (corriente directa) que pueden originar, por ejemplo, a partir de la ruptura de DCT (transformada de coseno directa) . Posteriormente los histogramas se filtran por un filtro de baja resolución con respuesta de impulso finita. La distancia entre los histogramas utilizados se define como la acumulación de las diferencias de una clase a otra. Esta distancia se calcula sobre imágenes o marcos sucesivos. Una ruptura o cambio de toma se detecta cuando la distancia definida previamente es mayor que un umbral dado . La segunda etapa de diagrama de flujo de la figura 10 consiste en extraer los valores de atributo (toma de acercamiento o toma alejada) de cada parte del documento descompuesto debidamente. Para esto, el módulo DMM extrae las siguientes características: - el número promedio de pixeles en la toma asociados con el color dominante en la secuencia, la actividad promedio en la toma el movimiento de la cámara. La primera característica requiere el calculo previo del color dominante en la secuencia. El objetivo es obtener los valores en el espacio de color RGB (u otros: HSV, HLS, etc.), del color verde del paso para una calibración inicial del sistema. El calculo del color dominante se basa en un algoritmo de agrupamiento convencional (tipo k-media) . Puede realizarse automáticamente en un subconjunto de imágenes extraídas desde el inicio del video o a partir de una imagen de referencia suministrada por un usuario (esta imagen será una imagen de toma alejada del partido) . Una vez que se ha caracterizado el color del partido, se selecciona una distancia de medición entre el color luminante de cada toma y el color del partido . Esta distancia puede ser una distancia euclidiana sencilla en el espacio de color seleccionado o una distancia más compleja tomando en consideración el número de veces que se presenta el color en la toma. La solicitud de patente WO 03/03203 presentada por el solicitante y publicada el 13 de mayo del 2004 describe un método para calcular dicha distancia. La actividad promedio en la toma es el promedio de la norma de los vectores de movimiento entre las imágenes y la toma. Estos vectores se pueden obtener directamente a partir de las corrientes de MPEG o se pueden volver a calcular en el caso de video en otro formato. El modelo de distancia entre las actividades de las dos tomas puede tomarse considerando que es un valor de diferencia absoluta . El movimiento de la cámara también se calcula a partir de los vectores de movimiento MPEG o de los vectores calculados nuevamente. Es suficiente un modelo de movimiento de tipo lineal simplificado muy sencillo con tres parámetros. Estos tres parámetros caracterizan los movimientos horizontal y vertical asi como el acercamiento. El modelo de movimiento se calcula de manera robusta, es decir, tomando en consideración únicamente los pixeles relacionados con el movimiento dominante. La solicitud de patente O 02/04316 presentada por el solicitante y publicada el 20 de junio del 2003 describe un método de calculo basado en la media mínima de cuadrados. La distancia entre los movimientos de cámara de dos tomas se puede tomar, por ejemplo, como una distancia euclidiana entre los dos modelos con tres parámetros , esta distancia posiblemente es ponderada por la relación entre el número de pixeles relacionados con el movimiento dominante en cada toma . Aquí posteriormente sigue una etapa de clasificación que consiste en separar las tomas alejadas de las tomas de acercamiento y otras tomas. Para esto, se extraen para cada toma los tres atributos característicos mencionados antes que se han considerado y se utiliza una medición de distancia total. Esta medición de distancia total se tomará, por ejemplo, como la suma ponderada de las tres distancias descritas previamente. Se pueden utilizar dos métodos de clasificación, estos dos métodos se aplican a dos contextos diferentes : clasificación a posteriori de las tomas, clasificación en línea de las tomas para transmisión directa de las tomas. La clasificación a posteriori de las tomas se puede llevar a cabo de manera completamente automática. Consiste en separar la totalidad de las tomas en tres subgrupos (tomas ale adas, tomas de acercamiento y otras tomas) , la totalidad de las tomas y sus características son conocidas . Se puede utilizar aquí un método de tipo de k-media de tres clases. Este método es el mejor en términos de resultado pero, no obstante, su aplicabilidad está limitada en el contexto de la transmisión directa con la cual estamos involucrados. El diagrama de flujo de la figura 10 también se describe parcialmente en la solicitud de patente mencionada antes WO 02/04316. También se puede proponer un segundo método, este es semiautomático en tiempo. Consiste en primer lugar en seleccionar un ejemplo de una toma alejada y una toma de acercamiento al inicio del video. Se calculan posteriormente todas las características de estas tomas de referencia. La clasificación después se puede realizar en línea al calcular la distancia entre la toma actual y estas tomas de referencia, y después al comparar esta diferencia con un valor umbral determinado con el fin de obtener una clasificación de las tomas alej adas/tomas de acercamiento u otras tomas, de acuerdo con el siguiente algoritmo: Si únicamente la diferencia entre la toma actual y la toma alejada es menor que el umbral, entonces la toma actual es una toma alejada. Si únicamente la diferencia entre la toma actual y la toma de acercamiento es menor que el umbral, entonces la toma actual es una toma de acercamiento . Si las dos diferencias son menores que el umbral, entonces la diferencia menor indica la clasificación de la toma. De otra manera, la toma es otro tipo de toma. Para un resultado óptimo, los atributos deben calcularse a partir de todas las imágenes de la toma. El inconveniente de este método de calculo se encuentra en el hecho de que se introduce un retraso variable, el retraso corresponde a la duración de la toma ac ual. No obstante, se puede utilizar una implementación no óptima alternativa. En este caso, únicamente se consideran las primeras imágenes N de la toma. La suposición implícita aquí involucra suponer que las tres características de la toma son estables durante una toma dada. También es posible tomar en consideración cualquier cambio de las características de referencia al volver a calcular las características de referencia después de cada clasificación de las tomas. Por ejemplo, si se clasifica una toma como alejada, las características de la toma alejada se volverán a calcular como el promedio de las características de las tomas alejadas precedentes y la toma alejada nueva. Las modalidades ejemplares de la invención descritas en lo anterior, se han seleccionado por su naturaleza concreta. No obstante, no sería posible listar todas las posibles modalidades de esta invención. En particular, cualquier etapa o cualquier medio descrito puede ser sustituido por una etapa o un medio equivalente sin apartarse de lo fundamental de la presente invención.

Claims

REIVINDICACIONES

1. Método para observar un documento audiovisual en un dispositivo de reproducción que se proporciona con un medio de presentación, que comprende una etapa de presentación para observar a tamaño normal las imágenes de este documento en el medio de presentación; caracterizado porque comprende un dispositivo de reproducción, una etapa para determinar el área de por lo menos una imagen del documento de acuerdo con el contenido de la imagen, y una etapa para ampliar el área de imagen para ver, durante una banda de tiempo el área con un tamaño menor en la pantalla que en la imagen en tamaño normal.

2. El método de observación como se describe en la reivindicación 1; caracterizado porque la etapa de determinación define las características geométricas del área.

3. El método de observación como se describe en la reivindicación 1; caracterizado porque la etapa de determinación define la relación de ampliación del área de acuerdo con las características del medio de presentación del dispositivo.

4. El método de observación como se describe en la reivindicación 1; caracterizado porque comprende una etapa para introducir por el usuario la relación de ampliación.

5. El método de observación como se describe en cualquiera de las reivindicaciones precedentes; caracterizado porque la imagen se analiza para determinar la posición de uno o más objetos característicos, y en donde el objeto o los objetos detectados se localizan en el área de imagen que se va a ampliar.

6. El método de observación como se describe en cualquiera de las reivindicaciones precedentes; caracterizado porque la etapa para determinar un área que se va a ampliar se repite en bandas de tiempo para reproducción del documento; durante una banda de tiempo, la etapa de ampliación se define de acuerdo con el área determinada debidamente.

7. El método de observación como se describe en una de las reivindicaciones precedentes; caracterizado porque la ampliación se relaciona únicamente con una parte de la imagen que aparece en la pantalla con un efecto de lupa.

8. Un dispositivo para observar documentos audiovisuales, que comprende un medio de presentación para observar imágenes completas de este documento en una pantalla, caracterizado porque comprende además un medio para determinar un área de por lo menos una imagen del documento de acuerdo con el contenido de la imagen, y un medio de ampliación para observar, durante una banda de tiempo, el área con un tamaño mayor que en la imagen a tamaño normal .

9. El dispositivo de observación como se describe en la reivindicación 8, caracterizado porque el medio de determinación define las características geométricas del área que se va a ampliar.

10. El dispositivo de observación como se describe en la reivindicación 8, caracterizado porque el medio de determinación define la relación de ampliación del área de acuerdo con las características del medio de presentación del dispositivo.

11. El dispositivo de observación como se describe en la reivindicación 8, caracterizado porque comprende un medio para introducir un valor de ampliación, el medio de determinación toma en consideración el valor de ampliación introducido para determinar el área de imagen que se va a ampliar.

12. El dispositivo de observación como se describe cualquiera de las reivindicaciones 8 a 11, caracterizado porque comprende un medio para detectar uno o más objetos característicos en una imagen del documento, el medio de determinación define la imagen que se va a ampliar de manera que el objeto o los objetos detectados se localizan en el área de imagen que se va a ampliar.

13. El dispositivo de observación como se describe cualquiera de las reivindicaciones 8 a 12, caracterizado porque el medio para determinar un área de imagen se activa a intervalos regulares .

14. El dispositivo de observación como se describe cualquiera de las reivindicaciones 8 a 12, caracterizado porque el documento audiovisual está constituido de secuencias, el medio para determinar un área de imagen se activa ante los cambios de secuencias .

15. El dispositivo de observación como se describe cualquiera de las reivindicaciones 8 a 14, caracterizado porque el medio de presentación amplia el área determinada en una porción de la pantalla con el fin de mostrar dicha área con un efecto de lupa.