MÉTODO Y SISTEMA PARA CONFERENCIAS POR VIDEO
MEMORIA DESCRIPTIVA
La siguiente invención se refiere a un procedimiento y un sistema para conferencias por video por lo menos con tres diferentes terminales de usuario para conferencias por video que se comunican una con otra, transmitiéndose datos de multimedia a través de una red de telecomunicación, los cuales comprenden por lo menos datos de imagen de usuario y/o datos de audio de usuario, y cada usuario recibe al mismo tiempo, mostrados de manera visiblemente ordenada, los datos de imagen de usuario de los otros usuarios sobre un aparato de reproducción, por ejemplo una unidad de representación visual o una VRD (Virtual Retinal Display - unidad de representación visual retinal virtual). La invención se refiere en particular a procedimientos y sistemas que comunican a través de redes de comunicación, las cuales constan por lo menos parcialmente de una red de radiotelefonía móvil. Se sabe acerca de la transmisión rápida, la recepción y la representación visual de imágenes de video a través de aparatos de video y televisión. Las imágenes poseen usualmente una resolución por lo menos de 10x6 ppi (pixel per inch - elementos de imagen por cada 2.54 cm) con calidad suficientemente buena de etapas cromáticas y acromáticas. Para la transmisión de toda la información de imagen, hay un ancho mínimo de banda del canal de transmisión de varios megahertz de condición previa. Los costos de tales sistemas son sin embargo mucho muy altos para aplicaciones determinadas, como sistemas para conferencias por video para uso comercial o privado. Se sabe, para la transmisión de imágenes de video, de la utilización 5 de medios con ancho más pequeño de banda, por ejemplo de redes públicas de telecomunicación. La velocidad de transmisión es sin embargo correspondientemente grande para estos medios. Para aplicaciones especiales, como sistemas de video de "slow sean" (exploración lenta), también puede ser suficiente en efecto tal ancho limitado de banda. Algunos 10 ejemplos de ello son los sistemas de seguridad y vigilancia, para los cuales no es necesaria una alta velocidad de repetición de imagen o una alta resolución. Tales sistemas utilizan típicamente una resolución de 128x128 elementos de imagen para toda la imagen, usándose solamente 16 etapas cromáticas o acromáticas. No se pueden transmitir sin embargo imágenes de video con 15 calidad más alta, por ejemplo de 640x480 elementos de imagen (norma europea: 620x576 elementos de imagen, 8 bits de intensidad de color) y una intensidad de color de 64 etapas, tales como son útiles en conferencias por video. Una imagen normal de video necesita aproximadamente 2 millones de bits de información, o sea aproximadamente 250 kbyte, para imágenes de 20 etapa acromática. Para imágenes cromáticas, la cantidad de datos asciende incluso a 750 kbyte. La velocidad de transmisión de datos a través de redes telefónicas cableadas públicas (PSTN: Public Switched Telephone Network) se encuentra típicamente hoy en día en 57,000 bps (bits por segundo (para
ki"'£•.] '-''•fMÉlíllftp II T -t ibl ^a-i: a . . . . . ... . .. . ., *, .., . . . * ** *- • - **»***>*** datos digitales, esto corresponde a bauds)) por línea en el intervalo análogo y en 64,000 bps para ISDN (red integral de servicio), con las cuales se usan aproximadamente 30 segundos o 90 segundos, para transmitir una imagen completa de video de calidad suficientemente buena. Esto es mucho muy lento para la mayoría de aplicaciones de conferencias por video. Por esta razón, se comprimen los datos de video digitales no procesados con los más diferentes algoritmos de compresión de datos, para reducir el tiempo de transmisión. No obstante, incluso algoritmos muy buenos de compresión y descompresión, con una velocidad de compresión de 1/20 a 1/50, son insuficientes para aplicaciones de conferencias por video. Además, la compresión y la descompresión son en el caso normal consumidores de tiempo y necesitan correspondientemente energía y trabajo de cálculo. Por ejemplo en el intervalo de la radiotelefonía móvil, precisamente el último factor puede ser igualmente decisivo. Hay que considerar con ello que, en el intervalo de la radiotelefonía móvil, diferentemente que en las redes de PSTN, no se da siempre la calidad de comunicación que permitiría una velocidad máxima de transmisión. A velocidades de transmisión más elevadas que la posiblemente máxima, se multiplica el tiempo de transmisión de manera adicionalmente correspondiente. Para conseguir una compresión adicional de datos, se encuentran en la técnica varios documentos que proponen transmitir solamente un detalle determinado de una imagen tomada con alta resolución, mientras que se transmiten todos los demás detalles de fotografía con resolución más elevada. Las memorias de patente de E.U.A. No. 5,703,637 y
Í?*L A **-?.mim**m?.J, *-**. . *, ... .. . . . . . » ?*? -Stiá,.. * l**L 4,513,317 son ejemplos que registran con un sistema de rastreo del ojo el movimiento de la pupila o de la retina y utilizan esta información, para representar visualmente solamente una pequeña área de la imagen con alta resolución. Estos sistemas aprovechan la propiedad del ojo humano de que solamente una pequeña parte de la retina (llamada fóvea) es altamente resoluble, mientras que la gran parte restante posee una resolución reducida. El estado de la técnica posee sin embargo varias desventajas, entre otras la desventaja de que todos los usuarios deben utilizar el mismo patrón de video, para poder representar visualmente estas imágenes. Es conveniente sin embargo que los sistemas para conferencias por video sean independientes del patrón de video. Además, la fóvea posee un ángulo visual altamente resoluble de solamente 2o. Este hecho es corregido por el cerebro mediante un movimiento de exploración del ojo, natural pero inevitable y permanente. Esto da lugar a que, tan bien como coincidan asimismo la dirección visual y el detalle de imagen altamente resoluble, aparezca borrosa la imagen al usuario con un pequeño detalle agudo de imagen en el centro visual. Se puede corregir esta desventaja con el presente estado de la técnica, si en absoluto, solamente de manera costosa. Es un cometido de esta invención proponer un procedimiento y un sistema nuevos para conferencias por video que no exhiban las desventajas las desventajas descritas anteriormente. En particular, se deben poder transmitir los datos de imagen de usuario de conferencias por video con alta compresión.
•MlÉ AÉMiliÚÉy De acuerdo con la presente invención, se logra este objetivo en particular mediante los elementos de las reivindicaciones independientes. Resultan además otras modalidades ventajosas de las reivindicaciones dependientes y de la descripción. En particular, se logran estos objetivos mediante la invención, porque se comunican uno con otro por lo menos tres usuarios a través de terminales de usuario para conferencias por video de un sistema para conferencias por video, comunicándose datos de multimedia a través de una red de telecomunicación, los cuales comprenden por lo menos datos de imagen de usuario y/o datos de audio de usuario, y cada usuario recibe al mismo tiempo, mostrados de manera visiblemente ordenada, los datos de imagen de usuario de los otros usuarios sobre un aparato de reproducción, por ejemplo una unidad de representación visual, porque se registra la dirección visual del usuario en cada caso con un sistema de rastreo del ojo y se transmiten los datos de rastreo del ojo, los cuales comprenden por lo menos información acerca de la dirección visual, a una unidad de comunicación de la respectiva terminal de usuario para conferencias por video, y porque se transmiten en cada caso los datos de imagen de usuario de aquel usuario con resolución completa y velocidad de transmisión de imagen a través de la red de telecomunicación a la unidad de comunicación de una terminal de usuario para conferencias por video, cuyos datos de imagen de usuario se representan visualmente sobre el aparato de reproducción de la terminal de usuario para conferencias por video que se menciona al último en la dirección visual momentánea del usuario de esta terminal de usuario para conferencias por video, mientras que se transmiten los datos de imagen de usuario de los demás usuarios con resolución reducida y/o velocidad reducida de transmisión de imagen. La invención tiene la ventaja de que la compresión, es decir la reducción, de los datos de imagen de usuario es independiente del patrón de video que se utilice, ya que se transmiten los datos de imagen de usuario de un usuario ya sea reducidamente o con resolución completa, sin que para ello se lleve a cabo una subdivisión complicada en submarcos como en el estado de la técnica. De esta manera, pueden continuar por ejemplo las imágenes individuales de video de una interfaz para conferencias por video. La sencillez del procedimiento trae consigo igualmente un uso mínimo a trabajo de cálculo, lo cual puede ser importante en teléfonos móviles con reservas limitadas de energía. La desventaja en el estado de la técnica, de que se debe corregir el movimiento de exploración de la fóvea (como por ejemplo la patente de E.U.A. No. 4,513,317), deja de existir con esta invención, ya que el movimiento de exploración en el caso normal se refiere al objeto que se ha de reconocer Se suprime el efecto de un punto medio nítido con contorno no nítido. Se reconoce nítidamente el objeto lógico entero, por ejemplo de los usuarios de conferencias por video. Si se mueve la vista a la siguiente unidad lógica, es decir los datos de imagen de usuario de otro usuario, se perciben éstos en general nítidamente. En una modalidad, se pone ¡gual a cero la velocidad de transmisión de imagen para aquellos datos de imagen de usuario que no se representan visualmente en la dirección visual momentánea del usuario. Esta modalidad tiene en particular la ventaja de que se restringe esta carga de red a un mínimo. Al mismo tiempo, se reduce al mínimo el trabajo necesario de cálculo, que se usa para descomprimir los datos de imagen de usuario. En otra modalidad, se transmiten tanto los datos de rastreo del ojo como los datos de imagen de usuario a una unidad central, determinando la unidad central para cada usuario de acuerdo con la información de los datos de rastreo del ojo del usuario en cuestión la resolución y/o la velocidad de transmisión de imagen de los datos de imagen de usuario del otro usuario y transmite los datos de imagen de usuario con esta resolución a la unidad de comunicación del usuario en cuestión. Esta modalidad tiene entre otras cosas la ventaja de que, con un mayor número de usuarios, la carga de la red continua siendo pequeña. Mediante la reducción central de los datos de imagen de usuario, sigue siendo pequeño igualmente por ejemplo el trabajo de cálculo de las terminales individuales de usuario para conferencias por video, en comparación con otras soluciones. En otra modalidad, se transmiten los datos de imagen de usuario a una unidad central y se almacenan en una memoria de datos (se puede realizar el almacenamiento o la puesta en la memoria intermedia de los datos, por ejemplo a través de una memoria intermedia de datos, un flujo de datos, un banco de datos o de otra manera) de la unidad central, la unidad de comunicación de un usuario determina, de acuerdo con la información de los datos de rastreo del ojo del usuario en cuestión, la resolución y/o la velocidad de transmisión de imagen de los otros usuarios, y se transmiten estos datos de imagen de usuario de la unidad central con esta resolución y/o la velocidad de transmisión de imagen a la unidad de comunicación del usuario en cuestión. Esta modalidad tiene las mismas ventajas que la modalidad precedente, pero no presupone de la unidad central ningún trabajo de cálculo para calcular las imágenes de video que se han representar visualmente del usuario individual, ya que las unidades de comunicación acceden directamente a los datos de imagen de usuario con la resolución y la velocidad de transmisión de imagen determinadas por los mismos. Otra ventaja es que no se deben transmitir los datos de rastreo del ojo a través de la red. En una modalidad, se almacenan los datos de imagen de usuario de un usuario en cada caso en una memoria de datos de la unidad de comunicación de este usuario y la unidad de comunicación determina, de acuerdo con la información de los datos de rastreo del ojo de ese usuario, la resolución y/o la velocidad de transmisión de imagen de los datos de imagen de usuario de los otro usuarios, transmitiéndose los datos de imagen de usuario que se mencionan al último de las unidades de comunicación de los otros usuarios con esta resolución y/o velocidad de transmisión de imagen a la unidad de comunicación del usuario en cuestión. Esta modalidad tiene entre otras cosas la ventaja de que resulta sin unidad central. Los usuarios de la red de telecomunicación pueden acoplar equipos entre sí directamente a través de la red de comunicación, sin requerir otras unidades además de sus terminales de usuario para conferencias por video.
En otra modalidad, se conecta por lo menos una terminal de usuario de conferencia por video a través de una red de radiotelefonía. La red de radiotelefonía puede comprender por ejemplo una red fija, como una LAN (Local Área Network - red de área local) o una WAN (Wide Área Network -red de área extensa), la red telefónica cableada oficial (PSTN (Public Switched Telephone Network) y/o ISDN (Integrated Services Digital Network -red digital de servicios integrados)), Internet u otra red de comunicación, en particular una red de radiotelefonía móvil. En otra modalidad, la unidad de comunicación usa algoritmos de análisis de imagen y de reconstrucción de forma para representar visualmente los datos de imagen de usuario, que se transmitieron con resolución reducida. Una de las ventajas de esta modalidad es que, a pesar de la resolución reducida de las imágenes transmitidas, se pueden producir las imágenes mediante la síntesis de imagen de los algoritmos de reconstrucción de forma y se pueden representar visualmente con resolución más alta que las transmitidas. Se debe tener presente en este punto, que la presente invención se refiere, además del procedimiento de acuerdo con la invención, también a un sistema para la realización de este procedimiento. A continuación, se describen modalidades de la presente invención con base en ejemplos. Se ¡lustran los ejemplos mediante las siguientes figuras adjuntas individuales:
A-i- Í , La figura 1 muestra un diagrama de bloques, el cual ilustra esquemáticamente una modalidad de un sistema para conferencias por video, mediante el cual las unidades de comunicación 20 de terminales de usuario parar conferencias por video acceden a través de una unidad central 30 a datos de imagen de usuario y datos de audio de usuario. La figura 2 muestra un diagrama de bloques, el cual ilustra esquemáticamente otra modalidad de un sistema para conferencias por video, mediante el cual las unidades de comunicación 20 de terminales de usuario parar conferencias por video acceden a través de una memoria de datos 26 a otras unidades de comunicación 20 a datos de imagen de usuario y datos de audio de usuario. La figura 3 muestra un diagrama de flujo, el cual ilustra esquemáticamente los pasos para una modalidad de un módulo de codificación 27, módulo de codificación 27 que comprende entre otras cosas la funciones de compresión y descompresión, así como las funciones de cifrado y descifrado. La figura 1 ilustra una arquitectura que se puede usar para la realización de la invención. En este ejemplo de ejecución, se comunican una con otra por lo menos tres diferentes terminales de usuario para conferencias por video 11 , comunicándose datos de multimedia a través de una red de telecomunicación 40, los cuales comprenden por lo menos datos de imagen de usuario 22 y/o datos de audio de usuario 21 , y cada uno de los usuarios 10 recibe al mismo tiempo, mostrados de manera visiblemente ordenada, los datos de imagen de usuario de los otros usuarios sobre un aparato de reproducción 24 de la terminal de usuario para conferencias por video 11. El aparato de reproducción 24 puede ser por ejemplo una unidad de representación visual o una VRD (Virtual Retinal Display - unidad de representación visual retinal virtual). La red de radiotelefonía 40 puede comprender por ejemplo una red fija, como una LAN (Local Área Network -red de área local) o una WAN (Wide Área Network - red de área extensa), la red telefónica cableada oficial (PSTN (Public Switched Telephone Network) y/o ISDN (Integrated Services Digital Network - red digital de servicios integrados)), Internet, una red de comunicación orientada con paquetes u otra red de comunicación, en particular una red de radiotelefonía móvil. La red de radiotelefonía móvil puede ser por ejemplo una red de radiotelefonía móvil de GSM, UMTS u otra. La comunicación a través de la red de radiotelefonía móvil 40 tiene lugar por ejemplo mediante protocolos como GPRS (Generalized Packet Radio Service - servicio de radio de paquete generalizado), WAP (Wireless Application Protokoll - protocolo de aplicación inalámbrica) o UMTS (Universal Mobil Telecommunication System - sistema universal de telecomunicación móvil). La recopilación de los datos de imagen de usuario tiene lugar a través de un módulo de inserción de datos de audio 21. El módulo de inserción de datos de imagen 22 puede comprender por ejemplo una cámara de video, una unidad de exploración por ejemplo con base en MEMS (sistema microeletromecánico) o una cámara digital. Algunos ejemplos de datos de imagen de usuario pueden ser imágenes de video, textos, cuadros, diapositivas, gráficas, etc. El módulo de inserción de datos de audio 21 puede comprender por ejemplo uno o varios micrófonos, reproductor de CD-ROM u otros aparatos de reproducción de audio. Un sistema de rastreo del ojo 23 registra la dirección visual del respectivo usuario 10 y transmite datos de rastreo del ojo, los cuales comprenden por lo menos información acerca de la dirección visual, a una unidad de comunicación 20 de la respectiva terminal de usuario para conferencias por video (es decir la terminal de usuario para conferencias por video del usuario en cuestión). El sistema de rastreo del ojo 23 puede comprender por ejemplo un sistema a base de imágenes Purkinje, el cual determina, mediante las diferencias de reflexión de dos rayos luminosos paralelos, reflejados en el fondo del ojo y en la córnea, la dirección visual del usuario 10, o puede comprender por ejemplo un sistema que se base en un explorador de láser, el cual explora mediante un rayo láser o un rayo de referencia el fondo del ojo y determina así la dirección visual del usuario 10 u otro sistema para la determinación de la dirección visual del usuario 10, como por ejemplo un sistema de rastreo del ojo de acuerdo con la memoria de patente WO 94/09472. Se transmiten los datos de imagen de usuario y los datos de audio de usuario de la unidad de comunicación 20 a una unidad central 30. La transmisión puede tener lugar por ejemplo de manera comprimida y/o decodificada. La unidad central 30 posee un módulo de codificación 31 , el cual recibe y descomprime y/o decodifica. Para la compresión, se usan los más diversos algoritmos del estado de la técnica, como por ejemplo la codificación de Huffman, tracción descendente a 3:2, etc., pero también patrones de compresión, como por ejemplo MPEG (Moving Pictures Expert Group - grupo experto en imágenes en movimiento) de la ISO (International Organisation for Standardisation -Organización Internacional para Normalización). En la transmisión de datos de la unidad central 30 a una unidad de comunicación 20, el módulo de codificación 31 efectúa igualmente la compresión y/o la decodificación de los datos para la transmisión. Las unidades de comunicación 20 poseen igualmente un módulo de codificación 26, el cual efectúa la compresión/descompresión así como la codificación/decodificación de los datos. Por ejemplo, una cámara de video del módulo de inserción de datos de imagen 22 produce una señal análoga de video. Se pone el conmutador de codificación 279 de tal manera que se conduce el flujo de datos a través del sistema de compresión y codificación 271. El procesador de inserción 273 recibe la señal de video, por ejemplo una señal PAL con 25 fps (marcos por segundo) o una señal NTSC con 29.97 fps, y digitaliza y filtra la señal análoga de video, para producir la señal digital de video sin procesar. Por ejemplo en la recopilación digital de datos de imagen, se suprime el último paso. Los 25 marcos de la señal PAL corresponden a 50 campos, o sea 50 campos por segundo, mientras que los 29.97 marcos de la señal NTSC corresponden a 59.94 campos, o sea 59.94 campos por segundo. El analizador de datos de video 274 recibe la señal digital de video del procesador de inserción 273, la cual va acompañada por ejemplo de una señal VSync, una señal de sincronización de campo, y produce una señal modificada de video para el módulo de compresión 275. La modificación de la señal tiene lugar en tiempo real y produce una señal de extracción, la cual se puede comprimir después de ello óptimamente. Entre otras cosas, el analizador de video 274 retira por ejemplo los campos o marcos redundantes en la señal de video y produce las informaciones necesarias, por ejemplo para la predicción compensada con movimiento o la transformación de cosenos diccretos (DCT), como se usan por ejemplo también en el formato MPEG. Si se usan algoritmos de análisis de imagen y de reconstrucción de forma, éstos pueden ser ejecutados igualmente por el analizador de datos de video. A ellos pertenecen en particular los procedimientos de análisis y síntesis de cara, como por ejemplo modelación de puntos característicos. De esta manera, son definidos por un modelo predeterminado lo más posiblemente general (por ejemplo de la cara) los llamados puntos característicos, mediante lo cual el vector de estos puntos característicos describe la forma del modelo, la trayectoria, el movimiento del modelo y el espacio vectorial de estos vectores, las posibilidades de movimiento del modelo. Se puede calcular la deformación del modelo general original, por ejemplo con métodos DFFD (Dirichlet Free Form Deformation -deformación de forma libre de Dirichlet). Se pueden aplicar la síntesis facial y la animación facial, por ejemplo de acuerdo con la norma MPEG-4. Los datos digitales de video son comprimidos finalmente por el módulo de compresión 275 y si es necesario codificados, la señal de video digital comprimida es transmitida por la unidad de comunicación 20 a través de la red de comunicación 40. Se puede usar el módulo de codificación 27 de la unidad de comunicación 20 igualmente para descifrar y de codificar los datos, los cuáles se transmiten a la unidad de comunicación 20 a través de la red de comunicación 40. El conmutador de codificación 279 es ajustado por la unidad de comunicación 20 en este caso, de tal manera que las funciones del sistema de descompresión y descifrado están activas. El módulo de decodificación 276 efectúa los datos de video de la unidad de comunicación 20, los descomprime y si es necesario los descifra. Un procesador de extracción 277 realiza, si se usan algoritmos de reconstrucción de forma, ia síntesis de imagen, calcula la imagen de video que se ha de representar visualmente y la transmite como señal de video a un módulo de reproducción 278, por ejemplo una tarjeta de pantalla o un dispositivo de representación visual VRD (Virtual Retinal Display), por ejemplo un dispositivo de representación visual VRD de acuerdo con la memoria de patente WO 94/09472. Se realiza e introduce la transferencia de datos de los datos de imagen de usuario, que se deben transmitir, por ejemplo a través de un módulo de transferencia aplicado moderadamente de soporte lógico o soporte técnico de la unidad central 30 o las unidades de comunicación 20. Se almacenan los datos de imagen de usuario y los datos de audio de usuario en la unidad central en una memoria de datos 32. La puesta en memoria intermedia y el almacenamiento de los datos se puede realizar a través de un flujo de datos, una memoria intermedia de datos, un banco de datos o de otra manera. Se transmiten en cada caso los datos de imagen de usuario de aquel usuario con resolución y velocidad de transmisión de imagen completas a través de la red de telecomunicación 40 a la unidad de comunicación 20 de una terminal de usuario para conferencias por video 11 , cuyos datos de imagen de usuario se representan visualmente sobre el aparato de reproducción 24 de la terminal de usuario para conferencias por video 11 que se menciona al último en la dirección visual momentánea del usuario 10 en cuestión (es decir del usuario 10, cuya dirección visual del sistema de rastreo del ojo de la terminal de usuario para conferencias por video se registró), mientras que se transmiten los datos de imagen de usuario de los demás usuarios con resolución reducida y/o velocidad reducida de transmisión de imagen. En la modalidad de la figura 1 , las unidades de comunicación 20 transmiten los datos de imagen de usuario de su usuario 10 a la unidad central 30 en donde se almacenan en una memoria de datos 32 de la unidad central 30. Persiste por ejemplo la posibilidad de que se transmitan al mismo tiempo los datos de rastreo del ojo de las respectivas unidades de comunicación 20. Los datos de rastreo del ojo pueden ser por ejemplo información de dirección de la dirección visual, información para los datos de imagen de usuario representados visualmente en la dirección visual, etc. En este caso, la unidad central 30 determina para cada usuario 10, de acuerdo con la información de los datos de rastreo del ojo con referencia a la dirección del usuario 10 en cuestión, la resolución y/o la velocidad de transmisión de imagen de los datos de imagen de usuario de los otros usuarios y los transmite con esta resolución y/o velocidad de transmisión de imagen a las unidades de comunicación 20 del usuario 10 en cuestión. El módulo de codificación 31 de la unidad central 30 realiza igualmente la reducción de la resolución de los datos de imagen de usuario. La reducción de los datos de multimedia no se deben restringir incondicionalmente a los datos de imagen de usuario, sino que pueden concernir también a otros datos de imagen de multimedia del canal seleccionado con la dirección visual, por ejemplo los datos de audio de usuario (por ejemplo con la norma MP3). Otra posibilidad consiste en que no se transmiten los datos de rastreo del ojo de las unidades de comunicación 20 a la unidad central 30, sino únicamente los datos de imagen de usuario. La unidad central 30 almacena los datos de imagen de usuario con resolución completa o reducida en una memoria de datos 32. Las unidades de comunicación 20 pueden acceder entonces, conforme a sus datos de rastreo del ojo, a los datos de imagen de usuario de los otros usuarios 10 con la resolución y/o velocidad de transmisión de imagen correspondientes en la unidad central 30. Se transmiten los datos de imagen de usuario que se requieren de la unidad central 30 a la correspondiente unidad de comunicación 20 a través de la red de telecomunicación 40. La figura 2 ilustra una arquitectura que se puede usar para la realización de la invención. En esta modalidad, se comunican una con otra por los menos tres diferentes terminales de usuario para conferencias por video 11 a través de un sistema para conferencias por video, transmitiéndose datos de multimedia a través de una red de telecomunicación 40, los cuales comprenden por lo menos datos de imagen de usuario 22 y/o datos de audio de usuario 21 , y cada uno de los usuarios 10 recibe al mismo tiempo, mostrados de manera visiblemente ordenada, los datos de imagen de usuario de los otros usuarios sobre un aparato de reproducción 24 de la respectiva terminal de usuario para conferencias por video 11. El aparato de reproducción 24 puede ser por ejemplo una unidad de representación visual o una VRD (Virtual Retinal Display - unidad de representación visual retinal virtual). Como en el ejemplo de realización «anterior, ia red de telecomunicación 40 puede comprender por ejemplo una red fija, como una LAN (Local Área Network - red de área local) o una WAN (Wide Área Network - red de área extensa), la red telefónica cableada oficial (PSTN (Public Switched Telephone Network) y/o ISDN (Integrated Services Digital Network -red digital de servicios integrados)), Internet u otra red de comunicación, en particular una red de radiotelefonía móvil. La recopilación de los datos de imagen de usuario tiene lugar a través de un módulo de inserción de datos de imagen 22 y la recopilación de los datos de audio de usuario tiene lugar a través de un módulo de inserción de datos de audio 21. El módulo de inserción de datos de imagen 22 puede comprender por ejemplo una cámara de video, una unidad de exploración o una cámara digital. Algunos ejemplos de datos de imagen de usuario pueden ser imágenes de video, fotografías exploradas, cuadros, textos, gráficas, etc. El módulo de inserción de datos de audio 21 puede comprender por ejemplo uno o varios micrófonos, reproductores de CD-ROM u otros aparatos de inserción de audio. Un sistema de rastreo del ojo 23 registra la dirección visual del usuario 10 en cuestión y transmite datos de rastreo del ojo, los cuáles comprenden por lo menos información acerca de la dirección visual, a una unidad de comunicación 20 de la respectiva terminal de usuario para conferencias por video 11. Se pueden usar por ejemplo sistemas de rastreo del ojo como en el ejemplo de ejecución precedente. Se transmiten en cada caso los datos de imagen de usuario de aquel usuario con resolución y velocidad de transmisión completas a través de la red de telecomunicación 40 a la unidad de comunicación 20 de una terminal de usuario para conferencias por video 11 , cuyos datos de imagen de usuario se representan visualmente sobre el aparato de reproducción 24 de la terminal de usuario para conferencias por video 11 en la dirección visual momentánea del usuario 10 en cuestión (es decir del usuario 10, cuya dirección visual del sistema de rastreo del ojo de la terminal de usuario para conferencias por video se registró), mientras que se transmiten los datos de imagen de usuario de los demás usuarios con resolución reducida y/o velocidad reducida de transmisión de imagen. La reducción de los datos de multimedia no se debe restringir incondicionalmente a los datos de imagen de usuario, sino que se puede referir también a otros datos de imagen de multimedia del canal seleccionado de la dirección visual, por ejemplo los datos de audio de usuario (por ejemplo con la norma MP3). No se transmiten datos de imagen de usuario y datos de audio de usuario en este ejemplo de ejecución sin embargo a una unidad central 30, sino que se almacenan en una memoria de datos 26 de la respectiva unidad de comunicación 20.se puede realizar la puesta de memoria intermedia o el almacenamiento de los datos a través de un flujo de datos, una memoria intermedia de datos, un banco de datos o de otra manera. La unidad de comunicación 20 determina, con base en la información de los datos de rastreo del ojo con respecto a la dirección visual del usuario 10 en cuestión, la resolución y/o las velocidades de transmisión de imagen de los datos de imagen de usuario que se han de representar visualmente sobre el aparato de reproducción 24 y solicita estos datos de imagen de usuario en las unidades de comunicación de los otros usuarios. Se transmiten los datos de imagen de usuario que se solicitan de las unidades de comunicación 20 de los otros usuarios con esta resolución y/o velocidad de transmisión de imagen a la unidad de comunicación del usuario 10 en cuestión. El ejemplo de ejecución posee un módulo de codificación 27 con la misma funcionalidad que en el ejemplo de ejecución procedente. Se aplican así por ejemplo compresión/descompresión, cifrado/descifrado y/o síntesis de imagen con algoritmos de reconstrucción de forma, como se describe anteriormente en el módulo de codificación 27. Igualmente, el módulo de codificación 27 efectúa, si es necesario, por ejemplo la conversión de datos análogos de video a datos digitales de video y viceversa. Para ambos ejemplos de ejecución, es posible que se pongan igual a cero la velocidad de transmisión de imagen para aquellos datos de imagen de usuario, los cuales no se representan visualmente sobre el aparato de reproducción 24 en la dirección visual del usuario 10. El usuario recibe entonces sobre el aparato de reproducción 24 solamente los datos de imagen de usuario que se consideran, representados visualmente en movimiento, mientras que se representan los demás sin movimiento, por ejemplo como imagen móvil. La imagen fija puede comprender por ejemplo aquellos datos de imagen de usuario, que se transmiten como si estuvieran por última vez en la dirección visual momentánea del usuario 10 sobre el aparato de reproducción 24. Persiste sin embargo también la posibilidad de representar visualmente por ejemplo cualesquiera otros datos de imagen en lugar de los mencionados anteriormente como imagen fija, por ejemplo imágenes reproducidas sintéticas sencillas de los datos de imagen de usuario. Otra posibilidad para los datos de imagen de usuario (tanto de transmitir aquéllos con resolución completa así como también aquéllos con resolución reducida) es que se representa visualmente el movimiento de los objetos de los datos de imagen de usuario, o sea por ejemplo el movimiento de la boca de un usuario, de manera completamente sintética, es decir por medio de algoritmos de reconstrucción de forma y de animación. Es suficiente entonces transmitir por ejemplo solamente una imagen de un usuario y simular luego el movimiento. En una modalidad, es también concebible por ejemplo variar la velocidad de transmisión de imagen por predicción compensada de movimiento. Se eleva así por ejemplo la velocidad de transmisión de imagen con movimientos más grandes y disminuye la porción de las imágenes con movimiento completamente animado, mientras que se reduce la velocidad de transmisión de imagen con movimientos más pequeños y se sintetiza el movimiento en los datos de imagen de usuario.