MX2007006914A

MX2007006914A - Metodo, sistema y nodo de limite de audio inteligentes.

Info

Publication number: MX2007006914A
Application number: MX2007006914A
Authority: MX
Inventors: Arun Punj; Richard E Huber; Peter D Hill
Original assignee: Ericsson Ab
Priority date: 2006-06-16
Filing date: 2007-06-08
Publication date: 2008-12-12

Abstract

Se describe un sistema de teleconferencia que incluye una red. El sistema incluye una pluralidad de nodos, tal como terminales, que se comunican entre sí a través de la red con corrientes de audio que las terminales transmiten entre sí para formar la conferencia. Cada terminal es capaz de detectar un estado de sobrecarga cuando haya más de un número predeterminado de corrientes de audio simultáneas que están siendo transmitidas por las terminales y junto con las demás terminales controlar el número de corrientes de audio que estén siendo transmitidas simultáneamente para concluir el estado de sobrecarga. Se describe también un método que proporciona una teleconferencia y un nodo de teleconferencias.

Description

METODO/ SISTEMA Y NODO DE LIMITE DE AUDIO INTELIGENTES Campo de la invención La presente invención está relacionada con una teleconferencia en donde el número de corrientes de audio que simultáneamente están siendo transmitidas es controlado para concluir un estado de sobrecarga, de otra manera conocido como una tormenta de audio. Más específicamente, la presente invención está relacionada con una teleconferencia en donde el número de corrientes de audio que están siendo transmitidas simultáneamente es controlado para finalizar un estado de sobrecarga en el que cada terminal llega a la misma decisión independientemente de las demás terminales con respecto al estado de sobrecarga sin ningún mensaje de sincronización proveniente de la red.

Antecedentes de la invención Cuando se participa en una llamada larga de conferencia, la suma de todos los canales de audio potenciales puede abrumar los recursos de red y CPU. El uso de VAD (Detección de Actividad de Voz) es la forma estándar de mantener limitado estadísticamente el número de corrientes de audio simultáneas. Sin embargo, hay veces en las que un gran número de participantes pueden generar una respuesta de audio que pudiera causar que casi todos los nodos empezaran a REF. : 182867 transmitir . El número máximo de participantes de conferencia para una gran conferencia presenta un problema de procesamiento de audio no presente en una conferencia de 15 partes. Supóngase que una conferencia de 100 partes fuera moderada pero que todos los remotos no fueran silenciados y de esta manera fueran capaces de transmitir audio en cualquier momento. El hablante principal hace un comentario al que todos responden y en un tiempo muy corto de 100-300 ms, cada terminal ViPr empieza a enviar datos de audio creando así una "Tormenta de Paquetes de Audio" . El efecto de esta tormenta en la conferencia sería un incremento en el piso de ruido recibido y todas las cosas que sean iguales a 20 dB saltan en la salida de audio. La terminal está procesando 5,000 paquetes RTP de audio por segundo. Cualquier enlace de bajo ancho de banda que conecte una terminal ViPr al resto de la conferencia tendría que enfrentarse a una corriente de datos de audio de 8 Mbps . (Nota: la cifra de 8 Mbps se deriva de cada terminal ViPr transmitiendo 64 kbps para datos de audio, 4.8 kbps para sobregasto RTP y sobregasto IP de aproximadamente 4 kbps) . La presente invención describe cómo detectar que la conferencia está entrando en este estado de sobrecarga y controlar qué remitentes deben de dejar de enviar. Esta invención proporciona un mecanismo para limitar los efectos de demasiadas corrientes de audio simultáneas.

Breve descripción de la invención La presente invención se refiere a un sistema de teleconferencia. El sistema comprende una red. El sistema comprende una pluralidad de nodos que se comunican entre sí a través de la red con corrientes de audio que los nodos transmiten entre sí para formar la conferencia. Cada nodo es capaz de detectar un estado de sobrecarga en donde hay más de un número predeterminado de corrientes de audio simultáneas que están siendo transmitidas por los nodos y junto con los demás nodos controlar el número de corrientes de audio que estén siendo transmitidas simultáneamente para concluir el estado de sobrecarga. La presente invención se refiere a un método que proporciona una teleconferencia. El método comprende las etapas de una pluralidad de nodos que se comunican unos con otros a través de una red con corrientes de audio que los nodos transmiten entre sí para formar la conferencia. Existe la etapa de detectar por cada nodo un estado de sobrecarga en donde hay más de un número predeterminado de corrientes de audio simultáneas que están siendo transmitidas por los nodos. Está la etapa de controlar el número de corrientes de audio que están siendo transmitidas simultáneamente para concluir el estado de sobrecarga.

La presente invención se refiere a un nodo de teleconferencia para una red con otros nodos. El nodo comprende una interfaz de red que se comunica con los demás nodos para formar la conferencia . El nodo comprende un controlador que detecta un estado de sobrecarga en donde hay-más de un número predeterminado de corrientes de audio simultáneas que están siendo transmitidas por los nodos y junto con los demás nodos controla el número de corrientes de audio que están siendo transmitidas simultáneamente para concluir el estado de sobrecarga.

Breve descripción de las figuras En las figuras anexas se ilustran la modalidad preferida de la invención y los métodos preferidos para llevar a la práctica la invención, en donde: La figura 1 es una representación esquemática de un sistema para la presente invención. La figura 2 es una representación esquemática de una red para la presente invención. La figura 3 es una representación esquemática de un videoteléfono conectado a una PC y a una red. La figura 4 es una representación esquemática del sistema para la presente invención. Las figuras 5a y 5b son representaciones esquemáticas de vistas frontales y laterales del videoteléfono . La figura 6 es una representación esquemática de un panel de conexiones del videoteléfono. La figura 7 es una representación esquemática de una configuración de varias pantallas para el videoteléfono. Las figuras 8a-8c son un diagrama de bloques para el videoteléfono. La figura 9 es un diagrama de bloques de la arquitectura del videoteléfono. La figura 10 es una representación esquemática del sistema . La figura 11 es una representación esquemática del sistema . La figura 12 es una representación esquemática de un sistema de la presente invención. La figura 13 es una representación esquemática de otro sistema de la presente invención. La figura 14 es una representación esquemática de un mezclador de audio de la presente invención. La figura 15 es un diagrama de bloques de la arquitectura para el mezclador. La figura 16 es un diagrama de bloques de una SBU. La figura 17 es una representación esquemática de un UA de videoteléfono en una conferencia de videoteléfono. La figura 18 es una representación esquemática de un UAM de videoteléfono en una llamada telefónica de bidireccional . La figura 19 es una representación esquemática de una red para un mezclador. La figura 20 es un diagrama de bloques de la presente invención.

Descripción detallada de la invención En referencia ahora a las figuras en las que los números de referencia similares se refieren a partes iguales o idénticas a lo largo de las diferentes vistas, y más específicamente a la figura 20 de las mismas, se muestra un sistema de teleconferencia 10. El sistema 10 comprende una red 40. El sistema 10 comprende una pluralidad de nodos, tales como terminales o videoteléfonos que se comunican entre sí a través de la red 40 con corrientes de audio de habla en vivo que las terminales transmiten entre sí para formar la conferencia. Cada terminal es capaz de detectar un estado de sobrecarga en donde hay más de un número predeterminado de corrientes de audio simultáneas de habla en vivo siendo transmitidas por las terminales y junto con las demás terminales controlar el número de corrientes de audio que estén siendo transmitidas simultáneamente para concluir el estado de sobrecarga. De preferencia, cada terminal determina si debe dejar de transmitir su corriente de audio cuando el estado de sobrecarga se detecta con base en la corriente de audio que transmite y las corrientes de audio transmitidas por las demás terminales. Cada terminal llega de preferencia a la misma decisión independientemente de las demás terminales con respecto al estado de sobrecarga sin ningún mensaje de sincronización proveniente de la red 40. La presente invención se refiere a un método que proporciona una teleconferencia. El método comprende las etapas de una pluralidad de terminales que se comunican unas con otras a través de una red con corrientes de audio de habla en vivo que las terminales transmiten entre sí para formar la conferencia. Existe la etapa de detectar por cada terminal un estado de sobrecarga en donde hay más de un número predeterminado de corrientes de audio simultáneas de habla en vivo que están siendo transmitidas por las terminales . Está la etapa de controlar el número de corrientes de audio que están siendo transmitidas simultáneamente para concluir el estado de sobrecarga. De preferencia, la etapa de control incluye una etapa de controlar el número de corrientes de audio que están siendo transmitidas simultáneamente, y el estado de sobrecarga con cada una de las terminales. La etapa de control incluye de preferencia la etapa de que cada terminal determine si debe dejar de transmitir su corriente de audio cuando se detecte el estado de sobrecarga con base en la corriente de audio que transmite y las corrientes de audio transmitidas por las demás terminales. De preferencia, la etapa de control incluye la etapa de que cada terminal llegue a la misma decisión independientemente de las terminales con respecto al estado de sobrecarga sin ningún mensaje de sincronización proveniente de la red 40. El método incluye de preferencia la etapa de permitir que los nodos que tengan las corrientes de audio más recientes de habla transmitidas continúen transmitiendo sus corrientes de audio. De preferencia, la etapa de permisión incluye una etapa de calificar cada nodo, con los nodos que tengan la puntuación más alta continuando su transmisión. La etapa de calificación incluye de preferencia la etapa de usar un conteo de los paquetes de audio para cada parte dentro de los últimos 60 segundos para determinar la puntuación. La presente invención se refiere a un nodo de teleconferencia 12 para una red 40 con otros nodos. El nodo comprende una interfaz de red 40 que se comunica con los demás nodos para formar una conferencia de habla en vivo. El nodo comprende un controlador 19 que detecta un estado de sobrecarga en donde hay más de un número predeterminado de corrientes de audio simultáneas de habla en vivo que están siendo transmitidas por las terminales y junto con las demás terminales controla el número de corrientes de audio que están siendo transmitidas simultáneamente para concluir el estado de sobrecarga. De preferencia, el nodo incluye un receptor de audio 58 para recibir el habla y un dispositivo de imagen para capturar imágenes en vivo en los nodos y altavoces 64 para reproducir las corrientes de audio recibidas de los demás nodos. En la operación de la modalidad preferida, el número máximo de participantes de conferencia para una gran conferencia en vivo presenta un problema de procesamiento de audio no presente en una conferencia de 15 partes. Supóngase que se moderara una conferencia de 100 partes pero que todas las partes remotas no fueran silenciadas y de esta manera fueran capaces de transmitir corriente de audio en cualquier momento. El hablante principal 64 hace un comentario al que todo mundo responde y en un periodo de tiempo muy corto de 100-300 milisegundos , cada punto extremo empieza a enviar datos de audio creando así una "Tormenta de Paquetes de Audio" . El efecto de esta tormenta en la conferencia sería un incremento en el piso de ruido recibido y en todas las cosas que sean iguales, un salto de 20 dB en la salida de audio. El punto extremo está procesando 5,000 paquetes RTP de audio por segundo. Cualquier enlace de bajo ancho de banda que conecte un punto extremo al resto de la conferencia tendría que batallar con una corriente de datos de audio de 8 Mbps . (Nota: la cifra de 8 Mbps se deriva de cada dispositivo que transmite 64 kbps para datos de audio, 4.8 kbps para sobregasto de RTP y sobregasto de IP de aproximadamente 4 kbps) . La detección compara la cantidad de paquetes de audio recibidos con un umbral . Cada punto extremo determina independientemente si está presente una tormenta y si debe continuar enviando datos de audio o auto-silenciarse. La hebra común que los puntos finales comparten es que cada punto extremo puede calcular las estadísticas de actividad de habla de los demás puntos extremos toda vez que recibirá los datos de audio de cada uno de los demás . A partir de las simulaciones, se puede esperar que el número de canales de audio transmitidos exceda el límite durante un corto tiempo normalmente de menos de 300 ms . La razón de esto es que hay un retraso en la red 40 que afectará cuando cualquier punto extremo pueda detectar una tormenta. Si el retraso es de 50 ms, entonces hasta tres paquetes pueden estar en tránsito antes de que un punto extremo haya detectado la tormenta. También cada punto extremo debe decidir si debe auto-silenciarse. Dadas las variaciones típicas en estadísticas debido a las diferencias en el punto de tiempo en el que cada punto extremo detecta una tormenta y decide cómo mitigarla, habrá ya sea más o menos puntos extremos silenciados que los esperados. Algunos se silenciarán un poco después si es que no se silencian los puntos extremos suficientes para concluir la tormenta. En este proceso, existe aleatoriedad inducida por los diferentes momentos en que los puntos extremos corren el proceso de detección y mitigación de tormenta, así como la aleatoriedad o fluctuación de canales. Una tormenta se detecta (o se declara) cuando el número de paquetes de audio recibidos en un intervalo de tiempo dado excede el umbral de detección.

Detección y mitigación de tormentas de audio Modo de auto-conservación La meta es evitar que una tormenta de audio trabe la terminal ViPr toda vez que el proceso de audio tiene prioridad principal . Sólo es invocado si el Modo de Protección de Calidad de Audio no está activo y un número excesivo de paquetes de audio son enviados. Este modo también evita ataques de denegación de servicio. Los paquetes que llegan se cuentan durante un periodo de tiempo relativamente pequeño (100-200ms) y si se excede un umbral entonces cualquier paquete recibido adicional se desecha durante ese periodo de tiempo.

Modo de protección de calidad de audio La meta es limitar el envío de paquetes de audio para evitar la sobrecarga de la red 40, y para evitar excesivo ruido y volumen de audio en cada una de las terminales remotas. 1. Todas las terminales recaban estadísticas sobre todas las corrientes de audio incluyendo la terminal local. 2. Todas las terminales detectan independientemente el inicio de una tormenta de audio al rastrear el número de canales de llegada que están enviando datos activamente. 3. Cada terminal decide independientemente si detiene o no el envío de su corriente de audio con base en su puntuación de su transmisión de audio local y aquella de las terminales remotas .

Características clave que son nuevas acerca de la detección y mitigación de tormentas de audio ViPr. Cada terminal es completamente autónoma de las demás terminales para decidir si se envía o no datos de audio . Lo que une a los procesos de decisión de todas las terminales es que todas las terminales calculan aproximadamente las mismas estadísticas para cada canal. La siguiente es básicamente una descripción para: 'Cómo construir un dispositivo de "Detección y Recuperación de Tormentas de Audio"' . Cada parte en la llamada de conferencia envía paquetes de audio de habla en vivo a intervalos regulares a todas las demás partes en la llamada. El método primario para limitar la carga de la red 40 y del procesador es que cada parte deje de enviar estos paquetes de audio durante periodos de silencio. En una llamada típica sólo pocas partes estarán hablando a la vez y todas las demás partes estarán en el modo 'silencioso'. De esta manera, cada parte sólo estará recibiendo activamente paquetes de esas pocas partes. Al contestar una nueva parte una pregunta la lógica de Detección de Actividad de Voz hará posible la transmisión de paquetes de audio desde ese punto extremo. Asimismo, cuando una parte deje de hablar la lógica de Detección de Actividad de Voz activará una vez más el modo 'silencioso' para detener el flujo de paquetes. Siempre que se origine una situación que cree una gran respuesta de audio simultánea cada parte empezará a transmitir paquetes al salir del modo 'silencioso'. Cuando muchas corrientes de audio están activas al mismo tiempo, la función de mezcla de audio hecha en cada punto extremo se volverá más intensa en procesador. Existe también un incremento sustancial para la carga de la red 40. Esta es la condición que es llamada una 'Tormenta de Audio' y la siguiente descripción detalla un diseño para detectar y detener Tormentas de Audio . Debido al hecho de que cada parte está procesando paquetes de audio de llegada en tiempo real y que durante una tormenta de audio ya hay tráfico ampliamente incrementado en la red 40, NO hay una forma fácil usar una red secundaria 40 que señalice para intercambiar información de tormenta de audio entre cada parte. Esto requiere que cada punto extremo detecte independientemente una tormenta de audio. Esto requiere también que cada punto extremo en la llamada mantenga su propio historial de paquetes de audio de corto plazo de cada parte en la llamada incluyendo el suyo propio. La detección inicial de una Tormenta de Audio es relativamente fácil. Una tormenta de audio se declara simplemente siempre que una parte está recibiendo activamente datos de audio de por lo menos ' nStormTreshold' número de partes. La parte difícil es decidir cómo controlar esta tormenta. La situación ideal es hacer que la misma parte o partes que hayan estado hablando antes de la tormenta aún sean escuchadas. Todos también deben ser capaces de escuchar un número de las partes adicionales para que puedan escuchar su reacción también. El historial de paquetes de audio previos que provienen de cada parte se usa para crear una 'puntuación' que decidirá entonces qué partes fueron los hablantes más recientes. El ' nSimultaneousTalkers ' número de partes en la parte superior de la lista se puede usar después para decidir cuáles son las pocas seleccionadas para continuar transmitiendo después de que la tormenta de audio se haya detectado. Ya que todos los puntos extremos están manteniendo el mismo historial exacto de paquetes de audio, siempre deben tener la misma lista exacta de puntuaciones. Si un punto extremo particular ESTÁ en la parte superior de la lista, entonces debe continuar transmitiendo; de otra manera, debe dejar de transmitir inmediatamente. El otro uso de esta lista es para limitar qué partes son decodificadas y mezcladas para reproducción de audio. Los efectos de la tormenta de audio disminuirán y sólo las pocas partes en la parte superior de la lista continuarán transmitiendo y serán escuchadas . Lo último que queda es esperar hasta que la tormenta de audio haya concluido para reanudar una operación de conferencia normal . Ya que habrá exactamente v nSimultaneousTalkers ' número de partes transmitiendo inicialmente , hay que esperar hasta que haya menos de 4 nStormTreshold ' número de partes transmitiendo antes de declarar que la tormenta de audio ha terminado. Un algoritmo de puntuación típico es para usar el conteo de los paquetes de audio para cada parte dentro de los últimos 60 segundos. Este conteo se incrementa después por 100 por cada intervalo anterior de 500 milisegundos en el que al menos un paquete también fue recibido de esta parte. Esto continúa para cada parte de regreso al historial de 60 segundos hasta que el primer intervalo de 500 milisegundos no contenga ningún paquete. Este método de puntuación favorece a los parlantes más recientes primero y luego a las partes que no dijeron nada en los últimos 60 segundos. Pueden usarse otras técnicas de puntuación más complicadas, tales como identificar manualmente ciertas partes como 'presentadores clave' lo cual siempre calificaría a estas partes en la parte superior de la lista y por lo tanto serían siempre audibles . La solución propuesta para las tormentas de audio asume que las terminales deben actuar independientemente para detectar y mitigar la tormenta de paquetes de audio. La detección compara la cantidad de paquetes de audio recibidos con un umbral. Cada terminal determina independientemente si está presente una tormenta y si debe continuar enviando datos de audio o auto-silenciarse. La hebra común que comparten las terminales ViPr es que cada terminal puede calcular las estadísticas de actividad de habla de las demás terminales toda vez que recibirán los datos de audio de cada una de las demás . A partir de las simulaciones, se puede esperar que el número de canales de audio transmitidos exceda el límite durante un tiempo corto normalmente de menos de 300 ms . La razón de esto es que hay un retraso en la red 40 que afectará cuando cualquier terminal pueda detectar una tormenta. Si el retraso es de 50 ms, entonces hasta tres paquetes pueden estar en tránsito antes de que una terminal haya detectado la tormenta. También cada terminal debe decidir si debe auto-silenciarse. Dadas las variaciones típicas en estadísticas debido a las diferencias en el punto de tiempo cuando cada terminal detecta una tormenta y decide cómo mitigarla, habrá ya sea más o menos terminales silenciadas que lo esperado. Algunas se silenciarán un poco después si no se silencian terminales suficientes para extinguir la tormenta. En este proceso, existe aleatoriedad inducida por los diferentes momentos en los que las terminales corren el proceso de detección y mitigación de tormenta así como la aleatoriedad o fluctuación de canales.

Cronología de una tormenta de paquetes de audio Una gran conferencia con más de 50 participantes está en progreso. Uno o dos participantes están hablando activamente y el resto está escuchando. Se hace una declaración graciosa y de repente 50 o más participantes empiezan a reír. En cada terminal ViPr, el algoritmo VAD empieza a detectar el incremento en el nivel de audio del micrófono y si esto continúa durante 60 ms entonces se envía una ráfaga de 4 ó 5 paquetes y los paquetes son después enviados a intervalos de 20 ms . Las terminales que reciben la ráfaga la usarán para precargar la memoria intermedia de fluctuación y empezarán a reproducir el audio recibido. Una vez que se detienen las risas, el VAD detectará el silencio y empezará un conteo descendente de dos segundos antes de apagar los paquetes . Una conferencia moderada en donde el silencio remoto se usa es menos demandante toda vez que el moderador da la palabra a los participantes. Sólo los participantes a los que se les dé la palabra pueden enviar paquetes de audio.

Algoritmo de transmisión de paquetes Los paquetes son transmitidos si las siguientes condiciones son ciertas Algoritmo VAD está detectando voz Y En una conferencia moderada y el moderador no ha silenciado a este participante 0 En una conferencia moderada y lo siguiente es cierto . Tormenta de paquetes de audio no detectada O Tormenta de paquetes de audio detectada, El participante es un hablante significativo 0 La clasificación de los participantes con base en los datos de audio de la última vez se envío en comparación con datos de audio de la última vez que fueron recibidos de cada uno de los otros participantes .

Detección de tormenta de paquetes de audio Una tormenta se detecta (o se declara) cuando el número de paquetes de audio recibidos en un intervalo de tiempo dado excede el umbral de detección. El algoritmo es el siguiente. Cada vez que se recibe un paquete, se incrementa la variable global g_nPktsRcvd. Cada 100ms, Si no se detecta tormenta de audio, bStormDetected se pone en verdadero si g_nPktsRcvd > m_nPktsStormDeclared Si se detecta tormenta de audio, bStormDetected se pone en falso si g_nPktsRcvd < m_nPktsStormOver Se pone g_nPktsRcvd en 0.

Medición de actividad del hablante La actividad de habla se mide en una de dos formas. El primer método calcula el porcentaje de tiempo gastado hablando durante un intervalo típicamente de un minuto. Esto se calcula para el hablante local solamente y usa el siguiente algoritmo. Inicializar la memoria intermedia circular TT_local a todos ceros y el índice indxTT a 0. Cada dos segundos y una tormenta de paquetes de audio no se detecta, Poner un 1 en TT_local [ indxTT] si el participante local está hablando o ponerlo en 0 de otra manera. Incrementar el indxTT. El número de unos en la disposición TT_local dividido entre el tamaño de la disposición es el porcentaje de tiempo de habla. El intervalo de muestra de dos segundos se basa en VAD que tiene un tiempo de ENCENDIDO mínimo de dos segundos. La disposición TT_local es dimensionada para muestrear el último minuto. El hablante local es clasificado como significativo si el habla se detectó durante 25% del último minuto. El segundo método para medir la actividad de habla usa el último momento en que se recibió o transmitió un paquete. Al considerar la génesis de una tormenta de paquetes, usar simplemente el último momento de llegada de paquetes no producirá resultados útiles. Lo que es más interesante es el último momento en que un paquete de audio fue enviado antes del inicio de la tormenta de paquetes de audio actual . El siguiente algoritmo rastrea ese tiempo de llegada de paquetes.

Si PktRcvTime > PktRcvTimeLast + 1 segundo El último paquete recibido antes de la tormenta de paquetes de audio actual y de esta manera PktRcvTimeLast se copia en PktRcvTimeLastl . PktRcvTimeLast = PktRcvTime El mismo algoritmo se usa para la transmisión de paquetes de audio pero PktXmtTime reemplaza PktRcvTime.

Implementación En AudioMan, la función de acceso SetTalkTimeLast ( ) es invocada si EncoderRdyO regresa un verdadero si el encoder_decoder_loop ( ) en AudioMan. cpp . El estado de retorno EncoderRdy se controla por VAD. SetXmtTimeLast ( ) se encuentra en AudioStorm. cpp . Cada dos segundos, UpdateTalkerActivity ( ) es invocado en el encoder_decoder__loop (circuito_codificador_decodificador) en AudioMan. cpp.

UpdateTalkerActivity ( ) observa el estado de habla de VAD eVADstate usando la función de acceso IsTalkingO para determinar si el participante local está hablando. Si se detecta habla entonces un ¾ 1 ' es cargado en una memoria intermedia circular, TT_local . Por cada paquete recibido, se invoca la función SetRecTimeLast ( iChannel ) . El tiempo de paquete recibido al último para ese canal se registra usando la función de acceso SetRecTimeLast ( iChannel ) y el número de paquetes recibidos, nPktsRcvStorm, para detectar una tormenta de paquetes de audio es incrementado . Cada 100ms, StormDetect ( ) usa nPktRcvStorm para detectar si una tormenta de paquetes está en progreso. StormDetect ( ) se localiza en la parte superior del circuito while(l) en encoder_decoder_loop ( ) . Si se detecta una tormenta, entonces StormDetect ( ) invocará la función de acceso de VAD SetStormMute ( true) a menos que el participante local sea un hablante significativo o tenga una puntuación suficientemente alta.

Algoritmo de decodificación de paquetes AudioMan corre en el núcleo de tiempo real y si es cargado con más de 40 corrientes G.722 de llegada tomará 100% del tiempo de la CPU. El panel de tacto no responderá hasta que el número de paquetes de audio de llegada caiga debajo de 40. (El valor 40 es una simple aproximación). Estos números son posibles en una gran conferencia si alguien dice algo a lo que la mayoría de los participantes reaccione como si se contara un chiste. AudioMan cuenta el número de paquetes recibidos durante un periodo de tiempo especificado. Si el conteo de paquetes excede un umbral especificado, los paquetes de audio que lleguen antes de que el periodo expire son simplemente desechados. El número de paquetes desechados es rastreado por g_nPacketPoliced y si más de cero son presentados visualmente en la pantalla de Ayuda, Mostrar Estado . Al igual que todo en AudioMan, los ajustes del servidor son Audio_MaxReceivedPackets=70 Audio_MaxReceivedPacketsPeriod=40 En este ejemplo, los primeros 70 paquetes de audio recibidos en un periodo de 40 ms se decodifican. Cualquier paquete recibido después del número 70 es desechado hasta que el periodo de 40 ms expire y después el proceso empieza de nuevo . Una de las cosas 'únicas' clave acera del procesamiento de Tormentas de Audio es que cada terminal llega a la misma decisión 'exacta' independientemente 'sin' ningún mensaje de sincronización adicional. Esto se hace posible gracias a que todos reciben las mismas corrientes de audio y todos usan las mismas reglas de puntuación. Las siguientes solicitudes se incorporan todas a manera de referencia en la presente: Solicitud de patente de E.U.A. No .10/114 , 402 titulada VIDEOTELÉFONO Y MÉTODO PARA UNA LLAMADA DE VIDEO. Solicitud de patente de E.U.A. No. 10/871,852 titulada MÉTODO Y MEZCLADOR DE AUDIO. Solicitud de patente de E.U.A. No. 11/078,193 titulada MÉTODO Y APARATO PARA CONFERENCIA CON CORRIENTE. Un nodo puede incluir un miembro, parte, terminal o participante de una conferencia. Una conferencia comprende típicamente al menos tres nodos, y podría tener 10 ó 20 o incluso 50 ó 100 ó 150 o más nodos.

El ancho de banda de audio total NUNCA debe exceder 1000 Kbps o el video puede ser deteriorado. El método de control de ancho de banda de tormentas de audio limita el máximo de hablantes a 10 para prevenir degradación de audio y video.

Videoteléfono En referencia a las figuras 8a-8c, 9, 10 y 11, un dispositivo de formación de imágenes 30, tal como una cámara análoga 32 convencional proporcionada por Sony con video S, convierte las imágenes de una escena provenientes del dispositivo de formación de imágenes 30 en señales eléctricas que son enviadas a lo largo de un cable a un decodificador de video 34, tal como un decodificador Philips SA7114 NTSC/PAL/decoder . El decodificador de video 34 convierte las señales eléctricas en señales digitales y las envía como una corriente de pixeles de la escena, tal como bajo formato BT 656. La corriente de pixeles es enviada del decodificador de video 34 y dividida en una primera corriente y una segunda corriente idéntica a la primera corriente. Un codificador 36, de preferencia un codificador IBM eNV 420, recibe la primera corriente de pixeles, opera en la primera corriente y produce una corriente de datos en formato MPEG-2. La corriente de datos producida por el codificador de video 36 es comprimida por aproximadamente 1/50 en comparación con los datos que se produjeron en la cámara. La corriente MPEG-2 es una corriente digital codificada y no está sujeta a regulación de cuadros antes de que sea subsecuentemente empaquetada para minimizar así cualquier retraso. La corriente digital MPEG-2 codificada es empaquetada usando RTP por una Disposición de Puertas Programables por Campo (FPGA) 38 y software al cual se proporciona la corriente MPEG-2, y transmitida por una red 40, tal como una Ethernet 802. p o ATM a 155 megabits por segundo, usando una interfaz de red 42 a través de una interfaz PLX 9054 PCI 44. Si se desea, una corriente de video asociada con una VCR o un programa de televisión, tal como CNN o una película, puede ser recibida por el decodificador 34 y provista directamente al controlador de presentación visual 52 para su presentación visual. Un controlador de decodificador 46 localizado en la FPGA 38 y conectado al decodificador 34 , controla la operación del decodificador 34 . Como alternativa, si se usa una cámara digital 47 , la corriente resultante que se produzca por la cámara ya está en un formato digital y no tiene que ser provista a un decodificador 34 . La corriente digital proveniente de la cámara digital 47 , la cual está en un formato BT 656 , es dividida en la primera y segunda corrientes directamente de la cámara, sin pasar a través de ningún decodificador de video 34 . En otra alternativa, una cámara Firewire 48 , tal como una cámara Firewire 1394 48 , se puede usar para proporcionar una señal digital directamente a la FPGA 38 . La cámara Firewire 48 proporciona una ventaja de que si la producción de la corriente de datos va a ser cualquiera más que una distancia muy corta desde la FPGA 38 , entonces las señales digitales pueden ser soportadas sobre esta distancia más larga mediante, por ejemplo, cableado, proveniente de la cámara Firewire 48 . La FPGA 38 proporciona la señal digital proveniente de la cámara Firewire 48 al codificador 36 para su procesamiento como se describió arriba, y crea también una corriente de baja velocidad de cuadros, como la descrita abajo . La segunda corriente es proporcionada a la FPGA 38 cuando la FPGA 38 y software producen una corriente de baja velocidad de cuadros, tal como una corriente JPEG de movimiento, la cual requiere de un bajo ancho de banda en comparación con la primera corriente. La FPGA 38 y un controlador principal 50 con software llevan a cabo codificación, compresión y empaquetado en esta corriente de baja velocidad de cuadros y la proporcionan a la interfaz PCI 44, la cual a su vez la trasfiere a la interfaz de red 42 a través de una tarjeta de interfaz de red 56 para su transmisión por la red 40. La corriente digital de MPEG-2 codificada y la corriente de baja velocidad de cuadros son dos corrientes esencialmente idénticas pero independientes, excepto que la corriente de datos de baja velocidad de cuadros es escalada hacia abajo en comparación con la corriente de datos MPEG-2 para proporcionar una vista más pequeña de la misma escena en relación a la corriente MPEG-2 y requerir menos recursos de la red 40. En la red 40, cada corriente digital es llevada a un videoteléfono receptor 15 deseado, o videoteléfonos receptores 15 si una conferencia de más de dos partes está implicada. Los datos son enrutados usando SIP. La tarjeta de interfaz de red 56 del videoteléfono receptor 15 recibe los paquetes asociados con primera y segunda corrientes de datos y proporciona los datos provenientes de los paquetes y la corriente de video (primera o segunda) seleccionada por el controlador principal a una memoria de recepción. Un controlador principal 50 del videoteléfono receptor 15 con software decodifica y expande la corriente de datos recibida y seleccionada y la transfiere a un controlador de presentación visual 52. El controlador de controlador visual 52 presenta visualmente las imágenes recreadas en un presentador visual de panel plano digital VGA usando hardware de escalada estándar. El usuario en el videoteléfono receptor 15 puede seleccionar qué corriente de las dos corrientes de datos ver con una pantalla de tacto 74, o si se desea, selecciona ambas para que imágenes tanto grandes como pequeñas de la escena sean presentadas visualmente, aunque la presentación visual de más corrientes provenientes del videoteléfono transmisor 15 normalmente no ocurrirá. Una discusión de los protocolos para la presentación visual se da abajo. Al tener la opción de seleccionar ya sea la vista más grande de la escena o la vista más pequeña de la escena, el usuario tiene la capacidad de asignar los recursos del sistema 10 para que los individuos en el momento quienes sean más importantes para que el observador los vea en una imagen más grande y más clara, puedan ser seleccionados; mientras que aquellos que el usuario aún pudiera desear ver, pero que no sean tan importantes en ese momento, aún pueden ser vistos . El controlador de presentación visual 52 causa que cada corriente de video distinta, si hay más de una (si está ocurriendo una llamada en conferencia) aparezca lado por lado sobre el presentador visual 54. Las imágenes que se forman lado por lado sobre el presentador visual 54 son recortadas y no escaladas hacia abajo por lo que las propias dimensiones de los objetos en la escena no son cambiadas, sólo los bordes exteriores sobre cada lado de la escena asociados con cada corriente de datos son removidos. Si se desea, las imágenes provenientes de corrientes asociadas con imágenes más pequeñas de escenas pueden ser presentadas visualmente lado por lado en la esquina derecha inferior de la pantalla del presentador visual 54. El controlador de presentador visual 52 proporciona video digital estándar al controlador LCD 72, como se muestra en la figura 9. El controlador de presentación visual 52 producido por ATI o Nvidia, es un controlador VGA estándar. El LCD 72 toma el video digital estandarizado proveniente del controlador de presentación visual 52 y hace la imagen adecuada para el panel particular usado, tal como un panel Philips o Fujitsu. Para mejorar más el recorte de la imagen, en lugar de simplemente remover porciones de la imagen iniciando del borde exterior y moviéndose hacia el centro, la porción de la imagen que no muestra información relevante es recortada. Si la persona que está hablando aparece en el lado izquierdo o derecho de la imagen, entonces se desea recortar del lado izquierdo hacia adentro si la persona está en el lado derecho de la imagen, o del lado derecho hacia adentro si la persona está en el lado izquierdo de la imagen, en lugar de sólo recortar desde cada borde exterior, lo cual puede causar que una porción de la persona se pierda. El uso de rastreo de video ve la imagen que se forma y analiza cuando ocurren cambios en la imagen para identificar si una persona está en la imagen. Se asume que la persona se estará moviendo más en relación a las demás áreas de la imagen, y al identificar el movimiento relativo, puede determinarse la ubicación de la persona en la imagen. A partir de este rastreo de video, el recorte puede hacerse que ocurra en el borde bordes en donde haya la menor cantidad de cambio. Como alternativa, o en combinación con el rastreo de video, el rastreo de audio también puede usarse para guiar el recorte de la imagen que ocurra. Ya que el videoteléfono 15 tiene disposiciones de micrófono, técnicas de triangulación estándares con base en los tiempos diferentes que tarda para que un sonido dado alcance los elementos diferentes de la disposición de micrófono se usan para determinar cuando la persona se ubica en relación a la disposición de micrófono, y ya que la ubicación de una disposición de micrófono se conoce en relación con la escena de la que se están creando imágenes, la ubicación de la persona en la imagen es entonces conocida. Las funcionalidades del videoteléfono 15 se controlan con una pantalla de tacto 54 sobre el monitor. La pantalla de tacto 74, la cual es una pantalla de tacto de cristal estándar, proporciona señales brutas al controlador de pantalla de tacto 76. Las señales brutas son detectadas por las ondas ultrasónicas que se crean en el cristal cuando el usuario toca el cristal en un lugar dado, como se conoce bien en la técnica. El controlador de pantalla de tacto 76 después toma las señales brutas y las convierte en información significativa con respecto a una posición X y Y sobre el presentador visual y pasa esta información al controlador principal 50. Si una conexión de televisión o VCR está disponible, la alimentación para la televisión o película se proporciona al decodificador 34 en donde la alimentación se controla como cualquier otra señal de video recibida por el videoteléfono 15. La televisión o película puede aparecer aparte de una escena proveniente de la conexión de video con otro videoteléfono 15 en el presentador visual 54. La corriente de audio de la escena sigue esencialmente una trayectoria paralela y similar con la corriente de audio/video, excepto que la corriente de audio es provista desde un receptor de audio 58, tal como un micrófono, tarjeta de sonido, audífonos o auricular a una interfaz de audio de cristal CS 4201 60 o tal como un Codee que lleva a cabo la conversión análoga a digital y digital a análoga de las señales, así como controla el volumen y mezcla, el cual digitaliza la señal de audio y la proporciona a un TCI 320C6711 o 6205 DSP 62. El DPS 62 empaqueta después la corriente de audio digitalizada y transfiere la corriente de audio digitalizada a la FPGA 38. La FPGA 38 a su vez la proporciona a la interfaz PCI 44, en donde es después pasada a la tarjeta de interfaz de red 56 para su transmisión por la red 40. La corriente de audio que es recibida por el videoteléfono receptor 15, es pasada a la FPGA 38 y al DSP 62 y luego a la interfaz de audio 60 que convierte la señal digital en una señal análoga para su reproducción en los altavoces 64. La tarjeta de interfaz de red 56 pone una marca de tiempo a cada paquete de audio y paquete de video que es transmitido a la red 40. La velocidad a la cual se procesa el audio y video que es recibido por el videoteléfono 15 es lo suficientemente rápida como para que el ojo y el oído humanos, luego de escucharla, no pueda discernir ninguna desalineación del audio con el video en tiempo asociado de la escena. La restricción de menos de 20-30 milisegundos se pone en el procesamiento de la información de audio y video de la escena para conservar esta asociación del video y audio de la escena . Para asegurar que el audio y video de la escena estén en sincronía cuando se reciban en un videoteléfono receptor 15, la marca de tiempo de cada paquete se revisa, y los paquetes a base de audio y paquetes a base de video correspondientes son alineados por el videoteléfono receptor 15 y reproducidos correspondientemente esencialmente al mismo tiempo de tal manera que no haya desalineación que sea discernible por el usuario en el videoteléfono receptor 15 del video y audio de la escena. Un tablero NEC-DSP contiene al codificador IBM eNV 420 MPEG-2 y circuitos de soporte, el DSP 62 para codificación y decodificación de audio, y la interfaz PCI 44. Contiene el hardware que es necesario para la funcionalidad completa de la terminal de videoteléfono 15 dado un sistema 10 de plataforma de PC 68 y presentador visual 54 de alto rendimiento. Es un diseño que cumple con PCI 2.2 de tamaño completo. La cámara, micrófono (s) y altavoces 64 se interconectan a este tablero. El DSP 62 llevará a cabo codificación, decodificación, mezclado, puesta en estéreo, control de nivel, relleno de espacios, empaquetado de audio y otras funciones de audio, tal como AEC estéreo, dirección de haces, cancelación de ruido, cancelación de clic de teclado o des-reverberación. La FPGA 38 es desarrollada usando las herramientas Celoxia (Handel-C) , y es completamente reconfigurable . El diseño soporta partes en la escala de 1-3 millones de puertas. Este tablero incluye una interfaz de chip para cámara digital 47, hardware o una interfaz de decodificador de video de canales múltiples a base de "video DPS" 34, disposición de video que usa conectores de entrada y salida DVI, capacidad de regulación de cuadros inútiles hasta completa con la disposición de video. Usando una señal de video NTSC o PAL, el codificador 36 debe producir una corriente de video de alta calidad con una resolución de 640 x 480 y de preferencia una resolución de 720 X 480 o mejor. Debe controlarse la velocidad de tal manera que los bits máximos por cuadro se limiten para evitar así un retraso de transmisión por la red 40. El decodificador 34 debe empezar a decodificar un segmento luego de recibir el primer macrobloque de datos. Cierta regulación puede requerirse para adaptarse a fluctuaciones menores y de esta manera mejorar la imagen. MPEG-2 se usa y aplica ampliamente, siendo la base para la codificación de DVD y VCD, VCR's digitales y dispositivos de desplazamiento de tiempo tales como TiVo, así como DSS u otra distribución de TV digital. Se considera normalmente que es la elección para la transmisión de video de 4 a 50 Mbit/seg. Debido a su uso amplio, relativamente bajo costo, soluciones altamente integradas para decodificación y más recientemente, codificación, están disponibles comercialmente ahora. MPEG-2 debe concebirse como una sintaxis para video codificado más que un método de compresión estándar. Aunque la descripción define los métodos de sintaxis y codificación, existe una latitud muy amplia en el uso de los métodos siempre y cuando la sintaxis definida sea seguida. Por esta razón, las generalizaciones acerca de MPEG-2 frecuentemente son engañosas o imprecisas. Es necesario llegar a niveles más bajos de detalle acerca de métodos de codificación específicos y aplicaciones deseadas para poder evaluar el rendimiento de MPEG-2 para una aplicación específica. De interés para el proyecto del videoteléfono 15 son los aspectos de codificación y decodificación de bajo retraso, así como los aspectos relacionados con la red 40. Existen tres aspectos primarios en el algoritmo de MPEG-2 que tienen que entenderse para lograr video de alta calidad y bajo retraso por una red 40: · La estructura GOP (Grupo De Imágenes) y su efecto en el retraso • El efecto en la velocidad de bits, variación de tamaño de cuadros codificados y el regulador VBV en los requerimientos de retraso y red 40 · El efecto de la estructura GOP en la calidad con la pérdida de paquetes.

La Estructura y Retraso de GOP: MPEG-2 define tres tipos de cuadros codificados: I, P y B. La estructura GOP más común en uso tiene 16 cuadros de largo: IPBBPBBPBBPBBPBB . El problema con esta estructura es que cada cuadro B consecutivo, ya que un cuadro B es calculado en movimiento a partir del cuadro anterior y siguiente, requiere que los cuadros siguientes sean capturados antes de que la codificación del cuadro B pueda empezar. Ya que cada cuadro tiene 33 mseg, esto añade un mínimo de retraso adicional de 66 mseg. para esta estructura GOP sobre una sin cuadros B. Esto lleva a una estructura GOP de bajo retraso que contiene sólo cuadros I y/o P, definida en la especificación MPEG-2 como codificación SP@ML (Perfil Simple) .

Velocidad de Bits, Tamaño de Cuadros Codificados y el VBV Una vez que los cuadros B se eliminan para minimizar el retraso de codificación, el GOP es formado de cuadros I y cuadros P que son relativos a los cuadros I . Debido a que un cuadro I es codificado completamente entre cuadros, toma muchos bits hacer esto, y menos bits para los siguientes cuadros P. Nótese que un cuadro I puede ser ocho veces más grande que un cuadro P, y cinco veces la velocidad de bits nominal. Esto tiene un impacto directo en los requerimientos de la red 40 y el retraso: si hay un límite de ancho de banda, el cuadro I será regulado en la restricción de red 40, dando como resultado retraso añadido de varias veces de cuadros para transferir sobre el segmento restringido. Este regulador debe coincidir en el receptor toda vez que la velocidad de reproducción se establece por el video, no el ancho de banda de la red 40. La muestra usada para los datos anteriores fue una escena de oficina de bajo movimiento; en alto contenido de movimiento con cambios de escena, a los cuadros les serán asignados más o menos bits dependiendo del contenido, con algunos cuadros P grandes ocurriendo en ? cambios de escena. Para controlar este comportamiento, MPEG-2 implementa la memoria intermedia VBV (Verificador de Regulación de Video) , que permite un grado de control sobre la relación entre el tamaño máximo de cuadros codificados y la velocidad de bits nominal. Al restringir estrechamente el VBV de tal manera que los cuadros I sean limitados a menos de 2X el tamaño indicado por la velocidad de bits nominal, el retraso de regulación añadido puede limitarse a un tiempo de cuadro adicional. El costo de restringir el tamaño del VBV es calidad de imagen: la razón para cuadros I grandes es proporcionar una buena base para los siguientes cuadros P, y la calidad se degrada seriamente a velocidades de bits más bajas (<4Mbit) cuando el tamaño de los cuadros I se restringe. Considérese que a 2Mbits, el tamaño de cuadro promedio es 8 Kbytes, e incluso el doble de este tamaño no es suficiente para codificar una imagen JPEG de 320X240 con buena calidad, la cual es comprimida por DCT de manera similar a un cuadro I. Pasando al cuadro I sólo la codificación permite un tamaño de cuadro codificado más consistente, pero con la degradación adicional de calidad. La codificación únicamente de cuadros I de baja velocidad de bits no toma ventaja del grueso de la capacidad de compresión del algoritmo MPEG-2. La especificación MPEG-2 define modos CBR (Velocidad de Bits Constante) y VBR (Velocidad de Bits Variable) , y permite una estructura GOP variable dentro de una corriente. El modo CBR se define para generar un número consistente de bits para cada GOP, usando relleno según sea necesario. VBR está designado a permitir calidad consistente, al permitir variación en el ancho de banda de codificación, permitir que la corriente asigne más bits a áreas difíciles de codificar siempre y cuando esto se compense por velocidades de bits más bajas en secciones más simples. VBR puede implementarse con técnicas de dos pasadas o una pasada. La estructura GOP variable permite, por ejemplo, la colocación de cuadros I en límites de transición de escenas para eliminar artefactos de compresión visibles. Debido al requerimiento de bajo retraso y a la necesidad de ver hacia adelante de un bit pequeño para poder implementar VBR o GOP variable, estos modos son de poco interés para la aplicación del videoteléfono 15. Debido a que cuadros P y B en una estructura GOP típica dependen del cuadro I y los cuadros P y B precedentes, la pérdida de datos afecta todos los cuadros que siguen al error hasta el siguiente cuadro I. Esto también afecta la latencia de encendido, tal como cuando se cambian canales en un sistema DSS 10, en donde el decodificador 34 espera un cuadro I antes de que pueda empezar a presentar visualmente una imagen. Por esta razón, la longitud y estructura de GOP y velocidad de bits tienen que ser afinadas para el sistema de aplicación y suministro 10. En caso de colaboración en tiempo real usando IP, se usa un protocolo de transporte no confiable tal como RTP o UDP toda vez que un paquete tardío debe ser tratado como perdido, ya que no se puede uno dar el lujo del retraso requerido para manejar un protocolo de intercambio y retransmisión confiable.. Se han hecho varios análisis sobre el efecto de la pérdida de paquetes en calidad de video, con resultados que muestran que para estructuras GOP IPB típicas, una pérdida de paquetes de 1% da como resultado una pérdida de cuadros de 30%. Estructuras GOP más cortas, y finalmente corrientes de sólo cuadros I (con pérdida de calidad) , ayudan un poco a esto, y las técnicas FEC (Corrección de Errores Hacia Adelante) pueden ayudar un poco cuando ocurra la pérdida, pero ciertamente uno de los problemas con MPEG-2 es que no es muy tolerante de la pérdida de datos . Una estructura GOP llamada codificación de cuadros P continua resuelve todos los aspectos mencionados arriba y proporciona excelente calidad de video a velocidades de bits relativamente bajas para el videoteléfono 15. La codificación P continua hace uso de la capacidad para codificar entre cuadros macrobloques de un cuadro dentro de un cuadro P. Al codificar un conjunto seudo-aleatorio de macrobloques de 16X16 pixeles en cada cuadro, y codificar por movimiento los demás, el equivalente de bits de cuadro I se distribuyen en cada cuadro. Al implementar la selección de macrobloques seudo-aleatoria para asegurar que todos los bloques sean actualizados a una escala de tiempo frecuente, el encendido y cambio de escena se manejan de una manera razonable. IBM ha implementado ese algoritmo para el codificador S420, estableciendo la velocidad de actualización de DCT de cuadros completos a 8 cuadros (3.75 veces por segundo) . Los resultados para contenido de oficina y conferencia típico son bastante impresionantes. El retraso de codificación, variación en tamaño de cuadros codificados y comportamiento de pérdida de paquetes es casi idéntico para el videoteléfono 15. La revisión de las muestras codificadas muestra que para cambios de escena y contenido altamente dinámico artefactos del codificador 36 son aparentes, pero para el contenido de colaboración de cabezas hablantes típico, la calidad es muy buena. El audio de alta calidad es un prerrequisito esencial para comunicaciones efectivas. La alta calidad se define como dúplex completo, un ancho de banda de 7 kHz (el teléfono tiene 3.2 kHz), >30 dB de relación señal a ruido, sin eco, recorte o distorsión perceptible. La instalación será muy simple incluyendo tan pocos cables como sea posible. Los diagnósticos a bordo indicarán el problema y cómo resolverlo. El sonido proveniente de los altavoces 64 estará libre de tronidos fuertes y niveles de sonido ya sea demasiado altos o demasiado bajos. Una señal de audio de paquetes faltantes o tardíos puede ser "rellenada" con base en la señal de audio anterior. El regulador de audio debe tener aproximadamente 50 ms como un equilibrio entre la fluctuación de la red 40 y el retraso de adición al audio. El tamaño de paquete actual de 320 muestras o 20 ms puede ser reducido para reducir la latencia de codificación y decodificación. Sin embargo, 20 ms es una longitud de datos estándar para paquetes RTP . Algunos de los procesos descritos abajo están disponibles en productos comerciales. Sin embargo, por razones de costo e integración, serán implementados en un DSP 62. En otra modalidad, un segundo DSP 62 puede llevar a cabo cancelación de eco acústico en lugar de que sólo un DPS 62 lleve a cabo esta función también. El sistema de audio 10 tiene una sección de transmisión y recepción. La sección de transmisión comprende lo siguiente: Micrófonos Una de las quejas principales del teléfono con altavoz es el sonido hueco que se oye en el extremo remoto. Este sonido hueco se debe a la reverberación en la habitación y se cree que es la relación de la potencia de sonido reflejada (reverberante) sobre la potencia de sonido directa. Actualmente, el mejor método para mejorar la captación es el de ubicar micrófonos cerca del hablante y de esta manera incrementar la potencia de sonido directa. En un ambiente de oficina, micrófonos podrían ubicarse en el monitor de la PC 68, en la terminal del videoteléfono 15 y en un pizarrón blanco .

Control de Ganancia Automático La ganancia para el preamplificador de cada micrófono se ajusta automáticamente de tal manera que la escala ADC se use completamente. La ganancia del preamplificador tendrá que ser enviada a otros procesos de audio tales como AEC y reducción de ruido.

CODEC En su forma más simple, éste es un dispositivo ADC. Sin embargo, varias compañías tales como Texas Instruments y Analog Devices Inc tienen CODECS con amplificadores análogos y multiplexores análogos. Asimismo, residente en el chip está un DAC con controles similares. El control de ganancia automático descrito en la sección anterior se implementa en el CODEC y es controlado por el DSP 62.

Reducción de Ruido Se pueden usar dos métodos de reducción de ruido para mejorar la SNR. El primer método es llamado comúnmente conmutación o regulación de ruido que enciende y apaga el canal dependiendo del nivel de señal presente. El segundo método es cancelación de ruido adaptiva (A C) y resta el ruido no deseado de la señal del micrófono. En un ambiente de oficina, sería posible usar ANC para remover anuncios PA, ruido de ventilador y en algunos casos, incluso los clics de teclado . Los algoritmos de reducción o regulación de ruido están disponibles en paquetes de edición de audio comerciales tales como Cool Edit y Goldwave que pueden aplicar efectos especiales, remover ruido de rayones y tronido de discos y también remover el soplido (hiss) de las grabaciones en cinta.

Cancelación de Eco Acústico El eco se escucha cuando la voz del hablante regresa al hablante después de más de 50 ms . El eco distrae mucho y de esta manera tiene que ser eliminado. Las dos fuentes de eco son eco en línea y el eco acústico. El eco en línea se debe a características de un sistema de teléfono de dos líneas 10. La PSTN eliminado este eco usando un cancelador de eco de línea (LEC) . Cuando se usa un sistema de teléfono con altavoz 10, el eco acústico ocurre entre el altavoz del teléfono y el micrófono. El sonido proveniente del altavoz remoto es captado por el micrófono remoto y regresado al hablante. La cancelación de eco acústico (AEC) es más difícil que la LEC toda vez que la acústica de la habitación es más complicada de modelar y puede cambiar repentinamente con el movimiento de las personas. Existen muchos productos AEC que varían de dispositivos individuales tales como ASPI EF1210 a módulos de objeto de Trabajos de Señal optimizados para correr en plataformas DSP 62.

Automezcla Automezclar es seleccionar qué señales de micrófono mezclar y enviar la salida monaural del mezclador al codificador 36. Los criterios de selección se basan en usar el microteléfono cerca de la fuente más fuerte o usar micrófonos que reciban sonido que esté por arriba de un nivel umbral. Los automezcladores están disponibles comercialmente de varios vendedores y se usan en sistemas de teleconferencia y educación a distancia (teleeducación) .

Codificación Para reducir el ancho de banda de transmisión de datos, la señal de audio es comprimida a una velocidad de bits más baja tomando ventaja de las características de señal típicas y nuestra percepción de la voz. Actualmente, el codee G.722 ofrece la mejor calidad de audio (ancho de banda de 7 kHz a 14 bits) a una velocidad de bits razonable de 64 kbits/segundo .

Transmisión RTP Los datos de audio codificados se segmentan en segmentos de 20 mseg y se envían como paquetes de Protocolo de Tiempo Real (RTP) . RTP se diseñó específicamente para el intercambio de datos en tiempo real requiriendo para aplicaciones de VoIP y teleconferencia. La sección receptora es : Recepción RTP Paquetes RTP que contienen corrientes de audio provenientes de una o más ubicaciones remotas son puestas en sus reguladores respectivos. Los paquetes faltantes o tardíos se detectan y esa información se pasa al Administrador de Espacio. Los paquetes fuera de orden son un caso especial de paquetes tardíos y es probable que los paquetes tardíos similares sean descartados. La alternativa es tener un regulador para retrasar la reproducción de la señal de audio durante al menos una longitud de paquete. El tamaño del regulador tendrá que ser restringido de tal forma que el retraso de extremo a extremo no sea de más de 100 ms .

Decodificación La corriente de audio G.722 es decodificada a muestras PCM para el CODEC.

Administración de Espacio ^ Sobre cualquier red, los paquetes RTP se perderán o corromperán. Por lo tanto, el Administrador de Espacio "rellenará" los datos faltantes con base en el espectro y estadísticas de los paquetes previos. Como un mínimo, los ceros deben ser rellenados en la corriente de datos para constituir datos pero se puede usar un algoritmo de interpolación o extrapolación espectral para rellenar los datos .

Regulación La fluctuación de la red requerirá de regulación para permitir una reproducción de audio continua. Este regulador probablemente ajustará su tamaño (y por consiguiente latencia) con base en un compromiso entre las estadísticas de fluctuación a corto plazo y el efecto de latencia.

Control de Velocidad La velocidad de muestra nominal para una terminal de videoteléfono 15 es 16 kHz . Sin embargo, ligeras diferencias existirán y tendrán que ser manejadas. Por ejemplo, supóngase que el videoteléfono 15 Norte muestree precisamente a 16,001 Hz mientras que el videoteléfono 15 Sur muestree a 15,999 Hz . De esta manera, la terminal Sur acumulará una muestra más por segundo de lo que envía el altavoz y la terminal Norte correrá un déficit de cantidad igual. Las estadísticas a largo plazo sobre el regulador receptor serán capaces de determinar cuál es el diferencial de velocidad de muestra y la interpolación adecuada (para el videoteléfono 15 Norte) o decimación (par videoteléfono 15 Sur) que puede ser calculada.

Control de Volumen El ajuste del volumen proveniente de los altavoces 64 se hace típicamente por escuchas remotos. Una mejor forma sería la de ajustar automáticamente el sonido proveniente de los altavoces 64 con base en qué tan fuerte suena para los micrófonos en la habitación. Otros factores tales como el ruido de fondo y las propias preferencias del escucha pueden tomarse en cuenta.

Puesta en Estéreo Los hablantes remotos de diferentes ubicaciones pueden ser puestos en el campo auditorio. Así, una persona de la ubicación A provendría consistentemente de la izquierda, la persona de la ubicación B de la parte media y la persona de la ubicación C de la derecha. Esta puesta hace más fácil mantener un rastreo de quién está hablando.

Altavoces La calidad del sonido hasta cierto grado se determina por la calidad de los altavoces 64 y el ambiente cerrado. En cualquier caso, altavoces auto-amplificados 64 se usan para la terminal de videoteléfono 15.

Diferenciación Los sistemas de conferencia actuales tales como la PolyCom Soundstation ofrecen calidad de audio de dúplex completo satisfactoria pero limitada en banda. Sin embargo, el ancho de banda es limitado a 3,500 Hz y la calidad de sonido resultante tensiona el oído y especialmente en sonidos fricativos distintivos. El videoteléfono 15 extiende el ancho de banda a 7 kHz y automezcla varios micrófonos para minimizar la reverberación en la habitación. Cuando tres o más personas están hablando, cada uno de los participantes remotos será puesto en una ubicación única en el campo de sonido estéreo. Combinada con la captación de audio de alta calidad y ancho de banda incrementado, una conferencia por la red 40 rápidamente se acercará a aquella que sea en persona. El sistema de audio 10 usa varios micrófonos para una mejor captación de sonido y un codificador de banda ancha (G.722) para una mejor fidelidad de la que se ofrece actualmente por los sistemas de grado tarifario. Adicionalmente, para conferencias de varias partes, la puesta en estéreo de los hablantes remotos será implementada y un sistema de cancelación de eco acústico 10 para permitir la operación manos libres. El ajuste del volumen en la habitación será controlado automáticamente con un solo control para que el usuario final ajuste el nivel de sonido total. En la red 40 de videoteléfonos 15, una puerta 70 conecta algo que no es SIP al ambiente SIP. Comúnmente existen diferencias eléctricas así como de protocolo. La mayoría de las puertas 70 conectan otros dispositivos de teléfono o videoconferencia al sistema 10 de videoteléfono . Las puertas 70 se distinguen por interfaces; un lado es una red 40, para el videoteléfono 15 esta es la Ethernet o ATM. El lado externo puede ser una línea telefónica análoga o puerto RS-232. El tipo, número y características de los puertos distingue a una puerta 70 de otra. En el lado de la red 40, existen protocolos de transporte tales como RTP o AAL2 , y protocolos de señalización tales como SIP, Megaco o MGCP. En el lado externo, puede haber una amplia variedad de protocolos dependiendo de las interfaces provistas. Algunos ejemplos serían señalización ISDN (Q.931) o POTS . Las puertas PSTN 70 conectan líneas PSTN en el sistema 10 de videoteléfono 15 en el sitio. Las puertas PBX 70 permiten que un sistema 10 de videoteléfono 15 emule un teléfono propietario para proporcionar compatibilidad con PBX en sitio existente. Las puertas POTS 70 conectan teléfonos análogos inútiles a un sistema 10 de videoteléfono 15. Las puertas H.323 70 conectan un sistema H.323 10 a sistema 10 de videoteléfono 15 a base de SIP. Esta es una puerta 70 de señalización únicamente -el servidor de medios 66 hace la conversión H.261 a MPEG. Tres tecnologías de habilitación para el videoteléfono 15 son el Protocolo de Inicio de Sesión (SIP) , el Protocolo de Descripción de Sesión (SDP) y el Protocolo de Transporte en Tiempo Real (RTP) , todos los cuales se incorporan a manera de referencia en la presente. SIP es un protocolo de señalización para iniciar, administrar y terminar sesiones de voz y video a través de redes de paquetes . SDP está diseñado para describir sesiones de multimedia con el propósito de anuncio de sesiones, invitación a sesiones y otra formas de inicio de sesiones de multimedia. SIP usa SDP para describir sesiones de medios. RTP proporciona funciones de transporte de red 40 de extremo a extremo adecuadas para aplicaciones que transmiten datos en tiempo real, tales como datos de audio, video o simulación, sobre servicios de red 40 de multidifusión o unidifusión. SIP usa RTP para el transporte de sesión de medios. El videoteléfono 15 puede llevar a cabo conferencias con tres o más hablantes sin el uso de cualquier puente de conferencia o MCU. Esto se logra al usar corrientes de punto a varios puntos ATM como se establece por SIP. Más específicamente, cuando la corriente MPEG-2 y la corriente de baja velocidad de cuadros es empaquetada para su transmisión por la red 40, la información de encabezado para cada uno de los paquetes identifica las direcciones de todos los videoteléfonos receptores 15 de la conferencia, como se conoce bien en la técnica. A partir de esta información, cuando los paquetes son transmitidos a la red 40, SIP establece la conectividad necesaria para que los diferentes paquetes alcancen sus destinos de videoteléfono 15 deseados. Como un ejemplo de una conferencia que no usa ningún puente de conferencia, puede haber 10 videoteléfonos 15 en ubicaciones individuales quienes sean parte de una conferencia. Cada videoteléfono 15 produce una corriente a base de audio, y una corriente a base de MPEG-2 y una corriente a base de baja velocidad de cuadros. Sin embargo, cada videoteléfono 15 no enviaría ninguna de estas corrientes de regreso a sí mismo, por lo que efectivamente, en una conferencia de videoteléfonos 15 de 10 partes, cada una se comunica con los otros nueve videoteléfonos 15. Aunque podría ocurrir el caso de que el videoteléfono 15 se comunicara con sí mismo, para maximizar la utilización del ancho de banda, el video producido por cualquier videoteléfono 15, y, si se desea, el audio producido por un videoteléfono 15 puede ser mostrado o escuchado como aparece esencialmente para los demás videoteléfonos 15, pero a través de un canal interno, lo cual se describirá abajo, que no requiera de ninguna utilización de ancho de banda de la red 40. En la conferencia, cada videoteléfono 15 recibe nueve corrientes de datos a base de audio. Tres corrientes de datos a base de MPEG-2 y seis corrientes de datos a base de baja velocidad de cuadros. Si se desea, el receptor puede seleccionar hasta nueve corrientes de corrientes a base de baja velocidad de cuadros para que el presentador visual 54 sólo muestre las imágenes más pequeñas de cada videoteléfono 15, o hasta cuatro de las corrientes a base de MPEG-2 de datos cuando el presentador visual 54 esté lleno con cuatro imágenes provenientes de cuatro de los videoteléfonos 15 de la conferencia con ninguna corriente a base de baja velocidad de cuadros teniendo su imagen mostrada, toda vez que no hay espacio en el presentador visual 54 para ellas si se presentan visualmente cuatro corrientes a base de MPEG-2. Al mostrar tres corrientes a base de MPEG-2, esto permite que seis de las corrientes a base de baja velocidad de cuadros sean mostradas. Cada una de las corrientes se forma como se explicó arriba, y se recibe como se explicó arriba en los diferentes videoteléfonos 15. Si más de cuatro imágenes grandes se desea mostrar de una conferencia, entonces la manera en la que eso se logra es que videoteléfonos 15 adicionales se conectan juntos para que los presentadores visuales de los diferentes videoteléfonos 15 sean alineados lado con lado, como se muestra en la figura 7. Un videoteléfono 15 puede ser maestro, y ya que cada videoteléfono adicional se añade, se vuelve un esclavo del videoteléfono maestro 15, el cual controla la presentación visual 54 de las imágenes grandes y pequeñas a través de los diferentes videoteléfonos 15. En términos de los protocolos para determinar quién es mostrado como una imagen grande y quién es mostrado como una imagen pequeña en los presentadores visuales de los videoteléfonos 15 de la conferencia, un protocolo que se prefiere es que los tres hablantes más recientes sean presentados visualmente como grandes, y las demás partes se muestran como pequeños. Es decir, la parte que esté hablando actualmente y los dos hablantes previos se muestran como grandes. Ya que cada videoteléfono 15 de la conferencia recibe todas las corrientes a base de audio de la conferencia, cada videoteléfono 15 con su controlador principal 50 puede determinar cuando el habla esté ocurriendo en un momento dado y causar que la tarjeta de interfaz de red 56 acepte la corriente MPEG-2 asociada con el videoteléfono 15 del cual está ocurriendo el habla, y no acepte la corriente de baja velocidad de cuadros asociada. En otro protocolo, un videoteléfono 15 se establece como el videoteléfono líder o moderador 15, y el videoteléfono líder 15 capta lo que cada otro videoteléfono 15 ve en términos de las imágenes grandes y pequeñas. En otro protocolo más, la elección de imágenes en cuanto a quién es grande y quién es pequeño se fija y permanece igual a lo largo de la conferencia. El protocolo puede ser que cada videoteléfono 15 pueda captar cómo quiere que las imágenes que reciba sean presentadas visualmente . Tanto la corriente a base de MPEG-2 como la corriente de baja velocidad de cuadros se transmiten por la red 40 a los videoteléfonos receptores de conferencia. En consecuencia, ambas corrientes a base de video están disponibles para cada videoteléfono receptor 15 para ser mostradas dependiendo del protocolo para presentación visual 54 que se seleccione. Con respecto a las corrientes a base de audio que son transmitidas por cada videoteléfono 15, para usar de manera más efectiva el ancho de banda, y para ayudar al procesamiento del audio reducir las demandas de procesamiento puestas en cualquier videoteléfono transmisor 15 o videoteléfono receptor 15, una corriente a base de audio sólo puede ser transmitida por un videoteléfono 15 cuando haya audio por arriba de un umbral de decibeles predeterminado en el videoteléfono transmisor 15. Al sólo transmitir corrientes a base de audio que tienen un sonido lo suficientemente fuerte, con la suposición de que el umbral podría ser calibrado para ser satisfecho o excedido cuando ocurra el habla, esto no sólo elimina que ruido de fondo extraño tenga que ser enviado y recibido, lo cual no contribuye esencialmente a nada y usa ancho de banda, pero ayuda a seleccionar la corriente MPEG-2 asociada con el hablante toda vez que sólo las corrientes de audio que tengan habla están siendo recibidas.

Como se mencionó arriba, si un videoteléfono 15 dado desea ver su propia imagen que esté siendo enviada a los demás videoteléfonos 15, entonces la corriente de baja velocidad de cuadros que se forma por la FPGA 38 es enviada a una memoria local del videoteléfono 15, pero sin ninguna compresión, como sería el caso para la corriente de baja velocidad de cuadros que va a ser empaquetada y enviada por la red 40 desde el videoteléfono 15. Desde esta memoria local, el procesador principal con software operará en ella y causará que sea presentada visualmente como una imagen pequeña en el presentador visual 54. Además, el videoteléfono 15 proporciona el control de qué corrientes de audio o video que recibe provenientes de la red 40 van a ser escuchadas o vistas. En situaciones en las que la conferencia tenga más partes de las que un usuario del videoteléfono 15 desee ver o escuchar, el usuario del videoteléfono 15 puede seleccionar ver únicamente o escuchar únicamente un subconjunto de las corrientes de video o audio que comprendan la conferencia total. Por ejemplo, en una conferencia de 100 partes, el usuario selecciona ver tres de las corrientes de video como imágenes grandes en la pantalla, y 20 de las corrientes de video como imágenes pequeñas en la pantalla, para un total de 23 imágenes de las 100 imágenes posibles que podrían ser mostradas. El usuario del videoteléfono 15 selecciona que los tres hablantes más fuertes aparezcan como las imágenes grandes, y luego selecciona a través de la pantalla de tacto 74 de las partes en la conferencia, las que están listadas en una página de la pantalla de tacto, para que también sean presentadas visualmente como las imágenes pequeñas. Otros protocolos pueden seleccionarse, tal como que las 20 imágenes que se muestren como imágenes pequeñas puedan ser los últimos 20 hablantes en la conferencia iniciando a partir del momento en el que empezó la conferencia y cada parte hizo sus presentaciones. Al controlar el número de corrientes de video mostradas, se aplica organización a la conferencia y la utilización de los recursos de videoteléfono 15 se asigna mej or . Con respecto a las diferentes imágenes que se muestran en la pantalla, puede asociarse una opción a cada imagen. Por ejemplo, una imagen puede seleccionarse por un moderador de la llamada en conferencia, dos de las imágenes pueden basarse en los hablantes últimos/más fuertes en un tiempo actual de la conferencia, y la otra imagen puede asociarse con una persona que el usuario seleccione de todos los demás participantes de la conferencia. De esta manera, cada participante o usuario de la conferencia podría potencialmente ver una selección de imágenes diferente del número total de participantes en la conferencia. El ancho de banda máximo que se requiere entonces es para una corriente de video que esté siendo enviada a la red, y cuatro corrientes de video que sean recibidas de la red, no obstante el número de participantes de la conferencia. Con respecto a las corrientes de audio, puede ponerse en el videoteléfono 15 la limitación de que sólo las corrientes de audio asociadas con los tres hablantes más fuertes se seleccionen para ser escuchadas, mientras que su imagen respectiva se muestre en la pantalla. El DSP 62 puede asociar las corrientes de audio que sean recibidas, y permitir que sólo las tres corrientes de audio asociadas con las hablantes más fuertes sean reproducidas, y al mismo tiempo, dirigir la interfaz de red 42 para que sólo reciba las primeras corrientes de video de las imágenes grandes asociadas con las tres corrientes de audio que tengan los hablantes más fuertes. Hablando generalmente, entre más personas estén hablando al mismo tiempo, mayor confusión y menos entendimiento ocurre. Así, los controles por el usuario se ejercen sobre las corrientes de audio para poner cierto nivel de organización en ellas. Como parte de los controles con respecto a las corrientes de audio, como se mencionó arriba, cada videoteléfono 15 sólo enviará una corriente de audio si el ruido cerca del videoteléfono 15 está por arriba de un umbral. De preferencia, el umbral es dinámico y se basa en el nivel de ruido de las tres corrientes de audio más fuertes asociadas con los tres ataques más fuertes en un momento dado. Esto sigue, ya que para que la corriente de audio sea considerada como una de las corrientes de audio con los tres hablantes más fuertes, el nivel de ruido de las demás corrientes de audio debe monitorearse e identificarse con respecto a su nivel de ruido. El DSP 62 después de recibir las corrientes de audio de la interfaz de red 42 a través de la red 40, revisa la corriente de audio e identifica las tres corrientes que tengan el ruido más fuerte, y compara también el nivel de ruido de las tres corrientes de audio recibidas que hayan sido identificadas con los tres hablantes más fuertes con el nivel de ruido de la escena cerca del videoteléfono 15. Si el nivel de ruido proveniente de la escena cerca del videoteléfono 15 es más grande que cualquiera de las corrientes de audio recibidas, entonces el videoteléfono 15 envía su corriente de audio a la red 40. Este tipo de análisis independiente por el DSP 62 ocurre en cada uno de los videoteléfonos de la conferencia, y es entonces un análisis distributivo a lo largo de la conferencia, Cada videoteléfono, independientemente de todos los demás videoteléfonos, hace su propio análisis con respecto a las corrientes de audio que recibe, las cuales por definición sólo han sido enviadas por el videoteléfono 15 respectivo después de que el videoteléfono 15 respectivo ha determinado que el ruido alrededor de su escena es lo suficientemente fuerte como para garantizar que en un momento dado sea uno de los tres más fuertes. Cada videoteléfono 15 toma después esta información de corriente de audio recibida y la usa como una base para la comparación de su propio nivel de ruido. Cada videoteléfono 15 está siendo entonces su propia determinación del umbral . Una forma alternativa de llevar a cabo esto análisis distribuido es que cada videoteléfono, después de determinar lo que considere debe ser el umbral con su DSP 62, puede enviar ese umbral a todos los demás videoteléfonos de la conferencia, para que todos los videoteléfonos puedan revisar lo que todos los demás videoteléfonos consideren que es el umbral, y puedan, por ejemplo, promediar los umbrales, para identificar un umbral que aplicará a esta escena. Al usar la técnica de seleccionar la corriente de video de los tres hablantes más fuertes, puede haber momentos en los que las partes empiecen a hablar fuertemente al unísono, y creen confusión e incapacidad de entendimiento, pero al hacer esto se eleva el ruido en el nivel umbral, dando como resultado muy cortamente la eliminación de las corrientes de audio que no estén produciendo tanto ruido como las demás, por lo que sólo las corrientes de audio de los tres hablantes más grandes una vez más se seleccionarán y escucharán, y las demás no se seleccionarán, eliminando así algo del ruido que las demás corrientes de audio pudieran estar contribuyendo. Esto implica que puede haber veces en las que más de tres corrientes de audio sean recibidas por el videoteléfono 15 toda vez que más videoteléfonos puedan tener un nivel de ruido por arriba del umbral en un momento dado, permitiendo a cada uno de estos videoteléfonos producir una corriente de audio en ese momento y enviarla a la red 40. Sin embargo, como se acaba de explicar, una vez que se cambie el umbral, la situación se detendrá. Este análisis distribuido con respecto a corrientes de audio no está limitado al videoteléfono 15 descrito aquí sino que también es aplicable a cualquier tipo de conferencia de audio, ya sea que también estén presentes corrientes de video o no. De manera acorde con el énfasis en conservar el uso del ancho de banda, y para enviar sólo lo que sea necesario para conservar el ancho de banda, el recorte de una imagen ocurre en el codificador 36 en lugar de en el videoteléfono receptor 15. En casos en los que el videoteléfono transmisor 15 esté consciente de cómo aparecerá su imagen en los videoteléfonos receptores 15, el codificador 36 recorta la imagen grande de la escena antes de que sea transmitida, por lo que existe mucho menos de la imagen para transmitir y utilizar ancho de banda. Si el recorte va a ocurrir en el videoteléfono receptor 15, entonces el procesador principal con software operará en la imagen recibida antes de que sea provista al controlador de presentación visual 52.

Una segunda cámara puede conectarse al videoteléfono 15 para proporcionar una vista alternativa de la escena. Por ejemplo, en una habitación, la primera cámara, o cámara principal, puede ser colocada para enfocarse en el rostro del observador o hablante. Sin embargo, puede haber individuos adicionales en la habitación que la persona que controle el videoteléfono 15 de la habitación desee mostrar a los demás observadores en los videoteléfonos receptores 15. La segunda cámara, por ejemplo, puede ser colocada en una esquina superior de la habitación de tal manera que la segunda cámara pueda ver esencialmente una porción mucho más grande de la habitación que la cámara principal. La alimentación de la segunda cámara puede ser provista al decodificador 34. El decodificador 34 tiene varios puertos para recibir alimentaciones de video. Como alternativa, si la corriente proveniente de la segunda cámara ya está digitalizada, puede ser provista a los elementos procesadores del videoteléfono 15 a través de canales similares a los de la cámara principal. De preferencia, cada videoteléfono 15 controla cualquier cosa que se envíe de él, por lo que la elección de qué alimentación de cámara va a ser transmitida se toma por el observador que controla el videoteléfono 15. Como alternativa, es posible proporcionar a un videoteléfono receptor remoto 15 la capacidad de controlar y seleccionar qué corriente de qué cámara en un videoteléfono 15 dado va a ser transmitida. Las señales de control provenientes del videoteléfono de control 15 serían transmitidas por la red 40 y recibidas por el videoteléfono 15 respectivo el cual después proporcionaría la corriente seleccionada para su transmisión. Aparte de una segunda cámara, cualquier otro tipo de alimentación de video también puede ser provisto a través del videoteléfono 15, tal como la alimentación de video proveniente de un DVD, VCR o cámara de pizarrón blanco. En una modalidad preferida, el videoteléfono 15 opera en un modo pico. En el modo pico, la cámara del videoteléfono 15 toma una imagen fija de la escena ante ésta y transmite esta imagen a otro videoteléfono 15 que haya sido identificado previamente para recibirla, tal como en una lista de aquellos videoteléfonos 15 en su menú de marcado rápido. Como alternativa, en el modo pico, la imagen fija que se toma se mantiene en el videoteléfono 15 y es provista sobre pedido a quien quiera que intente llamar a ese videoteléfono 15. Idealmente, y de acuerdo con el uso preferido del videoteléfono 15, cada usuario del videoteléfono 15 controla cualquier cosa que se envíe del videoteléfono 15, y puede simplemente seleccionar apagar el modo pico, o controlar qué imagen se envíe. Cuando ocurre una llamada activa, el modo pico es apagado para que no haya conflicto entre el modo pico y la llamada activa en la cual una corriente de imagen continua sea tomada por la cámara. El modo pico puede hacer que la imagen fija de la escena sea tomada a intervalos de tiempo predeterminados, por decir a incrementos de un minuto, incrementos de cinco minutos, incrementos de 30 minutos, etc. En el modo pico, en un momento predeterminado antes de que se tome la imagen fija, tal como cinco o diez segundos antes de que se tome la imagen, una cola audible puede ser presentada para alertar a cualquiera ante la cámara que una imagen está a punto de ser tomada y que deben verse presentables. La cola audible puede ser beep, un ping u otro ruido o mensaje grabado. De esta manera, cuando se usa el modo pico, un pico en la escena ante la cámara del videoteléfono 15 está disponible para otros videoteléfonos 15 y proporciona una indicación de la presencia de las personas con respecto a la cámara a los demás videoteléfonos 15. Como otro ejemplo de un sensor de presencia, la ubicación del lente automático de la cámara con respecto al campo ante ésta puede actuar como un sensor de presencia. Cuando nadie esté ante la cámara, entonces el lente automático de la cámara se enfocará en un objeto o pared que esté en su campo. Cuando una persona esté ante la cámara, el lente automático se enfocará en esa persona, lo cual causará que el lente esté en una posición diferente a cuando la persona no esté ante el lente. Una señal proveniente de la cámara indicadora del foco del lente puede ser enviada de la cámara a la FPGA 38 lo cual ocasione después que la información de foco sea enviada a una lista predeterminada de receptores de videoteléfono 15, tales como aquellos en la lista de marcado rápido del videoteléfono transmisor 15, para informar a los videoteléfonos receptores 15 si el observador está ante el videoteléfono 15 para indicar que alguien está presente . El videoteléfono 15 proporciona también correo de video. En caso de que se intente una llamada de video de un videoteléfono 15 a otro videoteléfono 15, y que el videoteléfono receptor 15 no conteste la llamada de video después de un tiempo predeterminado, por ejemplo cuatro tonos de llamada, entonces un servidor de video 66 asociado con el videoteléfono receptor 15 contestará la llamada de video. El servidor de video 66 contestará la llamada de video proveniente del videoteléfono transmisor 15 y enviará al videoteléfono transmisor 15 un mensaje de audio grabado, o un mensaje de audio con una imagen de video grabada proveniente del videoteléfono receptor 15 que no contestó, la cual había sido previamente grabada. El servidor de video 66 reproducirá el mensaje y proporcionará una cola de audio o una cola de audio y video al llamante para que deje su mensaje después de una indicación predeterminada, tal como un beep. Cuando ocurra la indicación predeterminada, el llamante dejará entonces un mensaje que incluirá una indicación de audio así como una imagen de video del llamante. El mensaje de video y audio será almacenado en memoria en el servidor de video 66. El mensaje puede ser tan largo como se desee, o puede ser limitado a un periodo de tiempo predeterminado para que el mensaje sea definido. Después de que haya pasado el periodo de tiempo predeterminado, o de que el llamante haya terminado y concluido la llamada, el servidor de video 66 guarda el mensaje de video y envía una señal al videoteléfono receptor 15 que no contestó la llamada original, de que hay un mensaje de video esperando para el observador del videoteléfono receptor 15. Este mensaje puede ser texto o una imagen de video que aparezca en el presentador visual 54 de videoteléfono receptor 15, o es simplemente una luz de mensaje que se activa para alertar al observador del videoteléfono receptor 15 que hay correo de video para el observador . Cuando el observador desea ver el correo de video, el observador puede sólo seleccionar sobre la pantalla de tacto 74 el área para activar el correo de video. Al usuario se le presenta una gama de opciones de manejo de correo, incluyendo lectura de correo de video, que envía una señal al servidor de video 66 para reproducir el correo de video para el observador en el presentador visual 54 del videoteléfono . La corriente de imágenes que es enviada desde el servidor de video 66 sigue la trayectoria explicada arriba para corrientes a base de video hacia y a través del videoteléfono receptor 15 para ser presentada visualmente. Para que el observador del videoteléfono 15 grabe un mensaje en el servidor de video 66 para contestar a llamadas de video cuando el observador no conteste las llamadas de video, el observador toca un área en la pantalla de tacto 74 que activa al servidor de video 66 para indicar al observador grabar un mensaje ya sea de audio o audio y video, en un momento predeterminado, lo cual hace entonces el observador, para crear el mensaje. El videoteléfono 15 proporciona la operación de los altavoces 64 a un nivel predeterminado sin ningún control de volumen por el usuario. Los altavoces 64 del videoteléfono 15 pueden ser calibrados con el micrófono de tal forma que si el micrófono está captando ruido que sea demasiado fuerte, entonces el controlador principal 50 y el DSP 62 bajen el nivel de salida de audio de los altavoces 64 para reducir el nivel de ruido. Al establecer un nivel predeterminado y deseable, el videoteléfono 15 controla automáticamente lo fuerte del volumen sin que el observador tenga que hacer nada . El videoteléfono 15 puede programarse para reconocer una solicitud de hablar a una persona específica, y después usar el patrón de voz predeterminado que se use para el reconocimiento como el tono o señal en el videoteléfono receptor 15 para informar al observador en el videoteléfono receptor 15 que se está solicitando una llamada con el videoteléfono receptor 15. Por ejemplo, el término "Oye Jorge" puede usarse para que el videoteléfono 15 reconozca que se va a iniciar una llamada a Jorge con el videoteléfono transmisor 15. El observador al decir "Oye Jorge" hace que el videoteléfono transmisor inicie automáticamente una llamada a Jorge que después envíe el término "Oye Jorge" al videoteléfono receptor 15 de Jorge. En lugar de que el videoteléfono receptor 15 de Jorge suene para indicar que se está solicitando una llamada con Jorge, el término "Oye Jorge" se anuncia en el videoteléfono 15 de Jorge intermitentemente en lugar del tono que normalmente ocurriría para atraer la atención de Jorge. La funcionalidad para llevar a cabo esta operación sería llevada a cabo por el controlador principal 50 y el DPS 62. La indicación "Oye Jorge" sería anunciada por el observador y transmitida, como se explicó arriba, al servidor 66. El servidor 66, luego de analizar las indicaciones, reconocería el término como un comando para iniciar una llamada a la parte llamada del comando. El servidor 66 después utilizaría la información de dirección del videoteléfono 15 de Jorge para iniciar la llamada con el videoteléfono 15 de Jorge, y hacer que la señal o tono a ser producido en el videoteléfono 15 de Jorge sea "Oye Jorge" . Como se conoce bien en la técnica, el codificador 36 es capaz de identificar el inicio y el final de cada cuadro. Al recibir los datos el codificador 36, codifica los datos para un cuadro y almacena los datos hasta que el cuadro esté completo. Debido al algoritmo que utiliza el codificador 36, el cuadro almacenado se usa como una base para formar el siguiente cuadro. El cuadro almacenado actúa como un cuadro de referencia para el siguiente cuadro que será codificado. Esencialmente esto es porque los cambios al cuadro de un cuadro al siguiente son el foco para la codificación, y no el cuadro completo desde el principio. El cuadro codificado es luego enviado directamente para su empaquetado, como se explicó arriba, sin ninguna regulación, excepto para propósitos de empaquetado, para minimizar así cualquier retraso. Como alternativa, al codificar el codificador 36 los datos para el cuadro, para acelerar aún más la transmisión de los datos, los datos codificados se ordenan para propósitos de empaquetado sin esperar a que el cuadro completo sea codificado. Los datos que se codifican también son almacenados con el propósito de formar el cuadro, por razones explicadas arriba, para que un cuadro de referencia esté disponible para el codificador 36. Sin embargo, separadamente, los datos ya codificados son enviados para los propósitos de empaquetado y formación en un cuadro mientras también está siendo preparado para el empaquetado, aunque si el paquete está listo para su transmisión y esto ocurre sólo una porción del cuadro ha sido hecha parte del paquete, la porción restante del cuadro será transmitida con un paquete separado, y el cuadro no será formado hasta que ambos paquetes con la información de cuadro sean recibidos en el videoteléfono receptor 15. En referencia a la figura 1, videoteléfonos 15 están conectados a la red 40. Los videoteléfonos 15 soportan conexiones a Ethernet 10/100 y opcionalmente conexiones ATM de 155 Mbps, ya sea en fibra de cobre o multimodo. Cada terminal de videoteléfono 15 está normalmente asociada con una PC de usuario 68. El papel del videoteléfono 15 es el de proporcionar los aspectos de audio y video de una llamada (conferencia) . La PC 68 se usa para cualquier otra función. Establecer una llamada por medio del videoteléfono 15 puede establecer automáticamente una sesión de Microsoft Netmeeting entre PCs 68 asociadas para que los usuarios puedan colaborar programas a base de Windows, por ejemplo, una presentación de Power Point, o una hoja de cálculo, intercambiar gráficos sobre un pizarrón blanco electrónico, transferir archivos o usar un programa de charla a base de texto, etc. La PC 68 puede conectarse a Ethernet sin importar cómo esté conectada la terminal del videoteléfono 15. Por supuesto, también puede conectarse a una LAN de ATM. La PC 68 y el videoteléfono transmisor 15 asociado se comunican uno con otro a través de la red 40. La PC 68 y el videoteléfono transmisor 15 asociado se comunican uno con otro para que la PC 68 sepa a quién está hablando el videoteléfono transmisor 15. La PC 68 puede comunicarse después con la PC 68 del videoteléfono receptor 15 a quien esté hablando el videoteléfono transmisor 15. La PC 68 también puede hacer una llamada para el videoteléfono 15. La mayoría de la funcionalidad del sistema 10 es a base de servidores, y es software que corre desde el servidor de red del videoteléfono 15, el cual es de preferencia un servidor de red SIP. Un servidor 66 se requiere para suministrar funcionalidad básica, un segundo se requiere para operación flexible, es decir, la conservación de servicios en caso de que un servidor 66 falle. El software en los servidores y en la terminal de videoteléfono 15 normalmente cambiará al servidor de respaldo 66 en este caso. Con esta configuración, las terminales de videoteléfono 15 pueden hacer o recibir llamadas a cualquier otra terminal de videoteléfono 15 en la red 40 y a cualquier teléfono, los cuales sean de preferencia teléfonos SIP, registrado en la red. Los servidores de medios proporcionan un conjunto de servicios a usuarios en un conjunto de corrientes de medios. El servidor de medios 66 es controlado por un servidor de características 66 (de preferencia un servidor de características 66) . Se emplea para proporcionar fuentes y colectores para corrientes de medios como parte de varias funciones invocables por usuarios. Los servicios provistos en el servidor de medios 66 son: Puenteo de conferencias Grabación y reproducción Transcodificación Tonos y anuncios El servidor de medios 66 es una caja que se asienta en la LAN o WA . En general, no tiene otras conexiones a éste. Es de preferencia un dispositivo SIP. Los servidores de características están en la vía de señalización proveniente de las terminales de videoteléfono 15. Sin embargo, la vía de medios, iría directamente del servidor de medios 66 al aparato. En operación, el usuario puede pedir una función, tal como un correo de video. El servidor de características 66 proporcionaría la interfaz de usuario y la función de señalización, el servidor de medios 66 proporcionaría los mecanismos para indicaciones de multimedia (si se usan) y la grabación y reproducción de mensajes. Para hacer posible que una terminal de videoteléfono 15 haga o acepte llamadas a cualquier (video) teléfono no de protocolo o estándar (tal como SIP) , se añade una puerta 70, tal como una puerta SIP. Una puerta de cuatro líneas análogas 70 puede conectarse ya sea directamente a la PSTN, o a líneas análogas de la PBX local. Las reglas normales para aprovisionar líneas de salida aplican. Típicamente una línea troncal es aprovisionada por cada seis usuarios, es decir, asume que cualquier usuario use su teléfono para marcar a una conexión externa 10 minutos de cualquier hora. Si la terminal de videoteléfono 15 va a actuar como una extensión en una PBX actual en cuanto a lo que se refiere a llamadas entrantes, entonces se requiere una línea análoga por cada videoteléfono 15. Fuentes de TV, tales como CNN, están disponibles para el usuario del videoteléfono 15. El servidor de video 66 del videoteléfono 15 hace posible este servicio. El servidor 66 soporta la conexión de un solo canal de video que es luego accesible por cualquier usuario del videoteléfono 15 en la red 40. El canal de video es el equivalente de dos sesiones de conferencia normales. Un sintonizador puede ajustar el canal que esté disponible. Un nuevo servidor de video 66 de videoteléfono 15 debe agregarse a la configuración por cada canal diferente que el cliente desee tener disponible simultáneamente. El servidor 66 del videoteléfono 15 (de preferencia SIP) también contiene una base de datos para datos de usuario, incluyendo una memoria caché local de la información de contactos del usuario. Esta base de datos puede ser sincronizada con la base de datos de contactos principales del usuario. Se puede usar sincronización, por ejemplo, con usuarios de Outlook/Exchange y para usuarios de Lotus Notes. Un programa separado que correrá en cualquier plataforma de servidor 66 a base de NT hace la sincronización. Sólo un servidor 66 se requiere no obstante el número de sitios servidos . Como se muestra en la figura 2, normalmente las terminales de videoteléfono 15 serán distribuidas a través de varios sitios, unidos por una red de área amplia 40. Un servidor 66 es suficiente para dar servicio a más de 100 videoteléfonos 15 en un solo campo. Ya que el número total de videoteléfonos 15 en un lugar se incrementa, en alguna etapa tienen que instalarse más servidores. Con videoteléfonos 15 distribuidos a través de varios lugares, es posible que ellos operen con base en servidores centrales, pero esto no es una configuración recomendada, debido al ancho de banda de WAN usado y a la dependencia en la WAN: De preferencia, cada sitio tiene al menos un servidor 66, el cual es de preferencia un servidor SIP 66 cuando se usa SIP. Para los más precavidos, la configuración más simple y fácil es que cada sitio tenga servidores duplicados, cada uno siendo de preferencia servidores SIP. Sin embargo usar un servidor SIP 66 como la alternativa para servidores de lugares remotos también funcionará . Los videoteléfonos 15 en cualquier lugar en la red 40 pueden hacer llamadas salientes a base de PSTN o PBX desde una sola puerta central 70. Sin embargo, si existe la necesidad de que el videoteléfono 15 también sea una extensión en una PBX local para aceptar llamadas entrantes entonces una puerta de PSTN 70 tiene que ser provista en cada ubicación. Tiene que haber un puerto en la puerta 70 por cada videoteléfono 15 en ese lugar. Un servidor de CNN central 66 puede distribuir canales de TV a cualquier videoteléfono 15 en la red 40. No obstante, puede ser preferible incluir servidores específicos de sitio que puedan tomar ese ancho de banda sobre la WAN. Un videoteléfono 15 está disponible para conectarse ya sea a una red Ethernet 10/100 40 o a una red ATM 40 a 155 Mbits/seg (con ambas opciones de fibra y cobre) . Un videoteléfono 15 conectado a ATM usa un plano de control IP para establecer las direcciones ATM de los puntos extremos para una llamada, y luego usa señalización ATM para establecer el canal portador ente esos puntos extremos. El canal portador se establece en un Circuito Virtual Conmutado (SVC) , con los requerimientos de QoS completos especificados. Cada corriente de video tiene entre 2Mbps y 6 Mpbs de dúplex como lo determinan los ajustes y negociación de ancho de banda. Ya que los medios de presentación visual pueden mostrar más de una sola corriente de video, el ancho de banda de conexión requerido total para cada videoteléfono se incrementa con el número de partes en la llamada. El corte de extremo de transmisión asegura que el ancho de banda máximo requerido sea aproximadamente 2.5 veces el ancho de banda de corriente de video individual en uso. Si existen varios teléfonos 15 en un lugar, la relación de teléfonos normal entre usuarios y troncos aplicará a las sesiones del videoteléfono 15. En otras palabras, se espera que un usuario de videoteléfono 15 hable en promedio a otras dos personas en cada llamada, es decir, dos corrientes, y use el videoteléfono 15 en promedio 10 minutos en la hora. Para la velocidad de codificación promedio de 3Mbps, esto da un ancho de banda WAN requerido de 6Mbps que puede esperarse que soporte hasta seis usuarios. Como se muestra en la figura 3, el videoteléfono 15 opera en una red de Ethernet habilitada 'p' 40, cuando hay una baja densidad de terminales de videoteléfono 15. El sistema 10 de videoteléfono 15 establecerá una SVC a través de la porción ATM de la red 40 que enlaza a los dos videoteléfonos 15 juntos, y hará uso de la Ethernet habilitada ' p' para asegurar que calidad de servicio suficiente sea suministrada sobre la parte de Ethernet de la conexión . Los elementos esenciales del sistema 10 de videoteléfono 15 se muestran en la figura 4. Juntos crean herramientas de colaboración multimedia que incrementan ampliamente la capacidad de equipos geográficamente dispersos para interactuar . Estos equipos cada vez son más comunes en casi todas las empresas grandes, pero las herramientas para ayudarlos a trabajar en forma efectiva y eficiente han sufrido pocos cambios desde hace una década y en muchos aspectos son insatisfactorias . El videoteléfono 15. resuelve los diferentes aspectos de los sistemas existentes de una manera comprensiva para crear una mejora discontinua en la colaboración remota. Es habilitado por tecnología recientemente disponible, diferenciada por Calidad de Servicio y la mezcla correcta de funciones, hecha utilizable por el desarrollo de una interfaz de usuario excelente, y diseñada para ser extensible usando una arquitectura a base de normas . Las corrientes de audio y video, como se explicó arriba, son transmitidas del videoteléfono de origen 15 a los videoteléfonos de conclusión 15 en la red usando, por ejemplo, técnicas SIP bien conocidas. Los mensajes SIP pueden ser enrutados a través de redes heterogéneas usando técnicas de enrutado IP. Es deseable que corrientes de medios en redes heterogéneas tengan una trayectoria más directa. De preferencia, en caso sen los que el videoteléfono de origen 15 de una conferencia esté conectado a una Ethernet, y un videoteléfono 15 de conclusión de la conferencia esté conectado a una red ATM, como se muestra en la figura 15, la siguiente dirección de los paquetes que cruzan la red entre los videoteléfonos de origen y terminación ocurren. El videoteléfono de origen 15 envía un paquete sobre la Ethernet a aquello con lo que está en comunicación con la dirección IP del videoteléfono de origen. El paquete alcanza una puerta de origen 80 que enlaza la Ethernet con la red ATM. En la puerta de origen 80, la dirección IP del videoteléfono de origen 15 es guardada del paquete, y la puerta de origen 80 añade al paquete la dirección ATM de la puerta de origen 80 y envía el paquete al teléfono de terminación 15. Cuando el videoteléfono de terminación 15 recibe el paquete, almacena la dirección ATM de la puerta de origen 80 del paquete, y envía de regreso a la puerta de origen 80 un paquete de retorno que indica que ha recibido el paquete, con la dirección ATM del videoteléfono de terminación 15. La puerta de origen 80, cuando recibe el paquete de retorno guarda la dirección ATM del videoteléfono de terminación 15 y añade la dirección IP de la puerta de origen 80 al paquete de retorno. El paquete de retorno es luego enviado de la puerta de origen 80 de regreso al videoteléfono de origen 15.

De esta manera, las direcciones específicas de cada nodo crítico de la trayectoria total entre y con el videoteléfono de origen 15 y el videoteléfono de terminación 15 se conoce por cada nodo crítico de la trayectoria. Como mínimo, cada nodo en la trayectoria conoce la dirección del siguiente nodo de la trayectoria, y si se desea, direcciones adicionales pueden mantenerse con los paquetes respectivos mientras se mueven a lo largo de la trayectoria para que cada nodo de la trayectoria conozca más con respecto a las direcciones de los nodos críticos después el siguiente nodo al que vaya el paquete. Esto se debe a que al moverse el paquete de nodo a nodo, y específicamente en el ejemplo, del videoteléfono de origen 15 a la puerta de origen 80 al videoteléfono de terminación 15 y luego de regreso a la puerta de origen 80 y luego al videoteléfono de origen 15, cada nodo guarda las direcciones críticas del nodo previo del cual fue recibido el paquete respectivo, e introduce su propia dirección en relación al tipo de red del que sea parte el nodo siguiente. En consecuencia, todas las direcciones críticas a las que cada nodo tenga que enviar el paquete sobre el siguiente nodo son distribuidas a lo largo de la trayectoria . Este ejemplo de transferir un paquete de un videoteléfono de origen 15 sobre una Ethernet a un videoteléfono de terminación 15 sobre una red ATM también es aplicable para la forma inversa, cuando la terminal de origen o videoteléfono 15 esté en comunicación con una red ATM y el videoteléfono de terminación 15 está en comunicación con una Ethernet . En forma similar, la trayectoria puede incluir un videoteléfono de origen 15 en comunicación con una Ethernet y un videoteléfono de terminación 15 en combinación con una Ethernet cuando haya una red ATM recorrida por el paquete intermedio, como se muestra en la figura 16. En tal caso, habrían dos puertas en cada borde cuando haya una interfaz entre la Ethernet y la red ATM. Como se explicó arriba, el proceso simplemente añadiría un nodo adicional a la trayectoria, cuando la puerta de origen 80 introduzca su propia dirección ATM al paquete y lo envíe a la puerta de terminación 82 que guarde la dirección ATM de la puerta de origen y añada la dirección IP de la puerta de terminación al paquete, el cual envía después sobre el videoteléfono de terminación 15 en la Ethernet. Con el paquete de retorno, lo mismo ocurre a la inversa, y cada parte guarda la información de dirección respectiva de la puerta o videoteléfono de terminación 15 anterior, y añade su propia dirección al paquete de regreso que envía finalmente al videoteléfono de origen 15, con la puerta de origen 80 y el videoteléfono de origen 15 guardando la dirección ATM de la puerta de terminación 82 o la puerta de origen 80, respectivamente, para que las direcciones respectivas en cada enlace de la trayectoria total se guarden para enviar de manera más eficiente y rápida paquetes subsecuentes de una conexión. Por ejemplo, el controlador principal 50 y la interfaz de red 42 del videoteléfono 15 pueden añadir la dirección del videoteléfono 15 a cada paquete que envíe a la red 40 usando las mismas técnicas que las que se conocen bien por alguien capacitado en la técnica de poner información de enrutado SIP (o cualquier información de enrutado estándar que se use) con el paquete. La interfaz de red 42 también almacena en una memoria local la información de dirección que recibe de un paquete proveniente de un nodo en la red. En forma similar, para una puerta en la red 40, puede aplicar lo mismo. Como se conoce bien, la puerta tiene medios de control y un medio de procesamiento de datos para mover un paquete a su destino final. Una interfaz de red 42 y un controlador principal 50 del mecanismo de control de la puerta, que operan con técnicas bien conocidas con respecto a la información de enrutado SIP, almacena información de dirección recibida de un paquete y pone su propia información de dirección en relación a una red 40 en la cual va a enviar el paquete, con el paquete. Por ejemplo, la información de dirección de la puerta, o el videoteléfono 15, puede ser puesta en un campo que esté en la porción de encabezado asociada con el paquete. Se debe notar que aunque el ejemplo se refiere al uso de videoteléfonos 15 como fuentes de terminación y origen, cualquier tipo de dispositivo que produzca y reciba paquetes puede usarse como un nodo en este esquema general . El Videoteléfono de Presencia Virtual (videoteléfono) 15 es un aparato de red 40 para escritorio que es una terminal de red de comunicaciones personales. Reemplaza al teléfono en el escritorio del usuario, proporcionando todas las características de una terminal PBX moderna con la simplicidad de interfaz de usuario y facilidad de uso brindadas por la gran pantalla de tacto 74 de los videoteléfonos 15. El videoteléfono 15 añade la dimensión de video a todas las comunicaciones interpersonales, cambiando la experiencia por aquella de la presencia virtual. En el pasado la calidad de video en los sistemas de conferencia de video no había sido lo suficientemente alta como para que la tecnología fuera transparente. El videoteléfono 15 es el primer videoteléfono personal en suministrar calidad de video lo suficientemente alta como para crear la experiencia correcta. Para comunicación de video en tiempo real efectiva no sólo la calidad de imagen tiene que estar cerca de la calidad de transmisión de TV, sino que la latencia debe mantenerse muy baja. Lip Sync es también importante si una conversación natural va a fluir. Todos estos aspectos han sido resueltos en el diseño del subsistema de video del videoteléfono 15. El videoteléfono 15 usa la tecnología más reciente de codificador 36 y decodificador 34 configurada específicamente para esta aplicación. En otras palabras, el videoteléfono 15 es lo más cerca posible a 'estar ahí' . El videoteléfono 15 también mejora ampliamente en rendimiento de teléfonos con altavoces convencionales a través del uso de un canal de audio de alta fidelidad y con una calidad casi de CD que suministra voz cristalina. Canales de audio estéreo proporcionan la diferenciación espacial del audio de cada participante. Una cancelación de eco estéreo avanzada cancela no sólo el sonido proveniente de los altavoces 64 de la unidad, sino que hace posible que el hablante lleve a cabo una conversación a niveles de conversación normales, incluso en una habitación ruidosa. El videoteléfono 15 soporta directamente el establecimiento de llamadas de videoconferencia de hasta cuatro partes remotas (es decir, 5 vías) y/o llamadas de conferencia de audio de hasta 10 partes. Cada usuario tiene visibilidad en la disponibilidad de todos los demás miembros de su grupo de trabajo. El videoteléfono 15 usa de preferencia el Protocolo de Inicio de Sesión (SIP) comúnmente para establecer, modificar y aclarar sesiones de multimedia de varias corrientes. El videoteléfono 15 puede establecer una llamada de audio a cualquier otro teléfono SIP o a cualquier otro teléfono por medio de una puerta 70. El videoteléfono 15 impone altas demandas en la red 40 a la cual está conectado. Las llamadas de video del videoteléfono 15 demandan una red 40 que pueda suministrar alto ancho de banda continuo, con garantías en el ancho de banda, latencia y fluctuación. Marconi pie se especializa en proporcionar redes que soportan aplicaciones de alta Calidad de Servicio. También está disponible una versión para sala de conferencias del videoteléfono 15. El videoteléfono 15 es una terminal de comunicaciones (plataforma) que tiene la capacidad de integrarse completamente con la PC 68 de un usuario, la plataforma de cómputo. Una aplicación de videoteléfono 15 para la PC 68 proporciona un número de servicios de integración entre PC 68 y la terminal de videoteléfono 15 asociada. Esto incluirá el establecimiento automático de sesiones de NetMeeting entre las partes en una llamada de conferencia de videoteléfono 15, si está habilitada, con el motivo de compartir aplicaciones tales como pizarrón blanco, o presentaciones, etc., otras capacidades incluyendo el marcado de "arrastre y caída" por el videoteléfono 15 de un número en la PC 68. Un conjunto de servidores, cada uno siendo de preferencia servidores SIP, proporcionan control de llamadas e implementacion de características a los aparatos de la red 40. Éstos son servidores de software que corren en plataformas de cómputo estándares, capaces de redundancia. Estos servidores corren también una copia local de la base de datos de información de contactos de usuario y la base de datos de preferencias de usuario. Las aplicaciones disponibles en estos servidores proporcionan acceso a directorios corporativos o a otros accesibles por LDAP. Un servidor de sincronización 66 mantiene la sincronización entre la base de datos de contactos principales de usuario y la copia local en el servidor 66 (de preferencia SIP) . Se soporta la sincronización con Outlook Exchange or Lotus Notes. Un conjunto de Puertas de Medios 70 se usan para la red PSTN análoga o digital 40. Un conjunto de Puertas de Medios 70 establece una ínterfaz al equipo PABX más común, incluyendo los sistemas de correo de voz asociados con esas PABX's. El servidor de medios 66 proporciona un número de servicios a la terminal de videoteléfono 15. Actúa como un servidor de Puenteo de Conferencias 66 para conferencias de video entre cuatro partes, si se desea. También puede proporcionar transcodificación entre las normas del videoteléfono 15 y otros formatos de audio o video comunes, tales como H320/H323. Puede proporcionar facilidades de grabación y reproducción, haciendo posible que las sesiones sean grabadas y reproducidas. Puede proporcionar la fuente de tonos y anuncios. Un cortafuego de acuerdo con la norma que se esté usando, tal como un cortafuego SIP, se requiere para pasar en forma segura las corrientes RTP creadas dinámicamente bajo el control de software de red estándar (tal como software de red SIP) . Un servidor de TV 66 actúa como una fuente de distribución de TV, permitiendo a los usuarios del videoteléfono 15 seleccionar cualquier canal soportado, por ejemplo CNN. El videoteléfono 15 es para escritorios de Ethernet y ATM. La terminal de videoteléfono 15 soportará SVC's de ATM de extremo a extremo y las usará para establecer conexiones con el nivel necesario de Calidad de Servicio. El videoteléfono 15 también soportará conectividad IP por medio de servicios LAÑE. Para que esto garantice la QoS requerida, se requiere LAÑE 2. El videoteléfono 15 proporciona la transición de ATM a una PC 68 de escritorio unida a ATM, o una transición de ATM a Ethernet para unir la PC 68 por medio de Ethernet . El videoteléfono 15 requiere el soporte de QoS de extremo a extremo. Para un videoteléfono unido a Ethernet 15 la conexión de usuario tiene que soportar 802. lp, DiffServ y/o IntServ o mejor. Si el destino es alcanzable por medio de una red ATM 40, una puerta Etenernet a ATM 70 será provista. El servidor de red SIP 66 y la señalización IP establecerán el punto extremo de ATM más cercano a la terminal de videoteléfono 15 objetivo, es decir su dirección ATM si está conectada a ATM, o la puerta 70 de Ethernet de ATM que esté más cercana. La señalización establecerá una SVC a través de la porción ATM de la red 40 con la QoS adecuada. Esta SVC será enlazada al flujo de Ethernet específico generando la indicación de prioridades adecuada en el extremo remoto . La línea de productos de videoteléfono 15 consiste en varias terminales extremas (aparatos) , un conjunto de servidores que proporcionan características no integradas en los aparatos, y un conjunto de puertas 70 que conectan los productos a instalaciones existentes y servicios de PSTN externos. La funcionalidad básica proporcionada por el sistema 10 es: • Servicios de Telefonía, con video disponible en todas las llamadas "en red", audio y video de muy alta calidad . • Servicios de Conferencias Multipartitas , audio y video, ad hoc o preprogramados , completamente auto-serviciales, completamente integrados en los servicios de telefonía . • Servicios de Presencia - con una variedad de herramientas para determinar disponibilidad para la colaboración.

• Servicios de Superficie Compartidos -pizarrón blanco electrónico, compartición de aplicaciones, compartición de documentos, transmisión de presentaciones. • Otros servicios de valor agregado tales como distribución por TV de video transmitido (el mensaje de Mike a las tropas) . Entrenamiento interactivo en línea, etc. Servicios de grabación de sesiones también están disponibles, si se desea. El videoteléfono 15 es un teléfono con nueva funcionalidad dramática, no una computadora que intenta hacer lo que un teléfono hace. Esto permite un uso concurrente completo de una computadora para las cosas para las que es buena, proporcionado al mismo tiempo un aparato flexible pero específico de aplicaciones para comunicación. La interfaz de usuario y el diseño físico pueden adecuarse para esta aplicación, proporcionando un dispositivo de comunicaciones altamente confiable e instantáneo como los teléfonos actuales, algo que la PC 68 nunca será. Este enfoque también proporciona control sobre el ambiente operativo del dispositivo, eliminando los problemas de soporte relacionados con los aspectos de configuración de hardware y software de la PC 68. Estudios de factor humano han demostrado de vez en cuando que la calidad de audio es el único factor más importante para una comunicación efectiva y transparente.

Aunque un auricular es necesario, audio de manos libres de excelente calidad incluyendo Cancelación de Eco Acústico (AEC) , Control de Ganancia Automático (AGC) , capacidad de audio de banda ancha (G.722 8kHz de ancho de banda o mejor), salida estéreo e integración con la salida de sonido de la PC 68 proporciona nuevos niveles de colaboración remota efectiva. Una disposición de micrófonos de alta calidad, diseñada y procesada para limitar los efectos de latas de estaño también está presente. Se usa una plataforma simple, limpia, intuitiva y completamente flexible para la salida visual y la entrada por botones/selección. En el primer modelo de videoteléfono, ésta es una pantalla completamente a colores TFT de alta calidad, 17" diagonal 16 por 9 con resolución de 1260 x 768 o mejor, cubierta con un panel de tacto de vida alta y resolución media. Un panel de matriz activa de ángulo de visión extendido (>+-60s) brillante (>200 nit) se usa para presentar visualmente video de movimiento completo para una observación cómoda en un ambiente de oficina. Se pueden usar pantallas más grandes, más brillantes, más rápidas, de contraste más alto y de mayor ángulo de visión. El videoteléfono 15 usa un LCD a colores TFT, que tiene arquitectura tipo PC 68 con una interfaz de presentador visual tipo VGA 54 a base de un procesador Intel Celeron/440 M X y un controlador Lynx VGA.

Una cámara de escaneo progresivo de 480 l neas digital de alta calidad se usa para proporcionar 30 cuadros por segundo de video de al menos 640 x 480. El videoteléfono 15 usa codificación MPGEG-2 tomando ventaja de la tecnología de codificador de video 36 para los codificadores de señales en forma de caja. Una variedad de velocidades de bit diferentes pueden generarse, permitiendo que la calidad de video se adapte a los recursos disponibles para llamadas uno a uno, y al participante de calidad más alta para llamadas de uno o de muchos a muchos. Un módulo de cámara de alta calidad integrado está colocado cerca de la pantalla, con una entrada de video externa (Firewire) provista para permitir el uso de cámaras adicionales, VCRs u otras fuentes de video. Una conexión a Ethernet 10/100BaseT existente al escritorio es la única conexión necesaria para la comunicación con la LAN, AN, escritorio de PC 68 y varios servidores, direccionadores y puertas 70. Corrientes RTP críticas en tiempo para audio y video son marcadas con prioridad usando 802. lp, suministrando el mecanismo dentro del dominio de Ethernet de la LAN para QoS . También se soporta DiffServ, con RSVP como una opción. Para eliminar la necesidad de cableado de edificio adicional al escritorio, el videoteléfono 15 incluirá un pequeño interruptor de Ethernet 100/10, permitiendo que el puerto de escritorio existente se use tanto para el teléfono como para la PC 68.

El videoteléfono 15 soporta también una interfaz ATM. La interfaz se basa en usar la tarjeta HE155 Mbits/seg ya sea con una interfaz de fibra o cobre. El videoteléfono 15 proporciona un puerto de transición ATM para conectarse a un escritorio conectado a ATM o para conectar una PC 68 conectada a Ethernet al videoteléfono 15 conectado a ATM. Los aspectos de costo y rendimiento para el ambiente de salas de conferencias son obviamente diferentes a aquellos para el escritorio. Proyección de video, varias cámaras con inclinación, paneo y acercamiento remoto, varios micrófonos, varios canales de video, pizarrones blancos de proyección posterior y otros productos adecuados para el ambiente de sala de conferencias son integrados en un videoteléfono 15 para sala de conferencias. El trabajo conjunto del ambiente de la sala de conferencias y el escritorio es sin fallas y transparente. Este ambiente hará un gran uso de equipo OEM que esté interconectado a la misma infraestructura y normas en lugar para el escritorio. El diseño de hardware es esencialmente el mismo, con soporte de audio adicional para varios micrófonos, y soporte de video adicional para varias cámaras y presentadores visuales. Como alternativa, puede usarse una aplicación de PC 68, ya sea activada por ratón o pantalla de tacto 74, si la PC 68 tiene una pantalla de tacto 74, que se enlace a un teléfono SIP de bajo costo. Para aquellos escritorios u otros lugares que no requieran las capacidades de colaboración descritas arriba, puede usarse un teléfono estándar que funcione con el sistema 10 sin requerir de cableado adicional o una PBX. Usando la norma SIP (Protocolo de Inicio de Sesión) , los dispositivos terminales son soportados por uno o más servidores que proporcionan registro, ubicación, perfil de usuario, presencia y varios servicios de red. Estos servidores son máquinas Linux o BSD económicas conectadas a la LAN. El videoteléfono 15 es el teléfono, por lo que un conjunto clave de funciones PBX puede ser provisto, incluyendo transferencia, reenvío, conferencias de 3 (y 4, 5, ...) partes, identificador de llamadas, historial de llamadas, etc. Algunas de estas características pueden estar integradas en la parte superior de un mecanismo de extensión SIP llamado "CPL", el cual es realmente un lenguaje para proporcionar el manejo de llamadas de una manera segura y extensible . El videoteléfono 15 proporciona presencia activa y envío de mensajes instantáneos. Tal vez la herramienta más revolucionaria para mejorar el trabajo colaborador de grupo distribuido diariamente, su presencia permite a las personas saber quién está adentro y qué están haciendo. Proporciona la base para llamadas de muy bajo sobregasto, eliminando el etiquetado telefónico y el marcador de números tradicional, alentando a grupos a comunicarse como un grupo más que a través de las conversaciones telefónicas de uno a uno impersonales que son comunes ahora. La integración con Envío de Mensajes Instantáneos (correo electrónico en tiempo real) proporciona una forma sin retrasos para intercambiar mensajes de texto cortos, probablemente haciendo uso del teclado de la PC 68 para ingreso. El videoteléfono 5 proporciona arquitectura distribuida/redundante. Este el sistema de teléfono 10 y debe ser confiable. También debe ser capaz de ser administrado centralmente con extensiones locales, con servidores distribuidos proporcionando respuesta "instantánea" a todos los usuarios. Cada una de las diferentes funciones de red SIP, por ejemplo, si se usa SIP, será instalada de tal forma que puedan combinarse arbitrariamente en un conjunto de servidores físicos, conversiones redundantes localizadas en la red 40. Se usa Microsoft NetMeeting para funcionalidad de aplicación compartida y superficie compartida. La interfaz de telefonía/computadora (CTI) para la PC 68 y PDA, con características tales como listas de contactos integradas, auto-marcado de números telefónicos o nombres seleccionados, registro en calendario del historial de llamadas, entrada automática de contactos, etc., pueden ser usadas. SIP presenta retos a los cortafuegos toda vez que los flujos RTP usan puertos UDP asignados dinámicamente, y la información de dirección/puerto es llevada en mensajes SIP. Esto significa que el cortafuego tiene que rastrear los mensajes SIP, y abrir "agujeros de alfiler" en el cortafuego para las combinaciones dirección/puerto adecuadas. Además, si se emplea NAT, los mensajes deben ser alterados para tener las direcciones/puertos traducidos adecuados. Existen dos formas de lograr esta tarea. Una es la de construir la capacidad en el cortafuego. Los tres principales vendedores de cortafuegos (Checkpoint, Network Associates y Axxent) proporcionan esto. Una alternativa es la de tener un cortafuego de propósitos especiales que sólo maneje SIP en paralelo con el cortafuego principal. Existen versiones comerciales de este cortafuego, por ejemplo, aquella de MicroAppliances . Se debe notar que SIP o NetMeeting son modalidades preferidas que están disponibles para llevar a cabo su funcionalidad respectiva necesaria. Pueden usarse alternativas de éstas, si se proporciona la funcionalidad necesaria . La figura 5 muestra los componentes físicos principales de la terminal de videoteléfono 15. La base proporciona un medio para ajustar fácilmente la altura del panel de presentación visual principal 54, y para asegurar el panel a esa altura. La escala de ajuste de altura debe ser al menos 15.2 centímetros de viaje para adaptarse a las diferentes alturas de usuario. Se asume que la base se asentará sobre un escritorio y que las alturas de escritorio están estandarizadas. La unión entre la base y la unidad principal debe proporcionar un grado de inclinación limitado fuera del plano vertical para adecuarse a las preferencias del usuario y ser fácilmente asegurado en ese ángulo. La cantidad de inclinación necesaria es -0 + 15 a del plano vertical . La unidad principal puede ser directamente montada a la pared sin la necesidad del ensamble de base como una opción. El estuche de la unidad principal proporciona el alojamiento para todos los demás elementos en el diseño de videoteléfono 15 incluyendo todos aquellos mostrados en la figura 5 y todos los circuitos electrónicos internos. El estuche proporciona el montaje ya sea siniestro o diestro del auricular. Las personas diestras tienden a levantar el auricular con la mano izquierda (porque manejarán la pantalla de tacto 74 y escriben con la derecha) y las personas siniestras hacen lo opuesto. Aunque la ubicación siniestra será la normal, debe ser posible colocar el auricular en la derecha. Una clavija para altavoces está provista en el estuche para permitir que los altavoces 64 sean montados lejos del videoteléfono 15. Se proporcionan entradas para manejar las salidas de altavoz de la PC 68 asociada, de tal forma que el videoteléfono 15 pueda controlar el audio de la PC 68 y del videoteléfono 15. La implementación de una conexión inalámbrica a los altavoces 64 (por medio de Bluetooth, o normas SONY) puede ser usada. Un auricular está provisto con la unidad y debe conectarse usando un cable bobinado RJ9 estándar y clavija conectora. Cuando está estacionado el auricular debe ser fácil de levantar y no ser estorboso. Una opción de auricular proporciona un teclado en auricular estándar. Puede usarse un auricular inalámbrico para mejorar la movilidad del usuario de la terminal. Se proporciona una clavija para la conexión de audífonos + micrófono estéreo. El uso de los audífonos para conversaciones telefónicas normales es cada vez más alto. El usuario debe ser capaz de seleccionar audífonos + micrófono montado en brazo (diadema) , o audífonos solamente, empleando la disposición de micrófono como el dispositivo de entrada. Existe una opción para audífonos inalámbricos para mejorar la movilidad del usuario de la terminal. Un puerto IR está provisto para interconectarse a PDA's y otros dispositivos IR, en una posición en el estuche principal para permitir fácil acceso. Por el momento las interfaces IR en teléfonos y PDA's son las más comunes y por lo tanto por las mismas razones que una interfaz Bluetooth se requiere, también lo es una interfaz IR. Una disposición de micrófonos está insertada en el estuche. La disposición no debe generar ruido extraño como una consecuencia de la operación normal de la terminal . Específicamente, no debe ser posible detectar acción de usuarios en el panel de tacto. La disposición de micrófonos permite que un usuario hable a niveles conversacionales normales dentro de un arco (por decir 1.8 metros) alrededor del frente de las unidades y 1102 en el plano horizontal y en presencia de dbs de ruido de fondo predefinidos. La unidad debe proporcionar una indicación no ambigua de que el micrófono está activo/no activo, es decir, el equivalente de 'colgado' o 'descolgado'. Un usuario de videoteléfono 15 deseará confirmar y estar seguro de que no está siendo escuchado sin su conocimiento. Este es el equivalente de audio del obturador de cámara mecánico. La unidad de videoteléfono 15 principal pueden tener una opción de lector de tarjeta inteligente para proporcionar acceso seguro a la terminal para características personales. El acceso al videoteléfono 15 requerirá de una disposición de características de control de acceso, desde un simple ingreso con contraseña en pantalla, a trabas de seguridad. Un lector de tarjetas inteligentes proporciona uno de estos métodos de acceso. Existe claramente una ventaja si la inclinación y paneo es controlable desde la pantalla, y de preferencia, si el paneo e inclinación son únicamente electrónicos y no requieren mecanismos mecánicos. El montaje de cámara debe ser montado lo más cerca de la parte superior de la pantalla principal como sea posible para mejorar el contacto visual. La cámara debe ser una cámara digital 47 capaz de generar salidas de 480 p. La salida de la cámara alimenta un codificador MPEG-2 36. Debe ser posible configurar dinámicamente la cámara para que la salida de la cámara sea optimizada para alimentar el codificador 36 a la velocidad de datos de salida de codificador 36 seleccionada. Rostros forman la mayoría de entradas que la cámara recibirá, y por lo tanto la captura precisa bajo una amplia gama de condiciones de iluminación de tonos de piel es una característica esencial. La cámara debe ser operada en una amplia gama de condiciones de iluminación hasta un valor de 3 lux. La cámara debe proporcionar balance de blanco automático. Los cambios en el balance de blanco deben ser lentos, para que las transiciones en la imagen capturada no causen una perturbación de imagen indebida. Sólo cambios que duren más de 5 segundos deben cambiar el balance de blanco. La cámara debe estar en foco de 46 centímetros a tres metros, es decir, tener una gran profundidad de campo y estar deseablemente en foco a seis metros. Tanto el usuario como la información si hay alguna en su pizarrón blanco ambos tienen que estar en foco. El autoenfoque, cuando la cámara rastrea continuamente el mejor foco al moverse el usuario, produce una imagen perturbadora en el extremo receptor y debe ser evitado. La cámara debe permitir una capacidad de acercamiento limitada, desde un ajuste en el que un usuario esté directamente enfrente de la cámara, hasta otro ajuste en el que pocos usuarios estén simultáneamente en un videoteléfono 15. Como una alternativa, pueden proporcionarse diferentes lentes. Esto se puede especificar en términos del campo de visión del lente, por decir de un campo de visión de 302 a un campo de visión de 752. La cámara debe ser capaz de ingresar una imagen más grande que la requerida para transmisión, por ejemplo una imagen de 1280 x 960. Esto permitiría un acercamiento limitado y un paneo horizontal y vertical electrónicamente, eliminando la necesidad de controles electromecánicos asociados con la cámara. La cámara debe ser físicamente pequeña, de tal manera que el montaje 'en pantalla' no sea eliminado simplemente por el tamaño de la cámara. Un panel de tacto de larga vida y resolución media forma el método principal para comunicarse con el videoteléfono 15 y forma el frente del presentador visual principal 54. El panel recibirá demasiado contacto de dedos y por lo tanto debe soportar la limpieza frecuente para remover manchas de grasa y otras huellas digitales que de otra manera pudieran afectar la calidad del presentador visual 54. debe ser fácil de calibrar el panel de tacto, es decir, asegurarse que la alineación entre el área en la que se tocó el panel de tacto y el presentador visual 54 debajo resulte en satisfacer el requerimiento de 'tacto falso'. La superficie de la pantalla de tacto 74 debe minimizar las reflexiones superficiales de tal forma que el presentador visual 54 sea claro incluso cuando mire a una ventana. El requerimiento es que los 'tactos falsos' sean eventos raros. El requerimiento de resolución en el panel de tacto es por lo tanto muy dependiente del área más pequeña de presentación visual 54 que se intente distinguir. La resolución y el error de paralaje combinados deben ser tales que la probabilidad de un 'tacto falso' debido a estos factores por el usuario entrenado promedio sea de menos del 5%. (Un tacto falso en 20 selecciones). Es deseable que esta relación de tacto falso sea menor del 2%, es decir, un tacto falso en 50 selecciones. Cuando sea adecuado, retroalimentación audible y/o visible de un tacto exitoso debe darse al usuario. Estos tonos pueden variar dependiendo de qué esté sobre el presentador visual 54 de la pantalla de tacto 74 en ese momento. Por ejemplo cuando se use un teclado, sonidos tipo teclado son adecuados, cuando se use una teclado de marcado diferentes sonidos es probable que sean relevantes y así sucesivamente. La retroalimentación audible puede no necesitarse en todas las circunstancias, aunque normalmente cierta indicación audible o visible de un tacto exitoso es útil para el usuario. Debe ser posible que el usuario sea capaz de encender y apagar tonos y ajustar los tonos, la duración y el nivel de volumen de los tonos asociados con el tacto en algunas pantallas de programación. Deben proporcionarse valores por omisión. La pantalla de tacto 74 también se puede usar con un estilo así como el dedo. El panel de presentación visual 74 debe ser una tecnología de presentación visual a colores 54 de panel plano de al menos 17" diagonales (o mejor), con una relación de aspecto 16 x 9 preferida pero una relación de aspecto 16 x 10 siendo aceptable. La resolución de la pantalla debe ser de al menos 1280 x 768. El ángulo visible debe ser de al menos 62 fuera de eje tanto en el plano horizontal como en el vertical. La relación de contraste de la pantalla debe ser mejor que 300:1 típicos. La resolución de color debe ser de al menos 6 bits por color, es decir, capaz de presentar visualmente 262K colores 6 bits por color es aceptable para las unidades de prototipo. Se prefiere ocho bits por color, otras cosas siendo iguales, para las unidades de producción. El panel de presentación visual 54 debe tener un brillo lo suficientemente alto como para ser visto cómodamente incluso en una habitación bien iluminada o naturalmente iluminada.

El brillo debe ser de al menos 300 cd/m2. El presentador visual 54 y los circuitos electrónicos de decodificación deben ser capaces de presentar visualmente imágenes de alta resolución de 720P a partir de fuentes de red 40 adecuadas de estas imágenes. La luz de fondo deberá tener una vida mínima hasta 50% del brillo mínimo de al menos 25,000 horas. Si la luz de fondo es apagada debido a inactividad en la terminal de videoteléfono 15, entonces debe encenderse automáticamente si hay una llamada entrante y cuando el usuario toque cualquier parte de la pantalla de tacto. El periodo de inactividad después del cual la pantalla de tacto sea apagada debe ser ajustable por el usuario, hasta "no apagarse". Las condiciones requeridas en el área de conexión de videoteléfono 15 son como las mostradas en la figura 6. Cada requerimiento de conector se describirá brevemente en los siguientes párrafos. Dos conectores de Ethernet RJ 45 10/100 son para la conexión a la red 40 y de la PC 68 asociada. Un enchufe opcional en el módulo de personalidad ATM deberá ser provisto que haga posible que el videoteléfono 15 soporte fácilmente interfaces de 155 Mbits/seg para interfaces tanto ópticas como de cobre. Un puerto USB debe ser provisto para permitir que varios periféricos opcionales se conecten fácilmente, por ejemplo un teclado, un ratón, una cámara de bajo costo, etc. Una interfaz 1394 (Firewire) debe ser provista para permitir la conexión a cámaras (Firewire) externas u otras fuentes de video. La interfaz debe permitir un control de cámara en banda completo sobre la interfaz Firewire. Cuando sea necesario convertidores externos deben ser usados para convertir por decir S-video en la entrada Firewire. Debe ser posible usar esta fuente en lugar de la fuente de cámara principal en la salida del videoteléfono 15 a la conferencia. También debe ser posible especificar modo normal o "CNN", es decir, recortable o no recortable en esta fuente de video. Una salida de video XVGA debe proveerse para hacer posible que el videoteléfono 15 maneje proyectores externos con una imagen que refleje aquella presentada visualmente en el presentador visual principal 54. Una entrada de audio debe ser provista para la salida PCAudio. Para asegurar la integración del audio de la PC 68 y el audio del videoteléfono 15, sólo un conjunto de altavoces 64 será instalado. El sonido de la PC 68 pasará a través del canal de audio del videoteléfono 15. Una clavija o par de clavijas deben ser provistas para conectarse a unos audífonos y micrófono de brazo adjunto. La operación única de los audífonos usando la disposición de micrófono integrada también puede ser posible. Si la clavija de los audífonos es relativamente inaccesible, debe ser posible dejar los audífonos conectados, y seleccionar por medio de control de usuario si el audio está en los audífonos o no. Se proporcionan conexiones a altavoces izquierdos y derechos externos 64. Es posible usar uno, dos o tres unidades de videoteléfono 15 como si fueran una sola unidad funcional, como se ilustra en la figura 7. En configuraciones de más de un videoteléfono 15, sólo una unidad actúa como el panel de control principal, las demás unidades presentan visualmente video y aquellos controles directamente asociados con el video que se está presentando visualmente. Sólo un conjunto de altavoces 64 se requerirá para cualquiera de estas configuraciones. Un número de opciones deberán ser provistas siempre y cuando entradas de micrófono y corrientes de audio estén involucradas, a partir de usar una sola entrada de micrófono común, para transmitir el audio de cada disposición de micrófonos a las fuentes del video en ese videoteléfono 15. Un número de opciones serán provistas para entradas de video. La omisión será transmitir la vista del videoteléfono 15 del 'panel de control'. Si más ancho de banda está disponible del que cada usuario puede obtener el video proveniente de la pantalla en la cual el usuario sea presentado visualmente, produciendo una experiencia más natural. Toda la coordinación de las múltiples terminales de videoteléfono 15 puede lograrse sobre la conexión LAN, es decir, no requiere de ningún cableado especial entre unidades . El videoteléfono 15 proporciona a su usuario un número de funciones principales: - Es el teléfono de la oficina - Es el teléfono de los usuarios - Es un videoteléfono - Es un teléfono de conferencias - Es un videoteléfono de conferencias - Proporciona fácil acceso y manejo de detalles de contactos Proporciona acceso y manejo de correo de voz/video . La funcionalidad de las unidades está en dos categorías, funciones de usuario y funciones de sistemas. Las funciones de usuario son cualquier función a la cual el usuario tendrá acceso. Las funciones del sistema 10 son aquellas requeridas por I.T. para instalar monitor y mantener a la terminal de videoteléfono 15 y las cuales son invisibles para el usuario normal. De hecho, un objetivo importante del diseño general es el asegurarse que al usuario se le presente una interfaz muy simple en la que pueda usar el videoteléfono 15 virtualmente sin entrenamiento. A continuación se define el conjunto de características básicas que es el conjunto mínimo de características que deben estar disponibles. El videoteléfono 15 actúa como un teléfono convencional cuando ningún usuario ingresa en la terminal. Su funcionalidad no debe depender en absoluto de que haya una PC 68 asociada. A continuación se describe la funcionalidad del videoteléfono 15 como un teléfono convencional en una oficina . La terminal es capaz de tener un número de extensión convencional en la PABX que dé servicio al lugar. La terminal es capaz de aceptar una llamada de entrada de cualquier teléfono, ya sea en la PABX, en la red 40 del videoteléfono 15 o cualquier teléfono externo sin discriminación. El videoteléfono 15 es capaz de aceptar llamadas provenientes de otros teléfonos compatibles con SIP. Una llamada entrante generará un tono de llamada configurado (véanse requerimientos de pantalla de instalación abajo) . Específicamente, el tono de llamada para las llamadas del videoteléfono 15 que incluyan video tendrá una opción para un tono distintivo de llamadas únicamente de audio, ya sea que provengan de las terminales de videoteléfono 15 o no. Una llamada entrante generará una indicación de llamada entrante en el área de estado del presentador visual 54. Este presentador visual 54 debe dar tanta información de identificación de llamante como la provista por la llamada entrante, o indicar que nadie está disponible. Es posible aceptar la llamada entrante: a) Al oprimir el botón de aceptar llamadas en el presentador visual de estado de llamada entrante 54. b) Al levantar el auricular - el cual siempre aceptará todas las opciones ofrecidas, es decir video y audio. Es posible que el usuario cambie entre una operación con auricular y manos libres (altavoz del teléfono) en una llamada. Levantar el auricular en una llamada normalmente cambiará automáticamente al modo de auricular del modo de altavoz del teléfono. Reemplazar el auricular sin volver a seleccionar el modo de altavoz del teléfono desconectará la llamada. Debe darse una indicación en pantalla del modo, es decir, auricular o manos libres. La barra de estado de llamada puede presentar visualmente la duración de la llamada. Es posible ajustar el volumen de la llamada entrante por controles fácilmente disponibles en el presentador visual principal 54. Los volúmenes de audífonos y altavoz deben ser ajustables independientemente.

Cuando está en modo de altavoz de teléfono, es posible regresar el auricular a la base del auricular sin desconectar la llamada. Se concluye una llamada: · Si el usuario oprime el botón de eliminar llamada en el presentador visual de estado de llamada 54. • Si el usuario reemplaza el auricular cuando está en modo de auricular y no se selecciona manos libres . • Si la parte remota descuelga la llamada siempre y cuando esto se indique confiablemente al videoteléfono 15. ESPERA - Debe ser posible poner una llamada en Espera y sacar la llamada de Espera de nuevo. El estado de Espera debe ser presentado visualmente en el presentador visual de estado 54, con un botón para permitir que esa llamada en espera sea contestada. ESPERA DE LLAMADA - Llamadas entrantes adicionales deben generar una indicación de llamada entrante en el área de estado del presentador visual 54. No debe generar un tono de llamada, a menos que esté habilitado en el menú de ajustes. Es posible aceptar una nueva llamada entrante en el modo operativo actual, es decir, auricular o manos libres, del botón de aceptar llamada en el presentador visual de estado 54. Aceptar otra llamada entrante automáticamente pondrá las llamadas actuales en ESPERA. Oprimir el botón "sacar de espera" en cualquier llamada debe transferir automáticamente cualquier otra llamada a Espera. El número de llamadas entrantes simultáneas que pueden manejarse se establece por la disponibilidad de espacio en el presentador visual de estado 54. No debe ser menos de dos llamadas. Cuando el número de llamadas actuales excede el número que puede ser manejado, cualquier otra llamada entrante : a) Obtiene un tono de ocupado o b) Es inmediatamente enviada a correo de voz c) Es inmediatamente enviada al número de envío configurado d) Se le envía un mensaje grabado. Como se determina por los ajustes "envío de llamadas ocupado" de usuario. Si llamadas entrantes que estén dentro del límite aceptable no son contestadas dentro de un intervalo (configurable) , las llamadas son: a) enviadas a correo de voz b) enviadas al número de envío pre-configurado c) se les envía un mensaje grabado Como se determina por los ajustes de "envío de llamada sin respuesta" de usuario. TRANSFERENCIA DE LLAMADAS - Es posible que el usuario transfiera fácilmente cualquier llamada a cualquier otro número. La función de transferencia pondrá la llamada en espera y permitirá que se marque un nuevo número. Una vez que se escuche el tono de llamada, el usuario tendrá la opción de completar la transferencia. Como alternativa, el usuario será capaz de hablar al nuevo número y después ya sea iniciar la transferencia o unirse primero a todas las partes (tres) en una llamada de conferencia. Si ocurre el último caso, se proporcionará una porción para que el usuario salga de esa llamada de conferencia. En caso de que no haya respuesta o sólo correo de voz proveniente de la terminal llamada, el usuario tendrá la opción de regresar a la llamada original. ENVIO DE LLAMADAS - Debe ser posible ajustar el teléfono para que envíe automáticamente las llamadas entrantes a un número pre-configurado . El envío de llamadas puede ser: a) incondicional b) envío en ocupado c) envío en Sin Respuesta. LLAMADAS DE CONFERENCIA - Es posible conferenciar llamadas en una conferencia de sólo audio, no obstante el origen de la llamada de voz. Es posible conferenciar al menos tres llamadas, es decir, una conversación de cuatro partes. Se requiere únicamente soportar una sola conferencia en cualquier momento, pero aún ser capaz de aceptar alguna otra llamada entrante como se describió arriba en llamada en espera. Es aceptable que el prototipo sólo sea capaz de aceptar una llamada entrante a una conferencia particular, es decir, un puente externo se requerirá para las llamadas que no sean de videoteléfono. Las opciones asociadas con el presentador visual de estado de llamada entrante 54 permitirán al usuario agregar o remover una llamada de una conexión de conferencia. Es posible agregar llamadas a una conferencia no obstante de si son llamadas entrantes o salientes. Si el usuario de la conferencia remota descuelga, ese brazo de la llamada debe ser borrado automáticamente. Las llamadas pueden hacerse manos libres o mientras se usa el auricular. Levantar el auricular debe traer el teclado de marcado si no se está en una llamada y conectar el audio al auricular. Se requiere un teclado de marcado por tonos en pantalla (es decir, números 1 a 0 más ' *' y 1 #'). Además, debe haber un botón de pausa para insertar una pausa en una cadena marcada (para obtener a través de PABXs a menos que las puertas 70 puedan ser programadas para remover este requerimiento) . Debe darse consideración a agregar una tecla + y disponer que el signo + sea traducido automáticamente en la cadena de acceso internacional para esa ubicación. Una tecla para corregir errores de entrada (por ejemplo la techa [REGRESO] y una tecla borrar para borrar la entrada también se requieren) . Una opresión corta de la techa [REGRESAR] debe eliminar el último número ingresado, una opresión más larga continuar eliminando números, y una opresión siguiente debe borrar el registro del número. El presentador visual de números 54 debe ser formateado automáticamente al formato de números local. [Esto puede requerir una programación del usuario para seleccionar el país de operación toda vez que cada país tiene un estilo diferente, o si se ingresa un código internacional ese código debe usarse como la base de formateo de la parte restante del número] . Cuando se conecta a servicios que hacen uso de el teclado numérico de tonos para seleccionar características, los tonos correctos deben generarse en la dirección de ese servicio, cuando se use el teclado en pantalla o el teclado en el auricular. El teclado de marcado debe ser capaz de proporcionar esa función no obstante de cómo se inicie la llamada . REMARCADO - Es posible remarcar el último número marcado a través de un solo tacto en una función identificada adecuadamente . REMARCADO AUTOMATICO - Es posible desencadenar un mecanismo de remarcado automático, por ejemplo al mantener el botón [REMARCADO] oprimido. El remarcado automático repetirá automáticamente la llamada si los intentos previos regresan una señal de ocupado luego de un número de intentos . RELLAMADO AUTOMÁTICO AL CESAR SU OCUPACIÓN - Cuando se hace una llamada a un dispositivo que permite su soporte, está disponible una función de "Rellamado automático al cesar su ocupación" . La función de Rellamado automático al cesar su ocupación llama al usuario una vez más una vez que la parte llamada está disponible. Un mensaje será generado para decir 'este servicio no está disponible' si el número llamado no puede soportar Rellamado automático al cesar su ocupación. Puede haber una pantalla de ingreso adecuada presentada visualmente cuando ningún usuario haya ingresado al videoteléfono 15. Un registro de llamadas entrantes, frecuentes salientes y perdidas debe ser presentado visualmente en una vista adecuada de las pantallas de marcado integradas. Uno o dos accesos de tacto a una instalación de 'remarcado de último número' siempre debe estar disponible en las pantallas de marcado. Definiciones adicionales de estos registros se dan abajo. Para accesar al conjunto completo de características disponibles en la terminal de videoteléfono 15, un usuario debe ingresar en la terminal. Se proporciona una pantalla de ingreso en la cual el usuario puede ingresar su nombre y contraseña. Este puede ser el mismo que su nombre de acceso y contraseña de red 40 normal. La terminal de videoteléfono 15 por lo tanto hace uso de los servicios de autentificación de usuario de sitios. Cualquier pantalla requerida para hacer posible que personal IT configure el videoteléfono 15 para usar estos servicios de autenticación debe ser provista. Métodos alternativos para identificar el usuario están disponibles, por ejemplo, el uso de una tarjeta inteligente o fob ID. No existe el requerimiento de que el usuario ya haya ingresado a una PC 68 antes de ingresar a una terminal de videoteléfono 15. Varios usuarios pueden ingresar en un solo videoteléfono 15 y tonos de llamada entrante distintos para cada usuario pueden ser provistos. La indicación de llamada entrante también debe identificar el nombre de las partes llamadas así como el nombre de las partes llamantes. Si varios usuarios son ingresados en un solo videoteléfono 15, todas las funciones de envío de llamadas son específicas para el usuario a quien esté dirigida la llamada. Si el usuario ya está ingresado en su PC 68, la acción de ingresar en el videoteléfono 15 creará una asociación entre la PC 68 cuando el usuario ingresó y la terminal del videoteléfono 15, siempre y cuando esto se confirme desde la PC 68. Es posible que un usuario ingrese a varias terminales de videoteléfono 15 simultáneamente. El videoteléfono activo 15 es aquel en el cual cualquier llamada para ese usuario se conteste primero. La pantalla de página principal contiene un área de estado y es visible en todas las pantallas (excepto en el modo de pantalla completa) . El estado incluye el nombre del usuario ingresado - o "ningún usuario ingresó" . El estado de "presencia" del usuario, iconos para transmisión de video y audio, indicación de "mensaje" de correo de voz y la fecha y hora. Una indicación de "mensaje" se ilumina y parpadea si hay un correo de voz no escuchado en el sistema de correo de voz de usuario 10. Oprimir el indicador evoca la pantalla de manejo de correo de voz. Tocar el área de fecha y hora da acceso a las funciones de calendario. La página principal tiene un área de barra de control que es visible a través de todas las pantallas (excepto en el modo de pantalla completa) . La barra de control da acceso directo a las características de control de llamadas más frecuentemente usadas y acceso a todas las demás funciones. Deben usarse iconos en los botones, pero texto también puede usarse para enfatizar un propósito funcional. El panel de control tiene también controles globales para el micrófono, cámara y altavoces 64. Los controles deben indicar claramente su estado operacional, por ejemplo, encendido o apagado y cuando sea posible deben usarse iconos. Está disponible una auto-imagen que indica tanto la imagen que está siendo tomada por la cámara como aquella porción que es visible para el extremo remoto de la llamada activa. Es posible encender y apagar la auto-imagen y determinar si ésta siempre está encendida o sólo una vez que una llamada activa haya sido establecida. Es posible presentar visualmente la imagen de la cámara en el área de video principal de l oa pantalla en cualquier momento, es decir, en una llamada, no en una llamada, etc. La imagen debe ser aquella para una sola llamada de video y debe cubrir cualquier otro video presente. Debe ser posible solicitar una versión de pantalla completa de ese video. Esto se puede concebirse como un espejo digital y permite al usuario asegurarse de que esté contento con lo que la cámara mostrará o esté mostrando. Es deseable que para propósitos de diagnóstico que el usuario pueda ver también la imagen después de la codificación y decodificación, para que esté consciente de la calidad de la imagen que será vista en el extremo lejano. Si este modo es soportado entonces tanto la cámara directa como la imagen codificada y decodificada lado por lado. El usuario puede capturar su propia imagen, para usarse como la imagen asociada con su información de contacto. La mayor parte de la pantalla principal se asigna a una función de Marcado Integrado. Existen cuatro sub-funciones principales, un presentador visual de marcado rápido 54, un presentador visual de acceso a directorios 54, un teclado de marcado y acceso a registros de llamadas. El teclado de marcado y el acceso a los registros de llamadas van a ocupar el área de pantalla mínima compatible con facilidad de uso, maximizando el área disponible para las páginas de Marcado Rápido/Contactos. El área de marcado rápido se detalla primero, cualquier requerimiento común a través de todas las sub-funciones principales sólo es detallado bajo marcado rápido y es implicado para las otras tres funciones. La función del área de marcado es la de seleccionar un usuario a quien se le hará una llamada. El área de marcado rápido es tan grande como sea posible, acorde con los demás requerimientos para la pantalla de marcado. Más de veinte ubicaciones de marcado rápido es adecuado. Cada ubicación debe ser lo suficientemente grande como para hacer la identificación de las personas detallada almacenada en esa ubicación muy fácilmente legible a la distancia operativa normal de la pantalla, por decir un metro . La información de usuario almacenada en una ubicación de marcado rápido incluye el nombre de la persona, 'estado de presencia' si se conoce, el número que será llamado si ese marcado rápido se selecciona y un icono para indicar si el usuario soporta llamadas de video. La información detallada también almacena qué tipo de video, por ejemplo, videoteléfono 15, MPEG-2 compatible, H261, etc. El área proporciona un área clara que será tocada para iniciar una llamada. Una vista en viñeta de la persona se incluye si está disponible. Un método para manejar nombres largos (es decir, nombres que no quepan en el espacio asignado en el botón de marcado rápido) es provisto. Los números telefónicos convencionales en formato internacional estándar es decir, "+ código de país número de código de área" son traducidos automáticamente al acceso externo más los códigos de acceso internacionales requeridos para hacer una llamada a este número. Los detalles de contactos completos asociados con una persona en la página de marcado rápido están disponibles. Los detalles de contactos proporcionan todos los números en los cuales el usuario puede ser localizado y un medio para seleccionar uno de los números como el número por omisión que se use en la página de marcado rápido. Es posible seleccionar y marcar un número alternativo para ese usuario por medio de este enlace a la página de contactos. La información de usuario incluye el historial de llamadas más recientes para esa persona, por ejemplo las últimas 10 llamadas ya sea entrantes, perdidas o salientes. Sólo proporcionar la información de 'última llamada' será una funcionalidad mínima aceptable. Es posible editar los detalles de contactos asociados con la entrada de marcado rápido y/o crear una nueva entrada de contacto para la página de marcado rápido. Es posible copiar una entrada de las pantallas de contactos, directorios o registro de llamadas en la página de marcado rápido. Es posible copiar una entrada de la página de marcado rápido en las pantallas de contactos o directorio. Es posible borrar una entrada de marcado rápido, o mover esa entrada a otra página de contactos. (Es decir, copiar y luego borrar el original) . Es posible controlar la colocación de usuarios en la página de marcado rápido. También debe ser posible en cierta forma (codificación por colores) distinguir entre diferentes clases de usuarios de marcado rápido, es decir, negocios, familia, colegas, vendedores, clientes. La página de marcado rápido puede también contener nombres de varias otras categorías en la información de contactos. Cierta forma de organización automática está disponible, por ejemplo, apellido, nombre, compañía o por clase, seguido por apellido, nombre, compañía, etc. Es posible definir un grupo de usuarios como una sola entrada de marcado rápido. Es aceptable que el tamaño de grupo sea limitado al tamaño de llamada de conferencia máximo. Es posible seleccionar la vista de directorios de la página de marcado rápido. La vista de directorios ocupará la misma área de pantalla que la página de marcado rápido. Es posible seleccionar de la gama de directorios en línea a cuál videoteléfono 15 tener acceso. La omisión será el directorio de Outlook y Lotus Notes que contiene los detalles de contactos principales del usuario. El nombre del directorio seleccionado debe ser presentado visualmente. Las categorías establecidas por el usuario en su lista de contactos de Outlook o Notes están disponibles como selecciones. Si el número de categorías no cabe en el área de presentación visual 54, se proporcionan botones para desplazarse ya sea hacia arriba o abajo de la lista. La lista debe ser organizada alfabéticamente. La categoría de marcado rápido es la categoría usada para poblar la página de marcado rápido. Existe alguna indicación sobre cuándo la página de marcado rápido está llena y ya no es posible agregar nombres adicionales a esta categoría de contactos, a menos que reemplacen una entrada existente. La capacidad de ordenar entradas de marcado rápido en orden de la llamada más reciente, es decir, la última entrada de marcado rápido usada debe estar en el fondo. Esto se usaría para ver qué entrada era el mejor candidato para el borrado para permitir que se ingrese un número más usado . Es posible encontrar y seleccionar fácilmente una entrada de la categoría seleccionada, con el mínimo de ingreso de usuario. Los mecanismos de selección de entrada deben funcionar para listas relativamente cortas y para listas muy largas (10,000's de nombres). Los mecanismos deben incluir la capacidad de ingresar una cadena de texto en la cual buscar. Es posible seleccionar el orden de clasificación para datos presentados, por apellido, nombre u organización. Existe un método para corregir los errores de entrada, y reiniciar rápidamente la búsqueda completa. Es deseable que cada orden de las teclas de búsqueda sea significativo y pueda ser cambiado por el usuario. En otras palabras por ejemplo oprimir y mantener oprimida la tecla de búsqueda más a la izquierda hace posible que el usuario seleccione buscar en Apellido, Nombre o Compañía (o una lista de atributos extendida. Esto es útil por ejemplo para encontrar a alguien en un departamento particular, o en una ubicación particular - "quién está en Corea"). La segunda tecla califica después la primera búsqueda de tecla y así sucesivamente. De esta manera, las teclas son puestas en Compañía, Apellido, Nombre; por decir Núñez, y después hacen una búsqueda de usuario alfabética dentro de los apellidos en Núñez. Claramente cuando cada categoría de clasificación se seleccione existe cierto suborden implicado de entradas con el mismo valor en ese campo de categoría. Por lo que para apellido seleccionado, el suborden implicado es nombre luego compañía, para compañía el orden de clasificación implicado es apellido, nombre, y para nombre, por decir apellido y compañía. La pantalla de registro de llamadas presenta visualmente las entradas más recientes de tres categorías de llamadas: llamadas salientes, entrantes y perdidas, con una indicación clara de qué categoría se selecciona. Además debe haber una categoría "frecuente", que liste números por la frecuencia de uso, sobre las últimas (<200) llamadas de cualquier tipo. Debe haber acceso al teclado de marcado desde la pantalla de registro de llamadas. El análisis del valor de proporcionar un grado mucho más amplio de manejo de datos de registro de llamadas es diferido. Como mínimo, cuando el "mensaje" es tocado se hace una conexión al sistema de correo de voz de usuario 10, el correo de voz para este usuario es ingresado y el teclado de marcado es presentado visualmente para controlar el correo de voz usando las opresiones de tecla de teléfono convencionales. La parte más grande' de la pantalla de "correo de voz" debe invocar botones para accesar a cada característica del sistema de correo 10, por ejemplo Mensaje Siguiente, Mensaje Anterior, Reproducir Mensaje, Reenviar Mensaje, Contestar Mensaje, llamar a remitente, etc. con todos los equivalentes de las opresiones de tecla dentro de cada función, por ejemplo empezar a grabar, dejar de grabar, revisar grabación, borrar grabación, etc. Todas las funciones tienen que estar en botones, convertidas en los tonos DMF respectivos. Es deseable que el número "reenviar a" o cualquier comando de correo de voz que requiera que una lista de números de usuarios sea ingresada pueda ser seleccionado desde las vistas de marcado rápido o directorio y esa selección automáticamente inserte sólo la parte adecuada del número del usuario. Esto puede ser particularmente útil para reenviar un mensaje de voz a un grupo. Es posible que el usuario establezca la hora y fecha del videoteléfono 15. Es deseable que la hora y fecha puedan ajustarse automáticamente por servicios de red 40 adecuados. Es deseable que esté disponible una funcionalidad de calendario que esté integrada con la aplicación de Outlook/Palm/Programa de Notas/Calendario de los usuarios. El requerimiento mínimo sería simplemente ver las citas en cualquier fecha, por día, semana o mes (como en las pantallas de Outlook y Palm) con cambios y nuevas entradas sólo siendo posibles por medio de la base de datos de Outlook o Palm. Es probable que muy pocos de los usuarios no mantengan sus propios calendarios y de hecho podrían NO tener PC 68 en su escritorio, pero sí requieran ver la información. Al tomar el área del Estado de Usuario de la parte de usuario de la pantalla permite a un usuario ajustar su estado. El usuario tendrá una gama de opciones de Estado de las cuales seleccionar, incluyendo: i) Disponible ii) Ocupado - en una llamada cuando otra llamada no será aceptada iii) No molestar - no en una llamada pero no pudiendo ser intrrumpido iv) Regreso en cinco minutos v) Fuera de la oficina vi) De vacaciones. Una instancia de llamada individual en la terminal de videoteléfono 15 soporta una corriente de entrada al número máximo de corrientes en una conferencia. Para conferencias de video, la terminal reportará al menos cuatro conexiones a otras partes como parte de una sola llamada de conferencia. Es posible aceptar al menos dos llamadas sólo de audio independientes, incluso cuando una llamada de conferencia de video de tamaño máximo esté presente, por lo que una llamada de audio puede ser transferida por espera en consulta. El videoteléfono 15 es capaz de soportar al menos tres "instancias de llamada" simultáneas, es decir, hasta tres llamadas independientes. Sólo una llamada puede estar activa, es decir, los controles de la llamada pueden ser aplicados sólo a una llamada a la vez. Más de una llamada puede ser aceptada, es decir, audio y video de los usuarios están siendo transmitidos en cada llamada aceptada, ya sea activa o no. Las llamadas en progreso también pueden ser puestas en ESPERA, cuando audio y video de los usuarios no sea transmitido al usuario en ESPERA y el audio y video de ese usuario también sea suprimido. El estado de llamadas entrantes se muestra en el presentador visual de control 54. Las propias llamadas y los controles en llamada se muestran en la sección principal del presentador visual 54. Los estados de llamada son: i) Llamada entrante ii) Aceptada y activa - el audio del usuario (y video si es una llamada de video) es, sujetos a los diferentes controles de silencio, conectado a esta llamada. Los controles de llamada aplican para esta llamada. iii) Aceptada y no activa - como arriba, pero los controles de llamada no aplican para esta llamada iv) Aceptada y en espera - audio de usuario (y video si es una llamada de video) no está siendo transmitido a esta llamada v) Aceptada y siendo transferida. Los estados de llamada se indican en cada llamada.

Sólo una llamada aceptada puede estar activa. Una llamada aceptada se hace activa al tocar en el área de presentación visual 54 de llamadas asociada con esa llamada, o el estado de llamada en el panel de control. Cualquier llamada activa previa se pone no activa. Un segundo tacto apagará el estado activo. Una indicación de llamada entrante indica si la llamada está ofreciendo una conexión de video. Ninguna indicación implica una llamada sólo de audio. La indicación de llamada entrante mostrará los nombres de las partes asociadas con esa llamada entrante. Esto muestra inmediatamente si el usuario está siendo llamado uno a uno, o está siendo invitado a unirse a una conferencia. El usuario tiene las siguientes opciones para manejar una llamada entrante: i) Aceptar la llamada como una llamada sólo de voz ii) Aceptar la llamada como una llamada de video (la voz está implicada) iii) Enviarla a correo de voz. Está disponible un ajuste para ajustar la terminal de videoteléfono 15 para auto-contestar llamadas entrantes, hasta el número máximo de llamadas soportadas. Auto-contestar crea una conexión de audio y video si se ofrece una. Una vez que una llamada está en progreso, el estado de usuario debe ser cambiado automáticamente a "En una llamada" . El estado de usuario regresará a su estado previo (típicamente "Disponible") una vez que no estén activas llamadas . El usuario es capaz de configurar que todos los datos de usuario también se distribuyan. Si el usuario ya tiene una o más llamadas aceptadas y si todas las llamadas están en ESPERA o no activas, esta llamada creará una nueva instancia de llamada si es aceptada. Todas las llamadas aceptadas pero no activas continuarán viendo y escuchando al usuario mientras maneja esta nueva llamada. Si una de las llamadas aceptadas se acepta y es activa, la nueva llamada será unida a esa llamada y todas las partes de esa llamada serán conferenciadas al nuevo llamante, si la llamada es aceptada . Si el usuario no contesta después de (<10) segundos, la llamada será automáticamente reenviada como se determina por los ajustes de "Reenvío por No Contestar" . Como se indicó arriba el reenvío es específico para el usuario a quien esté dirigida la llamada. Si el estado de usuario está marcado "No molestar" u "Ocupado" o el estado de "Ocupado" ha sido ajustado porque se está manejando el número máximo de llamadas, la llamada es reenviada "inmediatamente" como se determina por los ajustes de "Reenvío en Ocupado" y "Reenvío en No Molestar", modificados por el ajuste de "mostrar llamadas reenviadas" si es implementado . Dependiendo de los ajustes de "mostrar llamadas reenviadas", el usuario puede seleccionar ver la indicación de llamadas entrantes durante (>5 segundos) antes de que sea reenviada. (Esto significa que el usuario no tiene que tomar acciones a menos que desee contestar la llamada, en lugar de la acción positiva requerida en una llamada arriba) . Esto no funciona si el estado Ocupado se debe a que el videoteléfono 15 ya está manejando el número máximo de llamadas. La capacidad de generar un mensaje de texto (muy corto) que sea enviado con la llamada es una forma útil para transmitir más información acerca de la importancia de la llamada y cuánto tardará. Los requerimientos asociados con generar y añadir un mensaje a una llamada saliente se detallan abajo. Si está presente, el mensaje de texto de llamada entrante debe ser presentado visualmente asociado con la llamada entrante. El presentador visual 54 maneja la presentación visual de mensajes de texto en varias llamadas entrantes simultáneamente. El mensaje de texto también es almacenado en el registro de llamadas entrantes o perdidas. La negociación de los parámetros de llamadas está limitada a aquella requerida para establecer la llamada dentro de los parámetros de políticas de la red 40 y el uso de la red 40 actual. Se proporcionan ajustes para permitir al usuario especificar su preferencia por llamadas a otras terminales de videoteléfono 15, por ejemplo siempre ofrecer video, nunca ofrecer video, preguntar en cada llamada si quiero ofrecer video o no. Rellamada automática al cesar su ocupación Disponible es soportado para llamadas a otros usuarios de videoteléfono 15. Esto iniciará una llamada al usuario una vez que su estado cambie a "disponible" . Si el usuario a ser llamado es un grupo, las llamadas sólo serán iniciadas una vez que todos los miembros del grupo estén 'Disponibles'. Una llamada de conferencia es cuando una ubicación en la lista de directorios o marcado rápido representa un grupo de personas , cada uno de los cuales van a ser participantes en una llamada. El proceso sugerido de implementar esta característica es hacer cada llamada a la vez y una vez activa solicitar la confirmación de que la llamada debe ser agregada a la conferencia. Esto de una ruta de escape si la llamada se va al correo de voz. Una vez que las acciones en el primer llamante son completadas, es decir, en la llamada o rechazadas, el siguiente número es procesado. Es posible crear una llamada saliente que sea medio dúplex, en otras palabras que solicite audio y/o video de la parte llamada, pero no transmita ninguno en este tipo de llamada. Este es un modo de tracción. Igualmente, es posible crear un modo de empuje, en el que la llamada saliente sí envíe audio ylo video, pero no requiera de ningún audio o video de regreso. Este modo se puede usar para transmitir selectivamente contenido a terminales no atendidas, o a terminales con usuarios que sólo estén jugando un papel pasivo en la conferencia. El volumen total de los altavoces 64, el auricular y los audífonos se ajusta independientemente. El altavoz puede ser encendido y apagado. Apagar el altavoz también apagará el micrófono. Indicadores de estado muestran el estado del altavoz y micrófono. El micrófono puede ser apagado y otra vez vuelto a encender. Indicadores de estado muestran el estado de silencio del micrófono. La cámara puede ser apagada y otra vez prendida. Indicadores de estado muestran el estado de silencio de la cámara . En llamada los controles funcionan únicamente en la llamada activa. Una llamada aceptada se hace activa si no es activa, ya sea al tocar el indicador de estado de llamada en progreso en el panel de control, o en cualquier lugar en el área de presentación visual de llamadas 54 excepto para las áreas de función de control en llamada específicas. Cualquier otra llamada actualmente activa es vuelta inactiva. La llamada activa puede ser vuelta inactiva por una opresión subsecuente en la misma área. Se proporciona un control que descuelga la llamada activa. En una llamada de conferencia borra todos los elementos de la instancia de llamada. Una llamada debe ser aceptada y activa para que el control de conferencia funcione. Tocar el control de conferencia unirá la instancia de llamada actualmente activa a la siguiente llamada hecha activa. El control de conferencia indicará que está activa ya sea hasta que sea oprimido de nuevo, haciéndola inactiva, u otra instancia de llamada se haga activa. Después de que todas las llamadas en la llamada ahora activa se unen a la instancia de llamada conferenciada, la llamada se vuelve una sola llamada conferenciada y la indicación de control de conferencia activo desaparece. Sólo para reafirmar, la conferencia selecciona la llamada a la cual otras llamadas serán unidas y luego selecciona la llamada que se unirá a esa llamada. El método para concluir una parte en una llamada de conferencia es que esa parte cuelgue. Por una variedad de razones, el usuario puede desear tener un control independiente de cada parte de una instancia de llamada. Esto se puede lograr por una capacidad de des-conferencia. Por ejemplo, al tocar la instancia de llamada durante más de tres segundos, aparece un submenú que permite que los miembros individuales de la instancia de llamada sean identificados y seleccionados para des-conferencia. Esta llamada es luego eliminada de la conferencia y establecida como una instancia de llamada separada, en donde todos los controles normales aplican, específicamente puede ser borrada .

La función de transferencia trasfiere la llamada activa. Cuando el control de transferencia es tocado, la pantalla de marcado integrada es presentada visualmente y la llamada activa es puesta en espera, pero indicando que está involucrada en una operación en llamada. El control de transferencia indica que está activa, hasta que sea oprimido una segunda vez, cancelando la transferencia, o hasta que el usuario seleccione y oprima el marcado en el número al cual desee que la llamada sea transferida. Una vez que la llamada saliente ha sido iniciada, el control de transferencia indica un cambio de estado, por lo que tocar el control causa una trasferencia 'ciega' y la instancia de llamada es eliminada de la pantalla. Como alternativa, el usuario puede esperar hasta que el número llamado conteste, punto en el cual se cree una nueva instancia de llamada, permitiendo al usuario hablar a la parte llamada, y la función de transferencia cambia de estado de nuevo, al indicar que oprimirla de nuevo completará la transferencia y terminará ambas llamadas. De otra manera, el requerimiento es regresar a hablar al llamante que esté siendo transferido y reiniciar el proceso de transferencia o concluir la llamada. Transferir es el mecanismo principal mediante el cual un 'administrativo' establece una llamada y después la transfiere al 'jefe'. En este caso, es esencial que no sea posible que el administrativo continúe 'escuchando' la llamada transferida. Esto será específicamente cierto en un ambiente seguro. La llamada activa puede ser puesta en ESPERA al tocar el control ESPERA. En ESPERA, las corrientes de video y audio salientes son suspendidas y se da una indicación al extremo remoto de que está en ESPERA. Las corrientes de audio y video entrantes ya no son presentadas visualmente más. El estado de ESPERA se indica en el presentador visual de estado de llamada 54 en la barra de control. El control de Espera indica que la espera está activa si cualquier llamada está en espera. Oprimir ESPERA de nuevo cuando la llamada activa está en ESPERA elimina la ESPERA y regresa la llamada al estado presentado visualmente. Hay un control en el panel de control principal que invoca la pantalla principal y da acceso a todas las funciones no de llamadas. Hay una indicación de que el Principal ha sido seleccionado. Oprimir Principal una segunda vez reestablece las presentaciones visuales de llamadas actuales y des-selecciona Principal. Se proporcionan controles separados para cada parte aceptada y presentada visualmente dentro de una llamada, y para cada llamada presentada visualmente. Ajustar el volumen del audio proveniente de cada usuario particular es requerido. Es posible silenciar individualmente audio y/o video de cada usuario presentado visualmente en la pantalla. Existe un indicador de estado para indicar si silencio de audio y video está encendido. Si más de una instancia de llamada puede ser presentada visualmente en cualquier momento, por ejemplo, una llamada de conferencia con otras dos, más una nueva llamada a otro usuario, entonces es posible silenciar audio y/o video para una instancia de llamada completa, por ejemplo silenciar la conferencia de dos partes para audio, mientras se habla a la segunda llamada. Se proporciona solicitar video en una conexión de sólo audio que podría soportar video. Se proporciona aceptar o rechazar una solicitud de video. Una conexión de video se establece si se acuerda la conexión. Un ítem de página de ajustes hace posible que el usuario siempre acepte o siempre rechace solicitudes de video. Es posible presentar visualmente los parámetros de canal portador para cada conexión, es decir, las velocidades de codificación de entrada y salida para video si está presente y audio. En una llamada, los controles funcionan sólo en la llamada activa. Una llamada aceptada se hace activa si no está activa. Es posible habilitar un 'monitor de calidad de canal portador' para cualquier usuario. Este monitor, un poco como un medidor de potencia de señal en un teléfono móvil, mostraría, por ejemplo, una barra 100% verde cuando no hubieran errores o paquetes perdidos en los canales de audio y video, una barra amarilla una vez que pérdida de velocidad o la latencia exceda un valor predeterminado y una barra roja una vez que exceda una valor más alto. La integral de tiempo debe ser corta, por decir 50 milisegundos , toda vez que los errores en este marco de tiempo afectarán el video del usuario. Así, por ejemplo, si el receptor ve artefactos de video, pero al mismo tiempo ve la barra de monitor moviéndose de amarillo o rojo, sabe que es inducido por congestión de la red 40. Se proporciona solicitar un cambio en los parámetros de codificación de video, es decir, incrementar o reducir la velocidad de codificación, dentro de la llamada. Se proporciona aceptar o rechazar esta solicitud y un método para cambiar la velocidad de video saliente. El videoteléfono 15 genera una sola velocidad de codificación de salida para todos los participantes. Es posible que acepten diferentes velocidades entrantes en todas las corrientes entrantes . Se proporciona una solicitud para una barra lateral con la capacidad de aceptar o rechazar la solicitud. Si se acepta, la barra lateral apaga la corriente de audio de ambos participantes a cualquier otro, para que puedan tener una conversación privada, mientras continúan escuchando toda la discusión y continúan viendo y siendo vistos por todos los participantes. Se proporciona la capacidad de enviar mensajes cortos a ambas vías con las solicitudes de video y barra lateral . No obstante de si la llamada es una llamada entrante o saliente, la transición de pantalla a la vista de video debe ser suave. El audio puede anticipar al video. El video no debe ser presentado visualmente hasta que esta transición pueda ser hecha. (Es decir, no debe haber imágenes saltonas, cuadros formados a la mitad etc., en la transición al video) . La transición a la pantalla de video de presentador visual de usuario 54 sólo debe iniciar después de que la llamada esté "en progreso" y no en el momento de iniciar la llamada. La presentación visual del video proveniente del usuario debe hacer uso máximo del área del presentador visual 54 asignada a presentación visual de usuario 54. Un control en presentador visual 54 es capaz de convertir esta presentación visual de usuario individual de instancia de una sola llamada en una presentación visual de pantalla completa 54. Tocar cualquier lado dentro del presentador visual de "pantalla completa" 54 revertirá al presentador visual estándar 54. Además de los controles en llamada ya mencionados, el nombre del usuario debe ser presentado visualmente. El presentador visual 54 y la instancia de llamada en el panel de control deben indicar si la llamada está activa o no, es decir, si los controles generales en llamada operarán o no. Con una instancia de llamada, activa e inactiva es al oprimir en la instancia de llamada o cualquier lado en el presentador visual principal 54 aparte de las áreas de control específicas en llamada. La transición de una instancia de una llamada a llamada de dos partes debe ser suave y debe iniciarse una vez que la segunda llamada esté "en progreso" . El presentador visual 54 debe hacer uso máximo del área de presentación visual 54 asignada a la presentación visual de usuario 54. Si es necesario, los videos pueden ser recortados en cada borde, en lugar de escalados, para que quepan en el área disponible. No hay requerimiento de una presentación visual de pantalla completa 54 para dos o más. Además de los controles en llamada ya mencionados, el nombre de usuario debe ser presentado visualmente para cada parte. Debe haber una indicación de que ambas partes forman parte de una sola instancia de llamada. El presentador visual 54 y la instancia de llamada en el panel de control deben indicar si la llamada está activa o no . El video entrante puede ser recortado progresivamente para caber en el área de presentación visual 54 disponible al ser agregadas más partes a la llamada de video. En instancias de dos llamadas ambas llamadas de una sola parte, hay dos llamadas separadas a usuarios individuales, ambos de los cuales son presentados visualmente. El presentador visual en pantalla 54 y la indicación de control de llamadas indican claramente que éstas son dos llamadas separadas e independientes y también indican cuál si alguna está activa. Si cualquier llamada es puesta en ESPERA, esa llamada ya no es presentada visualmente más y el presentador visual 54 regresa a una presentación visual de llamada individual de instancia de una sola llamada 54. El área de usuario debe ser capaz de presentar visualmente cualquiera de las siguientes combinaciones además de aquellas descritas arriba. Cuatro instancias de llamada cada llamada de una sola parte; Tres instancias de llamada cuando una llamada pueda ser de dos partes y las demás sean llamadas de una sola parte ; Dos instancias de llamada cuando una puede ser hasta tres partes o dos pueden ser llamada de dos partes. Los requerimientos de un presentador visual estilo "CNN" 54 son aquellos de la llamada individual del caso de una sola llamada anterior, incluyendo la capacidad de tener una presentación visual de pantalla completa 54. También es posible presentar visualmente una llamada estilo "CNN" en la mitad de la pantalla y usar la otra pantalla áreas de presentación visual de uno o dos usuarios, ésta última como dos instancias de llamadas independientes o como una instancia de llamada de dos partes individual. Se proporciona la capacidad de proporcionar varios niveles de encripcion para las corrientes de voz y datos. El acceso a instalaciones de diagnóstico, prueba, medición y administración hará uso de SMF (marco de trabajo de manejo simple) , en otras palabras el acceso será posible a todas las instalaciones en tres maneras, por medio de SMMP, por medio de la red y por medio de una interfaz calificada. La terminal de videoteléfono 15 debe ser remotamente administrable , no requiriendo de experticia IT en sitio para la operación de cada día, o para actualizaciones de software que realicen reparaciones de gazapos. El diagnóstico por omisión también es posible remotamente y ser capaz de determinar si el problema está dentro de la unidad de hardware, la configuración de unidades, el software de las unidades, la red 40 o los servicios de la red 40. La administración puede asumir conectividad IP, pero debe asumir una conexión de ancho de banda relativamente bajo al videoteléfono 15. Bajo operación normal, el videoteléfono 15 deberá llevar a cabo una versión acortada de prueba del sistema de hardware 10 al encenderse. Si esto falla, el videoteléfono 15 deberá presentar visualmente un mensaje de falla de arranque en la pantalla principal. La terminal puede ser forzada a un modo de diagnóstico de hardware extendido. Esto podría ser al adjuntar un teclado a un puerto USP, o al oprimir en la esquina derecha superior de la pantalla de tacto 74 al encenderse la unidad. Este modo daría acceso al sistema operativo subyacente 10 y a diagnósticos más poderosos, para determinar si existe una falla de hardware o no . Una serie de pruebas simples pueden incluirse que el usuario puede correr en caso de que el videoteléfono 15 pase la prueba de arranque pero no esté proporcionando la funcionalidad correcta para el usuario. La terminal proporciona una ínterfaz técnica, en asociación con un teclado local (y ratón) para ayudar a diagnosticar los problemas de la unidad o sistema 10. Esto daría acceso a los diferentes diagnósticos para audio y video, etc. Es posible descargar en forma segura versiones nuevas del software para la terminal de videoteléfono 15 bajo control remoto. Por en forma segura, se intenta decir ser capaces de regresar a la versión anterior si ocurren fallas en la versión descargada, sin intervención local (es decir, alguien que tenga que instalar un CD) . Es posible leer el número de versión de software del software en una terminal de videoteléfono 15 particular, y el número de serie de hardware de la unidad, número de revisión de ensamble y el número de serie y número de revisión de ensamble de los sub-ensambles clave por medio de las interfaces de administración. En caso de una falla del sistema 10, el videoteléfono 15 debe almacenar o tener almacenada información para ayudar en el diagnóstico de la causa de esa falla. Esta información debe ser recuperable en línea de un lugar remoto para su análisis una vez que el videoteléfono 15 haya re-arrancado. El videoteléfono 15 mantiene un registro corriente de todas las secciones, eventos y cambios de estado desde el encendido, dentro de los límites del almacenamiento que pueden ser asignados a esta característica. Debe hacer posible que al menos un mes de actividad sea almacenado. Estos datos pueden tener que estar en un número de categorías, por ejemplo una categoría segura que contenga los datos de usuarios, tal como los números a los que llamó, sólo sería liberable por el usuario. Datos genéricos, tales como el número de llamadas, estado de llamada (es decir número de instancias de llamadas y puntos extremos por instancia, características de codificador 36 y decodificador 34, reportes de errores en canales portadores y demás no son información tan sensible. Puede ser útil ser capaces de registrar cada opresión de tecla como una forma de ayudar a diagnosticar un aspecto del nivel del sistema 10 y recrear la cadena de eventos . Es posible que el videoteléfono 15 copie los intercambios en el nivel de plano de control tanto a nivel IP como a nivel SIP, a una terminal de diagnóstico remota (el equivalente de tener un monitor de línea conectado remotamente a la terminal de videoteléfono 15) . La administración de la terminal monitoreará un número de parámetros, por ejemplo, calidad de la red 40. Debe ser posible establecer umbrales y generar alarmas cuando esos umbrales sean excedidos. Tanto la interfaz ATM como la interfaz de Ethernet tienen mediciones estándares (tipo rmon, por ejemplo) que deben estar disponibles para el videoteléfono 15. El videoteléfono 15 debe ser capaz de enviar esas alarmas a uno o más Sistemas de Administración de Red.

Mezclador de Audio Con respecto al mezclador de audio, un primer nodo 80 que puede producir una corriente de audio y una corriente de video, y el cual es parte de una red ATM que tiene capacidad de calidad de servicio, desea formar una llamada punto a punto con un segundo nodo 82. El segundo nodo 82 sólo tiene capacidad de audio y es, por ejemplo, un teléfono PSTN. El segundo nodo 82 no es una parte de la red ATM. El primer nodo 80 empieza la formación de la llamada al segundo nodo 82 al enviar información de señalización a un servidor SIP, también parte de la red ATM, que identifica al servidor que el segundo nodo 82 es el destino de la llamada que el primer nodo 80 está iniciando. El servidor, el cual ya tiene información de dirección que se refiere al segundo nodo 82 , añade la información de dirección a la información de señalización recibida del primer nodo 80 , y transmite la información de señalización con la información de dirección del segundo nodo 82 a un mezclador de audio 20 que también es parte de la red ATM. Cuando el mezclador 20 recibe la información de señalización que se ha originado del primer nodo 80 , determina de esta información que es el segundo nodo 82 con el cual el primer nodo 80 desea formar una conexión. El mezclador 20 envía después una invitación al segundo nodo 82 a través del cual está en cierta forma en comunicación, tal como por medio de una línea TI o Ethernet pero no por medio de la red ATM, para identificarse a sí mismo con respecto a sus características y la forma en que los datos tienen que ser provistos a éste de tal manera que pueda entender los datos. En respuesta, el segundo nodo 82 identifica al mezclador 20 la forma específica en que los datos tienen que ser ingresados de tal manera que el segundo nodo 82 pueda entender los datos, y también indica al mezclador 20 que es correcto enviar datos a éste para que la conexión pueda ser formada . El mezclador 20 envía después una señal al primer nodo 80 de que está listo para formar la conexión. Para el primer nodo 80, el mezclador 20, el cual es parte de la red ATM, representa el segundo nodo 82 y da la impresión al primer nodo 80 de que el segundo nodo 82 es parte de la red ATM y es similar al primer nodo 80. Para el segundo nodo 82, el mezclador 20, el cual es también parte de la red o conectividad a la que pertenece el segundo nodo 82, representa el primer nodo 80 y da la impresión para el segundo nodo 82 de que el primer nodo 80 forma parte de la misma red o conectividad a la cual pertenece el segundo nodo 82 y es similar al segundo nodo 82. El primer nodo 80 inicia después la progresión de los datos, los cuales incluyen datos de audio, y unidifusiona paquetes de los datos al mezclador 20, como se conoce bien en la técnica. Cuando el mezclador 20 recibe los paquetes, almacena temporalmente los datos en los paquetes, como se conoce bien en la técnica, concluyendo efectivamente la conexión con respecto a los paquetes provenientes del primer nodo 80 que están destinados para el segundo nodo 82. El mezclador 20, habiendo sido informado anteriormente a través de la invitación que fue enviada al segundo nodo 82, de la forma en que los datos tienen que estar para que el segundo nodo 82 los pueda entender, pone los datos almacenados temporalmente en el formato necesario, y después los somete a restricciones de tiempo adecuadas, envía los datos reformateados adecuadamente de manera efectiva en una nueva y separada conexión del mezclador 20 al primer nodo 80. De esta manera, se forma una llamada punto a punto, aunque realmente comprende dos conexiones distintas, y ni el primer nodo 80 ni el segundo nodo 82 se dan cuenta de que dos conexiones son utilizadas para crear la llamada punto a punto deseada entre el primer nodo 80 y el segundo nodo 82. En forma similar, cuando los datos se envían del segundo nodo 82 de regreso al primer nodo 80, el proceso se repite, aunque a la inversa para que después de que los datos provenientes del segundo nodo 82 sean recibidos por el mezclador 20, el mezclador 20 reformatee los datos en una forma que el primer nodo 80 pueda entender y unidifunda los datos del segundo nodo 82, que han sido almacenados temporalmente en el mezclador 20, al primer nodo 80. Si se usa IP en lugar de ATM, entonces el mezclador 20 envía paquetes IT de unidifusión al primer nodo 80, como se conoce bien en la técnica . Un escenario que incluya conferencias, de otra manera conocido como una conexión de un punto a varios puntos, se describirá ahora usando la presente invención. Continuando la descripción que implica una conexión de punto a punto anterior, el primer nodo 80 desea unirse en la conexión para formar una conferencia, un tercer nodo 84 que es parte de la red ATM y tiene esencialmente las mismas características que el primer nodo 80. El primer nodo 80 envía una invitación de señalización a un nodo anfitrión 22 que será el anfitrión de la conferencia. El nodo anfitrión 22 puede ser el primer nodo 80 o puede ser un nodo distinto. El primer nodo 80 se comunica con el nodo anfitrión 22 a través del servidor para formar una conferencia y unir el tercer nodo 84 a la conferencia. El nodo anfitrión 22 invita y luego forma una conexión para propósitos de señalización con el mezclador 20 y causa que la conexión de señalización original entre el primer nodo 80 y el mezclador 20 sea terminada. El nodo anfitrión 22 invita también y forma una conexión con el tercer nodo 84 en respuesta a la solicitud proveniente del primer nodo 80 para que el tercer nodo 84 sea unido a la conexión. En cada caso de que un nodo que sea parte de la red ATM vaya a ser unido a la conexión, la señalización pasa a través del servidor y es enrutada adecuadamente, como se conoce bien en la técnica. El nodo anfitrión 22 actúa como un nodo anfitrión típico para una conexión de conferencia en la red ATM. El mezclador 20 representa cualquier nodo que no forme parte de la red ATM, pero que vaya a ser parte de la conexión de conferencia general . Con respecto a cualquiera de los nodos en la red ATM, el mezclador 20 hace que cualquier nodo que forme parte de la conexión pero no parte de la red ATM aparezca como si fuera justo igual que los demás nodos en la red ATM. A través de las conexiones de señalización, que se forman entre el huésped y el mezclador 20 , y el mezclador 20 y el segundo nodo 82 (representado por el mezclador 20 ) , la información requerida proveniente de todos los nodos de la conexión es provista a cada uno de los nodos para que puedan entender y comunicarse con todos los demás nodos de la conexión. De hecho, el nodo anfitrión 22 informa a todos los demás nodos, no sólo la información de las características de los demás nodos, sino que también regresa la información a los nodos que habían sido originalmente provistos al nodo anfitrión 22 para que esencialmente cada nodo obtenga su propia información de regreso. Una vez que esta información es distribuida, la información de progresión se lleva a cabo como normalmente sería el caso en cualquier situación de conferencia típica. En un escenario de red ATM, el primer nodo 80 y el tercer nodo 84 muítidifunden en ATM usando un árbol PMP la información en paquetes unos a otros y al mezclador 20 . En un ambiente IP, el primer nodo 80 y el tercer nodo 84 multidifundirían por IP paquetes a todos los nodos (el mezclador 20 siendo un nodo para este propósito) en la red, y sólo aquellos nodos que formen parte de la conexión entenderían y utilizarían la información de paquete específica que era parte de la conexión. El mezclador 20 recibe los paquetes provenientes del primer nodo 80 y el tercer nodo 84 y los almacena temporalmente, como se describió arriba. Los paquetes provenientes de los nodos diferentes que son recibidos por el mezclador 20 son reformateados al ser recibidos y mezclados o agregados juntos de acuerdo con algoritmos estándares bien conocidos por alguien capacitado en la técnica. En un momento predeterminado, como se conoce bien en la técnica, los datos reformateados por el mezclador 20 son después retransmitidos al segundo nodo 82 . De la misma manera, pero sólo que a la inversa, los datos provenientes del segundo nodo 82 son recibidos por el mezclador 20 y almacenados temporalmente. Después son multidifundidos en una forma reformateada al primer nodo 80 y al tercer nodo 84 . Cuando un cuarto nodo, que sólo tiene capacidad de audio, al igual que el segundo nodo 82 , y el cual no es parte de la red ATM, es unido a la conferencia, el nodo anfitrión 22 forma una segunda conexión de señalización con el mezclador 20 . El mezclador 20 a su vez forma una conexión distinta con el cuarto nodo separado de la conexión del mezclador 20 que ha formado con el segundo nodo 82 . El mezclador 20 mantiene una lista de sesiones que está soportando. En la sesión que incluye la conferencia presente, identifica dos conexiones cruzadas a través del mezclador 20 . La primera conexión cruzada es a través de la conexión de señalización proveniente del nodo anfitrión 22 al segundo nodo 82 , y la segunda conexión cruzada proviene del nodo anfitrión 22 al cuarto nodo. De esta manera, el primero y tercero nodos 80, 84, así como el nodo anfitrión 22, creen que hay dos nodos separados, representando al segundo nodo 82 y al cuarto nodo, al cual se están comunicando. De hecho, el mezclador 20 representa tanto el segundo nodo 82 como el cuarto nodo y muítidifunde por separado datos provenientes de cada uno de ellos para mantener esta ilusión, así como la ilusión de que el segundo nodo 82 y el cuarto nodo son iguales al primer nodo 80 y al tercer nodo 84, al primer nodo 80 y al tercer nodo 84. El sistema ViPr es un sistema de videoconferencias altamente avanzado que proporciona calidad de conferencias de 'Presencia Virtual' que excede por mucho las capacidades de cualquier sistema de videoconferencia anterior en el mercado actualmente. El sistema ViPr se basa en SVCs de punto a varios puntos (PMP-SVC) y multidifusión IP para establecer corrientes de medios de audio/video de punto a varios puntos entre participantes de conferencias. Aunque los usuarios que participan en una conferencia ViPr disfrutan de una conferencia con calidad de audio y video sin precedentes, existe la necesidad de hacer posible que otros usuarios no ViPr se unan a una conferencia ViPr. El sistema 10 hace posible que una llamada telefónica sólo de voz unidi fundida (es decir, PSTN, teléfonos móviles y teléfonos SIP) sea agregada a una conferencia ViPr de varias partes.

El sistema ViPr actual proporciona soporte para sistemas de telefonía a través de puertas de telefonía análoga y digital a base de SIP. Esta funcionalidad hace posible que los usuarios de ViPr hagan/reciban llamadas de punto a punto hacia/desde usuarios de teléfonos. Sin embargo, no permiten que un usuario ViPr añada una llamada telefónica a una conferencia ViPr. Esto es debido a la naturaleza de unidifusión de las llamadas telefónicas y a la incapacidad de las puertas de telefonía para convertirlas en corrientes de PMP/multidi fusión . La UAM de la ViPr mejorará el soporte del sistema ViPr para telefonía al hacer posible que usuarios ViPr agreguen llamadas telefónicas de unidifusión a conferencias ViPr. Para soportar esta funcionalidad, la UAM de la ViPr agrega funcionalidad de conferencia sin fallas entre las terminales ViPr y los usuarios de teléfonos (es decir, PSTN, teléfonos móviles y teléfonos SIP) al convertir una corriente de audio telefónica de unidifusión corriente arriba en corrientes de audio de punto a varios puntos (es decir, PMP-SVC o Muítidi fusión IP) y corrientes de audio ViPr de mezclado/conversión corriente abajo de PM/multidifusión en corrientes de audio de teléfono de unidifusión, así como lleva a cabo la transcodificación de audio corriente abajo de audio ViPr proveniente de la codificación de ancho de banda de 16 bits/16KHz PCM a G.711 o G.722.

Una funcionalidad adicional provista por la UAM es la de una puerta intermedia que cubre corrientes de audio IP/UDP a las corrientes de audio SVC ATM y viceversa. Esta funcionalidad hace posible la interoperabilidad entre sistemas ViPr instalados en ambientes ATM y puertas de telefonía de voz sobre IP (VoIP) a base de SIP en redes de Ethernet . La UAM permite que uno o más teléfonos ViPr funcionen con una o más puertas telefónicas. La UAM soportará llamadas de conferencia ViPr con dispositivos de audio de unidifusion presentes en las siguientes configuraciones: • Tipo 1: Soportar una llamada de conferencia sólo con un dispositivo de unidifusion de audio presente como un participante. • Tipo 2: Soportar varias llamadas de conferencia. Cada llamada de conferencia potencialmente podría tener varios dispositivos de unidifusion de audio presentes como un participante . · Tipo 3: Soportar varias llamadas de conferencia con cada llamada de conferencia teniendo exactamente un dispositivo de unidifusion de audio presente como un participante . De preferencia, a 20 participantes (dispositivos de unidifusion más teléfonos ViPr) se les puede dar servicio por una sola aplicación de Administrador de Unidifusión. El dispositivo de unidifusión será usado en la configuración mostrada en la figura 1. Como se muestra en la figura 1, todas las llamadas hacia y desde un dispositivo de unidifusión a un ViPr siempre son enviadas a la UAM. La UAM implementa un B2B SIP UA para conectar el dispositivo de unidifusión a un ViPr. Ejemplo: El usuario A en P0TS1 llama al usuario B en ViPr VI. La siguiente secuencia de eventos tiene lugar: 1. UDl (Mediátrica o cualquier dispositivo de unidifusión) recibe la solicitud del Usuario_A para conectarse al Usuario_B. 2. US1 envía una invitación a UAM. El campo Para o el Nombre de Presentación Visual en la INVITACION identifica que la llamada es para el Usuario_B . 3. UAM recibe INVITACION como llamada entrante Cl . 4. UAM extrae la dirección sip del Usuario_B de la INVITACION en Cl e inicia una llamada C2 a este usuario al enviar una INVITACION a VI . 5. UAM también conecta en forma cruzada Cl a C2. 6. VI ve una INVITACION entrante de UAM, la cual es identificada por el SDP como un dispositivo clase ViPr. De esta manera el software en VI sabe que el software par es capaz de soportar toda la funcionalidad esperada de un dispositivo ViPr incluyendo Reemplazos/Referencias, etc. 7. Digamos que el Usuario_B en VI contesta la INVITACION con OK. 8. La UAM marcará la conexión C2 como acttiva. Después envía OK en Cl .

Corrientes de medios en este ejemplo Las corrientes de medios entre VI y UDl son enviadas en cualquiera de las siguientes formas : 1. Los medios son enviados directamente de VI a UDl. Esto se puede hacer al escribir la UAM el SDP correcto. De esta manera mientras se envía INVITACION a VI pone la dirección IP, puerto para UDl para recibir. Y mientras envía OK a UDl pone la dirección IP, puerto de VI como dirección de recepción . 2. Los medios son relevados por UAM. En este caso, UAM releva datos de VI a UDl y viceversa. Es fácil ver que si UAM y ViPr se comunican se conectan por medio de una nube ATM, entonces una SVC entre VI y UAM podría ser establecida. Así, la UAM actúa como una puerta ATM a Ethernet para tráfico de medios . Extendiendo el ejemplo 1 más, el Usuario_A decide unirse al Usuario_B en V2 en la conferencia. Ocurren los siguientes eventos: 1. La conexión Sip entre UAM y VI es reemplazada por una llamada de conferencia C3 con VI, V2 y UAM como participantes. Así, el B2B UA es ahora conectado cruzadamente a una llamada de conferencia (C3) con una llamada de unidi fusión (Cl) . 2. UAM siempre releva el tráfico entre C3 y C4. Opción 11 anterior. Mezcla el tráfico de Vi y V2 y lo releva a UDl. También multidifunde tráfico de UDl a VI y V2. La funcionalidad llevada a cabo por la UAM puede ser fragmentada en los siguientes componentes: • Unidad SIP B2B UA [SBU] . Esta unidad lleva a cabo las señalización sip requerida para implementar el B2B SIP UA. • Conexión cruzada y mezclador de medios [MCMU] . La funcionalidad UAM será decidida a través de tres procesos: SBU, Administrador de Mezclador por Unidifusión y pila Sip, como se muestra en la figura 2. El proceso SipServer implementará la funcionalidad SIP y proporcionará a la SBU una API de señalización abstraída (interfaz la) . La ínterfaz la también permanece sin cambios. La SBU implementa el control de llamada y lógica de empalme para implementar la B2B UA. Esta unidad se deriva de la base de códigos Callmanager/Vupper . La SBU es responsable de establecer las corrientes mezcladoras correctas también. Para este propósito, la SBU se interconecta con el proceso UMM a través del proceso RPC .

UM implementa la funcionalidad para conectar en forma cruzada corrientes de medios así como para implementar la funcionalidad de mezcla de audio. La SBU implementa el control de llamadas y lógica de empalme para implementar el B2B UA. El SBU es responsable de instalar las corrientes mezcladoras correctas también. Para este propósito, la SBU se interconecta con el proceso UMM a través de RPC .

Sesión Class MediaSesion { int SelfID // Auto ID CVString GUID // ID de Llamada de Conferencia CVList XIDList; // Lista de conexiones cruzadas GUID } SIPB2BcrossConnect Class SIPB2BcrossConnect { int SelfID // Auto ID int SessionID // De sesión de la cual es un miembro int ViPrLegID // SiPCallLeg conectada a ViPr int UDLegID // Rama conectada a dispositivo de unidifusion. } SIPB2BcallLeg Class SIPB2BcrossConnect { int SelfID Auto ID - regresada por administrador de llamadas int XID // ID de Conexión Cruzada que posee esta rama SipCallLeg ViPrLeg Rama conectada a ViPr SipCallLeg UDLeg Rama conectada dispositivo de unidifusion. } La unidad SBU es estructurada internamente como sigue: Como se puede ver de la figura 3, el diseño para SBU vuelve a usar y extiende la interfaz SIP/Corriente de Medios ofrecida por el Administrador de Llamadas para implementar la lógica de control de llamadas de señalización para UAM.

El siguiente texto presenta el flujo de control cuando el usuario A inicio a una llamada al Usuario_B. En lo siguiente SipServer se refiere a SipServer en UAM, SBU se refiere a SBU en UAM y UMM se refiere a UMM en UAM. Para aclarar el ejemplo más, supóngase lo siguiente : - La red completa es red Ethernet - La dirección IP de VI es 172.19.64.101 - La dirección IP de V2 es 172.19.64.101 - La dirección IP de la interfaz de UAM que está conectada a la nube V1/V2 es 172.19.64.51, la interfaz IP de UAM conectada a la nube UD1 es 169.144.50.100 - la dirección IP de UD1 es 169.144.50.48 - La dirección es representada como n-upla <IpAddress, port> Todas las direcciones y puertos en el ejemplo son ilustrativas, no se requiere que sean fijas sino más bien asignadas por OS. - En el siguiente ejemplo, todos los eventos SIP recibidos por SBU (en UAM) son en realidad recibidos por SipServer y luego pasados a SBU. Sin embargo, el SipServer que recibe el evento y lo pasa a SBU no se muestra por brevedad .

LOC Acción UD1 INVITACION enviada de UD1 a SD1. Esta invitación contiene la dirección < 169.144.50.48, 50000 > para recibir la corriente de UD1 para esta llamada. SBU SBU contiene una llamada entrante Cl. SBU examina la llamada y ve si ésta proviene de un dispositivo de Unidifusión. Después lleva a cabo las siguientes acciones. Extrae la dirección (Usuario_B) del destino final UD1 que está intentando alcanzar. Asigna la dirección <172.19.64.51 , 40002> para la corriente de medios de recepción de VI . Inicia una llamada saliente (C2) al Usuario_B al preguntar al SipServer si se envía una INVITACION al Usuario_B. Esta invitación contiene la dirección <172.19.64.51 , 40002>. También asigna una conexión cruzada sip (XID=1) y une Cl y C2 a XID=1. En este punto la conexión cruzada sip XID=1 Cl y C2 como una llamada de regreso. También almacena XID=1 las llamadas Cl y C2. Esto es para hacer posible recuperar XID de ID de llamada. VI VI recibe una invitación entrante y acepta la llamada al enviar un OK UAM. El OK contiene la dirección <172.19.6 .101 , 10002> para recibir tráfico de la UAM. SBU SBU obtiene OK (evento de aceptación de llamada) en C2. Lleva cabo después las siguientes etapas: Recibe la conexión cruzada (XID=1) de la cual C2 es un miembro . Asigna una dirección para usar de C2. <169.14 .50.100 , 40001> Instruye a SipServer enviar OK en llamada C2. Este OK contiene la dirección <1169.144.50.100 , 4001> para recibir medios provenientes de UD1. Asigna una sesión con ID (por decir, SID=100) . Esta ID de sesión se almacena en la conexión cruzada SIP XID=1. La conexión cruzada SiP cross con XID=1 también se agrega a la lista de la parte de conexiones cruzadas de esta sesión. En este momento, existe sólo una conexión cruzada SIP en la lista . SBU asigna después un canal de medios que se usará para recibir y enviar datos desde UD1 , por decir con CHID=0. SBU asigna un canal de medios que se usará para enviar y recibir datos de VI, por decir CHID-1. SBU luego informa a UMM iniciar canales para enviar y recibir datos de VI y UD1 como sigue: • SBU informa a UMM que el canal = 0 debe usarse para enviar/recibir datos hacia/desde UD1. Esto se hace al preguntar a UMM asociar el canal =0 con el enviar dirección <169.144.50.48, 50000> y recibir dirección <169.144.50.100,40001>. • SBU informa a UMM que el canal = 1 debe ser usado para enviar/recibir datos hacia/desde VI. Esto se hace al preguntar a UMM asociar el canal=0 con canal de envío <172.19.64.101 , 10001> y dirección de recepción <172.19.64.51 , 40002>. - SBU instruye después a la UMM construir una conexión cruzada de medios al informar a la UMM que los canales CID=0 y CID=1 son parte de la misma sesión SID=100. Se debe notar que UMM no es informada (o no le importa) acerca de las llamadas SIP Cl y C2. UD1 Recibie un OK de UAM. Sabe del OK que para enviar medios de audio a la UAM se debe usar la dirección <169.144.50.100, 40001>. Flujo de control para una llamada P2P entre UD1 y VI tabla anterior explica lo que ocurre para una llamada de paso. Lo siguiente es el flujo de control cuando esta llamada se convierte en una llamada de conferencia. En este caso, por decir el Usuario_B conferencia al Usuario_C en V2 en la llamada. Supóngase además lo siguiente: - La dirección IP de V2 es 171.19.64.102. # Loe Acción 6 VI VI # envía una INVITACION al huésped de conferencia H (en VI) para iniciar conferencia. La INVITACION contiene la dirección IP de multidifusión <239.192.64.101 , 1002> en la cual VI multidifundiría su corriente de audio. 7 H El huésped obtiene una INVITACION para iniciar una llamada de conferencia. Envía un OK de regreso a VI . H también construye una ID globalmente única para esta llamada de conferencia. (Por decir, GUID-900) . 8 VI Se refiere a UAM en la conferencia (con reemplazos=C2) . 9 H Envía una INVITACION a UAM con la siguiente información: GUID=900 Reemplaza=Cl Información de corriente para VI (Usuario_B) <239.192.64.101, 10002> 10 SBU Al obtener la invitación para una llamada de conferencia (C3) SBU lleva a cabo lo siguiente: Observa la ID de reemplazo ID=C2. Conoce entonces que VI quiere llevar POTS1 (UD1) a la conferencia GUID=100. Retira la conexión cruzada SIP XID=1 de C2. Retira la DI de sesión de la conexión cruzada Sip, SID=100. Y ajusta el miembro DUID de la sesión a GUID=900. Ajusta el GUID en la conexión cruzada Sip XID=1 a GUID=100. Libera la conexión SIP C2 al informar al SipServer enviar bye en C . Remueve C2 de la conexión cruzada SIP XID?1 y la reemplaza con C3. También ajusta la conexión cruzada SIP ID en C3 a XID=1. También ajusta al miembro de XID dentro de C3 a punto a XID=1. Asigna la dirección <239.192.6 .51 , 40003> para transmitir datos a nombre de UD1. Informa a UMM borrar el canal CID=1. De esta manera UMM detendrá ahora la transmisión de medios a la dirección <172.19.6 .101 , 10001> y detendrá la recepción de medios en la dirección <172.19.64.51 , 40002>. Envía un OK de regreso al huésped. El OK contiene información que todo mundo en la conferencia debe enviar a corrientes de medios de recepción desde POTS1 (UD1) en la dirección <239.192.64.51 , 40003>.

SBU después instruye a UMM establecer las corrientes de audio correctas para la conferencia (GUID=900) con VI y UD1 presentes como participantes como sigue: • SBU informa que el canal=2 debe ser usado para enviar/recibir datos hacia/desde VI. De esta manera el canal=2 está asociado con la dirección de envío <239.192.6 .51 , 40003> y dirección de recepción <239.192.64.101 , 10002>. • SBU informa a UMM asociar el canal=2 con la sesión SID=100. •SBU informa al UMM ajustar el campo de dirección de retransmisión para el canal=0 <239.192.6 .51 , 4003> Se debe hacer notar de nuevo que UMM no está consiente de la presencia de las llamadas SIP Cl y C3, como tampoco sabe que hay una llamada de conferencia con GUID=900. Internamente, la UMM en realidad no ve la dirección de envío en el canal=2 para relevar datos de UD1 a conferencia. Más bien, ve en la dirección de retransmisión el ID de canal=2. 11 Anfitrión Obtiene OK de UAMD. Envía una RE-INVITACION a VI indicando la presencia de la corriente del Usuario_A en <239.192.64.51 , 40003>. 12 VI Se refiere al Usuario_C en V2 en la conferencia. 13 H Envía una INVITACION a V2 indicando la presencia de correintes del Usuario_A en y el Usuario_B. 14 V2 V2 envía un OK. El OK contiene la dirección IP de multidifusión <239.192.64.102, 20001> en la cual VI debe multitransmitir su corriente de audio. En este punto, el Usuario_C puede empezar a escuchar audio proveniente del Usuario_A y Usuario_B al registrarse en direcciones de multidifusión adecuadas. 15 H Envía una RE-INVITACION a VI y UAMD indicando la presencia de un nuevo participante Usuario_C que envía audio en <239.192.64.102 , 2001> 16 VI Obtiene una RE-INVITACION y ve esa parte Usuario_C que está ahora en la llamada. Envía un OK de regreso a H. 17 Envía una RE-INVITACION y ve que una nueva parte Usuario_C también está en llamada de conferencia con GUID=900. Lleva a cabo después las siguientes etapas: Envía un OK de regreso al huésped a través del servidor sip. Asigna un canal de medios CID=3 para recibir tráfico del Usuario_C . Informa a la UMM unirse a medios provenientes del Usuario_C en la llamada de conferencia identificada por GUID=900 como sigue : • La SBU informa a la UMM que el cnal=3 debe ser usado para enviar/recibir datos hacia/desde (Usuario_C) en V2. Así, el canal=3 está asociado con la dirección de envío <239.192.64.51 , 40003> y la dirección de recepción <239.192.64.102 , 20001>. • SBU informa a UMM asociar el canal=2 con la sesión SID=100. Se debe notar nuevamente que todas las UMM saben que hay tres canales (CID=0, 2 y 3) los cuales pertenecen todos a la misma sesión. UMM sabe que CID=2 y 3 son corrientes para teléfono ViPr y CID=0 son de un dispositivo de unidifusión. De esta manera, UMM lee los datos de multidifusión de los canales CID=2 <239.192.64.102 , 20001> y CID=3 <239.192.64.101, 10002>) los mezcla y los envía en el canal = 0<169.144.50.48 , 5000>. Asimismo los datos leídos del canal CID=0 son retransmitidos en la dirección de retransmisión asociada con CID=0 <239.192.64.5, 40003>. Los detalles de cómo la UMM lleva a cabo este mezclado adecuado están en una sesión diferente. 18 H Obtiene el OK para la RE-INVITACION enviada en la etapa 16. La llamada de conferencia está ahora en activo. Iniciar una conferencia con un usuario en un dispositivo de unidifusión Para añadir otro usuario ViPr a la conferencia, s repiten las etapas 12 a 18. Considérense las etapas que s requieren para otro usuario de Dispositivo de Unidifusión decir Usuario_D en P0TS2. Supóngase lo siguiente: - El usuario_C en V2 de ViPr decide conferenciar Usuario_D en P0TS2 a la conferencia. # Loe Acción 19 V2 Se refiere a Usuario_D en POTS2 en la conferencia 20 H Envía una invitación UAM con la siguiente información: Usuario_A, Usuario_B y Usuario_C llaman junto con las direcciones en las cuales se están generando corrientes de medios . GUID=900. 21 SBU Obtiene una solicitud para una llamada de conferencia entrante (C4) con GUID = 900 A dirección = Dirección de Usuario_D Después lleva a cabo las siguientes tareas: Asigna una conexión cruzada en SIP con DI, XID=2. Añade C4 a la conexión cruzada sip XID=2. También ajusta al miembro de XID dentro de ese cuadro a XID=2. Busca en todas las estructuras de sesión para ver si hay una sesión con GUID = 900. Encuentra que una sesión con ID=100 está asociada con esta llamada de conferencia. Después añade la conexión cruzada SIP con XID=2, a la lista de conexiones cruzadas unidas a la sesión SID=100. En este punto hay dos conexiones cruzadas SIP (XID=1 y XID=2) las cuales son parte de la sesión SIP SID=100. También almacena información dentro de la conexión cruzada XID=2, para indicar que está asociada con la sesión=100. Asigna una dirección <169.144.50.51 , 40011> para recibir tráfico del Usuario_D. Asigna un canal de medios CHID=4 para recibir tráfico proveniente del Usuario_D. Invita a una conexión C5 al enviar una invitación a UD1 para el Usuario_D. La invitación contiene la información de que UD1 debe enviar corrientes de medios de audio para esta llamada en <169.144.50.51 , 40004> Añade C5 a la conexión cruzada SIP de XID=2. De esta manera XID=2 se está conectando ahora a CID=4 y CID=5 como llamadas SIP de espalda con espalda. También establece al miembro XID de C5 en XID=2.

UD1 Recibe invitación de UAM y envía de regreso un OK a UAM. Indica en el OK que la dirección en la cual deben ser enviados datos para llamada C5 es <169.144.50.48, 50002> SBU Recibe OK de UAM para C5. Después lleva a cabo las siguientes etapas : Recupera la conexión cruzada sip de la cual C5 es un miembro, XID=2. Recupera la sesión de la conexión cruzada sip, SID=100. Después asigna una dirección <239.192.64.51 , 40012> para relevar datos recibidos en Usuario_B en la conferencia, GUID=900. Después envía un OK al huésped indicando que el Usuario_D podría generar tráfico en <239.192.64.51 , 40012>. Después asigna canales para recibir tráfico de Usuario_A (CHID=5), Usuario_B (CHID=6) y (CHID=7) . Después pregunta a UMM añadir el Usuario_D en la conferencia como sigue: • SBU informa a UMM que el canal = 4 debe usarse para enviar/recibir datos hacia/desde Usuario_D. De esta manera canal=3 es asociado con canal de envío <169.144.50.51 , 40011> y dirección de recepción <169.144.50.48, 50002>. La SBU también informa a la UMM establecer la dirección de retransmisión de CHID=4 a <239.192.64.51 , 40012>. • SBU informa a UMM que el canal=5, 6 y 7 deben ser usados para intercambiar tráfico con Usuario_A, Usuario_B y Usuario_C. La siguiente información es provista para estos canales. CHID=5 [Rx = <239.192.64.102, 20001>, Tx= <239.192.64.51 , 40012> CHID=6 [Rx = <239.192.64.101, 10001>, Tx=<239.192.64.51 , 40012> CHID=7 [Rx=«239.192.64.51, 40012>, Tx=<239.192.64.51 , 40012> • SBU informa a UMM asociar el canal =4, 5, 6, 7 con la sesión SID=100. {Favor de notar que CHID=5 la información para recibir paquetes del Usuario_A es la misma que la que está presente en CHID=2 y parecería un desperdicio y problemático pero esto tiene de hecho un efecto deseable de o requerir ningún cambio en el anunciador de llamadas y también elimina necesidades de mantener registros en SBU. Lo mismo aplica para CHID=3 y CHID=6. La UMM nunca recibiría nada en CHID=7 porque las multidifusiones no son recibidas por el huésped que las transmitió . } En la UMM hay dos canales CHID=2 y 5 los cuales se refieren a la misma dirección de multidifusión de recepción, ahora ya que ambos canales pertenecen a la misma sesión=100, no es un problema. Ya que la UMM no leerá paquetes de canales duplicados. Sin embargo, si el canal=2 es borrado entonces la UMM irá a leer paquetes de CHID=5.

H El huésped recibe el OK en C5 (proveniente de la UAM) con información añadida para recibir corrientes del usuario del Usuario_D. Envía una re-invitación al Usuario_A, Usuario_B y Usuario_C indicando la presencia de una nueva corriente proveniente del Usuario_D.

SBU Obtiene una reinvitación en C3 que indica la presencia de otro Usuario_D que transmite en la dirección de multidifusión -<239.192.64.51, 40012> Después lleva a cabo las siguientes tareas: -Envía un OK de regreso al huésped en C3 a través del servidor sip. Recupera la conexión cruzada sip de la cual C3 es un miembro, XID=1. Recupera la sesión SID=100 de la conexión cruzada sip XID=1. Asigna CHID=8 canal para recibir audio proveniente del Usuario_D. Después instruye a la UMM recibir ymezclr tráfico proveniente del Usuario_D en la sesión SID=100: Como sigue: La SBU informa a la UMM que el canal=8 debe ser usado para enviar/recibir datos hacia/desde el Usuario_D. De esta manera el canal=8 es asociado con la dirección de envío y dirección de recepción <239.192.64.51 , 40012>. La SBU también establece el ID de recepción para el canal CHID=8 a SID=100. [NOTA: Ya que la UAMD programa los paquetes IP para nunca recibir paquetes que haya transmitido en una dirección de multidifusión, no se recibiría tráfico en CHID=8. Lo cual es exactamente ¾g que se desea] . 26 VI y V2 Envía un OK para reinvitar a la invitación por el huésped. 27 H Recibe OK de todos los participantes, la llamada de conferencia tiene ahora 4 partes en la llamada. Dos de las cuales son dispositivos de unidifusión. Flujo de control para agregar segundo usuario de unidifusión a una conferencia La UMM implementa la funcionalidad para conectar en forma cruzada corrientes de medios así como implementar la funcionalidad de mezclado de audio.

Escenario de Instalación 1: En referencia a la figura 4, este escenario cubre dos casos: Un usuario de ViPr en una conferencia de audio/video ViPr de varias partes agrega un usuario de teléfono de sólo audio de unidifusión a la conferencia: En este caso, los usuarios ViPr en una conferencia ViPr de varias partes deciden agregar un usuario de teléfono de unidifusión a la conferencia. Como resultado, uno de los participantes inicia una llamada al número telefónico de destino. El servidor SIP de ViPr redirige la llamada a la UAM de ViPr. La UAM del ViPr termina la llamada de sólo audio ViPr y establece una llamada de regreso al teléfono de destino por medio de la puerta de telefonía. Una vez que la llamada se establece, la UAM de la ViPr convierte la corriente de audio G.711/G.722 de unidifusión recibida del teléfono en una corriente PMP/Multidifusión y la reenvía a las terminales ViPr sin ninguna transcodificación. Por otro lado, la UAM del ViPr lleva a cabo la transcodificación y mezcla de las corrientes de audio ViPr PCM de 16bit/16KHz de ancho de banda recibidas de las diferentes terminales ViPr en una corriente de audio de unidifusión G.711 o G.722 y las reenvía al destino telefónico . Un usuario ViPr en una conferencia de sólo audio punto a punto con un usuario telefónico que agrega otro usuario ViPr a la conferencia: En este caso, un usuario ViPr (VI) en una llamada de sólo audio de punto a punto con un usuario telefónico (T) decide agregar otro usuario ViPr (V2) a la conferencia. Como resultado, el usuario de ViPr VI inicia una llamada de audio/video al usuario ViPr de destino V2. El sistema ViPr fragmenta la llamada punto a punto establecida entre VI y la UAM del ViPr y reestablece una llamada de PMP/multidifusión entre VI, V2 y la UAM del ViPr.

La UAM del ViPr concluye la nueva llamada de audio/video ViPr y la puentea a la llamada telefónica de retorno ya establecida. A lo largo de este proceso, la llamada telefónica permanece activa y la conmutación es transparente para el usuario del teléfono. Una vez que la llamada se establece, la UAM de la ViPr convierte la corriente de audio G.711/G.722 de unidifusión recibida del teléfono en una corriente PM/multidifusión y la reenvía a las terminales ViPr sin ninguna transcodificación. Por otro lado, la UAM de ViPr lleva a cabo la transcodificación y mezclado de las corrientes de audio PCM ViPr de ancho de banda de 16bit/16KHz recibidas de las diferentes terminales ViPr en una corriente de audio de unidifusión G.711 o G.722 y la reenvía al destino telefónico. ViPr usa Protocolo de Inicio de Sesión (SIP) como un medio para establecer, modificar y eliminar sesiones de varias corrientes y muchos medios. La UAM agregará capacidades de conferencia entre las terminales ViPr y usuarios telefónicos (es decir, PSTN, Teléfonos móviles y teléfonos SIP) al convertir las corrientes unidifundidas de teléfonos de sólo voz en corrientes de punto a varios puntos (es decir, PMP-SVC o IP multidifusión) y al convertir corrientes de audio PMP/multidifusión ViPr corriente abajo en corrientes de sólo voz telefónicas de unidifusión así como llevar a cabo la transcodificación de audio corriente debajo de audio ViPr de ancho de banda 16bit/16KHz de codificación a G.711 o G.722.

Escenario de Instalación 2 : En referencia a las figuras 5a-5b, este escenario cubre dos casos: Un usuario de teléfono llama a un usuario de ViPr: En este caso, un usuario de teléfono inicia una llamada (sólo audio) a un usuario ViPr. La puerta de telefonía redirige la llamada a la UAM de ViPr. La UAM de ViPr concluye la llamada telefónica y establece una llamada de sólo audio ViPr de regreso a la terminal ViPr de destino. Una vez que la llamada se establece, la UAM del ViPr reenvía la corriente de audio G.711/G.722 recibida del teléfono a la terminal ViPr sin ninguna transcodificación. Por otro lado, la UAM de ViPr lleva a cabo la transcodificación de la corriente de audio ViPr del ancho de banda 16bit/16KHz PCM a G.711 o G.722 y la reenvía a otro destino de teléfono. Un usuario ViPr llama a un usuario de teléfono: En este caso, un usuario de ViPr inicia una llamada a un usuario de teléfono. El servidor SIP del ViPr redirige la- llamada a la UAM de ViPr. La UAM del ViPr termina la llamada de sólo audio de ViPr y establece una llamada PSTN de regreso al teléfono de destino por medio de la puerta de telefonía. La transcodificación se lleva a cabo de la misma manera que la descrita en el párrafo anterior. La figura 6 da un contexto de uso típico para UAM. Las características provistas por la UAM son las siguientes.

Característica 1 Digamos que ViPr V2 y V2 están en llamada punto a punto y quieren involucrarse en un dispositivo de unidifusión UDl en una llamada de conferencia. Dicho en otras palabras el intento es el de formar una llamada de conferencia con UDl, VI y V2 en conferencia. Digamos que el usuario en VI solicita que el usuario en UDl sea unido en la llamada de conferencia con VI y V2 como otras partes. Esta solicitud es reenviada por uno de los servidores SIP al UAM.

La UAM lleva a cabo después las siguientes tareas: - Une la llamada de conferencia a nombre de UDl. Llámese esta llamada de conferencia Cl. - También hace una llamada punto a punto con el dispositivo. Llámese esta llamada de conferencia C2. - Releva datos de audio recibidos en C2 a Cl . - Acepta los datos de audio provenientes de las partes VI y V2 en la llamada C2 , mezcla y reenvía estos datos a UD.

Característica 2 Considérese el caso en el que la red vipr en la figura anterior sea ATM y UD-net sea una red IP. También, supóngase que se desee que al mayor grado posible sólo los SVCs se usen sobre la red ATM para audio en lugar de LA E/CLIP. Esto sería por preocupaciones de seguridad o por aspectos de rendimiento. En este caso, si un VI de ViPr en la red vipr desea involucrar un dispositivo de unidifusión (UDl) en una conversación de audio, esa UAM se usa para proporcionar funcionalidad para usar SVC en la red ATM e IP en la red IP. Para hacer esto todas las llamadas de VI a UDl son fragmentadas en dos llamadas de VI a UAMD y de UAMD a V2. La configuración requerida para las características soportadas por UAM pueden fragmentarse en las siguientes categorías : - Configuración para ViPr a llamadas UD - Configuración para UD a llamadas ViPr - Configuración general Configuración General La B2BUA SIP UA se hace correr en cualquier puerto deseado (que no sea 5060) . Esto se hace al modificar el archivo Vipr.ini para incluir el siguiente parámetro: SIP_Port=7070 [cualquier número de puerto válido] Configuración para ViPr a llamadas UD Para una llamada ViPr típica cuando un usuario marca un "número" su "solicitud de llamada" es enviada al servidor SIP el cual después la reenvía a los destinos adecuados. Sin embargo, este caso es diferente. En este caso, cuando un usuario dice quiero hablarse al dispositivo de unidifusión (UDl) el servidor SIP reenvía la solicitud al UAM. Además, también pone información en la solicitud para identificar que esta llamada debe ser reenviada a UDl. Así, el servidor SIP es programado para enrutar las llamadas hechas a las SIP-URIs a las que les da servicio los dispositivos UAM al servidor UAMD adecuado. También es posible especificar una dirección SIP para dispositivo de unidifusión por omisión a la cual enviar todas las llamadas recibidas por la UAM. Esta dirección de omisión se puede especificar en el archivo vipr.ini al agregar las siguientes líneas: UD_SERVER_ADDRESS=169.44.50.48 X_FORWARD_AVAILABLE=0 Se debe notar que cuando una llamada se hace de un dispositivo a un ViPr, la llamada tiene que ser suministrada a la UAM. Para hacer esto, la configuración adecuada se lleva a cabo en el dispositivo, favor de referirse a la documentación específica para el dispositivo de unidifusión para esto.

Configuración para UD a llamada ViPr Las llamadas que se originan en la UD para una ViPr son enrutadas a la UAM. Una forma de lograr esto es al programar la UD para dirigir/reenviar todas las llamadas a la UAM. Asimismo, el destino eventual de las llamadas (por decir VI) es especificado en la solicitud de llamada a UAM. Típicamente, esta dirección será el campo Para en el mensaje SIP. Estas configuraciones se llevan a cabo en la UD o el servidor SIP. Además, cuando la UAM recibe llamada de una UD, la reenvía a un servidor Marshall de puerta para llevar a cabo revisiones de sanidad en la parte llamada. Esta dirección de puerta puede ser especificada en el archivo vipr.ini GatewayMarshallServer=sip . eng. fore . com: 5065.

Lista de Acrónimos ATM Modo de Transferencia Asincrono ISDN Red Digital de Servicios Integrados IP Protocolo de Internet LAN Red de Área Local MC Multidifusión (IP) MCMU Conexión Cruzada y Mezclador de Medios MCU Unidad de Conferencia de Medios PBX Intercambio de Rama Privada (tablero de conmutación de teléfonos privados) PCM Modulación por Código de Pulsos PMP Punto a Varios Puntos (ATM) POTS "Sistema Telefónico Viejo Simple" PRI Interfaz de Velocidad Primaria (ISDN) PSTN Red Telefónica Conmutada Pública SBU Agente de Usuario de Regreso SIP SIP Protocolo de Inicio de Sesión SVC Circuito Virtual Conmutado (ATM) UAM Mezclador de Audio de Unidifusion ViPr™ Sistema de Presencia Virtual WAN Red de Área Amplia Aunque la invención ha sido descrita en detalle en las modalidades anteriores con motivos de ilustración, se debe entender que ese detalle es únicamente para ese propósito y que pueden hacerse variaciones a la misma por aquellos expertos en la técnica sin alejarse del espíritu y alcance de la invención excepto por lo que puede describirse en las siguientes reivindicaciones. Se hace constar que con relación a esta fecha, el mejor método conocido por la solicitante para llevar a la práctica la citada invención, es el que resulta claro de la presente descripción de la invención.

Claims

REIVINDICACIONES Habiéndose descrito la invención como antecede, se reclama como propiedad lo contenido en las siguientes reivindicaciones : 1. Un sistema de teleconferencia caracterizado porque comprende : una red y una pluralidad de nodos que se comunican entre sí a través de la red con corrientes de audio de habla en vivo que los nodos transmiten entre sí para formar la conferencia, cada nodo es capaz de detectar un estado de sobrecarga en donde hay más de un número predeterminado de corrientes de audio de habla en vivo simultáneas que están siendo transmitidas por los nodos y junto con los demás nodos controlar el número de corrientes de audio que estén siendo transmitidas simultáneamente para concluir el estado de sobrecarga .
2. El sistema de conformidad con la reivindicación 1, caracterizado porque cada nodo determina si debe dejar de transmitir su corriente de audio cuando el estado de sobrecarga se detecte con base en la corriente de audio que transmita y las corrientes de audio transmitidas por los demás nodos .
3. El sistema de conformidad con la reivindicación 2, caracterizado porque cada nodo llega a la misma decisión independientemente de los demás nodos con respecto al estado de sobrecarga sin ningún mensaje de sincronización proveniente de la red.
4. El sistema de conformidad con la reivindicación 3, caracterizado porque cada nodo es un videoteléfono.
5. El sistema de conformidad con la reivindicación 4, caracterizado porque hay al menos tres nodos.
6. El sistema de conformidad con la reivindicación 5, caracterizado porque hay al menos diez nodos.
7. Un método que proporciona una teleconferencia, caracterizado porque comprende las etapas de: una pluralidad de nodos que se comunican unos con otros a través de una red con corrientes de audio de habla en vivo que los nodos transmiten entre sí para formar la conferencia; detectar por cada nodo un estado de sobrecarga cuando haya más de un número predeterminado de corrientes de audio de habla en vivo simultáneas que estén siendo transmitidas por los nodos y controlar el número de corrientes de audio que estén siendo transmitidas simultáneamente para concluir el estado de sobrecarga.
8. El método de conformidad con la reivindicación 7, caracterizado porque la etapa de control incluye una etapa de controlar el número de corrientes de audio que estén siendo transmitidas simultáneamente, y el estado de sobrecarga con cada una de los nodos .
9. El método de conformidad con la reivindicación 8, caracterizado porque la etapa de control incluye la etapa de que cada nodo determine si debe dejar de transmitir su corriente de audio cuando se detecte el estado de sobrecarga con base en la corriente de audio que transmite y las corrientes de audio transmitidas por los demás nodos.
10. El método de conformidad con la reivindicación 9, caracterizado porque la etapa de control incluye la etapa de que cada nodo llegue a la misma decisión independientemente de los nodos con respecto al estado de sobrecarga sin ningún mensaje de sincronización proveniente de la red.
11. El método de conformidad con la reivindicación 10, caracterizado porque hay al menos tres nodos.
12. El método de conformidad con la reivindicación 11, caracterizado porque hay al menos diez nodos.
13. El método de conformidad con la reivindicación 12, caracterizado porque incluye la etapa de permitir que los nodos que tengan las corrientes de audio más recientes de habla transmitidas continúen transmitiendo sus corrientes de audio .
14. El método de conformidad con la reivindicación 13, caracterizado porque la etapa de permisión incluye una etapa de calificar cada nodo, con los nodos que tengan la puntuación más alta continuando su transmisión.
15. El método de conformidad con la reivindicación 14, caracterizado porque la etapa de calificación incluye la etapa de usar un conteo de los paquetes de audio para cada parte dentro de los últimos 60 segundos para determinar la puntuación .
16. Un nodo de teleconferencia para una red con otros nodos, caracterizado porque comprende: una ínterfaz de red que se comunica con los demás nodos para formar una conferencia de habla en vivo y un controlador que detecta un estado de sobrecarga cuando hay más de un número predeterminado de corrientes de audio simultáneas de habla en vivo que están siendo transmitidas por los nodos y junto con los demás nodos controla el número de corrientes de audio que están siendo transmitidas simultáneamente para concluir el estado de sobrecarga .
17. El nodo de conformidad con la reivindicación 16, caracterizado porque incluye un altavoz para reproducir las corrientes de audio y un receptor de audio para recibir habla .
18. El nodo de conformidad con la reivindicación 17, caracterizado porque incluye un dispositivo de formación de imágenes para capturar imágenes en vivo .