MXPA02002812A

MXPA02002812A - Metodo y dispositivo para distinguir entre conversacion de voz y reconocimiento automatico.

Info

Publication number: MXPA02002812A
Application number: MXPA02002812A
Authority: MX
Inventors: Odinak Gilad
Original assignee: Intellisist Llc
Priority date: 2001-03-29
Filing date: 2002-03-14
Publication date: 2005-10-05
Also published as: WO2002080145A1; CA2378540C; US7392191B2; EP1386309A1; US20020143552A1; EP1386309A4; US20080140418A1; CA2378540A1

Abstract

Un metodo y dispositivo para ejecutar algun procesamiento previo sobre transmisiones de voz dependiendo del destino pretendido de la transmision. El dispositivo incluye un componente receptor configurado para recibir una senal de voz a partir de una fuente sobre una red. El dispositivo incluye tambien un componente de procesamiento configurado para determinar una direccion de destino asociada con la senal recibida, determinar un algoritmo de procesamiento de senal a partir de una pluralidad de algoritmos de procesamiento de senal en base a la direccion determinada, y procesar la senal de voz de acuerdo con el algoritmo especificado. El dispositivo incluye ademas un componente de suministro configurado para enviar la senal procesada hacia la direccion asociada.

Description

MÉTODO Y DISPOSITIVO PARA DISTINGUIR ENTRE CONVERSACIÓN DE VOZ Y RECONOCIMIENTO AUTOMATICO DEL HABLA.

RECLAMACIÓN DE PRIORIDAD.

Esta solicitud reclama la prioridad de las Solicitudes Provisionales de los Estados Unidos de Norteamérica presentadas el 29 de Marzo del 2001, de Número de Serie 60/280,377, Número de Referencia del Apoderado WING-1-1002, y el 2 de Abril del 2001, de Número de Serie 60/278,454, de Número de Referencia del Apoderado WING-1-1006, y la Solicitud No Provisional de los Estados Unidos de Norteamérica presentada el 16 de Junio del 2001, de Número de Serie 09/884,902, Número de Referencia del Apoderado WING-1015.

ANTECEDENTES.

La transmisión de voz sobre una red inalámbrica digital involucra la captura de ondas sonoras utilizando un micrófono y convirtiéndolas en señales eléctricas y después en datos binarios. El proceso comprende el muestreo, digitalización y otros procesaos de señal digital en la unidad receptora (por ejemplo, módulo telemático o teléfono celular).

Existe una diferencia fundamente al entre la forma en que los seres humanos procesan la entrada audible y la forma en que los servidores de reconocimiento de voz automatizada (ASR) procesan la entrada de voz. Por tanto, diferentes algoritmos para la señal de procesamiento deben utilizarse. Sin embargo, en las aplicaciones actuales, se utiliza un proceso de compromiso individual, con las ineficiencias resultantes.

BREVE DESCRIPCIÓN.

La presente invención proporciona un método y dispositivo en base a computadora para ejecutar el procesamiento previo sobre transmisiones de voz que dependen del destino de la transmisión pretendida. El dispositivo incluye un componente receptor configurado para recibir una señal de voz desde una fuente sobre una red. Se incluye también un componente de procesamiento configurado para determinar una dirección de destino asociada con la señal recibida, determinar un algoritmo de procesamiento de señal a partir de una pluralidad de algoritmos de procesamiento de señal en base a la dirección de destino, y procesar la señal de voz de acuerdo con el algoritmo especificado. El dispositivo incluye además un componente de suministro configurado para enviar la señal procesada hacia la dirección asociada. De acuerdo con otros aspectos de la invención, el dispositivo incluye también la memoria configurada para almacenar direcciones con un algoritmo de procesamiento de señal asociada, en donde el componente de procesamiento se encuentra en la memoria un algoritmo de procesamiento de señal que está asociado con la dirección de destino determinada. De acuerdo con otros aspectos adicionales de la invención, el dispositivo incluye un componente de alerta configurado para alertar al receptor de que la señal de voz es desde un sistema en base a computadora, si la fuente es un sistema en base a computadora. De acuerdo con otro aspecto más de la invención, el dispositivo en base a computadora incluye cuatro componentes adicionales utilizados para facilitar la presente invención: un primer componente configurado para seleccionar una dirección para una transmisión de voz; un segundó componente configurado para recibir una fonación introducida para la transmisión de voz; un tercer componente configurado para procesar la fonación recibida de acuerdo con un algoritmo asociado con un dispositivo de reconocimiento de voz (si la dirección seleccionada está asociada con un dispositivo de reconocimiento de voz) y enviar la fonación procesada hacia el destino seleccionado; y un cuarto componente configurado para enviar la fonación recibida hacia el destino seleccionado de acuerdo con un método de suministros asociado con los receptores humanos (sí la dirección seleccionada no está asociada con un dispositivo de reconocimiento de voz). De acuerdo con aspectos adicionales de la invención, un dispositivo en base a computadora incluye cuatro componentes adicionales utilizados para facilitar la presente invención: un primer componente configurado para procesar una fonación en una fuente para recepción mediante un receptor humano; un segundo componente configurado para enviar la fonación procesada hacia un destino de acuerdo con una dirección asociada con la fonación; un tercer componente configurado para recibir una señal de cambio desde el destino; y un cuarto componente configurado para procesar una siguiente fonación para recepción mediante un servidor de reconocimiento de voz de acuerdo con una señal de cambio recibida, y enviar la fonación recién procesada hacia el destino. Como se apreciará más fácilmente a partir de la breve descripción anterior, la invención proporciona un método y dispositivo para mejorar las transmisiones de voz al ejecutar algún procesamiento previo sobre las transmisiones de voz dependiendo del destino deseado, y para proporcionar receptores con información de identificación de quien llama si la transmisión es generada por computadora.

BREVE DESCRIPCIÓN DE LOS DIBUJOS.

Las modalidades preferidas y alternativas de la presente invención se describen en detalle a continuación con referencia a los siguientes dibujos.

La figura 1 es un diagrama que ilustra un sistema de muestra para recibir y procesar señales de transmisión de voz sobre una red inalámbrica de acuerdo con la presente invención; La figura 2 es un diagrama de flujo que ilustra la operación de la presente invención; La figura 3 es un diagrama de flujo que ilustra un aspecto alternativo de la presente invención; y Las figuras 4-5 son diagramas de flujo que ilustran aspectos alternativos de la presente invención.

DESCRIPCIÓN DETALLADA DE LA MODALIDAD PREFERIDA.

La presente invención proporciona un método y dispositivo para determinar el destino de una señal de transmisión de voz y aplicar un algoritmo de procesamiento de señal de datos apropiados en base al destino determinado. El mismo sistema proporciona también un método para distinguir entre las llamadas entrantes enviadas desde un servidor o desde un ser humano a fin de notificar a la persona que recibe la llamada que se está enviando una llamada no solicitada. A manera de revisión y con referencia a la figura 1, la presente invención incluye un sistema 10 que comprende un transmisor 12 y una compuerta de distribución 16. El transmisor 12 incluye un teléfono celular o de línea alámbrica, un teléfono de red, otro dispositivo de comunicación o una computadora de generación de voz que genera una señal de sonido de voz para transmisión hacia las unidades finales (usuarios 24 o servidores de reconocimiento de voz 26) sobre una red, tal como una red inalámbrica o una red no inalámbrica primaria (por ejemplo, Internet). La compuerta de distribución 16 incluye un procesador 17, un receptor 18, un transmisor 19 y una base de datos 20. El receptor 18 en la compuerta de distribución 16 es preferiblemente un módulo de comunicación inalámbrico capaz de recibir voz y datos por medio de un enlace de comunicación inalámbrico. El transmisor 19 en la compuerta de distribución 16 es preferiblemente un módulo de comunicación inalámbrico capaz de enviar voz y datos por medio de un enlace de comunicación inalámbrico. La compuerta de distribución 16 está en comunicación con una o más unidades finales de usuario 24 y uno o más servidores dé reconocimiento de voz automatizada (ASR) 26, ya sea directamente o sobre una red (no mostrada). El procesador 17 compara una dirección incluida en la señal de transmisión de voz desde el transmisor 12, tal como una dirección de protocolo de Internet (IP), un número telefónico u otro método de identificación de una llamada entrante, para una tabla de búsqueda almacenada en la base de datos 20 El procesador aplica uno de un número de algoritmos de procesamiento de señal dependiendo de los resultados de la comparación. Debido a que existe una diferencia fundamental entre la forma en que los humanos procesan la entrada audible y la forma en que los servidores ASR procesan la entrada de voz, se aplican diferentes algoritmos a la señal de transmisión de voz para optimizar el beneficio para el destino determinado. Por ejemplo, si el destino es un servidor ASR 26, el algoritmo convierte la transmisión a forma digital (en caso de que no esté ya en formato digital) y ejecuta otro procesamiento de señal digital que beneficia el proceso que ejecutará el servidor ASR. Haciendo referencia ahora a la figura 2, una rutina ilustrativa 30 para la operación de la presente invención será descrita. En el bloque 32, la compuerta de distribución 16 recibe una señal de transmisión de voz. Comúnmente, la señal de transmisión de voz incluye una voz humana o voz generada por una computadora. En el bloque 34, el procesador 17 busca la información en la base de datos 20 que corresponde a una dirección de destino o número telefónico incluido en ja señal de transmisión de voz. La base de datos incluye una tabla de números telefónicos o una tabla de direcciones IP de destinos (unidades finales de usuario 24 y servidores 26) que están asociadas con cada algoritmo. Una dirección IP es especificada por el protocolo de Internet e identifica en forma única una computadora sobre la Internet. El procesador 17 determina que algoritmos (identificado como el algoritmo asociado) se utiliza para la optimización dependiendo de la dirección IP de destino de la transmisión de voz recibida. Por lo tanto, cuando se establece una llamada hacia uno de los números asociados con un servidor ASR, el procesador selecciona el algoritmo optimizado para un servidor ASR. De otra manera, el procesador selecciona el algoritmo para la conversación de voz en una unidad de usuario final 24.

En el bloque de decisión 36, el procesador 17 determina si el número de destino asociado es un servidor ASR 26. Si, en el boque 36, el procesador determina que el número de destino asociado es un servidor ASR 26, entonces, en el boque 38, el procesador procesa la transmisión de voz de acuerdo con el algoritmo de optimización para un servidor ASR y envía la señal de transmisión de voz procesada hacia el destino determinado. Si, en el bloque 36, el procesador determina que el número de destino asociado no es un servidor ASR 26, el procesador procesa la señal de transmisión de voz para medios de audición humanos de acuerdo con un algoritmo de optimización utilizado para producir un resultado más adecuado para un receptor humano. En el bloque 40, el procesador envía la señal de transmisión de voz procesada hacia el destino determinado. La figura 3 es un diagrama de flujo que ilustra una operación del envío de una señal hacia un receptor humano en el bloque 40 de la figura 2. En esta situación, en el bloque 54, el procesador 17 busca la información de identificación de la persona que llama relacionada con el origen de la señal (transmisor 12 en la base de datos 20). En el bloque de decisión 56, el procesador determina el origen de la señal de transmisión de voz mediante la comparación de la dirección de envío incluida en la señal de transmisión de voz hacia una tabla de direcciones IP almacenadas o números telefónicos n la base de datos 20. Por tanto, el procesador distingue entre las llamadas entrantes desde un servidor ASR u otras llamadas. Si, en el bloque 56, el procesador determina que la señal de transmisión de voz originada desde un servidor ASR, la lógica procede hacia el bloque 58, donde la unidad de usuario es informada que la llamada entrante es una señal de transmisión de voz generada por servidor ASR (es decir una petición). Si, en el bloque 56, el procesador determina que el origen no es desde el servidor ASR, entonces la lógica procede hacia el bloque 60, donde la información de identificación de la persona que llama es presentada al usuario. En una modalidad alternativa, las funciones ejecutadas por la compuerta de distribución 16 son ejecutadas en uña unidad de origen de usuario o transmisor 12 o en una unidad final de usuario 24. La unidad de origen de usuario o transmisor 12 es preferiblemente un dispositivo móvil que está implementado en un vehículo. En la unidad de origen de usuario puede ser un dispositivo similar a la unidad final de usuario 24. Las figuras 4 y 5 ilustran diagramas de flujo que presentan dos modalidades para ejecutar algún procesamiento de señal en la unidad de origen de usuario o transmisor 12. En una primera modalidad (figura 4) donde las funciones de compuerta de distribución se ejecutan en la unidad de origen del usuario o transmisor 12, un procesador en la unidad de origen de usuario o transmisor 12 está implícito para procesar una señal de voz de salida con un algoritmo optimizado para suministro hacia un servidor ASR. En el bloque 72, el procesador en la unidad de origen de usuario o transmisor 12 recibe la entrada de voz desde el usuario y una dirección asociada con la entrada de voz. La dirección asociada puede ser registrada por el usuario o generada automáticamente por el procesador en la unidad de origen de usuario o transmisor 12. En el bloque de decisión 74, el procesador en la unidad de origen de usuario o transmisor 12 compara la dirección asociada con la señal de voz introducida para las direcciones (números telefónicos, direcciones IP u otro tipo de direcciones) asociadas con los servidores ASR que están almacenados dentro de una base de datos en la unidad de usuario. Cuando el procesador determina que la dirección asociada corresponde a una dirección almacenada, la voz introducida es procesada de acuerdo con el algoritmo implícito (algoritmo de reconocimiento de voz automatizada) en el bloque 76. De otra manera, la lógica procede hacia el bloque 78, donde el procesador procesa la voz introducida utilizando un algoritmo de comunicación de voz para receptores humanos. En una segunda modalidad (figura 5) donde las funciones del servidor son ejecutadas en la unidad de origen de usuario o transmisor 12, el procesador en la unidad de origen de usuario o transmisor 12 está implícito para procesar una señal de voz de salida con un algoritmo optimizado para conversación de voz (receptor humano) (bloque 90). En el bloque 92, la señal de voz procesada es enviada hacia la dirección asociada con la señal de voz. En el bloque 94, si la señal de voz de salida va hacia un servidor ASR, el servidor ASR envía una señal de regreso hacia la unidad de origen de usuario instruyendo al procesador de la unidad de origen de usuario para que conmute a un algoritmo utilizado para un servidor ASR. Cuando la unidad de origen de usuario recibe una señal para conmutar, La unidad procesa las señales de voz registradas utilizando un algoritmo para un servidor ASR (bloque 96). La señal enviada por el servidor ASR es enviada preferiblemente en frecuencia múltiple de tono doble conocida también como marcación de multifrecuencia, aunque puede también ser enviada en otros formatos. Cuando la señal de voz es procesada en la unidad de origen de usuario o transmisor 12, hay ocasiones cuando el destino conmuta desde un servidor ASR a un receptor humano o desde un receptor humano a un servidor ASR. Un sistema de operados (receptor humano) o servidor ASR informa a la unidad de origen de usuario cuando se ha presentado una conmutación. Una vez que la unidad de origen de usuario ha sido informada de la conmutación, la unidad empieza a procesar de acuerdo con el nuevo receptor. En tanto que la modalidad preferida de la invención se ha ilustrado y descrito, como se observó antes, pueden hacerse muchos cambios sin apartarse del espíritu y alcance de la invención. En consecuencia, el alcance de la invención no está limitado por la descripción de la modalidad preferida. En vez de ello, la invención debe determinarse completamente mediante referencia a las reivindicaciones siguientes.

Claims

REIVINDICACIONES

1. Un método que comprende: recibir una señal de voz desde una fuente sobre una red; determinar un destino asociado con la señal recibida; determinar un algoritmo de procesamiento de señal a partir de una pluralidad de algoritmos de procesamiento de señal en base a la dirección determinada; procesar la señal de voz de acuerdo con el algoritmo determinado; y enviar la señal procesada hacia la dirección asociada.

2. El método de conformidad con la reivindicación 1, caracterizado porque la determinación del algoritmo de procesamiento comprende encontrar en la memoria un algoritmo de procesamiento de señal que esté asociado con la dirección de destino determinada.

3. El método dé conformidad con la reivindicación 1, que comprende además: determinar el origen de la señal de voz, si se determina que el destino es un receptor humano; y si se determina que el origen, es un sistema en base a computadora, alertar al receptor de que la señal de voz es a partir de un sistema en base a computadora.

4. Un método que comprende: seleccionar la dirección para una transmisión de voz;. recibir en una unidad de entrada de usuario la fonación introducida para la transmisión de voz; si la dirección seleccionada está asociada con un dispositivo de reconocimiento de voz, procesar la fonación recibida de acuerdo con un algoritmo asociado con el dispositivo de reconocimiento de voz y enviar la fonación procesada hacia el destino seleccionado; y si la dirección seleccionada no está asociada con un dispositivo de reconocimiento de voz, procesar la fonación recibida hacia el destino seleccionado de acuerdo con un método de suministro asociado con receptores humanos.

5. El método de conformidad con la reivindicación 4, que comprende además: conmutar el destino desde un destino asociado con un receptor humano hacia un destino asociado con un dispositivo de reconocimiento de voz; enviar una señal de conmutación hacia la unidad de entrada de usuario en base al destino conmutado; y enviar la fonación recibida hacia el destino seleccionado de acuerdo con un método de suministro asociado con receptores humanos.

6. El método de conformidad con la reivindicación 4, que comprende además: conmutar el destino de un destino asociado con un dispositivo de reconocimiento de voz a un destino asociado con un receptor humano; enviar una señal de conmutación hacia la unidad de entrada de usuario en base ál destino conmutado; y procesar la fonación recibida de acuerdo con un algoritmo asociado con el dispositivo de reconocimiento de voz y enviar la fonación procesada hacia el destino seleccionado; y

7. Un método que comprende: enviar una señal desde una fuente hacia un destino de conformidad con una dirección asociada con una fonación que va a ser generada; y si el destino es un servidor de reconocimiento de voz, enviar una señal de cambio desde el destino a la fuente, generar una fonación para recepción mediante un servidor de reconocimiento de voz, y enviar la fonación recién procesada, de otra manera generar una fonación en la fuente para recepción mediante un receptor humano.

8. Un dispositivo en base a computadora que comprende: un componente receptor configurado para recibir una señal de voz desde una fuente sobre una red; un componente de procesamiento configurado para determinar una dirección de destino asociada con una señal recibida, determinar un algoritmo de procesamiento de señal a partir de una pluralidad de algoritmos de procesamiento de señal en base a la dirección determinada, y procesar la señal de voz de acuerdo con el algoritmo determinado; y un componente de suministro configurado para enviar la señal procesada hacia la dirección asociada.

9. El dispositivo de conformidad con la reivindicación 8, que comprende además memoria configurada para almacenar direcciones con un algoritmo de procesamiento de señal asociado, en donde el componente de procesamiento encuentra en la memoria un algoritmo de procesamiento de señal que está asociado con la dirección de destino determinada.

10. El dispositivo de conformidad con la reivindicación 8, que comprende además un componente de alerta configurado para alertar al receptor de que la señal de voz es a partir de un sistema en base a computadora, si la fuente es un sistema en base a computadora.

11. Un dispositivo en base a computadora que comprende: un primer componente configurado para seleccionar una dirección para una transmisión de voz; un segundo componente configurado para recibir una fonación introducida para la transmisión de voz; un tercer componente configurado para procesar la fonación recjbida de acuerdo con un algoritmo asociado con un dispositivo de reconocimiento de voz, si la dirección seleccionada está asociada con un dispositivo de reconocimiento de voz y envía la fonación procesada hacia el destino seleccionado; y un cuarto componente configurado para enviar la fonación recibida hacia el destino seleccionado de acuerdo con un método de suministro asociado con receptores humanos, si la dirección seleccionada no está asociada con un dispositivo de reconocimiento de voz.

12. Un dispositivo en base a computadora que comprende: un primer componente configurado para procesar una fuente para recepción mediante un receptor humano; un segundo componente configurado para enviar una fonación procesada hacia un destino de acuerdo con una dirección asociada con la fonación; un tercer componente configurado para recibir una señal de cambio de el destino; y un cuarto componente configurado para procesar la siguiente fonación para recepción mediante un servidor de reconocimiento de voz de acuerdo con una señal de cambio recibida, y enviar la fonación recién procesada hacia el destino.

13. Un aparato que comprende: medios para recibir una señal de voz desde una fuente sobre una red; medios para determinar un destino asociado con la señal recibida; medios para determinar un algoritmo de procesamiento de señal a partir de una pluralidad de algoritmos de procesamiento de señal en base a la dirección determinada; medios para procesar la señal de voz de acuerdo con el algoritmo determinado; y medios para enviar la señal procesada hacia la dirección asociada.

14. Un aparato que comprende: medios para seleccionar una dirección para una transmisión de voz; medios para recibir la fonación introducida para la transmisión de voz; si la dirección seleccionada está asociada con un dispositivo de reconocimiento de voz, medios para procesar la fonación recibida de acuerdo con un algoritmo asociado con el dispositivo de reconocimiento de voz y medios para enviar la fonación procesada hacia el destino seleccionado; y si la dirección seleccionada no está asociada con un dispositivo de reconocimiento de voz, medios para enviar la fonación recibida hacia el destino seleccionado dé acuerdo con un método de suministro asociado con receptores humanos.

15. Un aparato que comprende: medios para procesar una fonación en una fuente para la recepción mediante un receptor humano; medios para enviar la fonación procesada hacia un destino de acuerdo con una dirección asociada con la fonación; y si el destino es un servidor de reconocimiento de voz, medios para enviar una señal de cambio desde el destino a la fuente, medios para procesar una siguiente fonación para recepción mediante un servidor de reconocimiento de voz, y medios para enviar la fonación recién procesada.