MXPA05002133A - Metodo y aparato para mejora del habla multi-sensorial en un dispositivo movil. - Google Patents

Metodo y aparato para mejora del habla multi-sensorial en un dispositivo movil.

Info

Publication number
MXPA05002133A
MXPA05002133A MXPA05002133A MXPA05002133A MXPA05002133A MX PA05002133 A MXPA05002133 A MX PA05002133A MX PA05002133 A MXPA05002133 A MX PA05002133A MX PA05002133 A MXPA05002133 A MX PA05002133A MX PA05002133 A MXPA05002133 A MX PA05002133A
Authority
MX
Mexico
Prior art keywords
signal
sensor
mobile
alternative sensor
proximity
Prior art date
Application number
MXPA05002133A
Other languages
English (en)
Inventor
Zhengyou Zhang
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of MXPA05002133A publication Critical patent/MXPA05002133A/es

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • AHUMAN NECESSITIES
    • A23FOODS OR FOODSTUFFS; TREATMENT THEREOF, NOT COVERED BY OTHER CLASSES
    • A23NMACHINES OR APPARATUS FOR TREATING HARVESTED FRUIT, VEGETABLES OR FLOWER BULBS IN BULK, NOT OTHERWISE PROVIDED FOR; PEELING VEGETABLES OR FRUIT IN BULK; APPARATUS FOR PREPARING ANIMAL FEEDING- STUFFS
    • A23N12/00Machines for cleaning, blanching, drying or roasting fruits or vegetables, e.g. coffee, cocoa, nuts
    • A23N12/02Machines for cleaning, blanching, drying or roasting fruits or vegetables, e.g. coffee, cocoa, nuts for washing or blanching
    • A23N12/023Machines for cleaning, blanching, drying or roasting fruits or vegetables, e.g. coffee, cocoa, nuts for washing or blanching for washing potatoes, apples or similarly shaped vegetables or fruit
    • AHUMAN NECESSITIES
    • A47FURNITURE; DOMESTIC ARTICLES OR APPLIANCES; COFFEE MILLS; SPICE MILLS; SUCTION CLEANERS IN GENERAL
    • A47LDOMESTIC WASHING OR CLEANING; SUCTION CLEANERS IN GENERAL
    • A47L15/00Washing or rinsing machines for crockery or tableware
    • A47L15/0002Washing processes, i.e. machine working principles characterised by phases or operational steps
    • A47L15/0015Washing processes, i.e. machine working principles characterised by phases or operational steps other treatment phases, e.g. steam or sterilizing phase
    • AHUMAN NECESSITIES
    • A47FURNITURE; DOMESTIC ARTICLES OR APPLIANCES; COFFEE MILLS; SPICE MILLS; SUCTION CLEANERS IN GENERAL
    • A47LDOMESTIC WASHING OR CLEANING; SUCTION CLEANERS IN GENERAL
    • A47L15/00Washing or rinsing machines for crockery or tableware
    • A47L15/02Washing or rinsing machines for crockery or tableware with circulation and agitation of the cleaning liquid in the cleaning chamber containing a stationary basket
    • A47L15/13Washing or rinsing machines for crockery or tableware with circulation and agitation of the cleaning liquid in the cleaning chamber containing a stationary basket using sonic or ultrasonic waves
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6008Substation equipment, e.g. for use by subscribers including speech amplifiers in the transmitter circuit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6033Substation equipment, e.g. for use by subscribers including speech amplifiers for providing handsfree use or a loudspeaker mode in telephone sets
    • H04M1/6041Portable telephones adapted for handsfree use
    • H04M1/605Portable telephones adapted for handsfree use involving control of the receiver volume to provide a dual operational mode at close or far distance from the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6016Substation equipment, e.g. for use by subscribers including speech amplifiers in the receiver circuit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/12Details of telephonic subscriber devices including a sensor for measuring a physical value, e.g. temperature or motion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/13Hearing devices using bone conduction transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Otolaryngology (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Chemical & Material Sciences (AREA)
  • Food Science & Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Polymers & Plastics (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Details Of Audible-Bandwidth Transducers (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

Se proporciona un dispositivo movil, el cual incluye una entrada digital que puede ser manipulada por los dedos o pulgar del usuario, un microfono de conduccion de aire y un sensor alternativo que proporciona una senal de sensor alternativa indicativa del habla. En ciertas modalidades, el dispositivo movil tambien incluye un sensor de proximidad que proporciona una senal de proximidad indicativa de la distancia desde el dispositivo movil al objeto. En ciertas modalidades, la senal desde el microfono de conduccion de aire, la senal del sensor alternativa y la senal de proximidad se utilizan para formar un calculo de un valor de habla claro. En otras modalidades, un sonido se produce a traves de una bocina en el dispositivo movil con base en la cantidad de ruido en el valor de habla clara. En otras modalidades, el sonido producido a traves de la bocina esta con base en la senal del sensor de proximidad.

Description

MÉTODO Y APARATO PARA MEJORA DEL HABLA MULTI SENSORIAL EN UN DISPOSITIVO MÓVIL CAMPO DE LA INVENCIÓN La presente invención se relaciona con la reducción de ruido.
En particular, la presente invención se relaciona con retirar el ruido de señales de habla recibidas por dispositivos manuales móviles.
ANTECEDENTES DE LA INVENCIÓN Los dispositivos manuales móviles como los teléfonos móviles y asistentes digitales personales que proporcionan funciones telefónicas o aceptan una entrada de habla con frecuencia se utilizan en ambientes muy ruidosos, como calles, restaurantes, aeropuertos y automóviles. El ambiente de mucho ruido en estos ambientes puede distorsionar el habla del usuario y es difícil que se entienda lo que la persona está diciendo. Se han desarrollado sistemas de filtrado de ruido, los cuales intentan retirar el ruido con base en un modelo del ruido, estos sistemas no cuentan con la capacidad de remover todo el ruido. En particular, la mayoría de estos sistemas han encontrado difícil remover el ruido que consiste de otra persona que está hablando en el fondo. Una razón para esto es que es muy difícil, sino imposible, que estos sistemas determinen que una señal de habla recibida por un micrófono proviene de otro origen diferente a la persona que utiliza el dispositivo móvil.
Para los equipos de audífonos, que se mantienen en posición en la cabeza del usuario al colocar los audífonos sobre la cabeza o en el oído del usuario, se han desarrollado sistemas que ofrecen un filtrado de ruido más robusto al confiar en otros tipos de sensores en los audífonos. En un ejemplo, un sensor de conducción ósea se coloca en un extremo del audífono y se presiona para hacer contacto con la piel que cubre el cráneo, oreja o mandíbula del usuario mediante la elasticidad del audífono. El sensor de conducción ósea detecta las vibraciones en el cráneo, oreja o mandíbula que se crean cuando el usuario habla. Con el uso de la señal del sensor de conducción ósea, este sistema tiene la capacidad de identificar mejor cuando el usuario está hablando y como resultado es mejor para filtrar el ruido en la señal de habla. Aunque tales sistemas funcionan bien para los audífonos, en donde el contacto entre el sensor de conducción ósea y el usuario se mantiene por el diseño mecánico de los audífonos, estos sistemas no se pueden utilizar directamente en los dispositivos manuales móviles, ya que es difícil para los usuarios mantener el sensor de conducción ósea en una posición apropiada y estos sistemas no toman en cuenta que el sensor de conducción ósea no se puede mantener en una posición apropiada.
BREVE DESCRIPCIÓN DE LA INVENCIÓN Se proporciona un dispositivo móvil, el cual incluye una entrada digital que puede ser manipulada por los dedos o pulgar del usuario, un micrófono de conducción de aire y un sensor alternativo que proporcionan una señal de sensor alternativo indicativa del habla. En ciertas modalidades, el dispositivo móvil también incluye un sensor de proximidad que proporciona una señal de proximidad indicativa de la distancia desde el dispositivo móvil al objeto. En ciertas modalidades, la señal desde el micrófono de conducción de aire, la señal del sensor alternativo y la señal de proximidad se utilizan para formar un cálculo de un valor de habla claro. En otras modalidades, un sonido se produce a través de una bocina en el dispositivo móvil con base en la cantidad de ruido en el valor de habla clara. En otras modalidades, el sonido producido a través de la bocina está con base en la señal del sensor de proximidad.
BREVE DESCRIPCIÓN DE LOS DIBUJOS La Figura 1 es una vista en perspectiva de una modalidad de la presente invención. La Figura 2 muestra el teléfono de la Figura 1 en posición en el lado izquierdo de la cabeza del usuario. La Figura 3 muestra el teléfono de la Figura 1 en posición en el lado derecho de la cabeza del usuario. La Figura 4 es un diagrama en bloque de un micrófono de conducción ósea. La Figura 5 es una vista en perspectiva de una modalidad alternativa de la presente invención.
La Figura 6 es una sección transversal de un micrófono de conducción ósea alternativo de conformidad con una modalidad de la presente invención. La Figura 7 es un diagrama en bloque de un dispositivo móvil de conformidad con una modalidad de la presente invención. La Figura 8 es un diagrama en bloque de un sistema de procesamiento general del habla de la presente invención. La Figura 9 es un diagrama en bloque de un sistema para entrenar parámetros de reducción de ruido de conformidad con una modalidad de la presente invención. La Figura 10 es un diagrama de flujo para entrenar los parámetros de reducción de ruido con el uso del sistema de la Figura 9. La Figura 11 es un diagrama en bloque de un sistema para identificar un cálculo de una señal de habla clara desde una señal de habla de prueba ruidosa de conformidad con una modalidad de la presente invención. La Figura 12 es un diagrama de flujo de un método para identificar un cálculo de una señal de habla clara con el uso del sistema de la Figura 11. La Figura 13 es un diagrama en bloque de un sistema alternativo para identificar un cálculo de una señal de habla clara. La Figura 14 es un diagrama en bloque de un segundo sistema alternativo para identificar un cálculo de una señal de habla clara.
La Figura 15 es un diagrama de flujo de un método para identificar un cálculo de señal de habla clara con el uso del sistema de la Figura 14. La Figura 16 es una vista en perspectiva de otra modalidad del dispositivo móvil de la presente invención.
DESCRIPCIÓN DETALLADA DE LA INVENCIÓN Las modalidades de la presente invención proporcionan dispositivos móviles manuales que contienen un micrófono de conducción de aire y un sensor alternativo que se puede utilizar en la detección de habla y en el filtrado de ruido. La Figura 1 proporciona una modalidad ejemplificativa en donde el dispositivo móvil manual es un teléfono 100 móvil. El teléfono 100 móvil incluye un teclado 102, un despliegue 104, un control 106 del cursor, un micrófono 108 de conducción de aire, una bocina 110, dos micrófonos 112 y 114 de conducción ósea y opcionalmente un sensor 116 de proximidad. El teclado de tacto 102 permite al usuario introducir números y letras dentro del teléfono móvil. En otras modalidades, el teclado de tacto 102 se combina con un despliegue 104 en la forma de una pantalla de tacto. El control 106 del cursor permite al usuario resaltar y seleccionar información en el despliegue 104 y navegar a través de las imágenes y páginas que son más grandes que el despliegue 104.
Como se muestra en las Figuras 2 y 3, cuando el teléfono 100 móvil se pone en la posición estándar para conversar por teléfono, la bocina 110 se coloca cerca del oído 200 izquierdo del usuario o el oído 300 derecho, y el micrófono 108 de conducción de aire se coloca cerca de la boca 202 del usuario. Cuando el teléfono se coloca cerca del oído izquierdo del usuario, como se observa en la Figura 2, el micrófono 114 de conducción ósea hace contacto con el cráneo u oreja del usuario y produce una señal del sensor alternativo que se puede utilizar para remover el ruido de la señal de habla recibida por el micrófono 108 de conducción de aire. Cuando el teléfono está colocado cerca del oído derecho del usuario, como se observa en la Figura 3, el micrófono 112 de conducción ósea hace contacto con el cráneo u oreja del usuario y produce una señal del sensor alternativo que se puede utilizar para remover el ruido de la señal de habla. El sensor 116 de proximidad opcional indica la cercanía del teléfono con el usuario. Como se describe más adelante, esta información se utiliza para ponderar la contribución de los micrófonos de conducción ósea para producir un valor de habla clara. En general, cuando el detector de proximidad detecta que el teléfono está cerca del usuario, las señales del micrófono de conducción ósea se ponderan más fuerte que cuando el teléfono está a cierta distancia del usuario. Este ajuste refleja el hecho de que la señal de micrófono de conducción ósea es más indicativa del usuario que habla cuando está en contacto con el usuario. Cuando está separado del usuario, es más susceptible al ruido ambiental. El sensor de proximidad se utiliza en modalidades de la presente invención, ya que los usuarios no siempre sostienen el teléfono presionado a su cabeza. La Figura 4 muestra una modalidad de un sensor 400 de conducción ósea de la presente invención. En el sensor 400, un puente 402 de elastómero suave se adhiere al diafragma 404 del micrófono 406 de conducción de aire. Este puente 402 suave conduce las vibraciones desde el contacto 408 de la piel del usuario directamente al diafragma 404 del micrófono 406. El movimiento del diafragma 404 se convierte en una señal eléctrica por un transductor 410 en el micrófono 406. La Figura 5 proporciona una modalidad 500 de teléfono móvil alternativa del dispositivo móvil manual de la presente invención. El teléfono 500 móvil incluye un teclado 502, un despliegue 504, un control 506 del cursor, un micrófono 508 de conducción de aire, una bocina 510, y una combinación de micrófono de conducción ósea y un sensor 512 de proximidad. Como se muestra en sección transversal en la Figura 6, la combinación del micrófono de conducción ósea y el sensor 512 de proximidad consiste de un cojinete 600 suave, medio lleno (de fluido o elastómero) que tiene una superficie exterior 602 diseñada para hacer contacto con el usuario cuando el usuario coloca el teléfono contra su oreja. El cojinete 600 forma un anillo alrededor de una abertura que proporciona un pasaje para el sonido desde la bocina 510, que está ubicada en la abertura o directamente por debajo de la abertura dentro del teléfono 500. El cojinete 500 no se limita a esta forma y se puede utilizar cualquier forma para el cojinete. Sin embargo, en general, se prefiere que el cojinete 600 incluya porciones en la derecha y en la izquierda de la bocina 510, de modo que por lo menos una parte del cojinete 600 esté en contacto con el usuario, sin importar la oreja en la que el usuario coloque el teléfono. Las porciones del cojinete pueden ser continuas en forma externa o pueden estar separadas externas pero conectadas en forma fluida entre sí dentro del teléfono. Un transductor 604 de presión electrónico se conecta en forma hidráulica con el fluido o elastomero en el cojinete 600 y convierte la presión del fluido en el cojinete 600 en una señal eléctrica en el conductor 606. Los ejemplos de transductores de presión electrónicos 604 incluyen transductores con base MEMS. En general, el transductor 604 de presión debe tener una respuesta de alta frecuencia. La señal eléctrica en el conductor 606 incluye dos componentes, un componente DC y un componente AC. El componente DC proporciona una señal del sensor de proximidad ya que la presión estática dentro del cojinete 600 será más alta cuando el teléfono se presiona contra la oreja del usuario que cuando el teléfono está a cierta distancia de la oreja del usuario. El componente AC de la señal eléctrica proporciona una señal de micrófono de conducción ósea ya que las vibraciones en los huesos del cráneo, mandíbula u oído del usuario crean fluctuaciones en la presión en el cojinete 600 que se convierten en una señal eléctrica AC por el transductor 604 de presión. De conformidad con una modalidad, se aplica un filtro en la señal eléctrica para permitir que el componente DC y los componentes AC de la señal pasen sobre una frecuencia mínima. Aunque se han descrito dos ejemplos de sensores de conducción ósea, otras formas de sensor de conducción ósea están dentro del alcance de la presente invención. La Figura 7 es un diagrama en bloque de un dispositivo 700 móvil, de conformidad con una modalidad de la presente invención. El dispositivo 700 móvil incluye un microprocesador 702, una memoria 704, una interfaz 706 de entrada/salida (l/O), y una interfaz 708 de comunicación para comunicarse con las computadoras remotas, redes de comunicación u otros dispositivos móviles. En una modalidad, los componentes antes mencionados se acoplan para la comunicación con otro sobre una barra colectora 710 apropiada. La memoria 704 se implementa como una memoria electrónica no volátil, tal como una memoria de acceso aleatorio (RAM) con un módulo de respaldo de batería (no mostrado), de modo que la información almacenada en la memoria 704 no se pierde cuando se interrumpe la energía general al dispositivo 700 móvil. Alternativamente, una o todas las porciones de la memoria 704 pueden ser memorias retirables volátiles o no volátiles. Una porción de la memoria 704 de preferencia, se aloja como una memoria de direccionamiento para la ejecución del programa, mientras que otra porción de la memoria 704 de preferencia, se utiliza para su almacenamiento, tal como un almacenamiento simulado en una unidad de disco. La memoria 704 incluye un sistema 712 operativo, los programas 714 de aplicación así como un almacenamiento 716 de objetos. El sistema 712 operativo de preferencia, se ejecuta durante la operación por el procesador 702 desde la memoria 704. El sistema 712 operativo, en una modalidad preferida, es un sistema operativo marca WINDOWS® CE disponible de Microsoft Corporation. De preferencia, el sistema 712 operativo está diseñado para dispositivos móviles, e implementa características de una base de datos que se puede utilizar por las aplicaciones 714 a través de un grupo de interfaces y métodos de programación de aplicación expuestos. Los objetos en el almacenamiento 716 de objetos se mantienen por las aplicaciones 714 y el sistema 714 operativo, por lo menos parcialmente, en respuesta a las llamadas a las interfaces y métodos de programación de aplicación expuestos. La interfaz 708 de comunicación representa varios dispositivos y tecnologías que permiten al dispositivo 700 móvil enviar y recibir información. En las modalidades de teléfono móvil, la interfaz 708 de comunicación representa una red de teléfono celular que interactúa con una red de teléfono celular para permitir colocar y recibir llamadas. Otros dispositivos posiblemente representados por la interfaz 708 de comunicación incluyen módems cableados e inalámbricos, receptores de satélite y sintonizadores de transmisión, por nombrar algunos. El dispositivo 700 móvil se puede conectar directamente con una computadora para intercambiar datos con la misma. En tales casos, la interfaz 708 de comunicación puede ser un transceptor infrarrojo o una conexión paralela o en serie, todos ellos con la capacidad para transmitir información en corrientes. Las instrucciones ejecutables por computadora que son ejecutadas por un procesador 702 para implementar la presente invención se puede almacenar en la memoria 704 o se pueden recibir a través de la interfaz 708 de comunicación. Estas instrucciones se encuentran en un medio legible por computadora, que sin limitación puede incluir un medio de almacenamiento de computadora y medios de comunicación. El medio de almacenamiento de computadora incluye medios volátiles y no volátiles, medios retirables y no retirables, medios ¡mplementados en cualquier método o tecnología para el almacenamiento de información como instrucciones legibles por computadora, estructuras de datos, módulos de programa y otros datos. El medio de almacenamiento de la computadora incluye, pero no se limita a RAM, ROM, EEPROM, memoria flash u otra tecnología de memorias, CDROM, discos versátiles digitales (DVD) u otro almacenamiento de disco óptico, cartuchos magnéticos, cintas magnéticas, almacenamiento de disco magnético, otros dispositivos de almacenamiento magnético, o cualquier otro medio que se pueda utilizar para almacenar la información deseada y al cual se pueda tener acceso. Los medios de comunicación típicamente incorporan instrucciones legibles por computadora, estructuras de datos, módulos de programa y otros datos en una señal de datos modulada como una onda portadora u otro mecanismo de transporte e incluye un medio de entrega de información. El término "señal de datos modulada" significa una señal que tiene una o más de sus características ajustadas o cambiadas de tal forma que pueda codificar la información de la señal. A manera de ejemplo, no limitante, el medio de comunicación incluye medios cableados como una red cableada o una conexión directa, y medios inalámbricos como un medio inalámbrico acústico, RF, infrarrojo, u otro medio inalámbrico. Las combinaciones de cualesquiera de los anteriores también deben estar incluida dentro del alcance de los medios legibles por computadora. La interfaz 706 de entrada/salida representa interfaces para una colección de dispositivos de entrada y salida que incluyen la bocina 730, una entrada 732 digital (como un botón o un grupo de botones, una pantalla de tacto, una bola seguidora, un cojín de mouse, un rodillo o una combinación de los mismos que se pueda manipular con el dedo o pulgar del usuario), un despliegue 734, un micrófono de conducción de aire, un sensor 738 alternativo, un sensor 740 alternativo, y un sensor 742 de proximidad. De conformidad con una modalidad, los sensores 738 y 740 alternativos, son micrófonos de conducción ósea. Los dispositivos antes mencionados son ejemplos y no necesitan estar todos presentes en el dispositivo 700 móvil. Además, por lo menos en una modalidad, el sensor alternativo y el sensor de proximidad se combinan como un sensor único que proporciona la señal del sensor de proximidad y la señal del sensor alternativo. Estas señales se pueden colocar en líneas de conducción separadas o pueden ser componentes de una señal en una única línea. Además, se pueden acoplar otros dispositivos de entrada/salida o encontrarse en el dispositivo 700 móvil dentro del alcance de la presente invención. La Figura 8 proporciona un diagrama en bloque básico del sistema de procesamiento de habla de las modalidades de la presente invención. En la Figura 8, una bocina 800 genera una señal 802 de habla que se detecta por un micrófono 804 de conducción de aire y en uno o ambos del sensor 806 alternativo y el sensor 807 alternativo. Un ejemplo de un sensor alternativo es un sensor de conducción ósea que está ubicado en o adyacente al hueso facial o craneal del usuario (tal como el hueso de la mandíbula) o la oreja del usuario y que detecta las vibraciones de la oreja, el cráneo o la mandíbula que corresponden al habla generada por el usuario. Otro ejemplo de un sensor alternativo es un sensor infrarrojo que se apunta y detecta el movimiento de la boca del usuario. Se debe notar que en algunas modalidades, solamente estará presente un sensor alternativo. El micrófono 804 de conducción de aire es el tipo de micrófono que se utiliza por lo general, para convertir las ondas de aire de audio en señales eléctricas.
El micrófono 804 de conducción de aire también recibe el ruido 808 generado por una o más fuentes 810 de ruido. Dependiendo del tipo de sensor alternativo y el nivel de ruido, el ruido 808 también se puede detectar con los sensores 806 y 807 alternativos. Sin embargo, de acuerdo con algunas modalidades de la presente invención, los sensores 806 y 807 alternativos típicamente son menos sensibles al ruido ambiental que el micrófono 804 de conducción de aire. Por esto, las señales 812 y 813 del sensor alternativo generadas por los sensores alternativos 806 y 807, respectivamente, por lo general incluyen menos ruido que la señal 814 del micrófono de conducción de aire generada por el micrófono 804 de conducción de aire. Cuando existen dos sensores alternativos, como los dos sensores de conducción ósea, las señales 812 y 813 del sensor pueden ser provistas opcionalmente a una unidad 815 de comparar/seleccionar. La unidad 815 de comparar/seleccionar compara la fuerza de las dos señales y selecciona la señal más fuerte como su salida 817. La señal más débil no pasa para otro procesamiento. Para las modalidades de teléfono móvil, como el teléfono móvil de las Figuras 1 a la 3, la unidad 815 de comparar/seleccionar usualmente seleccionará la señal generada por el sensor de conducción ósea, el cual está en contacto con la piel del usuario. De este modo, en la Figura 2, la señal desde el sensor 114 de conducción ósea será seleccionada y en la Figura 3, la señal desde el sensor 112 de conducción ósea será seleccionada.
La señal 817 del sensor alternativo y la señal 814 del micrófono de conducción de aire son provistas a un calculador 816 de señal clara, el cual calcula una señal 818 de habla clara a través de un proceso descrito más adelante con detalle. Opcionalmente, el calculador 816 de señal clara también recibe una señal 830 de proximidad desde el sensor 832 de proximidad que se utiliza para calcular la señal 818 clara. Como se mencionó, el sensor de proximidad puede combinarse con una señal del sensor alternativo de acuerdo con algunas modalidades. El cálculo 818 de señal clara es provisto a un proceso 820 de habla. La señal 818 de habla clara puede ser una señal de dominio de tiempo filtrada o un vector de dominio de característica. Cuando el cálculo 818 de señal clara es una señal de dominio de tiempo, el proceso 820 de habla puede adoptar la forma de un oyente, un transmisor de teléfono celular, un sistema de codificación de habla, o un sistema de reconocimiento de habla. Cuando la señal 818 de habla clara es un vector de dominio de característica, el proceso 820 de habla típicamente será un sistema de reconocimiento de habla. El calculador 816 de señal clara también produce un cálculo 819 de ruido, el cual indica el ruido calculado que se encuentra en la señal 818 de habla clara. El cálculo 819 de ruido es proporcionado a un generador 821 de tono lateral, el cual genera un tono a través de las bocinas del dispositivo móvil con base en el cálculo 819 de ruido. En particular, el generador 821 de tono lateral aumenta el volumen del tono lateral conforme se incrementa el cálculo 819 de ruido.
El tono lateral proporciona retroalimentacion al usuario, la cual indica si el usuario está sosteniendo el dispositivo móvil en la mejor posición para aprovechar el sensor alternativo. Por ejemplo, cuando el usuario no presiona el sensor de conducción ósea contra su cabeza, el calculador de señal clara recibirá una señal deficiente del sensor alternativo y producirá una señal 818 clara ruidosa debido a la señal deficiente del sensor alternativo. Esto dará como resultado un tono lateral más alto. Conforme el usuario lleva el sensor de conducción ósea hacia el contacto con su cabeza, la señal del sensor alternativo mejorará, lo cual reduce el ruido en la señal 818 clara y reduce el volumen del tono lateral. De este modo, el usuario puede rápidamente aprender a sostener el teléfono para reducir más el ruido en la señal clara con base en la retroalimentacion en el tono lateral. En modalidades alternativas, el tono lateral se genera con base en la señal 830 del sensor de proximidad desde el sensor 832 de proximidad. Cuando el sensor de proximidad indica que el teléfono está en contacto o demasiado cerca de la cabeza del usuario, el volumen del tono lateral será más bajo. Cuando el sensor de proximidad indica que el teléfono está lejos de la cabeza del usuario, el tono lateral será más alto. La presente invención utiliza varios métodos y sistemas para calcular el habla clara con el uso de la señal 814 del micrófono de conducción de aire, la señal 817 del sensor alternativo, y opcionalmente la señal 830 del sensor de proximidad. Un sistema utiliza datos de entrenamiento estéreo para entrenar a los vectores de corrección para la señal del sensor alternativo. Cuando estos vectores de corrección se agregan al último en un vector del sensor alternativo de prueba, proporcionan un cálculo de un vector de señal clara. Otra extensión de este sistema es primero rastrear las distorsiones variables de tiempo y después incorporar esta información dentro del cálculo de los vectores de corrección y dentro del cálculo de habla ciara. Un segundo sistema proporciona una interpolación entre el cálculo de señal clara generado por los vectores de corrección y un cálculo formado al restar un cálculo del ruido actual en la señal de prueba de conducción de aire desde la señal de conducción de aire. Un tercer sistema utiliza una señal dei sensor alternativo para calcular la contracción de la señal de habla y después utiliza la contracción calculada para identificar una cálculo para la señal de habla clara. Cada uno de estos sistemas será descrito en forma independiente a continuación.
ENTRENAMIENTO DE VECTORES DE CORRECCIÓN ESTÉREO Las Figuras 9 y 10 proporcionan un diagrama en bloque y un diagrama de flujo para entrenar vectores de corrección estéreo para dos modalidades de la presente invención que confían en los vectores de corrección para generar un cálculo del habla clara. El método para identificar los vectores de corrección empieza en el paso 1000 de la Figura 10, en donde una señal de micrófono de conducción de aire "clara" se convierte en una secuencia de vectores de características. Para hacer esto, el hablante 900 de la Figura 9, habla dentro del micrófono 910 de conducción de aire, el cual convierte las ondas de audio en señales eléctricas. Las señales eléctricas entonces se muestrean por un convertidor 914 análogo a digital para generar una secuencia de valores digitales, que se agrupan en cuadros de valores por un constructor de cuadros 916. En una modalidad, el convertidor 914 A-D muestrea la señal análoga a 16 kHz y 16 bits por muestra, lo cual crea 32 kilobytes de datos de habla por segundo y el constructor 916 de cuadros crea un nuevo cuadro cada 10 milisegundos que incluyen 25 milisegundos de datos.
Cada cuadro de datos provisto por el constructor 916 de cuadros se convierte en un vector de característica por un extractor 918 de característica. De acuerdo con una modalidad, el extractor 918 de característica forma características cepstrales. Los ejemplos de tales características incluyen un cepstro derivado de LPC, y coeficientes de cepstro de Frecuencia Mel. Los ejemplos de otros posibles módulos de extracción de característica que se pueden utilizar con la presente invención incluyen módulos para llevar a cabo una codificación predictiva lineal (LPC), una predicción lineal perceptiva (PLP), y una extracción de característica de modelo de auditoría. Se debe notar que la invención no está limitada a estos módulos de extracción de característica y que se pueden utilizar otros módulos dentro del contexto de la presente invención.
En el paso 1002 de la Figura 10, una señal del sensor alternativo se convierte en vectores de característica. Aunque la conversión del paso 1002 se muestra como ocurriendo después de la conversión del paso 1000, cualquier parte de la conversión se puede realizar antes, durante o después del paso 1000 de conformidad con la presente invención. La conversión del paso 1002 se lleva a cabo a través de un proceso similar al descrito antes para el paso 1000. En la modalidad de la Figura 98, este proceso empieza cuando los sensores 902 y 903 alternativos detectan un evento físico asociado con la producción de habla por un hablante 900, tal como una vibración ósea o un movimiento facial. Debido a que el sensor 902 alternativo y 903 están separados en el dispositivo móvil, no detectarán los mismos valores en conexión con la producción de habla. Los sensores 902 y 903 alternativos convierten el evento físico en señales eléctricas análogas. Estas señales eléctricas se proporcionan a una unidad 904 de comparar/seleccionar, la cual identifica la más fuerte de las dos señales y proporciona la señal más fuerte como su salida. Se debe notar que en algunas modalidades, solamente se utiliza un sensor alternativo. En tales casos, la unidad 904 de comparar/seleccionar no está presente. La señal análoga seleccionada se muestrea por un convertidor 905 análogo a digital. Las características de muestreo para el convertidor 905 A/D son las mismas que las descritas antes para el convertidor 914 A/D. Las muestras provistas por el convertidor 905 A/D se recolectan en cuadros por un constructor 906 de cuadros, el cual actúa en una manera similar al constructor 916 de cuadros. Los cuadros de muestras entonces se convierten en vectores de características por un extractor 908 de característica, el cual utiliza el mismo método de extracción de característica, que el extractor 918 de características. Los vectores de característica para la señal del sensor alternativo y la señal de conducción de aire se proporcionan a un entrenador 920 de reducción de ruido en la Figura 9. En el paso 1004 de la Figura 10, el entrenador 920 de reducción de ruido agrupa los vectores de características para la señal del sensor alternativo dentro de componentes de mezcla. Este agrupamiento se puede llevar a cabo al agrupar vectores de características similares juntos con el uso de una técnica de entrenamiento de máxima probabilidad o por agrupamiento de vectores de características que representan una sección temporal de la señal de habla juntos. Las personas experimentadas en la técnica reconocerán que se pueden utilizar otras técnicas para el agrupamiento de vectores de características y que las dos técnicas antes mencionadas son solamente un ejemplo. El entrenador 920 de reducción de ruido entonces determina un vector de corrección, rSl para cada componente de mezcla, s, en el paso 1008 de la Figura 10. De conformidad con esta modalidad, el vector de corrección para cada componente de mezcla se determina con el uso del criterio de máxima probabilidad. De acuerdo con esta técnica, el vector de corrección se calcula como sigue: _ ?,p(s\b,)(.x, -b,) EC. 1 en donde xt es el valor de el vector de conducción de aire para el cuadro t y bt es el valor del vector del sensor alternativo para el cuadro t. En la ecuación 1 : P{b, ] s)p(s) P(s\b,) = ?s P(b, I s)p(s) EC.2 en donde p(s) es simplemente uno sobre el número de los componentes de mezcla y p(bt\s) se modela como una distribución Gaussiana: p(b, \ s) = N (b, ;//,, . r/. ) EC.3 con la media µ? y la variancia Tb entrenada con el uso de un algoritmo de maximización de expectación (EM) en donde cada iteración consiste de los siguientes pasos: EC. 4 La Ecuación 4 es el paso E en el algoritmo EM, el cual utiliza los parámetros previamente calculados. La Ecuación 5 y la Ecuación 6 son el paso M, el cual actualiza los parámetros con el uso de los resultados del paso E. Los pasos E y M del algoritmo iteran hasta que se determinan valores estables para los parámetros modelo. Estos parámetros entonces se utilizan para evaluar la ecuación 1 para formar los vectores de corrección. Los vectores de corrección y los parámetros modelo se almacenan en un almacenamiento 922 de parámetro de reducción de ruido. Después de que se ha determinado un vector de corrección para cada componente de mezcla en el paso 1008, se completa el proceso de entrenar el sistema de reducción de ruido de la presente invención. Una vez que se ha determinado un vector de corrección para cada mezcla, los vectores se pueden utilizar en una técnica de reducción de ruido de la presente invención. A continuación se describen dos técnicas de reducción de ruido por separado que utilizan los vectores de corrección.
REDUCCIÓN DE RUIDO CON EL USO DE UN VECTOR DE CORRECCIÓN Y UN CÁLCULO DE RUIDO Un sistema y método para reducir el ruido en una señal de habla ruidosa con base en vectores de corrección y un cálculo de ruido se muestra en el diagrama en bloque de la Figura 11 y el diagrama de flujo de la Figura 12, respectivamente. En el paso 1200, una señal de prueba de audio detectada por un micrófono 1104 de conducción de aire se convierte en vectores de características. La señal de prueba de audio recibida por el micrófono 1104 incluye habla de un hablante 1100 y ruido agregado de una o más fuentes 1102 de ruido. La señal de prueba de audio detectada por el micrófono 1104 se convierte en una señal eléctrica que es provista a un convertidor 1106 análogo a digital. El convertidor 1106 A-D convierte la señal análoga del micrófono 1104 en una serie de valores digitales. En algunas modalidades, el convertidor 1106 A-D muestrea la señal análoga a 16 kHz y 16 bits por muestra, lo cual crea 32 kilobytes de datos de habla por segundo. Estos valores digitales son provistos a un constructor 1108 de cuadro, que en una modalidad, agrupa los valores en cuadros de 25 milisegundos que empiezan con 10 milisegundos de separación.
Los cuadros de datos creados por el constructor 1108 de cuadro son provistos a un extractor 1110 de características, el cual extrae una característica de cada cuadro. De acuerdo con una modalidad, este extractor de característica es diferente a los extractores 908 y 918 de característica que fueron usados para entrenar los vectores de corrección. En particular, de conformidad con esta modalidad, el extractor 1110 de característica produce valores de espectro de energía en lugar de valores cepstrales. Las características extraídas son provistas a un calculador 1122 de señal clara, una unidad 1126 de detección de habla y a un entrenador 1124 de modelo de ruido. En el paso 1202, un evento físico, como una vibración ósea o movimiento facial, asociado con la producción de habla por el hablante 1100 se convierte en un vector de característica. Aunque se muestra como un paso separado en la Figura 12, las personas experimentadas en la técnica reconocerán que las porciones de este paso se pueden realizar el mismo tiempo que el paso 1200. Durante el paso 1202, el evento físico se detecta por uno o ambos sensores 1112 y 1114 alternativos. Los sensores 1112 y 1114 alternativos generan señales eléctricas análogas con base en el evento físico. Las señales análogas son provistas a una unidad 1115 de comparación y selección que selecciona la señal con mayor magnitud como su salida. Se debe notar que en algunas modalidades, solamente se proporciona un sensor alternativo. En tales modalidades, la unidad 1115 de comparación y selección no es necesaria. La señal análoga seleccionada se convierte en una señal digital por un convertidor 1116 análogo a digital y las muestras digitales resultantes se agrupan en cuadros por el constructor 1118 de cuadros. De acuerdo con una modalidad, el convertidor 1116 análogo a digital y el constructor 1118 de cuadros operan en una forma similar al convertidor 1106 análogo a digital y al constructor 1108 de cuadros. Los cuadros de valores digitales son provistos a un extractor 1120 de característica, el cual utiliza la misma técnica de extracción que fue usada para entrenar a los vectores de corrección. Como se mencionó, los ejemplos de los módulos de extracción de característica incluyen módulos para realizar la codificación predictiva lineal (LPC), cepstros derivado de LPC, predicción lineal perceptiva (PLP), extracción de característica de modelo de auditoría, y extracción de característica de coeficientes de cepstro de frecuencia EL (MFCC). En muchas modalidades, sin embargo, se utilizan las técnicas de extracción de característica que producen características de cepstral. El módulo de extracción de característica produce una corriente de vectores de característica que se asocian cada uno con un cuadro separado de la señal de habla. Esta corriente de vectores de característica es provista a un calculador 1122 de señal clara.
Los cuadros de valores del constructor 1118 de cuadros también son provistos a un extractor 1121 de característica, que en una modalidad, extrae la energía de cada cuadro. El valor de energía para cada cuadro es provisto a una unidad 1126 de detección de habla. En el paso 1204, la unidad 1126 de detección de habla utiliza la característica de energía de la señal del sensor alternativo para determinar cuando el habla está presente. Esta información se pasa a un entrenador 1124 de modelo de ruido, el cual intenta modelar el ruido durante períodos cuando no hay habla en el paso 1206. De acuerdo con una modalidad, la unidad 1126 de detección de habla primero busca la secuencia de los valores de energía de cuadro para encontrar una cresta en la energía. Entonces busca un valle después de la cresta. La energía de este valle es referida como un separador de energía, d. Para determinar si un cuadro contiene habla, la proporción k, de la energía del cuadro e, sobre el separador d de energía, se determina como: k=e/d. Una confidencia de habla q, para el cuadro entonces se determina como: 0 : k < 1 a-\ 1 : k > a EC.7 en donde define la transición entre dos estados y en una plementación se ajusta en 2. Por último, el valor de confidencia promedio de sus 5 cuadros vecinos (incluyéndose a sí mismo) se utiliza como el valor de confidencia final para este cuadro. De conformidad con una modalidad, un valor de umbral fijo se utiliza para determinar si el habla está presente, de modo que si el valor de confidencia excede el umbral, se considera que el cuadro contiene habla y cuando el valor de confidencia no excede el umbral, se considera que el cuadro no contiene habla. En una modalidad, se utiliza un valor de umbral de 0.1. Para cada cuadro sin habla detectado por la unidad 1126 de detección de habla, el entrenador 1124 de modelo de ruido actualiza un modelo 1125 de ruido en el paso 1206. En una modalidad, el modelo 1125 de ruido es un modelo Gaussian que tiene una media de µ„ y una variancia de ?n. Este modelo está con base en una ventana móvil de los cuadros más recientes sin habla. Las técnicas para determinar la media y la variancia de los cuadros sin habla en la ventana son bien conocidas en la técnica. Los vectores de corrección y los parámetros de modelo en el almacenamiento 922 de parámetro y el modelo 1125 de ruido se proporcionan para limpiar el calculador 1122 de señal con los vectores de característica b para el sensor alternativo y los vectores de característica Sr para la señal del micrófono de conducción de aire ruidosa. En el paso 1208, el calculador 1122 de señal clara calcula un valor inicial para la señal de habla clara con base en el vector de característica de sensor alternativo, los vectores de corrección y los parámetros de modelo para el sensor alternativo.
En particular, el cálculo del sensor alternativo de la señal clara se calcula como: EC. 8 en donde x es el cálculo de señal clara en el dominio cepstral, b es el vector de característica del sensor alternativo p(s\b) se determina con el uso de la Ecuación 2, anterior y rs es el vector de corrección para el componente s de mezcla. De este modo, el cálculo de la señal clara en la Ecuación 8 se forma al agregar el vector de característica del sensor alternativo en una suma ponderada de vectores de corrección, en donde las ponderaciones están con base en la probabilidad de un componente de mezcla dado el vector de característica del sensor alternativo. En el paso 1210, el cálculo de habla clara del sensor alternativo inicial se refina al combinarlo con un cálculo de habla clara que se forma de un vector de micrófono de conducción de aire ruidosa y el modelo de ruido. Esto da como resultado un cálculo 1128 de habla clara refinado. Con el fin de combinar el valor cepstral del cálculo de señal clara inicial con el vector de característica de espectro de energía del micrófono de conducción de aire ruidosa, el valor cepstral se convierte en el dominio de espectro de energía con el uso de: EC.9 en donde C'1 es una transformación de coseno discontinuo inversa y Sx\¡, es el cálculo de espectro de energía de la señal clara con base en el sensor alternativo. Una vez que el cálculo de señal clara inicial desde el sensor alternativo ha sido colocado en el dominio de espectro de energía, se puede combinar con el vector de micrófono de conducción de aire ruidosa y el modelo de ruido como sigue: EC.10 en donde Sx es el cálculo de señal clara refinado en el dominio de espectro de energía, Sy es el vector de característica de micrófono de conducción de aire ruidosa, (µp, ?n) son la media y la covariancia del modelo de ruido anterior (consultar 1124), Sx\b es el cálculo de señal clara inicial con base en el sensor alternativo, y ?x)b es la matriz de covariancia de la distribución de probabilidad condicional para el habla clara dada la medición del sensor alternativo. ?X|b puede computarse como sigue: Supongamos que J denota el Jacobiano de la función del lado derecho de la ecuación 9. Dejemos que ? sea la matriz de covariancia de x. Entonces la covariancia de Sx]b es: ? b . = JUT EC.11 En una modalidad simplificada, la Ecuación 10 se re-escribe como la siguiente ecuación: S =a(f)(S -//„) + {\-a(f))Sx,h EC. 12 en donde a(/) es una función del tiempo y de la banda de frecuencia. Por ejemplo, cuando el sensor alternativo tiene un ancho de banda de hasta 3 kHz, cc(/) se selecciona para ser 0 para la banda de frecuencia por debajo de 3 kHz. Básicamente, el cálculo de señal clara inicial del sensor alternativo se confía para las bandas de baja frecuencia.
Para las bandas de alta frecuencia, el cálculo de señal clara inicial del sensor alternativo no es tan confiable. En forma intuitiva, cuando el ruido es pequeño para una banda de frecuencia en un cuadro actual, se selecciona un gran cc(/) para que se tome más información del micrófono de conducción de aire para esta banda de frecuencia. De otra forma, más información del sensor alternativo se utiliza al seleccionar una pequeña a(/). En una modalidad, la energía del cálculo de señal clara inicial del sensor alternativo se utiliza para determinar el nivel de ruido para cada banda de frecuencia. Dejemos que E(f) denote la energía para la banda de frecuencia /. Dejemos que M=MaxfE{f) a(/) como una función de /, se define como sigue: E{f) = M / f-3K a(f) = a(4K) 3K </<4K 0 f=3K EC. 13 en donde se utiliza una interpolación lineal para la transición de 3K a 4 para asegurar la suavidad de a(/).
De conformidad con una modalidad, la proximidad del dispositivo móvil con la cabeza del usuario se incorpora dentro de la determinación de a(/). Específicamente, cuando el sensor 832 de proximidad produce un valor D de distancia máxima y un valor d de distancia real, la ecuación 13 se modifica como sigue: ^?? + {?. )!? : f=4K M D Í-3K a(f) = a(4K) : 3K<f<4K 0 ./" < 3 A' EC. 14 en donde ß está entre cero y uno y se selecciona con base en el factor, energía o proximidad, se cree que proporciona la mejor indicación de si el modelo de ruido para el micrófono de conducción de aire o el vector de corrección para el sensor alternativo proporcionará el mejor cálculo de la señal clara.
Cuando ß se ajusta en cero a(/) ya no es dependiente de frecuencia y simplemente se vuelve: (I - — D EC. 15 El cálculo de señal clara refinado en el dominio de espectro de energía se puede utilizar para construir un filtro Wiener para filtrar la señal de micrófono de conducción de aire ruidosa. En particular, el filtro Wiener H se ajusta como: sr EC. 16 Este filtro puede aplicarse contra la señal de micrófono de conducción de aire ruidosa del dominio de tiempo para producir una señal de dominio de tiempo limpia o reducida de ruido. La señal reducida de ruido puede ser provista a un escucha o aplicarse en un reconocedor de habla. Se debe observar que la Ecuación 12 proporciona un cálculo de señal limpia refinado que es la suma ponderada de dos factores, uno de los cuales es un cálculo de señal limpia desde un sensor alternativo. Esta suma ponderada puede extenderse para incluir factores adicionales para sensores alternativos adicionales. De esta manera, se pueden utilizar más de un sensor alternativo para 1 JJ generar cálculos independientes de la señal limpia. Estos múltiples cálculos pueden combinarse con el uso de la Ecuación 12. En una modalidad, el ruido en el cálculo de señal limpia refinada también se calcula. De conformidad con una modalidad, este ruido se trata como una Gaussiana media cero con una covariancia que se determina como: 'zt = {?:1 +? !>)-' = ?„?,,, /(?„ + ?.-) en donde ?n es la variancia del ruido en el micrófono de conducción de aire y ?X|b es la variancia del ruido en el cálculo desde el sensor alternativo. En particular, ?X|b es mayor cuando el sensor alternativo no está en buen contacto con la superficie de la piel del usuario. El grado de contacto se puede medir con el uso de un sensor de proximidad adicional o al analizar el sensor alternativo. Para este último, el observar que el sensor alternativo produce muy poca respuesta de alta frecuencia (mayor que 4 kHz) cuando está en buen contacto, se mide la calidad de contacto con la proporción de energía de baja frecuencia (menor que 3 kHz) a una energía de alta frecuencia. Entre más alta sea la proporción, será mejor el contacto.
De conformidad con algunas modalidades, el ruido en el cálculo de señal clara se utiliza para generar un tono lateral como se describe antes en conexión con la Figura 6. Conforme aumenta el ruido en el cálculo de señal clara refinado, el volumen del tono lateral aumenta para avisar al usuario que se debe colocar el sensor alternativo en una mejor posición para que se mejore el proceso. Por ejemplo, el tono lateral pide a los usuarios presionar el sensor de conducción ósea contra su cabeza para que se mejore el proceso.
REDUCCIÓN DE RUIDO CON EL USO DE UN VECTOR DE CORRECCIÓN SIN UN CÁLCULO DE RUIDO La Figura 13 proporciona un diagrama en bloque de un sistema alternativo para calcular un valor de habla clara de conformidad con la presente invención. El sistema de la Figura 13 es similar al sistema de la Figura 11, excepto que el cálculo del valor del habla clara se forma sin la necesidad de un micrófono de conducción de aire o un modelo de ruido. En la Figura 13, un evento físico asociado con una bocina 1300 que produce el habla se convierte en un vector de característica por un sensor 1302 alternativo, un convertidor 1304 análogo a digital, un constructor de cuadro 1306 y un extractor 1308 de característica, en una forma similar a la descrita antes para el sensor 1114 alternativo, el convertidor 1116 análogo a digital, el constructor 1117 de cuadro y el extractor 1118 de cuadro de la Figura 11. Se debe observar que aunque se muestra un sensor alternativo, en la Figura 13, se pueden utilizar sensores alternativos adicionales como en la Figura 11 y además con una unidad de comparación y selección como se describe antes para la Figura 11. Los vectores de característica del extractor 1308 de característica y los parámetros 922 de reducción de ruido son provistos a un clara 1310 de señal clara, que determina un cálculo de un valor 1312 de señal clara Sx\b con el uso de las ecuaciones 8 y 9 anteriores. El cálculo Sx b de señal clara en el dominio de espectro de energía se puede utilizar para construir un filtro Wiener para filtrar una señal de conducción de aire ruidosa. En particular, el filtro Wiener, H se ajusta de tal forma que: EC. 17 Este filtro se puede aplicar contra la señal de micrófono de conducción de aire ruidosa de dominio de tiempo para producir una señal clara o reducida de ruido. La señal reducida de ruido puede ser provista a un escucha o aplicada en un reconocedor de habla. De manera alternativa, el cálculo de señal clara en el dominio cepstral x, que se calcula en la ecuación 8, se puede aplicar directamente en un sistema de reconocimiento de habla.
REDUCCIÓN DE RUIDO CON EL USO DE RASTREO DE CONTRACCIÓN Una técnica alternativa para generar cálculos de una señal de habla clara se muestra en el diagrama en bloque de la Figura 14 y el diagrama de flujo de la Figura 15. En particular, la modalidad de las Figuras 14 y 15 determina un cálculo de habla clara al identificar una contracción para la señal de habla con el uso de un sensor alternativo y después usar la contracción para descomponer la señal de micrófono de conducción de aire ruidosa en un componente armónico y un componente aleatorio. De este modo la señal ruidosa se representa como: = ? + yr EC. 18 en donde y es la señal ruidosa, yh es el componente armónico y yr es el componente aleatorio. Una suma ponderada del componente armónico y el componente aleatorio se utiliza para formar un vector de característica reducido de ruido que representa una señal de habla reducida de ruido. De conformidad con una modalidad, el componente armónico se modela como una suma de los sinusoidales relacionados con armónicos tal que: = ? ? cos{kcotlt) + hK sin(/cr¡y ) EC. 19 en donde co0 es la frecuencia de contracción o fundamental y K es el número total de armónicos en la señal. De este modo, para identificar el componente armónico, se debe determinar un cálculo de la frecuencia de contracción y los parámetros de amplitud (a a2... b2... bk) .
En el paso 1500, la señal de habla ruidosa se recolecta y convierte en muestras digitales. Para hacer esto, el micrófono 1404 de conducción de aire convierte las ondas de audio desde una bocina 1400 y una o más fuentes 1402 de ruido aditivo en señales eléctricas. Las señales eléctricas entonces se muestrean por un convertidor 1406 análogo a digital para generar una secuencia de valores digitales. En una modalidad, el convertidor 1406 análogo a digital muestra la señal análoga a 16 kHz y 16 bits por muestra, lo que crea 32 kilobytes de habla por segundo. En el paso 1502, las muestras digitales se agrupan en cuadros por un constructor 1408 de cuadro. De conformidad con una modalidad, el constructor 1408 de cuadros crea un nuevo cuadro cada 10 milisegundos, el cual incluye 25 milisegundos de datos. En el paso 1504, un evento físico asociado con la producción de habla se detecta por un sensor 1444 alternativo. En esta modalidad, un sensor alternativo tiene la capacidad de detectar componentes armónicos, como un sensor de conducción ósea, que es más apropiado para ser usado como un sensor 1444 alternativo. Se debe notar que aunque en el paso 1504 se muestra como separado del paso 1500, las personas experimentadas en la técnica reconocerán que estos pasos se pueden llevar a cabo al mismo tiempo. Además, aunque solamente se muestra un sensor alternativo en la Figura 14, se pueden utilizar sensores alternativos adicionales como en la Figura 11, con la adición de una unidad de comparación y selección como se describe para la Figura 11.
La señal análoga generada por el sensor 1444 alternativo se convierte en muestras digitales por un convertidor 1446 análogo a digital. Las muestras digitales entonces se agrupan en cuadros por un constructor 1448 de cuadros en el paso 1506. En el paso 1508, los cuadros de la señal del sensor alternativo se utilizan por un rastreador 1450 de contracción para identificar la contracción o frecuencia fundamental del habla. Un cálculo para la frecuencia de contracción puede determinarse con el uso de cualquier número de sistemas de rastreo de contracción disponibles. Con muchos sistemas, las contracciones candidato se utilizan para identificar la separación posible entre los centros de los segmentos de una señal del sensor alternativo. Para cada contracción candidato, se determina una correlación entre los segmentos sucesivos del habla. En general, la contracción candidato que proporcione la mejor correlación será la frecuencia de contracción del cuadro. En algunos sistemas, la información adicional se utiliza para refinar la selección de contracción, tal como la energía de la señal y/o el rastreo de contracción esperado. Dado el cálculo de la contracción al rastreador de contracción 1450, el vector de señal de conducción de aire puede descomponerse en un componente armónico y en un componente aleatorio en el paso 1510. Para hacer esto, la ecuación 19 se re-escribe como sigue: y =Ab EC. 20 en donde y es un vector de N muestras de la señal de habla ruidosa, A es una matriz Nx2K determinada por: A = [AiwAsm] EC. con los elementos: AnB(Av) = cosita,,/) As!ll(A-, = sin( ) EC. 22 y b es un vector 2K x 1 determinado por: br = [ai 2... ibih2...hl] Ec. 23 Entonces, la solución de menos cuadradas para los coeficientes de amplitud es: b = (A7 ?G'?'? Ec. 24 Con el uso de b, un cálculo para el componente armónico de la señal de habla ruidosa se puede determinar como: Ec. 25 Un cálculo del componente aleatorio se calcula entonces como: y, = y-y* EC. 26 De este modo, con el uso de las ecuaciones 20 a la 26 anteriores, la unidad 1410 de descomposición de armónicos tiene la capacidad de producir un vector de la muestras 1412 del componente armónico yh, y un vector de las muestras 1414 del componente aleatorio yr. Después de que las muestras del cuadro han sido descompuestas en muestras armónicas y aleatorias, se determina un parámetro de escalamiento o ponderación para el componente armónico en el paso 1512. Este parámetro de escalamiento se utiliza como parte de un cálculo de una señal de habla reducida de ruido como se describe más adelante. De conformidad con una modalidad, el parámetro de escalamiento se calcula como sigue: ?.«'>= Ec. 27 En donde h es el parámetro de escalamiento, y h ( i ) es la eneava muestra en el vector de las muestras yh del componente armónico y y(¡) es la eneava muestra de la señal de habla ruidosa para este cuadro. En la ecuación 27, el numerador es la suma de la energía de cada muestra del componente armónico y el denominador es la suma de la energía de cada muestra de la señal de habla ruidosa. De este modo, el parámetro de escalamiento es la proporción de la energía armónica del cuadro con la energía total del cuadro. En modalidades alternativas, el parámetro de escalamiento se ajusta con el uso de una unidad de detección con voz-sin voz probabilística. Tal unidad proporciona la probabilidad de que un cuadro particular de habla sea hablado, lo que significa que las cuerdas vocales resuenan durante el cuadro, mejor que sin ser hablado. La probabilidad de que el cuadro sea de una región hablada de habla se puede utilizar directamente como el parámetro de escalamiento. Después de que se ha determinado el parámetro de escalamiento o mientras se determina, el espectro Mel para el vector de las muestras del componente armónico y el vector de las muestras del componente aleatorio se determinan en el paso 1514. Esto involucra el paso de cada vector de muestras a través de una transformación Fourier discontinua (DFT) 1418, para producir un vector de los valores 1422 de la frecuencia del componente armónico y un vector de los valores 1420 de la frecuencia del componente aleatorio. El espectro de energía representado por los vectores de los valores de frecuencia entonces se suavizan por una unidad 1424 de ponderación Mel que utiliza una serie de funciones de ponderación triangular aplicadas junto con la escala Mel. Esto resulta en un vector 1428 espectral Mel del componente armónico, Yh y el vector 1426 espectral Mel del componente aleatorio Yr.
En el paso 1516, el espectro Mel para el componente armónico y para el componente aleatorio se combinan como una suma ponderada para formar un cálculo de un espectro Mel reducido de ruido. Este paso se lleva a cabo por un clara 1430 de suma ponderada con el uso del factor de escalamiento determinado antes en la siguiente ecuación: X{¡) = ah(i)Y ,,(!) + a, ,.U) Ec. 28 En donde X(t) es el cálculo del espectro Mel reducido de ruido, Yh(t) es el espectro Mel del componente armónico, Yr(t) es el espectro Mel del componente aleatorio, ah(t) es el factor de escalamiento determinado antes, ar es un factor de escalamiento fijo para el componente aleatorio que en una modalidad se ajusta igual a .1 y el índice t de tiempo se utiliza para enfatizar que el factor de escalamiento para el componente armónico se determina para cada cuadro mientras que el factor de escalamiento para el componente aleatorio permanece fijo. Se debe notar que en otras modalidades, el factor de escalamiento para el componente aleatorio puede determinarse para cada cuadro. Después de que se ha calculado el espectro Mel reducido de ruido en el paso 1516, el registro 1432 del espectro Mel se determina y entonces se aplica a una transformación de coseno discontinuo 1434 en el paso 1518. Esto produce un vector 1436 de característica de coeficiente cepstral de frecuencia el (MFCC) que representa una señal de habla reducida de ruido. Un vector de característica MFCC reducida de ruido separado se produce para cada cuadro de la señal ruidosa. Estos vectores de característica se pueden utilizar para cualquier propósito incluyendo la mejora del habla y el reconocimiento del habla. Para la mejora del habla, los vectores de característica MFCC pueden convertirse en un dominio de espectro de energía y se pueden utilizar con la señal de conducción de aire ruidosa para formar un filtro Wiener. Aunque la presente invención ha sido descrita con referencia específica al uso de sensores de conducción ósea como los sensores alternativos, se pueden utilizar otros sensores alternativos. Por ejemplo, en la Figura 16, un dispositivo móvil de la presente invención utiliza un sensor 1600 infrarrojo que generalmente se dirige a la cara del usuario, especialmente a la región de la boca y genera una señal indicativa de un cambio en el movimiento facial del usuario que corresponde al habla. La señal generada por el sensor 1600 infrarrojo se puede utilizar como la señal del sensor alternativo en las técnicas antes descritas. Aunque al presente invención ha sido descrita con referencia particular a las modalidades particulares, las personas experimentadas en la técnica podrán reconocer que se pueden llevar a cabo cambios en la forma y detalles sin apartarse del espíritu y alcance de la invención.

Claims (1)

  1. REIVINDICACIONES 1. Un dispositivo manual móvil caracterizado porque comprende: un micrófono de conducción de aire que convierte las ondas acústicas en una señal eléctrica del micrófono; un sensor alternativo que proporciona una señal eléctrica del sensor alternativo indicativa del habla; y un procesador que utiliza la señal del micrófono y la señal del sensor alternativo para calcular un valor de habla clara. 2. El dispositivo manual móvil de conformidad con la reivindicación 1, caracterizado porque el sensor alternativo comprende un sensor de conducción ósea. 3. El dispositivo manual móvil de conformidad con la reivindicación 1, caracterizado porque comprende un segundo sensor alternativo que proporciona una segunda señal del sensor alternativo. 4. El dispositivo manual móvil de conformidad con la reivindicación 3, caracterizado porque el sensor alternativo y el segundo sensor alternativo comprenden sensores de conducción ósea. 5. El dispositivo manual móvil de conformidad con la reivindicación 4, caracterizado porque el dispositivo manual móvil tiene un lado izquierdo y un lado derecho opuesto al lado izquierdo y en donde el sensor alternativo se ubica cerca del lado izquierdo y el segundo sensor alternativo se ubica cerca del lado derecho. 6. El dispositivo manual móvil de conformidad con la reivindicación 1, caracterizado porque además comprende una unidad de selección que selecciona una de la señal del sensor alternativo y la señal del segundo sensor alternativo. 7. El dispositivo manual móvil de conformidad con la reivindicación 6, caracterizado porque la unidad de selección selecciona una de la señal del sensor alternativo y de la señal del segundo sensor alternativo con base en las magnitudes de la señal del sensor alternativo y de la señal del segundo sensor alternativo. 8. El dispositivo manual móvil de conformidad con la reivindicación 1, caracterizado porque además comprende una bocina que genera un sonido con base en la cantidad de ruido en el valor de habla clara. 9. El dispositivo manual móvil de conformidad con la reivindicación 1, caracterizado porque además comprende un sensor de proximidad que produce una señal de proximidad indicativa de la distancia entre el dispositivo manual móvil y el objeto. 10. El dispositivo manual móvil de conformidad con la reivindicación 9, caracterizado porque el procesador determina el valor del habla clara con base en la señal del micrófono, la señal del sensor alternativo y la señal de proximidad. 11. El dispositivo manual móvil de conformidad con la reivindicación 10, caracterizado porque el procesador determina el valor de habla clara a través de un proceso que comprende: determinar la contribución del micrófono para el valor de habla 5 clara con base en la señal del micrófono; determinar la contribución del sensor alternativo con el valor de habla clara con base en la señal del sensor alternativo; y ponderar la contribución del micrófono y la contribución del sensor alternativo con base en la señal de proximidad. 10 12. El dispositivo manual móvil de conformidad con la reivindicación 9, caracterizado porque además comprende una bocina que genera un sonido con base en la señal de proximidad. 13. El dispositivo manual móvil de conformidad con la reivindicación 1, caracterizado porque el sensor alternativo 15 comprende un transductor de presión que se acopla en forma hidráulica con un cojinete relleno con un medio. 14. El dispositivo manual móvil de conformidad con la reivindicación 13, caracterizado porque el dispositivo manual móvil tiene un lado izquierdo y un lado derecho opuesto al lado izquierdo y 20 en donde el cojinete tiene una primera porción en el lado izquierdo y una segunda porción en el lado derecho. 15. El dispositivo manual móvil de conformidad con la reivindicación 13, caracterizado porque el sensor alternativo también proporciona una señal de proximidad. 16. El dispositivo manual móvil de conformidad con la reivindicación 15, caracterizado porque la señal de proximidad comprende un componente DC de una señal eléctrica producida por el transductor de presión. 17. El dispositivo manual móvil de conformidad con la reivindicación 16, caracterizado porque la señal del sensor alternativo comprende un componente AC de la señal eléctrica producida por el transductor de presión. 18. El dispositivo manual móvil de conformidad con la reivindicación 1, caracterizado porque el sensor alternativo comprende un sensor infrarrojo. 19. Un dispositivo móvil caracterizado porque comprende: un micrófono de conducción de aire que convierte las ondas acústicas en una señal eléctrica del micrófono; un sensor alternativo que proporciona una señal eléctrica del sensor alternativo indicativa del habla; y un sensor de proximidad que proporciona una señal eléctrica de proximidad que es indicativa de la distancia desde el dispositivo móvil a un objeto. 20. El dispositivo manual móvil de conformidad con la reivindicación 19, caracterizado porque el dispositivo móvil utiliza la señal de micrófono, la señal del sensor alternativo y la señal de proximidad para remover el ruido de la señal de micrófono y así producir una señal de habla clara mejorada. 21. El dispositivo manual móvil de conformidad con la reivindicación 20, caracterizado porque además comprende una bocina que produce un sonido con base en un cálculo del nivel del ruido en la señal de habla clara mejorada. 22. El dispositivo manual móvil de conformidad con la reivindicación 20, caracterizado porque el dispositivo móvil produce una señal de habla clara mejorada con el uso de la señal de proximidad para ponderar una contribución de la señal de habla mejorada que se forma de la señal del sensor alternativo. 23. El dispositivo manual móvil de conformidad con la reivindicación 22, caracterizado porque ponderar la contribución comprende proporcionar a la contribución menos ponderación cuando la señal de proximidad indica que el dispositivo móvil está demasiado lejos del objeto. 24. El dispositivo manual móvil de conformidad con la reivindicación 19, caracterizado porque además comprende una bocina que produce un sonido con base en la señal de proximidad. 25. El dispositivo manual móvil de conformidad con la reivindicación 24, caracterizado porque el volumen del sonido aumenta conforme la señal de proximidad indica que la distancia entre el dispositivo móvil y el objeto aumenta. 26. El dispositivo manual móvil de conformidad con la reivindicación 19, caracterizado porque la señal del sensor alternativo y la señal del sensor de proximidad se producen por un único sensor. 27. El dispositivo manual móvil de conformidad con la reivindicación 26, caracterizado porque el único sensor comprende un transductor de presión que proporciona una señal eléctrica, la señal eléctrica tiene un componente DC que representa la señal de proximidad y un componente AC que representa la señal del sensor alternativo. 28. Un método en un dispositivo móvil, el método está caracterizado porque comprende: recibir una señal del micrófono de conducción de aire; recibir una señal del sensor alternativo que es indicativa del habla; calcular un valor de habla clara mejorada en la señal de micrófono de conducción de aire y la señal del sensor alternativo; calcular el ruido en el valor del habla clara mejorada; y utilizar el cálculo del ruido para generar un sonido a través de la bocina en el dispositivo móvil. 29. El método de conformidad con la reivindicación 28, caracterizado porque el volumen del sonido aumenta conforme el cálculo del ruido aumenta. 30. El método de conformidad con la reivindicación 28, caracterizado porque además comprende recibir una señal del sensor de proximidad que indica la distancia entre el dispositivo móvil y un objeto y utiliza la señal del sensor de proximidad cuando calcula el valor de habla clara mejorada. 31. El método de conformidad con la reivindicación 30, caracterizado porque el uso de la señal del sensor de proximidad comprende ponderar una contribución del valor del habla clara mejorada que se deriva de la señal del sensor alternativo con base en la señal del sensor de proximidad. 32. El método de conformidad con la reivindicación 31, caracterizado porque ponderar una contribución comprende aplicar una mayor ponderación a la contribución derivada de la señal del sensor alternativo cuando la señal del sensor de proximidad indica que el dispositivo móvil está muy cerca del objeto. 33. El método de conformidad con la reivindicación 32, caracterizado porque el objeto es la cabeza del usuario.
MXPA05002133A 2004-02-24 2005-02-23 Metodo y aparato para mejora del habla multi-sensorial en un dispositivo movil. MXPA05002133A (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/785,768 US7499686B2 (en) 2004-02-24 2004-02-24 Method and apparatus for multi-sensory speech enhancement on a mobile device

Publications (1)

Publication Number Publication Date
MXPA05002133A true MXPA05002133A (es) 2005-12-05

Family

ID=34750476

Family Applications (1)

Application Number Title Priority Date Filing Date
MXPA05002133A MXPA05002133A (es) 2004-02-24 2005-02-23 Metodo y aparato para mejora del habla multi-sensorial en un dispositivo movil.

Country Status (18)

Country Link
US (1) US7499686B2 (es)
EP (1) EP1569422B1 (es)
JP (1) JP4796309B2 (es)
KR (1) KR101137181B1 (es)
CN (2) CN101510905B (es)
AU (1) AU2005200249A1 (es)
BR (1) BRPI0500587A (es)
CA (1) CA2494637C (es)
EG (1) EG23701A (es)
ES (1) ES2775799T3 (es)
IL (1) IL166473A (es)
MX (1) MXPA05002133A (es)
NO (1) NO332636B1 (es)
NZ (1) NZ537900A (es)
RU (1) RU2376722C2 (es)
SG (1) SG114686A1 (es)
TW (1) TW200601798A (es)
ZA (1) ZA200500691B (es)

Families Citing this family (127)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6675027B1 (en) * 1999-11-22 2004-01-06 Microsoft Corp Personal mobile computing device having antenna microphone for improved speech recognition
US7383181B2 (en) 2003-07-29 2008-06-03 Microsoft Corporation Multi-sensory speech detection system
US7447630B2 (en) 2003-11-26 2008-11-04 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7499686B2 (en) 2004-02-24 2009-03-03 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US8095073B2 (en) * 2004-06-22 2012-01-10 Sony Ericsson Mobile Communications Ab Method and apparatus for improved mobile station and hearing aid compatibility
US20060020454A1 (en) * 2004-07-21 2006-01-26 Phonak Ag Method and system for noise suppression in inductive receivers
US7574008B2 (en) 2004-09-17 2009-08-11 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
WO2006033104A1 (en) * 2004-09-22 2006-03-30 Shalon Ventures Research, Llc Systems and methods for monitoring and modifying behavior
US7283850B2 (en) * 2004-10-12 2007-10-16 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US20070116300A1 (en) * 2004-12-22 2007-05-24 Broadcom Corporation Channel decoding for wireless telephones with multiple microphones and multiple description transmission
US20060135085A1 (en) * 2004-12-22 2006-06-22 Broadcom Corporation Wireless telephone with uni-directional and omni-directional microphones
US7983720B2 (en) * 2004-12-22 2011-07-19 Broadcom Corporation Wireless telephone with adaptive microphone array
US20060133621A1 (en) * 2004-12-22 2006-06-22 Broadcom Corporation Wireless telephone having multiple microphones
US8509703B2 (en) * 2004-12-22 2013-08-13 Broadcom Corporation Wireless telephone with multiple microphones and multiple description transmission
US7483727B2 (en) * 2005-04-04 2009-01-27 Research In Motion Limited Mobile wireless communications device having improved antenna impedance match and antenna gain from RF energy
US7346504B2 (en) 2005-06-20 2008-03-18 Microsoft Corporation Multi-sensory speech enhancement using a clean speech prior
US7680656B2 (en) * 2005-06-28 2010-03-16 Microsoft Corporation Multi-sensory speech enhancement using a speech-state model
US7406303B2 (en) 2005-07-05 2008-07-29 Microsoft Corporation Multi-sensory speech enhancement using synthesized sensor signal
PL211141B1 (pl) * 2005-08-03 2012-04-30 Piotr Kleczkowski Sposób miksowania sygnałów dźwiękowych
WO2007028250A2 (en) * 2005-09-09 2007-03-15 Mcmaster University Method and device for binaural signal enhancement
US7930178B2 (en) * 2005-12-23 2011-04-19 Microsoft Corporation Speech modeling and enhancement based on magnitude-normalized spectra
US8345890B2 (en) * 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
US9185487B2 (en) 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
US8194880B2 (en) * 2006-01-30 2012-06-05 Audience, Inc. System and method for utilizing omni-directional microphones for speech enhancement
US8744844B2 (en) 2007-07-06 2014-06-03 Audience, Inc. System and method for adaptive intelligent noise suppression
US8204252B1 (en) 2006-10-10 2012-06-19 Audience, Inc. System and method for providing close microphone adaptive array processing
FR2899372B1 (fr) * 2006-04-03 2008-07-18 Adeunis Rf Sa Systeme de communication audio sans fil
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US8150065B2 (en) 2006-05-25 2012-04-03 Audience, Inc. System and method for processing an audio signal
US8204253B1 (en) 2008-06-30 2012-06-19 Audience, Inc. Self calibration of audio device
US8934641B2 (en) 2006-05-25 2015-01-13 Audience, Inc. Systems and methods for reconstructing decomposed audio signals
US8849231B1 (en) 2007-08-08 2014-09-30 Audience, Inc. System and method for adaptive power control
WO2007139543A1 (en) * 2006-05-31 2007-12-06 Agere Systems Inc. Noise reduction by mobile communication devices in non-call situations
JPWO2008007616A1 (ja) * 2006-07-13 2009-12-10 日本電気株式会社 無音声発声の入力警告装置と方法並びにプログラム
US20080175408A1 (en) * 2007-01-20 2008-07-24 Shridhar Mukund Proximity filter
US7734247B2 (en) * 2007-01-25 2010-06-08 Sony Ericsson Mobile Communications Ab Configurable serial memory interface
US8259926B1 (en) 2007-02-23 2012-09-04 Audience, Inc. System and method for 2-channel and 3-channel acoustic echo cancellation
US8068620B2 (en) * 2007-03-01 2011-11-29 Canon Kabushiki Kaisha Audio processing apparatus
US7925502B2 (en) * 2007-03-01 2011-04-12 Microsoft Corporation Pitch model for noise estimation
US8189766B1 (en) 2007-07-26 2012-05-29 Audience, Inc. System and method for blind subband acoustic echo cancellation postfiltering
US8631358B2 (en) 2007-10-10 2014-01-14 Apple Inc. Variable device graphical user interface
US8428661B2 (en) * 2007-10-30 2013-04-23 Broadcom Corporation Speech intelligibility in telephones with multiple microphones
US8180064B1 (en) 2007-12-21 2012-05-15 Audience, Inc. System and method for providing voice equalization
US8143620B1 (en) 2007-12-21 2012-03-27 Audience, Inc. System and method for adaptive classification of audio sources
US8676224B2 (en) 2008-02-19 2014-03-18 Apple Inc. Speakerphone control for mobile device
US8194882B2 (en) 2008-02-29 2012-06-05 Audience, Inc. System and method for providing single microphone noise suppression fallback
US8355511B2 (en) 2008-03-18 2013-01-15 Audience, Inc. System and method for envelope-based acoustic echo cancellation
US8280732B2 (en) * 2008-03-27 2012-10-02 Wolfgang Richter System and method for multidimensional gesture analysis
EP2301017B1 (en) * 2008-05-09 2016-12-21 Nokia Technologies Oy Audio apparatus
US8521530B1 (en) 2008-06-30 2013-08-27 Audience, Inc. System and method for enhancing a monaural audio signal
US8774423B1 (en) 2008-06-30 2014-07-08 Audience, Inc. System and method for controlling adaptivity of signal modification using a phantom coefficient
US8218397B2 (en) 2008-10-24 2012-07-10 Qualcomm Incorporated Audio source proximity estimation using sensor array for noise reduction
JP5299030B2 (ja) * 2009-03-31 2013-09-25 ソニー株式会社 ヘッドホン装置
US9009039B2 (en) * 2009-06-12 2015-04-14 Microsoft Technology Licensing, Llc Noise adaptive training for speech recognition
WO2011047285A1 (en) 2009-10-16 2011-04-21 University Of Virginia Patent Foundation Gas-expanded lubricants for increased energy efficiency and related method and system
ATE531205T1 (de) * 2009-10-30 2011-11-15 Research In Motion Ltd In der form anpassungsfähige oberfläche für einen audioanschluss
US8213664B2 (en) 2009-10-30 2012-07-03 Research In Motion Limited Shape-adaptable surface for an audio port
RU2542586C2 (ru) 2009-11-24 2015-02-20 Нокиа Корпорейшн Устройство для обработки звуковых сигналов
US9008329B1 (en) 2010-01-26 2015-04-14 Audience, Inc. Noise reduction using multi-feature cluster tracker
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
US9123323B2 (en) * 2010-06-04 2015-09-01 John P. Keady Method and structure for inducing acoustic signals and attenuating acoustic signals
US8761421B2 (en) 2011-01-14 2014-06-24 Audiotoniq, Inc. Portable electronic device and computer-readable medium for remote hearing aid profile storage
WO2011159349A1 (en) 2010-06-14 2011-12-22 Audiotoniq, Inc. Hearing aid system
US9167339B2 (en) 2010-07-07 2015-10-20 Iii Holdings 4, Llc Hearing damage limiting headphones
US8731923B2 (en) * 2010-08-20 2014-05-20 Adacel Systems, Inc. System and method for merging audio data streams for use in speech recognition applications
TWI486068B (zh) * 2010-09-13 2015-05-21 Htc Corp 行動電子裝置與其聲音播放方法
US8515110B2 (en) 2010-09-30 2013-08-20 Audiotoniq, Inc. Hearing aid with automatic mode change capabilities
US10687150B2 (en) 2010-11-23 2020-06-16 Audiotoniq, Inc. Battery life monitor system and method
EP2643981B1 (en) * 2010-11-24 2014-09-17 Koninklijke Philips N.V. A device comprising a plurality of audio sensors and a method of operating the same
EP2458586A1 (en) * 2010-11-24 2012-05-30 Koninklijke Philips Electronics N.V. System and method for producing an audio signal
JP5635182B2 (ja) * 2010-11-25 2014-12-03 ゴーアテック インコーポレイテッドGoertek Inc 音声強調の方法、装置及びノイズ低減通信ヘッドフォン
JP5911248B2 (ja) * 2011-09-22 2016-04-27 株式会社ファインウェル 携帯電話
KR101489612B1 (ko) 2010-12-27 2015-02-04 로무 가부시키가이샤 휴대 전화
US8918149B2 (en) 2010-12-27 2014-12-23 Rohm Co., Ltd. Mobile telephone
US9313306B2 (en) 2010-12-27 2016-04-12 Rohm Co., Ltd. Mobile telephone cartilage conduction unit for making contact with the ear cartilage
JP5902416B2 (ja) * 2011-08-19 2016-04-13 株式会社ファインウェル 携帯電話
JP5783352B2 (ja) 2011-02-25 2015-09-24 株式会社ファインウェル 会話システム、会話システム用指輪、携帯電話用指輪、指輪型携帯電話、及び、音声聴取方法
EP2509337B1 (en) * 2011-04-06 2014-09-24 Sony Ericsson Mobile Communications AB Accelerometer vector controlled noise cancelling method
US8909524B2 (en) * 2011-06-07 2014-12-09 Analog Devices, Inc. Adaptive active noise canceling for handset
JP5731362B2 (ja) * 2011-11-28 2015-06-10 京セラ株式会社 電子機器
CN104247453B (zh) 2012-01-20 2018-06-05 罗姆股份有限公司 移动电话
KR20140145108A (ko) * 2012-03-01 2014-12-22 본 톤 커뮤니케이션즈 (이스라엘) 엘티디. 이동 통신 장치에서의 음성 통신 개선방법 및 시스템
US9998836B2 (en) * 2012-05-01 2018-06-12 Kyocera Corporation Electronic device, control method, and control program
TWI571133B (zh) 2012-06-29 2017-02-11 Rohm Co Ltd stereophone
US9094749B2 (en) 2012-07-25 2015-07-28 Nokia Technologies Oy Head-mounted sound capture device
US9313572B2 (en) 2012-09-28 2016-04-12 Apple Inc. System and method of detecting a user's voice activity using an accelerometer
US9438985B2 (en) 2012-09-28 2016-09-06 Apple Inc. System and method of detecting a user's voice activity using an accelerometer
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
US9363596B2 (en) 2013-03-15 2016-06-07 Apple Inc. System and method of mixing accelerometer and microphone signals to improve voice quality in a mobile device
KR102282366B1 (ko) * 2013-06-03 2021-07-27 삼성전자주식회사 음성 향상 방법 및 그 장치
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
WO2015025829A1 (ja) 2013-08-23 2015-02-26 ローム株式会社 携帯電話
US9705548B2 (en) 2013-10-24 2017-07-11 Rohm Co., Ltd. Wristband-type handset and wristband-type alerting device
CN103778909B (zh) * 2014-01-10 2017-03-01 瑞声科技(南京)有限公司 屏幕发声系统及其控制方法
US9547175B2 (en) 2014-03-18 2017-01-17 Google Inc. Adaptive piezoelectric array for bone conduction receiver in wearable computers
JP6551919B2 (ja) 2014-08-20 2019-07-31 株式会社ファインウェル 見守りシステム、見守り検知装置および見守り通報装置
JP6446913B2 (ja) * 2014-08-27 2019-01-09 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
DE112015003945T5 (de) 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung
TWI559784B (zh) * 2014-09-19 2016-11-21 和碩聯合科技股份有限公司 音訊裝置及音訊調校方法
JP5951738B2 (ja) * 2014-12-01 2016-07-13 株式会社ファインウェル 振動素子およびこれを用いた携帯電話
CN110312181B (zh) 2014-12-18 2020-12-15 株式会社精好 自行车行驶用接听装置及自行车系统
TWI566742B (zh) 2015-02-26 2017-01-21 華邦電子股份有限公司 分析處理裝置
TWI552004B (zh) 2015-03-12 2016-10-01 國立交通大學 信號分解方法及其電子裝置
GB2538853B (en) 2015-04-09 2018-09-19 Dolby Laboratories Licensing Corp Switching to a second audio interface between a computer apparatus and an audio apparatus
KR102372188B1 (ko) * 2015-05-28 2022-03-08 삼성전자주식회사 오디오 신호의 잡음을 제거하기 위한 방법 및 그 전자 장치
US9847093B2 (en) * 2015-06-19 2017-12-19 Samsung Electronics Co., Ltd. Method and apparatus for processing speech signal
EP3323567B1 (en) 2015-07-15 2020-02-12 FINEWELL Co., Ltd. Robot and robot system
JP6551929B2 (ja) 2015-09-16 2019-07-31 株式会社ファインウェル 受話機能を有する腕時計
US10165362B2 (en) 2015-12-24 2018-12-25 Intel Corporation Automated equalization
CN108496345B (zh) 2016-01-19 2021-02-26 株式会社精好 笔型呼入呼出通话装置
JP6178884B2 (ja) * 2016-01-27 2017-08-09 株式会社ファインウェル 携帯電話
US10319377B2 (en) * 2016-03-15 2019-06-11 Tata Consultancy Services Limited Method and system of estimating clean speech parameters from noisy speech parameters
JP6096962B2 (ja) * 2016-03-29 2017-03-15 株式会社ファインウェル 携帯電話
CN106850963A (zh) * 2016-12-27 2017-06-13 广东小天才科技有限公司 一种可穿戴设备的通话控制方法及可穿戴设备
CN106686494A (zh) * 2016-12-27 2017-05-17 广东小天才科技有限公司 一种可穿戴设备的语音输入控制方法及可穿戴设备
CN106792354A (zh) * 2016-12-27 2017-05-31 广东小天才科技有限公司 一种可穿戴设备的播放模式控制方法及可穿戴设备
CN107071652B (zh) * 2016-12-27 2023-08-04 深圳市优必选科技有限公司 一种服务机器人
US10614788B2 (en) 2017-03-15 2020-04-07 Synaptics Incorporated Two channel headset-based own voice enhancement
US10135822B2 (en) 2017-03-21 2018-11-20 YouaretheID, LLC Biometric authentication of individuals utilizing characteristics of bone and blood vessel structures
CN107910011B (zh) 2017-12-28 2021-05-04 科大讯飞股份有限公司 一种语音降噪方法、装置、服务器及存储介质
US11600273B2 (en) 2018-02-14 2023-03-07 Nec Corporation Speech processing apparatus, method, and program
JP2020053948A (ja) 2018-09-28 2020-04-02 株式会社ファインウェル 聴取装置
CN110058689A (zh) * 2019-04-08 2019-07-26 深圳大学 一种基于脸部振动的智能设备输入方法
WO2021046796A1 (en) 2019-09-12 2021-03-18 Shenzhen Voxtech Co., Ltd. Systems and methods for audio signal generation
CN110931031A (zh) * 2019-10-09 2020-03-27 大象声科(深圳)科技有限公司 一种融合骨振动传感器和麦克风信号的深度学习语音提取和降噪方法
CN111327985A (zh) * 2020-03-06 2020-06-23 华勤通讯技术有限公司 一种耳机降噪方法和装置
CN113205824B (zh) * 2021-04-30 2022-11-11 紫光展锐(重庆)科技有限公司 声音信号处理方法、装置、存储介质、芯片及相关设备

Family Cites Families (108)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2761800A (en) * 1955-05-02 1956-09-04 Rca Corp Method of forming p-n junctions in n-type germanium
US3383466A (en) * 1964-05-28 1968-05-14 Navy Usa Nonacoustic measures in automatic speech recognition
US3746789A (en) * 1971-10-20 1973-07-17 E Alcivar Tissue conduction microphone utilized to activate a voice operated switch
US3787641A (en) * 1972-06-05 1974-01-22 Setcom Corp Bone conduction microphone assembly
JPS5756624Y2 (es) * 1979-04-20 1982-12-06
US4382164A (en) * 1980-01-25 1983-05-03 Bell Telephone Laboratories, Incorporated Signal stretcher for envelope generator
JPS62239231A (ja) * 1986-04-10 1987-10-20 Kiyarii Rabo:Kk 口唇画像入力による音声認識方法
JPH0755167B2 (ja) * 1988-09-21 1995-06-14 松下電器産業株式会社 移動体
JPH03108997A (ja) 1989-09-22 1991-05-09 Temuko Japan:Kk 骨伝導マイク
JPH03160851A (ja) * 1989-11-20 1991-07-10 Fujitsu Ltd 携帯電話機
US5054079A (en) * 1990-01-25 1991-10-01 Stanton Magnetics, Inc. Bone conduction microphone with mounting means
US5404577A (en) * 1990-07-13 1995-04-04 Cairns & Brother Inc. Combination head-protective helmet & communications system
US5295193A (en) * 1992-01-22 1994-03-15 Hiroshi Ono Device for picking up bone-conducted sound in external auditory meatus and communication device using the same
US5590241A (en) * 1993-04-30 1996-12-31 Motorola Inc. Speech processing system and method for enhancing a speech signal in a noisy environment
US5446789A (en) * 1993-11-10 1995-08-29 International Business Machines Corporation Electronic device having antenna for receiving soundwaves
JPH0739150U (ja) * 1993-12-14 1995-07-14 アツデン株式会社 携帯用電話機
AU684872B2 (en) * 1994-03-10 1998-01-08 Cable And Wireless Plc Communication system
US5828768A (en) * 1994-05-11 1998-10-27 Noise Cancellation Technologies, Inc. Multimedia personal computer with active noise reduction and piezo speakers
DE69527731T2 (de) * 1994-05-18 2003-04-03 Nippon Telegraph & Telephone Sender-Empfänger mit einem akustischen Wandler vom Ohrpassstück-Typ
JPH08186654A (ja) 1994-12-22 1996-07-16 Internatl Business Mach Corp <Ibm> 携帯端末装置
JP3453898B2 (ja) * 1995-02-17 2003-10-06 ソニー株式会社 音声信号の雑音低減方法及び装置
US5701390A (en) * 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
US5692059A (en) * 1995-02-24 1997-11-25 Kruger; Frederick M. Two active element in-the-ear microphone system
US5555449A (en) * 1995-03-07 1996-09-10 Ericsson Inc. Extendible antenna and microphone for portable communication unit
JP3264822B2 (ja) * 1995-04-05 2002-03-11 三菱電機株式会社 移動体通信機器
US5651074A (en) 1995-05-11 1997-07-22 Lucent Technologies Inc. Noise canceling gradient microphone assembly
KR960042590A (ko) * 1995-05-23 1996-12-21 김광호 테이프 재생용 음량기기에서의 발음비교방법
US5647834A (en) * 1995-06-30 1997-07-15 Ron; Samuel Speech-based biofeedback method and system
JP3591068B2 (ja) * 1995-06-30 2004-11-17 ソニー株式会社 音声信号の雑音低減方法
JP3674990B2 (ja) * 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
JPH09172479A (ja) * 1995-12-20 1997-06-30 Yokoi Kikaku:Kk 送受話器およびそれを用いた通話装置
US6377919B1 (en) * 1996-02-06 2002-04-23 The Regents Of The University Of California System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech
US6006175A (en) * 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
US6243596B1 (en) * 1996-04-10 2001-06-05 Lextron Systems, Inc. Method and apparatus for modifying and integrating a cellular phone with the capability to access and browse the internet
JPH09284877A (ja) * 1996-04-19 1997-10-31 Toyo Commun Equip Co Ltd マイクシステム
US5943627A (en) * 1996-09-12 1999-08-24 Kim; Seong-Soo Mobile cellular phone
JPH10261910A (ja) * 1997-01-16 1998-09-29 Sony Corp 携帯無線装置およびアンテナ装置
JP2874679B2 (ja) * 1997-01-29 1999-03-24 日本電気株式会社 雑音消去方法及びその装置
JPH10224253A (ja) * 1997-02-10 1998-08-21 Sony Corp 携帯通信機
US6308062B1 (en) * 1997-03-06 2001-10-23 Ericsson Business Networks Ab Wireless telephony system enabling access to PC based functionalities
FR2761800A1 (fr) 1997-04-02 1998-10-09 Scanera Sc Dispositif de transmission de voix et telephone le mettant en oeuvre
US5983073A (en) * 1997-04-04 1999-11-09 Ditzik; Richard J. Modular notebook and PDA computer systems for personal computing and wireless communications
US6175633B1 (en) * 1997-04-09 2001-01-16 Cavcom, Inc. Radio communications apparatus with attenuating ear pieces for high noise environments
US6151397A (en) * 1997-05-16 2000-11-21 Motorola, Inc. Method and system for reducing undesired signals in a communication environment
JP3548380B2 (ja) * 1997-05-30 2004-07-28 アイホン株式会社 ドアホン子機
US5924065A (en) * 1997-06-16 1999-07-13 Digital Equipment Corporation Environmently compensated speech processing
US6434239B1 (en) * 1997-10-03 2002-08-13 Deluca Michael Joseph Anti-sound beam method and apparatus
JPH11249692A (ja) 1998-02-27 1999-09-17 Nec Saitama Ltd 音声認識装置
EP0951883B1 (en) 1998-03-18 2005-07-27 Nippon Telegraph and Telephone Corporation Wearable communication device with bone conduction transducer
US6590651B1 (en) * 1998-05-19 2003-07-08 Spectrx, Inc. Apparatus and method for determining tissue characteristics
US6717991B1 (en) * 1998-05-27 2004-04-06 Telefonaktiebolaget Lm Ericsson (Publ) System and method for dual microphone signal noise reduction using spectral subtraction
US6052464A (en) * 1998-05-29 2000-04-18 Motorola, Inc. Telephone set having a microphone for receiving or an earpiece for generating an acoustic signal via a keypad
US6137883A (en) * 1998-05-30 2000-10-24 Motorola, Inc. Telephone set having a microphone for receiving an acoustic signal via keypad
JP3160714B2 (ja) * 1998-07-08 2001-04-25 株式会社シコー技研 携帯無線通信機
US6292674B1 (en) * 1998-08-05 2001-09-18 Ericsson, Inc. One-handed control for wireless telephone
JP3893763B2 (ja) * 1998-08-17 2007-03-14 富士ゼロックス株式会社 音声検出装置
US6760600B2 (en) * 1999-01-27 2004-07-06 Gateway, Inc. Portable communication apparatus
JP2000250577A (ja) * 1999-02-24 2000-09-14 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置及び同装置に使用される学習方法ならびに学習装置及び同方法がプログラムされ記録された記録媒体
DE19917169A1 (de) 1999-04-16 2000-11-02 Kamecke Keller Orla Verfahren zur Speicherung und Wiedergabe von Audio-, Video- und Anwendungsprogrammdaten in Mobilfunkendgeräten
US6952483B2 (en) * 1999-05-10 2005-10-04 Genisus Systems, Inc. Voice transmission apparatus with UWB
US6542721B2 (en) * 1999-10-11 2003-04-01 Peter V. Boesen Cellular telephone, personal digital assistant and pager unit
US20020057810A1 (en) * 1999-05-10 2002-05-16 Boesen Peter V. Computer and voice communication unit with handsfree device
US6738485B1 (en) * 1999-05-10 2004-05-18 Peter V. Boesen Apparatus, method and system for ultra short range communication
US6560468B1 (en) * 1999-05-10 2003-05-06 Peter V. Boesen Cellular telephone, personal digital assistant, and pager unit with capability of short range radio frequency transmissions
US6094492A (en) * 1999-05-10 2000-07-25 Boesen; Peter V. Bone conduction voice transmission apparatus and system
JP2001016057A (ja) * 1999-07-01 2001-01-19 Matsushita Electric Ind Co Ltd 音響装置
US6594629B1 (en) * 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
US6603823B1 (en) * 1999-11-12 2003-08-05 Intel Corporation Channel estimator
US6339706B1 (en) * 1999-11-12 2002-01-15 Telefonaktiebolaget L M Ericsson (Publ) Wireless voice-activated remote control device
FI116643B (fi) * 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
US6411933B1 (en) * 1999-11-22 2002-06-25 International Business Machines Corporation Methods and apparatus for correlating biometric attributes and biometric attribute production features
US6675027B1 (en) * 1999-11-22 2004-01-06 Microsoft Corp Personal mobile computing device having antenna microphone for improved speech recognition
GB2357400A (en) * 1999-12-17 2001-06-20 Nokia Mobile Phones Ltd Controlling a terminal of a communication system
JP4472823B2 (ja) * 2000-02-04 2010-06-02 パナソニック株式会社 クロマトグラフィー試験片、及びその製造方法
US20030179888A1 (en) * 2002-03-05 2003-09-25 Burnett Gregory C. Voice activity detection (VAD) devices and methods for use with noise suppression systems
JP3339579B2 (ja) * 2000-10-04 2002-10-28 株式会社鷹山 電話装置
KR100394840B1 (ko) * 2000-11-30 2003-08-19 한국과학기술원 독립 성분 분석을 이용한 능동 잡음 제거방법
US6853850B2 (en) * 2000-12-04 2005-02-08 Mobigence, Inc. Automatic speaker volume and microphone gain control in a portable handheld radiotelephone with proximity sensors
US20020075306A1 (en) * 2000-12-18 2002-06-20 Christopher Thompson Method and system for initiating communications with dispersed team members from within a virtual team environment using personal identifiers
US6985858B2 (en) * 2001-03-20 2006-01-10 Microsoft Corporation Method and apparatus for removing noise from feature vectors
GB2375276B (en) 2001-05-03 2003-05-28 Motorola Inc Method and system of sound processing
US6987986B2 (en) * 2001-06-21 2006-01-17 Boesen Peter V Cellular telephone, personal digital assistant with dual lines for simultaneous uses
JP3699018B2 (ja) * 2001-07-25 2005-09-28 埼玉日本電気株式会社 電話機の自動音量調整装置
US7054423B2 (en) * 2001-09-24 2006-05-30 Nebiker Robert M Multi-media communication downloading
US6959276B2 (en) * 2001-09-27 2005-10-25 Microsoft Corporation Including the category of environmental noise when processing speech signals
US6952482B2 (en) * 2001-10-02 2005-10-04 Siemens Corporation Research, Inc. Method and apparatus for noise filtering
JP3532544B2 (ja) * 2001-10-30 2004-05-31 株式会社テムコジャパン 面体又は帽体のストラップ装着用送受話装置
JP3678694B2 (ja) * 2001-11-02 2005-08-03 Necビューテクノロジー株式会社 対話型端末装置、その通話制御方法、およびそのプログラム
US7162415B2 (en) * 2001-11-06 2007-01-09 The Regents Of The University Of California Ultra-narrow bandwidth voice coding
US6707921B2 (en) * 2001-11-26 2004-03-16 Hewlett-Packard Development Company, Lp. Use of mouth position and mouth movement to filter noise from speech in a hearing aid
DE10158583A1 (de) * 2001-11-29 2003-06-12 Philips Intellectual Property Verfahren zum Betrieb eines Barge-In-Dialogsystems
US6664713B2 (en) * 2001-12-04 2003-12-16 Peter V. Boesen Single chip device for voice communications
US7219062B2 (en) * 2002-01-30 2007-05-15 Koninklijke Philips Electronics N.V. Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system
US9374451B2 (en) 2002-02-04 2016-06-21 Nokia Technologies Oy System and method for multimodal short-cuts to digital services
US7117148B2 (en) * 2002-04-05 2006-10-03 Microsoft Corporation Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
US7190797B1 (en) * 2002-06-18 2007-03-13 Plantronics, Inc. Headset with foldable noise canceling and omnidirectional dual-mode boom
GB2421668B (en) 2002-06-24 2007-01-03 Samsung Electronics Co Ltd Usage position detection
MXPA05001079A (es) * 2002-07-26 2005-06-03 Oakley Inc Audifonos interactivos inalambricos.
US7092529B2 (en) * 2002-11-01 2006-08-15 Nanyang Technological University Adaptive control system for noise cancellation
WO2004068464A2 (en) * 2003-01-30 2004-08-12 Aliphcom, Inc. Acoustic vibration sensor
US7593851B2 (en) * 2003-03-21 2009-09-22 Intel Corporation Precision piecewise polynomial approximation for Ephraim-Malah filter
US20060008256A1 (en) * 2003-10-01 2006-01-12 Khedouri Robert K Audio visual player apparatus and system and method of content distribution using the same
US7447630B2 (en) * 2003-11-26 2008-11-04 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7133825B2 (en) * 2003-11-28 2006-11-07 Skyworks Solutions, Inc. Computationally efficient background noise suppressor for speech coding and speech recognition
US7499686B2 (en) 2004-02-24 2009-03-03 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US8095073B2 (en) * 2004-06-22 2012-01-10 Sony Ericsson Mobile Communications Ab Method and apparatus for improved mobile station and hearing aid compatibility
US7574008B2 (en) * 2004-09-17 2009-08-11 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7283850B2 (en) * 2004-10-12 2007-10-16 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device

Also Published As

Publication number Publication date
NZ537900A (en) 2006-08-31
CN100583909C (zh) 2010-01-20
US20050185813A1 (en) 2005-08-25
IL166473A0 (en) 2006-01-15
JP2005244968A (ja) 2005-09-08
ES2775799T3 (es) 2020-07-28
KR101137181B1 (ko) 2012-04-19
RU2376722C2 (ru) 2009-12-20
ZA200500691B (en) 2007-03-28
CN101510905A (zh) 2009-08-19
NO20050986D0 (no) 2005-02-23
RU2005104970A (ru) 2006-08-10
CN101510905B (zh) 2011-03-09
CN1662018A (zh) 2005-08-31
SG114686A1 (en) 2005-09-28
BRPI0500587A (pt) 2005-10-18
NO332636B1 (no) 2012-11-26
AU2005200249A1 (en) 2005-09-08
JP4796309B2 (ja) 2011-10-19
EP1569422A2 (en) 2005-08-31
US7499686B2 (en) 2009-03-03
EP1569422A3 (en) 2007-08-29
IL166473A (en) 2010-12-30
EP1569422B1 (en) 2019-11-13
EG23701A (en) 2007-05-22
CA2494637C (en) 2013-09-03
KR20050086378A (ko) 2005-08-30
NO20050986L (no) 2005-08-25
TW200601798A (en) 2006-01-01
CA2494637A1 (en) 2005-08-24

Similar Documents

Publication Publication Date Title
MXPA05002133A (es) Metodo y aparato para mejora del habla multi-sensorial en un dispositivo movil.
RU2373584C2 (ru) Способ и устройство для повышения разборчивости речи с использованием нескольких датчиков
US7684982B2 (en) Noise reduction and audio-visual speech activity detection
JP6031041B2 (ja) 複数のオーディオセンサを有する装置とその動作方法
CN117294985A (zh) 一种tws蓝牙耳机控制方法
JP6197367B2 (ja) 通話装置及びマスキング音生成プログラム
Flynn et al. Robust distributed speech recognition using speech enhancement
Park et al. A user voice reduction algorithm based on binaural signal separation for portable digital imaging devices

Legal Events

Date Code Title Description
FA Abandonment or withdrawal