MX2009002093A - Metodo de mezclado de voz y servidor de conferencia multipunto y programa que utiliza el mismo metodo. - Google Patents

Metodo de mezclado de voz y servidor de conferencia multipunto y programa que utiliza el mismo metodo.

Info

Publication number
MX2009002093A
MX2009002093A MX2009002093A MX2009002093A MX2009002093A MX 2009002093 A MX2009002093 A MX 2009002093A MX 2009002093 A MX2009002093 A MX 2009002093A MX 2009002093 A MX2009002093 A MX 2009002093A MX 2009002093 A MX2009002093 A MX 2009002093A
Authority
MX
Mexico
Prior art keywords
voice
information
voice information
speech
stage
Prior art date
Application number
MX2009002093A
Other languages
English (en)
Inventor
Kazunori Ozawa
Hironori Ito
Original Assignee
Nec Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nec Corp filed Critical Nec Corp
Publication of MX2009002093A publication Critical patent/MX2009002093A/es

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques

Abstract

El método de mezclado de voz incluye una primera etapa para seleccionar la información de voz de una pluralidad de información de voz, una segunda etapa para agregar toda la información de voz seleccionada, una tercera etapa para obtener una señal de voz que totaliza las señales de voz aparte de una señal de voz, de las señales de voz seleccionadas, una cuarta etapa para codificar la información de voz obtenida en la segunda etapa, una quinta etapa para codificar la señal de voz obtenida en la tercera etapa, y una sexta etapa para copiar la información codificada obtenida en la cuarta etapa en la información codificada en la quinta etapa.

Description

MÉTODO DE MEZCLADO DE VOZ Y SERVIDOR DE CONFERENCIA MULTIPUNTO Y PROGRAMA QUE UTILIZA EL MISMO MÉTODO CAMPO TÉCNICO La invención se relaciona con un método de mezclado de voz y un servidor de conferencia multipunto y programa que utiliza el mismo método. Más específicamente, se relaciona con un método de mezclado de voz que mezcla las voces de todos los participantes, sustrae la voz de un participante de las voces mezcladas, y transmite la voz sustraída al mismo participante, y un servidor de conferencia multipunto y un programa que utiliza el mismo método. ARTE ANTECEDENTE En un servicio de conferencia multipunto, los datos de voz de cada participante, los cuales se codifican por un codificador de voz, se transmiten a un servidor de conferencia multipunto. El servidor de conferencia multipunto transmite a cada participante los datos de voz con las voces de los otros participantes que este un participante mezcló. Al mezclar los datos de voz, al principio, las señales de voz de todos los participantes se calculan agregando todas las señales de voz decodificadas obtenidas mediante la decodificación de los datos de voz de cada participante. Después, las señales de voz se obtienen sustrayendo la voz propia de las señales de voz de todos los participantes, las señales de voz se codifican y los datos de voz generados se transmiten a los participantes respectivos. Como un ejemplo de un protocolo de comunicación entre una terminal en un servicio de conferencia multipunto y el servidor, ITU-T H.323 y H.324 se utilizan en una red de conmutación de circuitos, 3G-324M se utiliza en una red móvil, y IETF RFC3550 RTP (Protocolo de Transporte en Tiempo Real) se utiliza en una red de paquetes basada en IP (Protocolo de Internet) . Se utiliza como el codificador de voz, el método AMR (Multi-velocidad Adaptable) definido por G.711, G.729, y 3GPP TS26.090, el método AMR-WB (Banda Ancha) definido por TS26.190, y un método EVRC (Códec de Velocidad Variable Mejorado) definido por 3GPP2, que son los estándares ITU-T. El método G.711 es para comprimir cada muestra de 16 bits en las señales de voz muestreadas a 8 kHz para ser 8 bits mediante el uso de la transformación logarítmica y en este método, la cantidad de cálculo es pequeña pero la proporción de compresibilidad es baja. Por otra parte, el método G.729, el método AMR y el método EVRC se basan en un método de codificación diferencial de acuerdo al principio CELP (Predicción Lineal Excitada del Código) y pueden codificar la señal de voz más eficientemente. En el CELP, un codificador extrae un parámetro de espectro que muestra un espectro característico de la señal de voz de la señal de voz para cada trama (por ejemplo, 20 ms) utilizando un análisis de predicción lineal (LPC: Codificación Predictiva Lineal) . Además, la señal de voz dividida en tramas se divide adicionalmente en sub-tramas (por ejemplo, 5 ms), los parámetros (un parámetro de retardo y un parámetro de ganancia correspondientes a un período de paso) en un libro de código adaptable se extraen con base en una señal de la fuente de sonido pasada para cada sub-trama, y el paso de la señal de voz de la sub-trama correspondiente se predice de acuerdo al libro de código adaptable. Un vector del código de la fuente de sonido más adecuado se selecciona de un libro de código de la fuente de sonido (libro de código de la cuantificación vectorial) que consiste de las clases predeterminadas de señales de ruido y una ganancia más adecuada se calcula para una señal residual obtenida a través de la predicción del paso, cuantificando por consiguiente las señales de la fuente de sonido. El vector del código de la fuente de sonido se selecciona para minimizar un error de energía eléctrica entre una señal sintetizada por la señal de ruido seleccionada y la señal residual anteriormente mencionada. Una combinación del parámetro de índice, de ganancia, de espectro y el parámetro en el libro de código adaptable, que indica el tipo de vector de código seleccionado, se transmite como los datos de voz. Un decodificador calcula una señal de la fuente de sonido y un coeficiente del filtro sintético en el análisis de predicción lineal de un parámetro obtenido a partir de los datos de voz y la señal de la fuente de sonido se conduce a través del filtro sintético, obteniendo por consiguiente la señal de voz compleja. Se describe un método de mezclado de voz (refiérase al Documento 1 de Patente) en el cual el procesamiento de comparación/selección no se realiza para cada muestra y una pluralidad de muestras que siguen a la muestra de los datos de voz seleccionados se seleccionan con base en el resultado de un procesamiento de comparación/selección en el tamaño en las muestras . Además, se describe un método de mezclado de voz (refiérase al Documento 2 de Patente) en el cual una señal total se genera una vez en una unidad de mezclado, su propia información de voz (la información de voz transmitida por un usuario) se sustrae de la señal total, y la información de voz de otro diferente del usuario se regresa a si mismo. Se describe una unidad de control de comunicación (refiérase al Documento 3 de Patente) en la cual una unidad de síntesis de voz agrega cada dato de voz convertido en los datos lineales por cada unidad heterogénea de codificación/decodificación, después de eso, los datos de voz se generan sustrayendo la voz propia de los datos de voz añadidos, y se transmiten a la unidad heterogénea de codificación/decodificación correspondiente. Documento 1 de Patente; Publicación de Patente Japonesa abierta al público No. 2005-151044 (párrafo 0014, 0016 y 0045) . Documento 2 de Patente; Publicación de Patente Japonesa abierta al público No. 2005-229259 (párrafo 0003 y Figura 1) Documento 3 de Patente; Patente Japonesa abierta al público No. 6-350724 (párrafo 0020 y Figura 2) En un sistema de conferencia multipunto en el arte relacionado, la voz mezclada con las voces de todos los participantes aparte del participante mismo, se codifica y transmite a cada participante. En ese tiempo, debido a que la cantidad de cálculo a través de la codificación de voz incrementa de acuerdo a un incremento en el número de participantes, el sistema utiliza un método para detectar a cada orador que está articulando y restringir el número de voces a mezclarse, reduciendo por consiguiente el número de codificadores de voz a ser operados. En el caso de utilizar un codificador de voz que realiza una codificación diferencial como el método CELP, debido a que ocurre una inconsistencia en una memoria que muestra la condición del codificador al conmutar el codificador de acuerdo a un cambio del orador, existe un problema de que ocurre sonido anormal en una voz decodificada . No se describen medios para solucionar el problema en los Documentos 1 a 3 de Patente anteriores. BREVE DESCRIPCIÓN DE LA INVENCIÓN Un objeto ejemplar de la invención es proporcionar un método de mezclado de voz que pueda prevenir que ocurra sonido anormal en la voz decodificada al conmutar el codificador de acuerdo a un cambio de un orador, y un servidor de conferencia multipunto y programa que utiliza el método anterior. De acuerdo con un primer aspecto ejemplar de la invención, un método de mezclado de voz para mezclar una pluralidad de información de voz incluye una primera etapa para seleccionar la información de voz de una pluralidad de información de voz, una segunda etapa para agregar toda la información de voz seleccionada, una tercera etapa para obtener una información de voz que totaliza la información de voz aparte de una información de voz, de la información de voz seleccionada, una cuarta etapa para codificar la información de voz obtenida en la segunda etapa, una quinta etapa para codificar la información de voz obtenida en la tercera etapa, y una sexta etapa para copiar la información codificada obtenida en la cuarta etapa en la información codificada en la quinta etapa. De acuerdo con un segundo aspecto ejemplar de la invención, un servidor de conferencia multipunto que mezcla una pluralidad de información de voz, incluye un seleccionador que selecciona la información de voz de la pluralidad de la información de voz, un adicionador de todas las señales que agrega toda la información de voz seleccionada por el seleccionador, un adicionador que obtiene una señal de voz agregando las señales de voz aparte de una señal de voz, de las señales de voz seleccionadas, un primer codificador que codifica la información de voz agregada por el adicionador de todas las señales, un segundo codificador que codifica la información de voz sustraída por el adicionador, y un conmutador que copia la información codificada obtenida por el primer codificador en el segundo codificador. De acuerdo con un tercer aspecto ejemplar de la invención, un programa para realizar el mezclado de voz de una pluralidad de información de voz, el cual hace a una computadora realizar una primera etapa para seleccionar la información de voz de una pluralidad de información de voz, una segunda etapa para agregar la toda la información de voz seleccionada, una tercera etapa para sustraer la información de voz seleccionada de la información de voz agregada una por una, una cuarta etapa para codificar la información de voz obtenida en la segunda etapa, una quinta etapa para codificar la información de voz obtenida en la tercera etapa, y una sexta etapa para copiar la información codificada obtenida en la cuarta etapa en la información codificada obtenida en la quinta etapa. Otros objetos, características y ventajas de la invención se volverán evidentes a partir de la descripción detallada dada aquí a continuación. BREVE DESCRIPCIÓN DE LOS DIBUJOS En los dibujos: La Figura 1 es una vista estructural de un servidor de conferencia multipunto de acuerdo a la primera modalidad ejemplar de la invención; La Figura 2 es un diagrama de flujo que muestra un procedimiento operacional del servidor de conferencia multipunto de acuerdo a la primera modalidad ejemplar de la invención; y La Figura 3 es una vista estructural de un servidor de conferencia multipunto de acuerdo a la segunda modalidad ejemplar de la invención. MODALIDAD EJEMPLAR A partir de ahora, las modalidades ejemplares de la invención se describirán refiriéndose a los dibujos acompañantes . (PRIMERA MODALIDAD EJEMPLAR) La Figura 1 es una vista estructural de un servidor de conferencia multipunto de acuerdo a la primera modalidad ejemplar de la invención. El servidor de conferencia multipunto de acuerdo a la primera modalidad ejemplar de la invención comprende terminales 100, 110, y 190 de entrada de voz (o señal de voz de entrada) , calculadores 101, 111, y 191 de energía, seleccionador 200 del orador, conmutadores 102, 112, y 192 de entrada de la señal de voz, adicionador 300 de todas las señales, adicionadores 103, 113, y 193, codificadores 104, 114, y 194 de voz, conmutadores 105, 115, y 195 de memoria, un codificador 400 de voz común, conmutadores 106, 116, y 196 de datos de voz, y terminales 107, 117, y 197 de salida de voz destinadas al orador (o salida de voz destinada al orador) . Las terminales 100, 110, y 190 de entrada de voz corresponden a un orador 1, un orador 2, un orador M. Los calculadores 101, 111, ···, y 191 de energía, los conmutadores 102, 112, y 192 de entrada de la señal de voz, los adicionadores 103, 113, y 193, los codificadores 104, 114, y 194 de voz, los conmutadores 105, 115, y 195 de memoria, los conmutadores 106, 116, y 196 de datos de voz, y las terminales 107, 117, y 197 de salida de voz destinadas al orador corresponden a los oradores respectivos de modo semejante. Después, una operación de la primera modalidad ejemplar se describirá refiriéndose a la Figura 1 y Figura 2. La Figura 2 es un diagrama de flujo que muestra el procedimiento operacional del servidor de conferencia multipunto de acuerdo a la primera modalidad ejemplar de la invención. A partir de ahora, aunque solo se describen los bloques de procesamiento correspondientes al orador 1, orador 2 y orador , se realiza el mismo procesamiento en los oradores no ilustrados. El calculador 101 de energía, el calculador 111 de energía, y el calculador 191 de energía calculan las energías respectivas correspondientes a la señal 100 de voz de entrada, la señal 110 de voz de entrada, y la señal 190 de voz de entrada del orador 1, orador 2, y orador M respectivamente y proporcionan como salida las energías anteriores (Etapa SI de la Figura 2) . El seleccionador 200 del orador selecciona a un orador que está hablando utilizando las energías calculadas de los oradores respectivos y proporciona como salida el resultado seleccionado (Etapa S2 en la Figura 2) . El conmutador 102 de entrada de la señal de voz, el conmutador 112 de entrada de la señal de voz, y el conmutador 192 de entrada de la señal de voz conmutan si o no para proporcionar como salida las señales de voz de entrada de los oradores respectivos con base en el resultado seleccionado del seleccionador 200 del orador (Etapa S3 en la Figura 2) . El adicionador 300 de todas las señales suministra la señal de voz obtenida totalizando todas las voces correspondientes al orador seleccionado en el seleccionador 200 del orador (Etapa S4 en la Figura 2) . El adicionador 103, el adicionador 113, y el adicionador 193 suministran las señales de voz obtenidas sustrayendo la señal de voz del orador seleccionado de la señal de voz suministrada a partir del adicionador 300 de todas las señales (Etapa S5 en la Figura 2) . A saber, suministran la información de voz obtenida sustrayendo la información de voz de los oradores que respectivamente corresponden a los codificadores 104, 114, y 194 de voz, de los oradores seleccionados de la señal de voz suministrada a partir del adicionador 300 de todas las señales . El codificador 400 de voz común codifica la señal de voz suministrada a partir del adicionador 300 de todas las señales (Etapa S6 en la Figura 2) . El codificador 104 de voz, el codificador 114 de voz, y el codificador 194 de voz codifican las señales de voz suministradas a partir del adicionador 103, el adicionador 113, y el adicionador 193 (Etapa S7 en la Figura 2) . El conmutador 105 de memoria, el conmutador 115 de memoria, y el conmutador 195 de memoria copian el contenido de la memoria en la codificación diferencial en el codificador 400 de voz común con el codificador 104 de voz, el codificador 114 de voz, y el codificador 194 de voz respectivamente con base en el resultado seleccionado del seleccionador 200 del orador (Etapa S8 en la Figura 2) . Específicamente, los conmutadores de memoria respectivamente copian la información codificada que es el resultado de la codificación diferencial almacenada en la memoria del codificador 400 de voz común, en las memorias del codificador 104 de voz, el codificador 114 de voz, y el codificador 194 de voz. Así, las memorias del codificador 104 de voz, el codificador 114 de voz, y el codificador 194 de voz se convierten en las mismas condiciones como la memoria del codificador 400 de voz común. Con base en el resultado seleccionado del seleccionador 200 del orador, el conmutador 106 de datos de voz, el conmutador 116 de datos de voz, y el conmutador 196 de datos de voz conmutan los datos de voz de salida (Etapa S9 en la Figura 2) . Específicamente, como un ejemplo, cuando se selecciona el orador 1, y no se seleccionan el orador 2 y el orador M, el conmutador 102 de la señal de entrada de voz del orador 1 se ENCIENDE, el conmutador 112 de la señal de entrada de voz del orador 2 y el conmutador 192 de la señal de entrada de voz del orador M se APAGAN, el conmutador 105 de memoria del orador 1 se ENCIENDE, el conmutador 115 de memoria del orador 2 y el conmutador 195 de memoria del orador M se APAGAN, el conmutador 106 de datos de voz del orador 1 se conecta al lado del orador 1, y el conmutador 116 de datos de voz del orador 2 y el conmutador 196 de datos de voz del orador M se conectan al lado del codificador 400 de voz común. El adicionador 300 de todas las señales totaliza las señales de voz del orador 1 a través del conmutador 102 de entrada de la señal de voz y la señal totalizada se suministra al codificador 400 de voz común. El adicionador 103 sustrae la señal de voz del orador 1 de la señal de voz del orador 1 que se totaliza por el adicionador 300 de todas las señales y la señal de resultado se suministra al codificador 104 de voz. La señal de salida del codificador 104 de voz se transmite al orador 1 a través del conmutador 106 de datos de voz. La señal de voz suministrada al codificador 400 de voz común se transmite al orador 2 no seleccionado y al orador M a través de los conmutadores 116 y 196 de datos de voz. La primera modalidad ejemplar de la invención se caracteriza en que la información almacenada en el codificador 400 de voz común se copia en el codificador 104 de voz a través del conmutador 105 de memoria en un momento cuando el orador 1 vuelve del estado no seleccionado al estado seleccionado o en que la información almacenada en el codificador 400 de voz común se copia en el codificador 114 de voz a través del conmutador 115 de memoria en un momento cuando el orador 2 se cambia para ser seleccionado. De acuerdo a esto, al conmutar el codificador de voz en un cambio del orador, es posible prevenir que ocurra sonido anormal en la voz decodificada, causado por la inconsistencia en la memoria que muestra la condición del codificador de voz.
En la primera modalidad ejemplar, aunque cada uno del adicionador 103, el adicionador 113, y el adicionador 193 se diseñan para suministrar la señal de voz obtenida sustrayendo la señal de voz del orador seleccionado de la señal de voz suministrada a partir del adicionador 300 de todas las señales, puede obtenerse el mismo resultado en la estructura de agregar y proporcionar como salida las señales de voz aparte de aquellas del orador seleccionado en las señales de voz seleccionadas. (EJEMPLO OPERATIVO) A partir de ahora, se describirá un ejemplo especifico de la modalidad ejemplar refiriéndose a la Figura 1. Al principio, el calculador 101 de energía, el calculador 112 de energía, y el calculador 192 de energía respectivamente calculan las energías de las señales de voz de la señal 100 de voz de entrada, la señal 110 de voz de entrada, y la señal 190 de voz de entrada, y suministran y proporcionan como salida las energías calculadas al seleccionador 200 del orador. Por ejemplo, la energía P para la señal s (n) de voz de entrada del muestreo de 8 kHz se calcula utilizando la siguiente fórmula (1) en cada 20 milisegundos (muestra 160) .
Fórmula (1) Aquí, como un ejemplo, L= 160. El seleccionador 200 del orador selecciona a un orador que está articulando utilizando las energías de entrada de los oradores y suministra si selecciona o no al conmutador 102 de entrada de la señal de voz, al conmutador 112 de entrada de la señal de voz, al conmutador 192 de entrada de la señal de voz, al conmutador 105 de memoria, al conmutador 115 de memoria, al conmutador 195 de memoria, al conmutador 106 de datos de voz, al conmutador 116 de datos de voz, y al conmutador 196 de datos de voz. Como un método para seleccionar el orador que articula, existe un método para seleccionar los oradores jerarquizados en la parte superior N (N < M y N y M son números enteros positivos) predeterminados para disminuir la energía y un método para seleccionar el orador que tiene la energía excediendo un umbral predeterminado. Además, puede considerarse mediante el uso del valor suavizado a través de la integración de la fuga no por el uso directo de la energía de entrada. Cuando una entrada se define como x (n) y una salida se define como y (n) , la integración de la fuga se representa como y (n) = k x y (n-1) + x (n) . Aquí, 0 < k < l y k es un número constante. El conmutador 102 de entrada de la señal de voz, el conmutador 112 de entrada de la señal de voz, y el conmutador 192 de entrada de la señal de voz respectivamente suministran la señal 100 de voz de entrada, la señal 110 de voz de entrada, y la señal 190 de voz de entrada correspondientes a los oradores seleccionados por el seleccionador 200 del orador para el correspondiente adicionador 103, adicionador 113, y adicionador 193 y el adicionador 300 de todas las señales. El adicionador 300 de todas las señales suministra la señal de voz obtenida totalizando todas las señales de voz de entrada al adicionador 103, al adicionador 113, al adicionador 193, y al codificador 400 de voz común. El adicionador 103, el adicionador 113, y el adicionador 193 suministran la señal de voz obtenida sustrayendo las señales de voz respectivas suministradas a partir del conmutador 102 de entrada de la señal de voz, el conmutador 112 de entrada de la señal de voz, y el conmutador 192 de entrada de la señal de voz de la señal de voz suministrada a partir del adicionador 300 de todas las señales, para el codificador 104 de voz, el codificador 114 de voz, y el codificador 194 de voz respectivamente por lo que respecta a los oradores seleccionados por el seleccionador 200 del orador . En la voz después del mezclado, una Ganancia Gi ajustable indicada por la siguiente fórmula (2) puede multiplicarse por la señal de voz de entrada de cada orador i para disminuir una diferencia de volumen de sonido entre los oradores.
G¡ = Fórmula ( 2 ) P, Una marca Pi de referencia es la energía hacia el orador i calculada por la fórmula (1) y N es el número de señales mezcladas. La Gi se calcula en proporción inversa a la energía de los oradores, y cuando se actualiza, por ejemplo, en cada 20 milisegundos que es un ciclo de cálculo de la energía Pi, cambia demasiado grande, y por consiguiente puede suavizarse como se muestra en la siguiente fórmula (3) .
G_i = (l-a)xG_i + axG'_i Fórmula (3) Aquí, G' i muestra la ganancia ajustable que se ha calculado antes. Como un valor de OÍ, por ejemplo, se utiliza 0.9. Para evitar el ajuste excesivo del volumen de sonido, por ejemplo, el rango posible de la Gi puede limitarse a 0.5 a 2. Para ajustar el volumen de sonido de la señal de voz mezclada, la ganancia Ga ajustable mostrada por la siguiente fórmula (4) puede multiplicarse por la señal de voz mezclada. G a = P_salidaI P a Fórmula (4) Aquí, Pa es la energía de la señal de voz mezclada calculada por la fórmula (1) y Psalida es la energía de un valor objetivo en un tiempo de ajuste. Puede utilizarse el valor más grande del orador en la señal de voz mezclada de los oradores y el valor predeterminado de un nivel predeterminado. El suavizado puede realizarse y el rango posible puede limitarse de modo semejante a la Gi anteriormente mencionada.
El codificador 400 de voz común codifica la señal de voz suministrada a partir del adicionador 300 de todas las señales y suministra los datos de voz codificada al conmutador 106 de datos de voz, al conmutador 116 de datos de voz, y al conmutador 196 de datos de voz. El codificador 104 de voz, el codificador 114 de voz, y el codificador 194 de voz codifican las señales de voz y suministra^ los datos de voz codificada al conmutador 106 de datos de voz, al conmutador 116 de datos de voz, y al conmutador 196 de datos de voz cuando las señales de voz se suministran a partir del adicionador 103, el adicionador 113, y el adicionador 193. El conmutador 105 de memoria, el conmutador 115 de memoria, y el conmutador 195 de memoria suministran el contenido de la memoria en la codificación diferencial del codificador 400 de voz común respectivamente al codificador 104 de voz, el codificador 114 de voz, y el codificador 194 de voz cuando el seleccionador 200 del orador vuelve al estado de selección del orador del estado no seleccionado. A causa del procesamiento del conmutador de memoria, no ocurre inconsistencia alguna en la memoria en la codificación diferencial al momento de conmutar la salida de los datos de voz de salida del codificador 400 de voz común para el codificador 104 de voz, por ejemplo, con respecto al orador 1.
Por otra parte, al momento de conmutar la salida de los datos de voz de salida del codificador 104 de voz al codificador 400 de voz común, debido a que la memoria del codificador 400 de voz común no puede re-escribirse, ocurre una inconsistencia en las memorias. Sin embargo, debido a que esto es al momento cuando el volumen de sonido del orador 1 se vuelve pequeño y la voz de entrada del codificador 104 de voz se vuelve sustancialmente igual a la voz de entrada para el codificador 400 de voz común, el deterioro en la calidad de sonido causado por la inconsistencia en ambas memorias es pequeño. En este caso, para hacer pequeña la inconsistencia en las memorias, después de que la misma señal de voz como la entrada de la señal de voz para el codificador 400 de voz común se suministra al codificador 104 de voz y se opera por algún tiempo, el conmutador 1 de datos de voz puede conmutarse a los datos de voz suministrados a partir del codificador 400 de voz común. Una inconsistencia en las memorias se vuelve más pequeña a medida que se opera con la misma señal de voz de entrada durante un tiempo más largo, sin embargo, allí ocurre un retardo necesario para la conmutación. El conmutador 106 de datos de voz, el conmutador 116 de datos de voz, y el conmutador 196 de datos de voz suministran los datos de voz suministrados a partir del codificador 104 de voz, el codificador 114 de voz, y el codificador 194 de voz cuando se selecciona como el orador que está articulando, en el seleccionador 200 del orador, y suministran los datos de voz suministrados a partir del codificador 400 de voz común cuando no se selecciona como el orador que está articulando en el seleccionador 200 del orador. En esta modalidad ejemplar, aunque se asume que todos los codificadores de voz son los mismos, puede utilizarse varias clases de codificadores de voz o pueden mezclarse varias clases de velocidades de bits. En este caso, los codificadores comunes se necesitan para el número de varias clases de codificadores o velocidades de bits. La conmutación de las memorias tiene que realizarse en la misma clase de codificadores o velocidades de bits. Como se describe anteriormente, de acuerdo al ejemplo operativo de la invención, hay un mérito de que no ocurre inconsistencia alguna en las memorias en la codificación diferencial al momento de conmutar la salida de los datos de voz de salida del codificador 400 de voz común al codificador 104 de voz, por ejemplo, con respecto al orador 1. (SEGUNDA MODALIDAD EJEMPLAR) A continuación, se describirá una segunda modalidad ejemplar de la invención refiriéndose a la Figura 3. La Figura 3 es una vista estructural de un servidor de conferencia multipunto de acuerdo a la segunda modalidad ejemplar de la invención. Los mismos números se atribuyen a los mismos componentes como en la Figura 1 y se omite su descripción. El decodificador 501 de voz, el decodificador 511 de voz, y el decodificador 591 de voz decodifican los datos 500 de voz de entrada, los datos 510 de voz de entrada, y los datos 590 de voz de entrada que están codificados respectivamente y suministran las voces decodificadas al calculador 101 de energía, al calculador 102 de energía, y al calculador 192 de energía, y al conmutador 102 de entrada de la señal de voz, al conmutador 112 de entrada de la señal de voz, y al conmutador 192 de entrada de la señal de voz. El analizador 502 de datos de voz, el analizador 512 de datos de voz, y el analizador 592 de datos de voz suministran los resultados de analizar si los datos 500 de voz de entrada, los datos 510 de voz de entrada, y los datos 590 de voz de entrada respectivamente tienen sonido o silencio. Como el método de análisis, un ejemplo de un método de codificación de voz AMR se utiliza para la descripción. En el método de codificación de voz AMR, se realiza la VAD (Detección de Actividad de Voz) sobre la voz de entrada para determinar si tiene sonido o silencio y cuando se determina que tiene silencio, la información cuyo tipo de trama es SIN DATOS puede transmitirse o la información del ruido de fondo puede transmitirse como SID (Indicación de Silencio) . Cuando el tipo de trama en la cabeza de los datos de voz es SIN DATOS o SID, puede determinarse como silencio. Cuando no se realiza la VAD pero cada dato de voz se codifica como teniendo sonido, también hay un método para suministrar el volumen de sonido asumido con base en un parámetro de ganancia y un parámetro de espectro incluidos en los datos de voz para el seleccionador 201 del orador.
El calculador 101 de energía, el calculador 111 de energía, y el calculador 191 de energía calculan las energías de las señales decodificadas suministradas a partir del decodificador 501 de voz, el decodificador 511 de voz, y el decodificador 591 de voz y suministran sus valores al seleccionador 201 del orador. El seleccionador 201 del orador selecciona el orador que está articulando, con base en el resultado del análisis por el analizador 502 de datos de voz, el analizador 512 de datos de voz, y el analizador 592 de datos de voz, y con base en las energías suministradas a partir del calculador 101 de energía, el calculador 111 de energía, y el calculador 192 de energía, suministra el resultado de la selección. Específicamente, hay un método para seleccionar los oradores jerarquizados como principales N (N < M) predeterminados para disminuir la energía suministrada a partir del calculador 101 de energía, el calculador 111 de energía, y el calculador 191 de energía y un método para seleccionar los oradores que tienen la energía excediendo un umbral predeterminado cuando los resultados del análisis suministrados a partir del analizador 502 de datos de voz, el analizador 512 de datos de voz, el analizador 592 de datos de voz muestran que el sonido o el volumen de sonido asumido excede un cierto umbral.
Como se menciona anteriormente, de acuerdo a la segunda modalidad ejemplar de la invención, la determinación de sonido o silencio se agrega al estándar de seleccionar un orador, obteniendo por consiguiente el resultado seleccionado mejor que aquel en el caso de la primera modalidad ejemplar. (TERCERA MODALIDAD EJEMPLAR) La tercera modalidad ejemplar se relaciona a un programa para hacer que una computadora lleve a cabo el método de mezclado de voz. Refiriéndose a la Figura 1, un controlador, no ilustrado, controla los calculadores 101, 111, y 191 de energía, el seleccionador 200 del orador, los conmutadores 102, 112, y 192 de entrada de la señal de voz, el adicionador 300 de todas las señales, los adicionadores 103, 113, y 193, los codificadores 104, 114, y 194 de voz, los conmutadores 105, 115, y 195 de memoria, el codificador 400 de voz común, y los conmutadores 106, 116, y 196 de datos de voz que se incluyen en el servidor de conferencia multipunto. Además, el servidor de conferencia multipunto incluye una unidad de almacenamiento, no ilustrada, y la unidad de almacenamiento almacena el programa de procedimientos de procesamiento del método de mezclado de voz mostrado en el diagrama de flujo de la Figura 2. El controlador (o computadora) lee el programa anteriormente mencionado de la unidad de almacenamiento y controla los componentes anteriormente mencionados de acuerdo al programa. Debido a que se han descrito los contenidos de control, se omite su descripción. Como se describe anteriormente, de acuerdo a la tercera modalidad ejemplar de la invención, un programa para prevenir una inconsistencia en las memorias en la codificación diferencial al momento de conmutar la salida de los datos de voz de salida del codificador 400 de voz común al codificador 104 de voz puede obtenerse, por ejemplo, con respecto al orador 1. Las otras modalidades ejemplares se describirán a continuación . Debido a que el ancho de banda es estrecho en un teléfono celular, es necesario comprimir las voces eficientemente utilizando la técnica de codificación diferencial. Cuando se utilizan los teléfonos celulares para comprender un sistema de conferencia multipunto, debido a que la habilidad de un procesador de cada teléfono celular está limitada, el mezclado utilizando los teléfonos celulares no es realista pero un servidor de conferencia multipunto es necesario además de los teléfonos celulares. La modalidad ejemplar de la invención es útil en este caso. Como el sistema de conferencia multipunto, se consideran los siguientes patrones. Un primer patrón es que hay una persona en cada sala de conferencias. Un segundo patrón es que hay una pluralidad de personas en una pluralidad de salas de conferencia (además, un patrón en el cual hay una pluralidad de pares de micrófono y altavoz en cada sala de conferencias y un patrón en el cual hay un par de micrófono y altavoz en cada sala de conferencias) . La modalidad ejemplar de la invención es útil en este caso. De acuerdo a las modalidades ejemplares de la invención, debido a que no ocurre inconsistencia alguna en el contenido de la memoria en la codificación, es posible prevenir que ocurra sonido anormal en la voz decodificada al conmutar el codificador de acuerdo a un cambio de un orador. Mientras que la invención se ha mostrado y descrito particularmente con referencia a las modalidades ejemplares de la misma, la invención no se limita a estas modalidades. Se entenderá por aquellos de habilidad ordinaria en el arte que pueden hacerse varios cambios en la forma y en los detalles sin desviarse del espíritu y alcance de la presente invención como se define por las reivindicaciones. INCORPORACIÓN POR REFERENCIA Esta solicitud se basa en y reivindica el beneficio de prioridad de la solicitud de patente Japonesa No. 2006-232919, archivada el 30 de Agosto del 2006, la descripción de la cual se incorpora aquí en su totalidad por referencia.

Claims (20)

  1. REIVINDICACIONES 1. Un método de mezclado de voz para mezclar una pluralidad de información de voz, caracterizado en que incluye : una primera etapa de seleccionar la información de voz de una pluralidad de información de voz, una segunda etapa de agregar toda la información de voz seleccionada; una tercera etapa de obtener una información de voz agregando la información de voz aparte de una información de voz, de dicha información de voz seleccionada; una cuarta etapa de codificar dicha información de voz obtenida en dicha segunda etapa; una quinta etapa de codificar dicha información de voz obtenida en dicha tercera etapa; y una sexta etapa de copiar dicha información codificada obtenida en dicha cuarta etapa en dicha información codificada en dicha quinta etapa.
  2. 2. El método de mezclado de voz de acuerdo con la reivindicación 1, caracterizado en que en dicha sexta etapa, la información codificada almacenada en una memoria de un codificador que realiza la codificación de dicha cuarta etapa se copia en un codificador que realiza la codificación de dicha quinta etapa.
  3. 3. El método de mezclado de voz de acuerdo con la reivindicación 1 o a la reivindicación 2, caracterizado en que incluye además una séptima etapa de conmutar y suministrar dicha información codificada obtenida en dicha cuarta etapa o dicha información codificada obtenida en dicha quinta etapa de acuerdo al resultado seleccionado en dicha primera etapa.
  4. 4. El método de mezclado de voz de acuerdo con cualquiera de la reivindicación 1 a la reivindicación 3, caracterizado en que se decodifica la información de voz codificada de entrada y la información de voz decodificada se utiliza como la información de voz en dicha primera etapa.
  5. 5. El método de mezclado de voz de acuerdo con cualquiera de la reivindicación 1 a la reivindicación 4, caracterizado en que en dicha primera etapa, se selecciona la información de voz de acuerdo con la energía de una señal de voz de dicha información de voz.
  6. 6. El método de mezclado de voz de acuerdo con cualquiera de la reivindicación 1 a la reivindicación 5, caracterizado en que en dicha primera etapa, se selecciona la información de voz de acuerdo a si los datos de voz de dicha información de voz tienen sonido o silencio.
  7. 7. El método de mezclado de voz de acuerdo con cualquiera de la reivindicación 1 a la reivindicación 6, caracterizado en que en dicha tercera etapa, la información de voz obtenida agregando la información de voz aparte de una información de voz, de dicha información de voz seleccionada, se obtiene sustrayendo dicha información de voz seleccionada de dicha información de voz agregada una por una.
  8. 8. El método de mezclado de voz de acuerdo con cualquiera de la reivindicación 1 a la reivindicación 7, caracterizado en que dicha información de voz son datos codificados de una señal de voz, en dicha primera etapa, analizar una pluralidad de dichos datos codificados y seleccionar los datos codificados para el mezclado, y decodificar dicho datos codificados seleccionados y generar una señal de voz decodificada .
  9. 9. El método de mezclado de voz de acuerdo con cualquiera de la reivindicación 1 a la reivindicación 7, caracterizado en que dicha información de voz son datos codificados de una señal de voz, en dicha primera etapa, analizar dichos datos codificados y las señales de voz decodificadas obtenidas por la decodificación de dichos datos codificados, y seleccionar las señales de voz decodificadas para el mezclado.
  10. 10. El método de mezclado de voz de acuerdo con la reivindicación 8 o a la reivindicación 9, caracterizado en que en dicha segunda etapa, generar una señal de voz que totaliza todas dichas señales de voz decodificadas, en dicha tercera etapa, generar una señal de voz que totaliza las señales de voz decodificadas aparte de una señal de voz decodificada, de dichas señales de voz decodificadas seleccionadas, en dicha cuarta etapa, codificar de forma diferencial dichas señales de voz generadas por dicha segunda etapa en un primer codificador, en dicha quinta etapa, codificar de forma diferencial dichas señales de voz generadas por dicha tercera etapa en un segundo codificador, en dicha sexta etapa, hacer el contenido de memoria que indica un estado del segundo codificador de dicha quinta etapa igual al contenido de memoria que indica un estado del primer codificador de dicha cuarta etapa cuando se cambia un resultado seleccionado de dichas señales de voz decodificadas para el mezclado.
  11. 11. El método de mezclado de voz de acuerdo con cualquiera de la reivindicación 1 a la reivindicación 10, caracterizado en que incluye una etapa para a ustar una diferencia de volumen entre las señales de voz para el mezclado.
  12. 12. El método de mezclado de voz de acuerdo con cualquiera de la reivindicación 1 a la reivindicación 10, caracterizado en que incluye una etapa para ajustar el volumen de sonido de las voces mezcladas para ser igual al volumen más alto de la voz en las señales de voz para el mezclado o para estar en un nivel predeterminado.
  13. 13. Un servidor de conferencia multipunto que mezcla una pluralidad de información de voz, caracterizado en que comprende : un medio de selección para seleccionar la información de voz de dicha pluralidad de la información de voz; un medio de adición de todas las señales para agregar toda la información de voz seleccionada por dicho medio de selección; un medio de adición para obtener la información de voz agregando la información de voz aparte de una información de voz, de dicha información de voz seleccionada; un primer medio de codificación para codificar la información de voz agregada por dicho medio de adición de todas las señales; un segundo medio de codificación para codificar la información de voz agregada por dicho medio de adición; y un medio de conmutación para copiar dicha información codificada obtenida por dicho primer medio de codificación en dicho segundo medio de codificación.
  14. 14. El servidor de conferencia multipunto de acuerdo con la reivindicación 13, caracterizado en que dicho medio de conmutación copia la información codificada almacenada en una memoria de dicho primer medio de codificación en dicho segundo medio de codificación, de acuerdo al resultado seleccionado de dicho medio de selección.
  15. 15. El servidor de conferencia multipunto de acuerdo con la reivindicación 13 o a la reivindicación 14, caracterizado en que incluye además un medio de conmutación de salida para conmutar y suministrar la información codificada obtenida por dicho primer medio de codificación o la información codificada obtenida por dicho segundo medio de codificación de acuerdo al resultado seleccionado por dicho medio de selección.
  16. 16. El servidor de conferencia multipunto de acuerdo con cualquiera de la reivindicación 13 a la reivindicación 15, caracterizado en que comprende un medio de decodificación para decodificar una pluralidad de información de voz codificada de entrada, en donde dicho medio de selección selecciona la información de voz de la pluralidad de la información de voz decodificada por dicho medio de decodificación.
  17. 17. El servidor de conferencia multipunto de acuerdo con cualquiera de la reivindicación 13 a la reivindicación 16, caracterizado en que dicho medio de selección selecciona la información de voz de acuerdo a la energía de la señal de voz de dicha información de voz.
  18. 18. El servidor de conferencia multipunto de acuerdo con cualquiera de la reivindicación 13 a la reivindicación 17, caracterizado en que dicho medio de selección selecciona la información de voz de acuerdo a si los datos de voz de dicha información de voz tienen sonido o silencio.
  19. 19. El servidor de conferencia multipunto de acuerdo con cualquiera de la reivindicación 13 a la reivindicación 18, caracterizado en que dicho medio de adición obtiene la información de voz que totaliza la información de voz aparte de una información de voz, de dicha información de voz seleccionada, sustrayendo dicha información de voz seleccionada de la información de voz agregada por dicho medio de adición de todas las señales una por una.
  20. 20. Un programa para realizar el mezclado de voz de una pluralidad de información de voz, caracterizado en que comprende las funciones de: una primera función para seleccionar la información de voz de una pluralidad de información de voz, una segunda función para agregar la toda la información de voz seleccionada, una tercera función para sustraer dicha información de voz seleccionada de dicha información de voz agregada una por una, una cuarta función para codificar la información de voz obtenida en dicha segunda función, una quinta función para codificar la información de voz obtenida en dicha tercera función, y una sexta función para copiar la información codificada obtenida en dicha cuarta función en la información codificada obtenida en dicha quinta función. RESUMEN DE LA INVENCIÓN El método de mezclado de voz incluye una primera etapa para seleccionar la información de voz de una pluralidad de información de voz, una segunda etapa para agregar toda la información de voz seleccionada, una tercera etapa para obtener una señal de voz que totaliza las señales de voz aparte de una señal de voz, de las señales de voz seleccionadas, una cuarta etapa para codificar la información de voz obtenida en la segunda etapa, una quinta etapa para codificar la señal de voz obtenida en la tercera etapa, y una sexta etapa para copiar la información codificada obtenida en la cuarta etapa en la información codificada en la quinta etapa .
MX2009002093A 2006-08-30 2007-08-28 Metodo de mezclado de voz y servidor de conferencia multipunto y programa que utiliza el mismo metodo. MX2009002093A (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006232919 2006-08-30
PCT/JP2007/067101 WO2008026754A1 (fr) 2006-08-30 2007-08-28 Procédé de mixage vocal, serveur de conférence multipoint utilisant le procédé et programme

Publications (1)

Publication Number Publication Date
MX2009002093A true MX2009002093A (es) 2009-03-10

Family

ID=39136033

Family Applications (1)

Application Number Title Priority Date Filing Date
MX2009002093A MX2009002093A (es) 2006-08-30 2007-08-28 Metodo de mezclado de voz y servidor de conferencia multipunto y programa que utiliza el mismo metodo.

Country Status (10)

Country Link
US (1) US8255206B2 (es)
EP (1) EP2068544A4 (es)
JP (1) JP4582238B2 (es)
KR (1) KR101036965B1 (es)
CN (1) CN101513030A (es)
BR (1) BRPI0714736A2 (es)
CA (1) CA2660007A1 (es)
MX (1) MX2009002093A (es)
RU (1) RU2009111270A (es)
WO (1) WO2008026754A1 (es)

Families Citing this family (123)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
JP2010166424A (ja) * 2009-01-16 2010-07-29 Nec Corp 多地点会議システム、サーバ装置、音声ミキシング装置、及び多地点会議サービス提供方法
JP2010166425A (ja) * 2009-01-16 2010-07-29 Nec Corp 多地点会議システム、サーバ装置、音声ミキシング装置、及び多地点会議サービス提供方法
CN102016982B (zh) * 2009-02-04 2014-08-27 松下电器产业株式会社 结合装置、远程通信系统以及结合方法
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9025497B2 (en) * 2009-07-10 2015-05-05 Qualcomm Incorporated Media forwarding for a group communication session in a wireless communications system
US9088630B2 (en) * 2009-07-13 2015-07-21 Qualcomm Incorporated Selectively mixing media during a group communication session within a wireless communications system
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8873774B2 (en) * 2010-07-30 2014-10-28 Hewlett-Packard Development Company, L.P. Audio mixer
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8924206B2 (en) * 2011-11-04 2014-12-30 Htc Corporation Electrical apparatus and voice signals receiving method thereof
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
CN103327014B (zh) * 2013-06-06 2015-08-19 腾讯科技(深圳)有限公司 一种语音处理方法、装置及系统
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
DE112014002747T5 (de) 2013-06-09 2016-03-03 Apple Inc. Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US20150092615A1 (en) * 2013-10-02 2015-04-02 David Paul Frankel Teleconference system with overlay aufio method associate thereto
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9876913B2 (en) 2014-02-28 2018-01-23 Dolby Laboratories Licensing Corporation Perceptual continuity using change blindness in conferencing
AU2015266863B2 (en) 2014-05-30 2018-03-15 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) * 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
JP5802956B1 (ja) * 2015-03-16 2015-11-04 株式会社アクセル 音声合成装置、音声合成方法
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10504518B1 (en) 2018-06-03 2019-12-10 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
ES2967185T3 (es) 2019-04-03 2024-04-29 Dolby Laboratories Licensing Corp Servidor multimedia de escena de voz escalable
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4456789A (en) * 1978-03-07 1984-06-26 The Post Office Audio teleconferencing
US5150410A (en) * 1991-04-11 1992-09-22 Itt Corporation Secure digital conferencing system
JPH0685932A (ja) * 1992-09-07 1994-03-25 Tech Res & Dev Inst Of Japan Def Agency 音声ブリッジ装置
JPH06169349A (ja) * 1992-11-30 1994-06-14 Hitachi Ltd N−1加算方式
JP3300471B2 (ja) 1993-06-08 2002-07-08 三菱電機株式会社 通信制御装置
JPH1075310A (ja) * 1996-08-29 1998-03-17 Nec Corp 多地点テレビ会議システム
US6125343A (en) * 1997-05-29 2000-09-26 3Com Corporation System and method for selecting a loudest speaker by comparing average frame gains
US6697476B1 (en) * 1999-03-22 2004-02-24 Octave Communications, Inc. Audio conference platform system and method for broadcasting a real-time audio conference over the internet
GB9915312D0 (en) * 1999-06-30 1999-09-01 Nortel Networks Corp Conference circuit for encoded digital audio
US6940826B1 (en) * 1999-12-30 2005-09-06 Nortel Networks Limited Apparatus and method for packet-based media communications
US6683858B1 (en) * 2000-06-28 2004-01-27 Paltalk Holdings, Inc. Hybrid server architecture for mixing and non-mixing client conferencing
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
US6804340B2 (en) * 2001-05-03 2004-10-12 Raytheon Company Teleconferencing system
US20030223562A1 (en) * 2002-05-29 2003-12-04 Chenglin Cui Facilitating conference calls by dynamically determining information streams to be received by a mixing unit
US20040190701A1 (en) * 2003-03-28 2004-09-30 Versatel Networks Inc. Apparatus and method for a distributed conference bridge
JP2005151044A (ja) 2003-11-13 2005-06-09 Japan Science & Technology Agency 音声ミキシング方法、音声ミキシングシステム及び音声ミキシングのためのプログラム
JP4033840B2 (ja) 2004-02-12 2008-01-16 日本電信電話株式会社 音声ミキシング方法、音声ミキシング装置、音声ミキシングプログラム及びこれを記録した記録媒体
JP2006232919A (ja) 2005-02-23 2006-09-07 Fuji Photo Film Co Ltd コアシェル粒子の製造方法
WO2007084254A2 (en) * 2005-11-29 2007-07-26 Dilithium Networks Pty Ltd. Method and apparatus of voice mixing for conferencing amongst diverse networks
ES2396072T3 (es) * 2006-07-07 2013-02-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato para combinar múltiples fuentes de audio paramétricamente codificadas
EP2047632B1 (de) * 2006-07-28 2015-06-24 Unify GmbH & Co. KG Verfahren zum durchführen einer sprachkonferenz und sprachkonferenzsystem
CN101502089B (zh) * 2006-07-28 2013-07-03 西门子企业通讯有限责任两合公司 进行音频会议的方法、音频会议装置和编码器之间的切换方法

Also Published As

Publication number Publication date
RU2009111270A (ru) 2010-10-10
US8255206B2 (en) 2012-08-28
US20090248402A1 (en) 2009-10-01
KR101036965B1 (ko) 2011-05-25
JPWO2008026754A1 (ja) 2010-01-21
JP4582238B2 (ja) 2010-11-17
EP2068544A1 (en) 2009-06-10
WO2008026754A1 (fr) 2008-03-06
CN101513030A (zh) 2009-08-19
CA2660007A1 (en) 2008-03-06
BRPI0714736A2 (pt) 2013-05-07
EP2068544A4 (en) 2010-09-22
KR20090035728A (ko) 2009-04-10

Similar Documents

Publication Publication Date Title
MX2009002093A (es) Metodo de mezclado de voz y servidor de conferencia multipunto y programa que utiliza el mismo metodo.
JP7124170B2 (ja) セカンダリチャンネルを符号化するためにプライマリチャンネルのコーディングパラメータを使用するステレオ音声信号を符号化するための方法およびシステム
KR101462293B1 (ko) 고정된 배경 잡음의 평활화를 위한 방법 및 장치
Jelinek et al. G. 718: A new embedded speech and audio coding standard with high resilience to error-prone transmission channels
CN115917645A (zh) 多模式空间音频编码的舒适噪声生成
JP5158098B2 (ja) 音声ミキシング装置および方法ならびに多地点会議サーバ
Beaugeant et al. Gain loss control based on speech codec parameters
Heron et al. Communicating naturally—the opportunities of wideband coding
Gordy et al. Reduced-delay mixing of compressed speech signals for VoIP and cellular telephony
Varga On Development of New Audio Codecs
Qian Audio mixers for centralized VoIP conferencing

Legal Events

Date Code Title Description
FA Abandonment or withdrawal