MX2009002093A

MX2009002093A - Metodo de mezclado de voz y servidor de conferencia multipunto y programa que utiliza el mismo metodo.

Info

Publication number: MX2009002093A
Application number: MX2009002093A
Authority: MX
Inventors: Kazunori Ozawa; Hironori Ito
Original assignee: Nec Corp
Priority date: 2006-08-30
Filing date: 2007-08-28
Publication date: 2009-03-10
Also published as: RU2009111270A; US8255206B2; US20090248402A1; KR101036965B1; JPWO2008026754A1; JP4582238B2; EP2068544A1; WO2008026754A1; CN101513030A; CA2660007A1; BRPI0714736A2; EP2068544A4; KR20090035728A

Abstract

El método de mezclado de voz incluye una primera etapa para seleccionar la información de voz de una pluralidad de información de voz, una segunda etapa para agregar toda la información de voz seleccionada, una tercera etapa para obtener una señal de voz que totaliza las señales de voz aparte de una señal de voz, de las señales de voz seleccionadas, una cuarta etapa para codificar la información de voz obtenida en la segunda etapa, una quinta etapa para codificar la señal de voz obtenida en la tercera etapa, y una sexta etapa para copiar la información codificada obtenida en la cuarta etapa en la información codificada en la quinta etapa.

Description

MÉTODO DE MEZCLADO DE VOZ Y SERVIDOR DE CONFERENCIA MULTIPUNTO Y PROGRAMA QUE UTILIZA EL MISMO MÉTODO CAMPO TÉCNICO La invención se relaciona con un método de mezclado de voz y un servidor de conferencia multipunto y programa que utiliza el mismo método. Más específicamente, se relaciona con un método de mezclado de voz que mezcla las voces de todos los participantes, sustrae la voz de un participante de las voces mezcladas, y transmite la voz sustraída al mismo participante, y un servidor de conferencia multipunto y un programa que utiliza el mismo método. ARTE ANTECEDENTE En un servicio de conferencia multipunto, los datos de voz de cada participante, los cuales se codifican por un codificador de voz, se transmiten a un servidor de conferencia multipunto. El servidor de conferencia multipunto transmite a cada participante los datos de voz con las voces de los otros participantes que este un participante mezcló. Al mezclar los datos de voz, al principio, las señales de voz de todos los participantes se calculan agregando todas las señales de voz decodificadas obtenidas mediante la decodificación de los datos de voz de cada participante. Después, las señales de voz se obtienen sustrayendo la voz propia de las señales de voz de todos los participantes, las señales de voz se codifican y los datos de voz generados se transmiten a los participantes respectivos. Como un ejemplo de un protocolo de comunicación entre una terminal en un servicio de conferencia multipunto y el servidor, ITU-T H.323 y H.324 se utilizan en una red de conmutación de circuitos, 3G-324M se utiliza en una red móvil, y IETF RFC3550 RTP (Protocolo de Transporte en Tiempo Real) se utiliza en una red de paquetes basada en IP (Protocolo de Internet) . Se utiliza como el codificador de voz, el método AMR (Multi-velocidad Adaptable) definido por G.711, G.729, y 3GPP TS26.090, el método AMR-WB (Banda Ancha) definido por TS26.190, y un método EVRC (Códec de Velocidad Variable Mejorado) definido por 3GPP2, que son los estándares ITU-T. El método G.711 es para comprimir cada muestra de 16 bits en las señales de voz muestreadas a 8 kHz para ser 8 bits mediante el uso de la transformación logarítmica y en este método, la cantidad de cálculo es pequeña pero la proporción de compresibilidad es baja. Por otra parte, el método G.729, el método AMR y el método EVRC se basan en un método de codificación diferencial de acuerdo al principio CELP (Predicción Lineal Excitada del Código) y pueden codificar la señal de voz más eficientemente. En el CELP, un codificador extrae un parámetro de espectro que muestra un espectro característico de la señal de voz de la señal de voz para cada trama (por ejemplo, 20 ms) utilizando un análisis de predicción lineal (LPC: Codificación Predictiva Lineal) . Además, la señal de voz dividida en tramas se divide adicionalmente en sub-tramas (por ejemplo, 5 ms), los parámetros (un parámetro de retardo y un parámetro de ganancia correspondientes a un período de paso) en un libro de código adaptable se extraen con base en una señal de la fuente de sonido pasada para cada sub-trama, y el paso de la señal de voz de la sub-trama correspondiente se predice de acuerdo al libro de código adaptable. Un vector del código de la fuente de sonido más adecuado se selecciona de un libro de código de la fuente de sonido (libro de código de la cuantificación vectorial) que consiste de las clases predeterminadas de señales de ruido y una ganancia más adecuada se calcula para una señal residual obtenida a través de la predicción del paso, cuantificando por consiguiente las señales de la fuente de sonido. El vector del código de la fuente de sonido se selecciona para minimizar un error de energía eléctrica entre una señal sintetizada por la señal de ruido seleccionada y la señal residual anteriormente mencionada. Una combinación del parámetro de índice, de ganancia, de espectro y el parámetro en el libro de código adaptable, que indica el tipo de vector de código seleccionado, se transmite como los datos de voz. Un decodificador calcula una señal de la fuente de sonido y un coeficiente del filtro sintético en el análisis de predicción lineal de un parámetro obtenido a partir de los datos de voz y la señal de la fuente de sonido se conduce a través del filtro sintético, obteniendo por consiguiente la señal de voz compleja. Se describe un método de mezclado de voz (refiérase al Documento 1 de Patente) en el cual el procesamiento de comparación/selección no se realiza para cada muestra y una pluralidad de muestras que siguen a la muestra de los datos de voz seleccionados se seleccionan con base en el resultado de un procesamiento de comparación/selección en el tamaño en las muestras . Además, se describe un método de mezclado de voz (refiérase al Documento 2 de Patente) en el cual una señal total se genera una vez en una unidad de mezclado, su propia información de voz (la información de voz transmitida por un usuario) se sustrae de la señal total, y la información de voz de otro diferente del usuario se regresa a si mismo. Se describe una unidad de control de comunicación (refiérase al Documento 3 de Patente) en la cual una unidad de síntesis de voz agrega cada dato de voz convertido en los datos lineales por cada unidad heterogénea de codificación/decodificación, después de eso, los datos de voz se generan sustrayendo la voz propia de los datos de voz añadidos, y se transmiten a la unidad heterogénea de codificación/decodificación correspondiente. Documento 1 de Patente; Publicación de Patente Japonesa abierta al público No. 2005-151044 (párrafo 0014, 0016 y 0045) . Documento 2 de Patente; Publicación de Patente Japonesa abierta al público No. 2005-229259 (párrafo 0003 y Figura 1) Documento 3 de Patente; Patente Japonesa abierta al público No. 6-350724 (párrafo 0020 y Figura 2) En un sistema de conferencia multipunto en el arte relacionado, la voz mezclada con las voces de todos los participantes aparte del participante mismo, se codifica y transmite a cada participante. En ese tiempo, debido a que la cantidad de cálculo a través de la codificación de voz incrementa de acuerdo a un incremento en el número de participantes, el sistema utiliza un método para detectar a cada orador que está articulando y restringir el número de voces a mezclarse, reduciendo por consiguiente el número de codificadores de voz a ser operados. En el caso de utilizar un codificador de voz que realiza una codificación diferencial como el método CELP, debido a que ocurre una inconsistencia en una memoria que muestra la condición del codificador al conmutar el codificador de acuerdo a un cambio del orador, existe un problema de que ocurre sonido anormal en una voz decodificada . No se describen medios para solucionar el problema en los Documentos 1 a 3 de Patente anteriores. BREVE DESCRIPCIÓN DE LA INVENCIÓN Un objeto ejemplar de la invención es proporcionar un método de mezclado de voz que pueda prevenir que ocurra sonido anormal en la voz decodificada al conmutar el codificador de acuerdo a un cambio de un orador, y un servidor de conferencia multipunto y programa que utiliza el método anterior. De acuerdo con un primer aspecto ejemplar de la invención, un método de mezclado de voz para mezclar una pluralidad de información de voz incluye una primera etapa para seleccionar la información de voz de una pluralidad de información de voz, una segunda etapa para agregar toda la información de voz seleccionada, una tercera etapa para obtener una información de voz que totaliza la información de voz aparte de una información de voz, de la información de voz seleccionada, una cuarta etapa para codificar la información de voz obtenida en la segunda etapa, una quinta etapa para codificar la información de voz obtenida en la tercera etapa, y una sexta etapa para copiar la información codificada obtenida en la cuarta etapa en la información codificada en la quinta etapa. De acuerdo con un segundo aspecto ejemplar de la invención, un servidor de conferencia multipunto que mezcla una pluralidad de información de voz, incluye un seleccionador que selecciona la información de voz de la pluralidad de la información de voz, un adicionador de todas las señales que agrega toda la información de voz seleccionada por el seleccionador, un adicionador que obtiene una señal de voz agregando las señales de voz aparte de una señal de voz, de las señales de voz seleccionadas, un primer codificador que codifica la información de voz agregada por el adicionador de todas las señales, un segundo codificador que codifica la información de voz sustraída por el adicionador, y un conmutador que copia la información codificada obtenida por el primer codificador en el segundo codificador. De acuerdo con un tercer aspecto ejemplar de la invención, un programa para realizar el mezclado de voz de una pluralidad de información de voz, el cual hace a una computadora realizar una primera etapa para seleccionar la información de voz de una pluralidad de información de voz, una segunda etapa para agregar la toda la información de voz seleccionada, una tercera etapa para sustraer la información de voz seleccionada de la información de voz agregada una por una, una cuarta etapa para codificar la información de voz obtenida en la segunda etapa, una quinta etapa para codificar la información de voz obtenida en la tercera etapa, y una sexta etapa para copiar la información codificada obtenida en la cuarta etapa en la información codificada obtenida en la quinta etapa. Otros objetos, características y ventajas de la invención se volverán evidentes a partir de la descripción detallada dada aquí a continuación. BREVE DESCRIPCIÓN DE LOS DIBUJOS En los dibujos: La Figura 1 es una vista estructural de un servidor de conferencia multipunto de acuerdo a la primera modalidad ejemplar de la invención; La Figura 2 es un diagrama de flujo que muestra un procedimiento operacional del servidor de conferencia multipunto de acuerdo a la primera modalidad ejemplar de la invención; y La Figura 3 es una vista estructural de un servidor de conferencia multipunto de acuerdo a la segunda modalidad ejemplar de la invención. MODALIDAD EJEMPLAR A partir de ahora, las modalidades ejemplares de la invención se describirán refiriéndose a los dibujos acompañantes . (PRIMERA MODALIDAD EJEMPLAR) La Figura 1 es una vista estructural de un servidor de conferencia multipunto de acuerdo a la primera modalidad ejemplar de la invención. El servidor de conferencia multipunto de acuerdo a la primera modalidad ejemplar de la invención comprende terminales 100, 110, y 190 de entrada de voz (o señal de voz de entrada) , calculadores 101, 111, y 191 de energía, seleccionador 200 del orador, conmutadores 102, 112, y 192 de entrada de la señal de voz, adicionador 300 de todas las señales, adicionadores 103, 113, y 193, codificadores 104, 114, y 194 de voz, conmutadores 105, 115, y 195 de memoria, un codificador 400 de voz común, conmutadores 106, 116, y 196 de datos de voz, y terminales 107, 117, y 197 de salida de voz destinadas al orador (o salida de voz destinada al orador) . Las terminales 100, 110, y 190 de entrada de voz corresponden a un orador 1, un orador 2, un orador M. Los calculadores 101, 111, ···, y 191 de energía, los conmutadores 102, 112, y 192 de entrada de la señal de voz, los adicionadores 103, 113, y 193, los codificadores 104, 114, y 194 de voz, los conmutadores 105, 115, y 195 de memoria, los conmutadores 106, 116, y 196 de datos de voz, y las terminales 107, 117, y 197 de salida de voz destinadas al orador corresponden a los oradores respectivos de modo semejante. Después, una operación de la primera modalidad ejemplar se describirá refiriéndose a la Figura 1 y Figura 2. La Figura 2 es un diagrama de flujo que muestra el procedimiento operacional del servidor de conferencia multipunto de acuerdo a la primera modalidad ejemplar de la invención. A partir de ahora, aunque solo se describen los bloques de procesamiento correspondientes al orador 1, orador 2 y orador , se realiza el mismo procesamiento en los oradores no ilustrados. El calculador 101 de energía, el calculador 111 de energía, y el calculador 191 de energía calculan las energías respectivas correspondientes a la señal 100 de voz de entrada, la señal 110 de voz de entrada, y la señal 190 de voz de entrada del orador 1, orador 2, y orador M respectivamente y proporcionan como salida las energías anteriores (Etapa SI de la Figura 2) . El seleccionador 200 del orador selecciona a un orador que está hablando utilizando las energías calculadas de los oradores respectivos y proporciona como salida el resultado seleccionado (Etapa S2 en la Figura 2) . El conmutador 102 de entrada de la señal de voz, el conmutador 112 de entrada de la señal de voz, y el conmutador 192 de entrada de la señal de voz conmutan si o no para proporcionar como salida las señales de voz de entrada de los oradores respectivos con base en el resultado seleccionado del seleccionador 200 del orador (Etapa S3 en la Figura 2) . El adicionador 300 de todas las señales suministra la señal de voz obtenida totalizando todas las voces correspondientes al orador seleccionado en el seleccionador 200 del orador (Etapa S4 en la Figura 2) . El adicionador 103, el adicionador 113, y el adicionador 193 suministran las señales de voz obtenidas sustrayendo la señal de voz del orador seleccionado de la señal de voz suministrada a partir del adicionador 300 de todas las señales (Etapa S5 en la Figura 2) . A saber, suministran la información de voz obtenida sustrayendo la información de voz de los oradores que respectivamente corresponden a los codificadores 104, 114, y 194 de voz, de los oradores seleccionados de la señal de voz suministrada a partir del adicionador 300 de todas las señales . El codificador 400 de voz común codifica la señal de voz suministrada a partir del adicionador 300 de todas las señales (Etapa S6 en la Figura 2) . El codificador 104 de voz, el codificador 114 de voz, y el codificador 194 de voz codifican las señales de voz suministradas a partir del adicionador 103, el adicionador 113, y el adicionador 193 (Etapa S7 en la Figura 2) . El conmutador 105 de memoria, el conmutador 115 de memoria, y el conmutador 195 de memoria copian el contenido de la memoria en la codificación diferencial en el codificador 400 de voz común con el codificador 104 de voz, el codificador 114 de voz, y el codificador 194 de voz respectivamente con base en el resultado seleccionado del seleccionador 200 del orador (Etapa S8 en la Figura 2) . Específicamente, los conmutadores de memoria respectivamente copian la información codificada que es el resultado de la codificación diferencial almacenada en la memoria del codificador 400 de voz común, en las memorias del codificador 104 de voz, el codificador 114 de voz, y el codificador 194 de voz. Así, las memorias del codificador 104 de voz, el codificador 114 de voz, y el codificador 194 de voz se convierten en las mismas condiciones como la memoria del codificador 400 de voz común. Con base en el resultado seleccionado del seleccionador 200 del orador, el conmutador 106 de datos de voz, el conmutador 116 de datos de voz, y el conmutador 196 de datos de voz conmutan los datos de voz de salida (Etapa S9 en la Figura 2) . Específicamente, como un ejemplo, cuando se selecciona el orador 1, y no se seleccionan el orador 2 y el orador M, el conmutador 102 de la señal de entrada de voz del orador 1 se ENCIENDE, el conmutador 112 de la señal de entrada de voz del orador 2 y el conmutador 192 de la señal de entrada de voz del orador M se APAGAN, el conmutador 105 de memoria del orador 1 se ENCIENDE, el conmutador 115 de memoria del orador 2 y el conmutador 195 de memoria del orador M se APAGAN, el conmutador 106 de datos de voz del orador 1 se conecta al lado del orador 1, y el conmutador 116 de datos de voz del orador 2 y el conmutador 196 de datos de voz del orador M se conectan al lado del codificador 400 de voz común. El adicionador 300 de todas las señales totaliza las señales de voz del orador 1 a través del conmutador 102 de entrada de la señal de voz y la señal totalizada se suministra al codificador 400 de voz común. El adicionador 103 sustrae la señal de voz del orador 1 de la señal de voz del orador 1 que se totaliza por el adicionador 300 de todas las señales y la señal de resultado se suministra al codificador 104 de voz. La señal de salida del codificador 104 de voz se transmite al orador 1 a través del conmutador 106 de datos de voz. La señal de voz suministrada al codificador 400 de voz común se transmite al orador 2 no seleccionado y al orador M a través de los conmutadores 116 y 196 de datos de voz. La primera modalidad ejemplar de la invención se caracteriza en que la información almacenada en el codificador 400 de voz común se copia en el codificador 104 de voz a través del conmutador 105 de memoria en un momento cuando el orador 1 vuelve del estado no seleccionado al estado seleccionado o en que la información almacenada en el codificador 400 de voz común se copia en el codificador 114 de voz a través del conmutador 115 de memoria en un momento cuando el orador 2 se cambia para ser seleccionado. De acuerdo a esto, al conmutar el codificador de voz en un cambio del orador, es posible prevenir que ocurra sonido anormal en la voz decodificada, causado por la inconsistencia en la memoria que muestra la condición del codificador de voz.

En la primera modalidad ejemplar, aunque cada uno del adicionador 103, el adicionador 113, y el adicionador 193 se diseñan para suministrar la señal de voz obtenida sustrayendo la señal de voz del orador seleccionado de la señal de voz suministrada a partir del adicionador 300 de todas las señales, puede obtenerse el mismo resultado en la estructura de agregar y proporcionar como salida las señales de voz aparte de aquellas del orador seleccionado en las señales de voz seleccionadas. (EJEMPLO OPERATIVO) A partir de ahora, se describirá un ejemplo especifico de la modalidad ejemplar refiriéndose a la Figura 1. Al principio, el calculador 101 de energía, el calculador 112 de energía, y el calculador 192 de energía respectivamente calculan las energías de las señales de voz de la señal 100 de voz de entrada, la señal 110 de voz de entrada, y la señal 190 de voz de entrada, y suministran y proporcionan como salida las energías calculadas al seleccionador 200 del orador. Por ejemplo, la energía P para la señal s (n) de voz de entrada del muestreo de 8 kHz se calcula utilizando la siguiente fórmula (1) en cada 20 milisegundos (muestra 160) .

Fórmula (1) Aquí, como un ejemplo, L= 160. El seleccionador 200 del orador selecciona a un orador que está articulando utilizando las energías de entrada de los oradores y suministra si selecciona o no al conmutador 102 de entrada de la señal de voz, al conmutador 112 de entrada de la señal de voz, al conmutador 192 de entrada de la señal de voz, al conmutador 105 de memoria, al conmutador 115 de memoria, al conmutador 195 de memoria, al conmutador 106 de datos de voz, al conmutador 116 de datos de voz, y al conmutador 196 de datos de voz. Como un método para seleccionar el orador que articula, existe un método para seleccionar los oradores jerarquizados en la parte superior N (N < M y N y M son números enteros positivos) predeterminados para disminuir la energía y un método para seleccionar el orador que tiene la energía excediendo un umbral predeterminado. Además, puede considerarse mediante el uso del valor suavizado a través de la integración de la fuga no por el uso directo de la energía de entrada. Cuando una entrada se define como x (n) y una salida se define como y (n) , la integración de la fuga se representa como y (n) = k x y (n-1) + x (n) . Aquí, 0 < k < l y k es un número constante. El conmutador 102 de entrada de la señal de voz, el conmutador 112 de entrada de la señal de voz, y el conmutador 192 de entrada de la señal de voz respectivamente suministran la señal 100 de voz de entrada, la señal 110 de voz de entrada, y la señal 190 de voz de entrada correspondientes a los oradores seleccionados por el seleccionador 200 del orador para el correspondiente adicionador 103, adicionador 113, y adicionador 193 y el adicionador 300 de todas las señales. El adicionador 300 de todas las señales suministra la señal de voz obtenida totalizando todas las señales de voz de entrada al adicionador 103, al adicionador 113, al adicionador 193, y al codificador 400 de voz común. El adicionador 103, el adicionador 113, y el adicionador 193 suministran la señal de voz obtenida sustrayendo las señales de voz respectivas suministradas a partir del conmutador 102 de entrada de la señal de voz, el conmutador 112 de entrada de la señal de voz, y el conmutador 192 de entrada de la señal de voz de la señal de voz suministrada a partir del adicionador 300 de todas las señales, para el codificador 104 de voz, el codificador 114 de voz, y el codificador 194 de voz respectivamente por lo que respecta a los oradores seleccionados por el seleccionador 200 del orador . En la voz después del mezclado, una Ganancia Gi ajustable indicada por la siguiente fórmula (2) puede multiplicarse por la señal de voz de entrada de cada orador i para disminuir una diferencia de volumen de sonido entre los oradores.

G¡ = Fórmula ( 2 ) P, Una marca Pi de referencia es la energía hacia el orador i calculada por la fórmula (1) y N es el número de señales mezcladas. La Gi se calcula en proporción inversa a la energía de los oradores, y cuando se actualiza, por ejemplo, en cada 20 milisegundos que es un ciclo de cálculo de la energía Pi, cambia demasiado grande, y por consiguiente puede suavizarse como se muestra en la siguiente fórmula (3) .

G_i = (l-a)xG_i + axG'_i Fórmula (3) Aquí, G' i muestra la ganancia ajustable que se ha calculado antes. Como un valor de OÍ, por ejemplo, se utiliza 0.9. Para evitar el ajuste excesivo del volumen de sonido, por ejemplo, el rango posible de la Gi puede limitarse a 0.5 a 2. Para ajustar el volumen de sonido de la señal de voz mezclada, la ganancia Ga ajustable mostrada por la siguiente fórmula (4) puede multiplicarse por la señal de voz mezclada. G a = P_salidaI P a Fórmula (4) Aquí, Pa es la energía de la señal de voz mezclada calculada por la fórmula (1) y Psalida es la energía de un valor objetivo en un tiempo de ajuste. Puede utilizarse el valor más grande del orador en la señal de voz mezclada de los oradores y el valor predeterminado de un nivel predeterminado. El suavizado puede realizarse y el rango posible puede limitarse de modo semejante a la Gi anteriormente mencionada.

El codificador 400 de voz común codifica la señal de voz suministrada a partir del adicionador 300 de todas las señales y suministra los datos de voz codificada al conmutador 106 de datos de voz, al conmutador 116 de datos de voz, y al conmutador 196 de datos de voz. El codificador 104 de voz, el codificador 114 de voz, y el codificador 194 de voz codifican las señales de voz y suministra^ los datos de voz codificada al conmutador 106 de datos de voz, al conmutador 116 de datos de voz, y al conmutador 196 de datos de voz cuando las señales de voz se suministran a partir del adicionador 103, el adicionador 113, y el adicionador 193. El conmutador 105 de memoria, el conmutador 115 de memoria, y el conmutador 195 de memoria suministran el contenido de la memoria en la codificación diferencial del codificador 400 de voz común respectivamente al codificador 104 de voz, el codificador 114 de voz, y el codificador 194 de voz cuando el seleccionador 200 del orador vuelve al estado de selección del orador del estado no seleccionado. A causa del procesamiento del conmutador de memoria, no ocurre inconsistencia alguna en la memoria en la codificación diferencial al momento de conmutar la salida de los datos de voz de salida del codificador 400 de voz común para el codificador 104 de voz, por ejemplo, con respecto al orador 1.

Por otra parte, al momento de conmutar la salida de los datos de voz de salida del codificador 104 de voz al codificador 400 de voz común, debido a que la memoria del codificador 400 de voz común no puede re-escribirse, ocurre una inconsistencia en las memorias. Sin embargo, debido a que esto es al momento cuando el volumen de sonido del orador 1 se vuelve pequeño y la voz de entrada del codificador 104 de voz se vuelve sustancialmente igual a la voz de entrada para el codificador 400 de voz común, el deterioro en la calidad de sonido causado por la inconsistencia en ambas memorias es pequeño. En este caso, para hacer pequeña la inconsistencia en las memorias, después de que la misma señal de voz como la entrada de la señal de voz para el codificador 400 de voz común se suministra al codificador 104 de voz y se opera por algún tiempo, el conmutador 1 de datos de voz puede conmutarse a los datos de voz suministrados a partir del codificador 400 de voz común. Una inconsistencia en las memorias se vuelve más pequeña a medida que se opera con la misma señal de voz de entrada durante un tiempo más largo, sin embargo, allí ocurre un retardo necesario para la conmutación. El conmutador 106 de datos de voz, el conmutador 116 de datos de voz, y el conmutador 196 de datos de voz suministran los datos de voz suministrados a partir del codificador 104 de voz, el codificador 114 de voz, y el codificador 194 de voz cuando se selecciona como el orador que está articulando, en el seleccionador 200 del orador, y suministran los datos de voz suministrados a partir del codificador 400 de voz común cuando no se selecciona como el orador que está articulando en el seleccionador 200 del orador. En esta modalidad ejemplar, aunque se asume que todos los codificadores de voz son los mismos, puede utilizarse varias clases de codificadores de voz o pueden mezclarse varias clases de velocidades de bits. En este caso, los codificadores comunes se necesitan para el número de varias clases de codificadores o velocidades de bits. La conmutación de las memorias tiene que realizarse en la misma clase de codificadores o velocidades de bits. Como se describe anteriormente, de acuerdo al ejemplo operativo de la invención, hay un mérito de que no ocurre inconsistencia alguna en las memorias en la codificación diferencial al momento de conmutar la salida de los datos de voz de salida del codificador 400 de voz común al codificador 104 de voz, por ejemplo, con respecto al orador 1. (SEGUNDA MODALIDAD EJEMPLAR) A continuación, se describirá una segunda modalidad ejemplar de la invención refiriéndose a la Figura 3. La Figura 3 es una vista estructural de un servidor de conferencia multipunto de acuerdo a la segunda modalidad ejemplar de la invención. Los mismos números se atribuyen a los mismos componentes como en la Figura 1 y se omite su descripción. El decodificador 501 de voz, el decodificador 511 de voz, y el decodificador 591 de voz decodifican los datos 500 de voz de entrada, los datos 510 de voz de entrada, y los datos 590 de voz de entrada que están codificados respectivamente y suministran las voces decodificadas al calculador 101 de energía, al calculador 102 de energía, y al calculador 192 de energía, y al conmutador 102 de entrada de la señal de voz, al conmutador 112 de entrada de la señal de voz, y al conmutador 192 de entrada de la señal de voz. El analizador 502 de datos de voz, el analizador 512 de datos de voz, y el analizador 592 de datos de voz suministran los resultados de analizar si los datos 500 de voz de entrada, los datos 510 de voz de entrada, y los datos 590 de voz de entrada respectivamente tienen sonido o silencio. Como el método de análisis, un ejemplo de un método de codificación de voz AMR se utiliza para la descripción. En el método de codificación de voz AMR, se realiza la VAD (Detección de Actividad de Voz) sobre la voz de entrada para determinar si tiene sonido o silencio y cuando se determina que tiene silencio, la información cuyo tipo de trama es SIN DATOS puede transmitirse o la información del ruido de fondo puede transmitirse como SID (Indicación de Silencio) . Cuando el tipo de trama en la cabeza de los datos de voz es SIN DATOS o SID, puede determinarse como silencio. Cuando no se realiza la VAD pero cada dato de voz se codifica como teniendo sonido, también hay un método para suministrar el volumen de sonido asumido con base en un parámetro de ganancia y un parámetro de espectro incluidos en los datos de voz para el seleccionador 201 del orador.

El calculador 101 de energía, el calculador 111 de energía, y el calculador 191 de energía calculan las energías de las señales decodificadas suministradas a partir del decodificador 501 de voz, el decodificador 511 de voz, y el decodificador 591 de voz y suministran sus valores al seleccionador 201 del orador. El seleccionador 201 del orador selecciona el orador que está articulando, con base en el resultado del análisis por el analizador 502 de datos de voz, el analizador 512 de datos de voz, y el analizador 592 de datos de voz, y con base en las energías suministradas a partir del calculador 101 de energía, el calculador 111 de energía, y el calculador 192 de energía, suministra el resultado de la selección. Específicamente, hay un método para seleccionar los oradores jerarquizados como principales N (N < M) predeterminados para disminuir la energía suministrada a partir del calculador 101 de energía, el calculador 111 de energía, y el calculador 191 de energía y un método para seleccionar los oradores que tienen la energía excediendo un umbral predeterminado cuando los resultados del análisis suministrados a partir del analizador 502 de datos de voz, el analizador 512 de datos de voz, el analizador 592 de datos de voz muestran que el sonido o el volumen de sonido asumido excede un cierto umbral.

Como se menciona anteriormente, de acuerdo a la segunda modalidad ejemplar de la invención, la determinación de sonido o silencio se agrega al estándar de seleccionar un orador, obteniendo por consiguiente el resultado seleccionado mejor que aquel en el caso de la primera modalidad ejemplar. (TERCERA MODALIDAD EJEMPLAR) La tercera modalidad ejemplar se relaciona a un programa para hacer que una computadora lleve a cabo el método de mezclado de voz. Refiriéndose a la Figura 1, un controlador, no ilustrado, controla los calculadores 101, 111, y 191 de energía, el seleccionador 200 del orador, los conmutadores 102, 112, y 192 de entrada de la señal de voz, el adicionador 300 de todas las señales, los adicionadores 103, 113, y 193, los codificadores 104, 114, y 194 de voz, los conmutadores 105, 115, y 195 de memoria, el codificador 400 de voz común, y los conmutadores 106, 116, y 196 de datos de voz que se incluyen en el servidor de conferencia multipunto. Además, el servidor de conferencia multipunto incluye una unidad de almacenamiento, no ilustrada, y la unidad de almacenamiento almacena el programa de procedimientos de procesamiento del método de mezclado de voz mostrado en el diagrama de flujo de la Figura 2. El controlador (o computadora) lee el programa anteriormente mencionado de la unidad de almacenamiento y controla los componentes anteriormente mencionados de acuerdo al programa. Debido a que se han descrito los contenidos de control, se omite su descripción. Como se describe anteriormente, de acuerdo a la tercera modalidad ejemplar de la invención, un programa para prevenir una inconsistencia en las memorias en la codificación diferencial al momento de conmutar la salida de los datos de voz de salida del codificador 400 de voz común al codificador 104 de voz puede obtenerse, por ejemplo, con respecto al orador 1. Las otras modalidades ejemplares se describirán a continuación . Debido a que el ancho de banda es estrecho en un teléfono celular, es necesario comprimir las voces eficientemente utilizando la técnica de codificación diferencial. Cuando se utilizan los teléfonos celulares para comprender un sistema de conferencia multipunto, debido a que la habilidad de un procesador de cada teléfono celular está limitada, el mezclado utilizando los teléfonos celulares no es realista pero un servidor de conferencia multipunto es necesario además de los teléfonos celulares. La modalidad ejemplar de la invención es útil en este caso. Como el sistema de conferencia multipunto, se consideran los siguientes patrones. Un primer patrón es que hay una persona en cada sala de conferencias. Un segundo patrón es que hay una pluralidad de personas en una pluralidad de salas de conferencia (además, un patrón en el cual hay una pluralidad de pares de micrófono y altavoz en cada sala de conferencias y un patrón en el cual hay un par de micrófono y altavoz en cada sala de conferencias) . La modalidad ejemplar de la invención es útil en este caso. De acuerdo a las modalidades ejemplares de la invención, debido a que no ocurre inconsistencia alguna en el contenido de la memoria en la codificación, es posible prevenir que ocurra sonido anormal en la voz decodificada al conmutar el codificador de acuerdo a un cambio de un orador. Mientras que la invención se ha mostrado y descrito particularmente con referencia a las modalidades ejemplares de la misma, la invención no se limita a estas modalidades. Se entenderá por aquellos de habilidad ordinaria en el arte que pueden hacerse varios cambios en la forma y en los detalles sin desviarse del espíritu y alcance de la presente invención como se define por las reivindicaciones. INCORPORACIÓN POR REFERENCIA Esta solicitud se basa en y reivindica el beneficio de prioridad de la solicitud de patente Japonesa No. 2006-232919, archivada el 30 de Agosto del 2006, la descripción de la cual se incorpora aquí en su totalidad por referencia.

Claims

REIVINDICACIONES 1. Un método de mezclado de voz para mezclar una pluralidad de información de voz, caracterizado en que incluye : una primera etapa de seleccionar la información de voz de una pluralidad de información de voz, una segunda etapa de agregar toda la información de voz seleccionada; una tercera etapa de obtener una información de voz agregando la información de voz aparte de una información de voz, de dicha información de voz seleccionada; una cuarta etapa de codificar dicha información de voz obtenida en dicha segunda etapa; una quinta etapa de codificar dicha información de voz obtenida en dicha tercera etapa; y una sexta etapa de copiar dicha información codificada obtenida en dicha cuarta etapa en dicha información codificada en dicha quinta etapa.
2. El método de mezclado de voz de acuerdo con la reivindicación 1, caracterizado en que en dicha sexta etapa, la información codificada almacenada en una memoria de un codificador que realiza la codificación de dicha cuarta etapa se copia en un codificador que realiza la codificación de dicha quinta etapa.
3. El método de mezclado de voz de acuerdo con la reivindicación 1 o a la reivindicación 2, caracterizado en que incluye además una séptima etapa de conmutar y suministrar dicha información codificada obtenida en dicha cuarta etapa o dicha información codificada obtenida en dicha quinta etapa de acuerdo al resultado seleccionado en dicha primera etapa.
4. El método de mezclado de voz de acuerdo con cualquiera de la reivindicación 1 a la reivindicación 3, caracterizado en que se decodifica la información de voz codificada de entrada y la información de voz decodificada se utiliza como la información de voz en dicha primera etapa.
5. El método de mezclado de voz de acuerdo con cualquiera de la reivindicación 1 a la reivindicación 4, caracterizado en que en dicha primera etapa, se selecciona la información de voz de acuerdo con la energía de una señal de voz de dicha información de voz.
6. El método de mezclado de voz de acuerdo con cualquiera de la reivindicación 1 a la reivindicación 5, caracterizado en que en dicha primera etapa, se selecciona la información de voz de acuerdo a si los datos de voz de dicha información de voz tienen sonido o silencio.
7. El método de mezclado de voz de acuerdo con cualquiera de la reivindicación 1 a la reivindicación 6, caracterizado en que en dicha tercera etapa, la información de voz obtenida agregando la información de voz aparte de una información de voz, de dicha información de voz seleccionada, se obtiene sustrayendo dicha información de voz seleccionada de dicha información de voz agregada una por una.
8. El método de mezclado de voz de acuerdo con cualquiera de la reivindicación 1 a la reivindicación 7, caracterizado en que dicha información de voz son datos codificados de una señal de voz, en dicha primera etapa, analizar una pluralidad de dichos datos codificados y seleccionar los datos codificados para el mezclado, y decodificar dicho datos codificados seleccionados y generar una señal de voz decodificada .
9. El método de mezclado de voz de acuerdo con cualquiera de la reivindicación 1 a la reivindicación 7, caracterizado en que dicha información de voz son datos codificados de una señal de voz, en dicha primera etapa, analizar dichos datos codificados y las señales de voz decodificadas obtenidas por la decodificación de dichos datos codificados, y seleccionar las señales de voz decodificadas para el mezclado.
10. El método de mezclado de voz de acuerdo con la reivindicación 8 o a la reivindicación 9, caracterizado en que en dicha segunda etapa, generar una señal de voz que totaliza todas dichas señales de voz decodificadas, en dicha tercera etapa, generar una señal de voz que totaliza las señales de voz decodificadas aparte de una señal de voz decodificada, de dichas señales de voz decodificadas seleccionadas, en dicha cuarta etapa, codificar de forma diferencial dichas señales de voz generadas por dicha segunda etapa en un primer codificador, en dicha quinta etapa, codificar de forma diferencial dichas señales de voz generadas por dicha tercera etapa en un segundo codificador, en dicha sexta etapa, hacer el contenido de memoria que indica un estado del segundo codificador de dicha quinta etapa igual al contenido de memoria que indica un estado del primer codificador de dicha cuarta etapa cuando se cambia un resultado seleccionado de dichas señales de voz decodificadas para el mezclado.
11. El método de mezclado de voz de acuerdo con cualquiera de la reivindicación 1 a la reivindicación 10, caracterizado en que incluye una etapa para a ustar una diferencia de volumen entre las señales de voz para el mezclado.
12. El método de mezclado de voz de acuerdo con cualquiera de la reivindicación 1 a la reivindicación 10, caracterizado en que incluye una etapa para ajustar el volumen de sonido de las voces mezcladas para ser igual al volumen más alto de la voz en las señales de voz para el mezclado o para estar en un nivel predeterminado.
13. Un servidor de conferencia multipunto que mezcla una pluralidad de información de voz, caracterizado en que comprende : un medio de selección para seleccionar la información de voz de dicha pluralidad de la información de voz; un medio de adición de todas las señales para agregar toda la información de voz seleccionada por dicho medio de selección; un medio de adición para obtener la información de voz agregando la información de voz aparte de una información de voz, de dicha información de voz seleccionada; un primer medio de codificación para codificar la información de voz agregada por dicho medio de adición de todas las señales; un segundo medio de codificación para codificar la información de voz agregada por dicho medio de adición; y un medio de conmutación para copiar dicha información codificada obtenida por dicho primer medio de codificación en dicho segundo medio de codificación.
14. El servidor de conferencia multipunto de acuerdo con la reivindicación 13, caracterizado en que dicho medio de conmutación copia la información codificada almacenada en una memoria de dicho primer medio de codificación en dicho segundo medio de codificación, de acuerdo al resultado seleccionado de dicho medio de selección.
15. El servidor de conferencia multipunto de acuerdo con la reivindicación 13 o a la reivindicación 14, caracterizado en que incluye además un medio de conmutación de salida para conmutar y suministrar la información codificada obtenida por dicho primer medio de codificación o la información codificada obtenida por dicho segundo medio de codificación de acuerdo al resultado seleccionado por dicho medio de selección.
16. El servidor de conferencia multipunto de acuerdo con cualquiera de la reivindicación 13 a la reivindicación 15, caracterizado en que comprende un medio de decodificación para decodificar una pluralidad de información de voz codificada de entrada, en donde dicho medio de selección selecciona la información de voz de la pluralidad de la información de voz decodificada por dicho medio de decodificación.
17. El servidor de conferencia multipunto de acuerdo con cualquiera de la reivindicación 13 a la reivindicación 16, caracterizado en que dicho medio de selección selecciona la información de voz de acuerdo a la energía de la señal de voz de dicha información de voz.
18. El servidor de conferencia multipunto de acuerdo con cualquiera de la reivindicación 13 a la reivindicación 17, caracterizado en que dicho medio de selección selecciona la información de voz de acuerdo a si los datos de voz de dicha información de voz tienen sonido o silencio.
19. El servidor de conferencia multipunto de acuerdo con cualquiera de la reivindicación 13 a la reivindicación 18, caracterizado en que dicho medio de adición obtiene la información de voz que totaliza la información de voz aparte de una información de voz, de dicha información de voz seleccionada, sustrayendo dicha información de voz seleccionada de la información de voz agregada por dicho medio de adición de todas las señales una por una.
20. Un programa para realizar el mezclado de voz de una pluralidad de información de voz, caracterizado en que comprende las funciones de: una primera función para seleccionar la información de voz de una pluralidad de información de voz, una segunda función para agregar la toda la información de voz seleccionada, una tercera función para sustraer dicha información de voz seleccionada de dicha información de voz agregada una por una, una cuarta función para codificar la información de voz obtenida en dicha segunda función, una quinta función para codificar la información de voz obtenida en dicha tercera función, y una sexta función para copiar la información codificada obtenida en dicha cuarta función en la información codificada obtenida en dicha quinta función. RESUMEN DE LA INVENCIÓN El método de mezclado de voz incluye una primera etapa para seleccionar la información de voz de una pluralidad de información de voz, una segunda etapa para agregar toda la información de voz seleccionada, una tercera etapa para obtener una señal de voz que totaliza las señales de voz aparte de una señal de voz, de las señales de voz seleccionadas, una cuarta etapa para codificar la información de voz obtenida en la segunda etapa, una quinta etapa para codificar la señal de voz obtenida en la tercera etapa, y una sexta etapa para copiar la información codificada obtenida en la cuarta etapa en la información codificada en la quinta etapa .