MX2011006703A

MX2011006703A - Metodo y aparato para cambiar la forma de los labios y obtener animacion de los labios en animacion estimulada por voz.

Info

Publication number: MX2011006703A
Application number: MX2011006703A
Authority: MX
Inventors: Yisha Lu; Jianyu Wang
Original assignee: Tencent Tech Shenzhen Co Ltd
Priority date: 2009-01-19
Filing date: 2010-01-05
Publication date: 2011-07-28
Also published as: BRPI1006026A8; BRPI1006026B1; CA2744347C; BRPI1006026A2; RU2011124736A; RU2487411C2; CN101482976A; CA2744347A1; CN101482976B; US20110227931A1; WO2010081395A1; US8350859B2

Abstract

La presente invención describe un método y aparato para cambiar la forma de los labios y obtener una animación de los labios en una animación estimulada por voz, y que se relaciona con tecnologías de cómputo; el método para cambiar la forma de los labios incluye: obtener señales de audio y obtener una proporción de extensión de movimiento de la forma de los labios de acuerdo con las características de las señales de audio; obtener un modelo de forma de los labios original ingresado por un usuario y generar un valor de extensión de movimiento de la forma de los labios de acuerdo con el modelo de forma de los labios original y la proporción de extensión de movimiento obtenido de la forma de los labios; generar un conjunto de modelo de retícula de la forma de los labios de conformidad con el valor de extensión de movimiento obtenido de la forma de los labios y una biblioteca de modelo de pronunciación de los labios configurada previamente; el método para cambiar la forma de los labios en una animación estimulada por voz incluye un módulo de obtención, un primer módulo de generación y un segundo módulo de generación; las soluciones provistas por la presente invención tiene un algoritmo simple y de costo bajo.

Description

MÉTODO Y APARATO PARA CAMBIAR LA FORMA DE LOS LABIOS Y OBTENER ANIMACIÓN DE LOS LABIOS EN ANIMACIÓN ESTIMULADA POR VOZ CAMPO DE LA INVENCIÓN La presente invención se refiere a tecnologías de animación con base en video, y más particularmente, a un método y aparato para cambiar la forma de los labios y obtener una animación de labios en una animación estimulada por la voz.

ANTECEDENTES DE LA INVENCIÓN La respuesta de voz interactiva (IVR) es un producto basado en la transmisión de voz. La mayoría de los usuarios de la Internet disfrutan la presentación personal y que muestra la personalidad. En este sentido, es necesario mejorar la IVR tanto en las tecnologías como la filosofía, por ejemplo, hacer que la voz tenga una mejor expresión, lo cual puede ser implementado mediante las tecnologías de animación basadas en video. Las tecnologías de animación basadas en video toman un teléfono móvil o una página de la red mundial como plataforma, en la cual, la voz está configurada con una animación basada en video definida en forma automática, de manera que le proporcionan a la voz una expresión vivida.

En las tecnologías de animación basadas en video, una tecnología para cambiar la forma de los labios en una animación estimulada por voz es una porción importante. En la técnica anterior, se proporciona una solución, en la cual, las señales de audio son mapeadas a la forma de los labios de los parámetros de animación faciales utilizando un modo de aprendizaje de máquina, aunque, el algoritmo de esta solución es complejo, y el costo del cálculo es alto.

BREVE DESCRIPCIÓN DE LA INVENCIÓN Los ejemplos de la presente invención proporcionan un método y aparato para cambiar la forma de los labios y obtener una animación de labios de una animación estimulada por voz, de manera que simplifica el algoritmo de cambiar la forma de los labios en una animación estimulada por voz y reduce el costo de cálculo.

Las soluciones técnicas son implementadas de la siguiente forma.

Los ejemplos de la presente invención proporcionan un método para cambiar la forma de los labios en una animación estimulada por voz, que incluye: obtener señales de audio y obtener la proporción de extensión de movimiento de la forma de los labios de acuerdo con las características de las señales de audio; obtener un modelo de forma de labios original Ingresado por un usuario, y que genera un valor de extensión de movimiento de la forma de los labios de acuerdo con el modelo de forma de los labios original y la proporción de extensión de movimiento obtenida de la forma de los labios; y generar un modelo de retícula de forma de los labios de acuerdo con el valor de extensión de movimiento general de la forma de los labios y una biblioteca del modelo de pronunciación de los labios previamente configurado.

Los ejemplos de la presente invención, también proporcionan un aparato para cambiar la forma de los labios en una animación estimulada por voz, que incluye: un módulo de obtención, configurado para obtener señales de audio, y obtener la proporción de extensión de movimiento de la forma de los labios de acuerdo con las características de las señales de audio; un primer módulo de generación, configurado para obtener un modelo de forma de labios original ingresado por un usuario, y generar un valor de extensión de movimiento de la forma de los labios de acuerdo con el modelo de forma de los labios original y la porción de extensión de movimiento obtenida de los labios; y un segundo modelo de generación, configurado para generar el conjunto de modelo de retícula de forma de labios de acuerdo con el valor de extensión de movimiento generado de la forma de los labios y una biblioteca de modelo de pronunciación de los labios previamente configurados.

En los ejemplos de la presente invención, con el uso de la biblioteca de modelo de pronunciación de los labios, la forma de los labios se cambia con base en la voz; en comparación con la técnica anterior, las soluciones técnicas provistas por los ejemplos de la presente invención tienen un algoritmo simple y de costo bajo.

Los ejemplos de la presente invención también proporcionan un método para obtener una animación de labios en una animación estimulada por voz, que incluye: obtener señales de audio, y obtener la proporción de extensión de movimiento de la forma de los labios de acuerdo con las características de las señales de audio; obtener un modelo de forma de los labios original ingresado por un usuario, y generar un valor de extensión de movimiento de la forma de los labios de acuerdó con el modelo de la forma de los labios original y la proporción de extensión de movimiento obtenida de la forma de los labios; generar un conjunto modelo de retícula de forma de los labios de acuerdo con el valor de extensión de movimiento generado de la forma de los labios y una biblioteca de modelo de pronunciación de labios previamente definido; y generar una animación de labios de acuerdo con el conjunto de modelo de retícula de forma de los labios.

Los ejemplos de la presente invención también proporcionan un aparato para obtener una animación de labios en una animación estimulada por voz, que incluye: un módulo de obtención, configurado para obtener señales de audio, y obtener la proporción de extensión de movimiento de la forma de los labios de acuerdo con las características de las señales de audio; un primer módulo de generación, configurado para obtener un modelo de forma de los labios original ingresado por un usuario, y generar un valor de extensión de movimiento de la forma de los labios de acuerdo con el modelo de forma de los labios original y la proporción de extensión de movimiento obtenida de la forma de los labios; un segundo módulo de generación, configurado para generar un conjunto de modelo de retícula de la forma de los labios de acuerdo con el valor de extensión de movimiento generado de la forma de los labios y una biblioteca de modelo de pronunciación de los labios previamente configurada; y un tercer módulo de generación, configurado para generar una animación de labios de acuerdo con el conjunto de modelo de retícula de la forma de los labios.

En los ejemplos de la presente invención, con el uso de la biblioteca de modelo de pronunciación de labios, la forma de los labios cambia con base en la voz; en comparación con la técnica anterior, las soluciones técnicas provistas por los ejemplos de la presente invención tienen un algoritmo simple y de bajo costo.

BREVE DESCRIPCIÓN DE LOS DIBUJOS Con el objeto de hacer más claras las soluciones técnicas en los ejemplos de la presente invención o las soluciones técnicas en la técnica anterior, los dibujos utilizados en los ejemplos o utilizados en la técnica anterior serán descritos de manera simple. Obviamente, los dibujos descritos más adelante únicamente son algunos ejemplos de la presente invención, y aquellos expertos en la materia podrán comprender que se pueden obtener otros dibujos de acuerdo con estos dibujos sin trabajo creativo.

La figura 1 , es un diagrama de flujo que ilustra un método para cambiar la forma de los labios en una animación estimulada por voz de acuerdo con un primer ejemplo de la presente invención.

La figura 2, es un diagrama de flujo que ilustra el número de cuadros de video y la proporción de extensión de movimiento de la forma de los labios de acuerdo con el primer ejemplo de la presente invención.

La figura 3, es un diagrama esquemático que ilustra una biblioteca del modelo de pronunciación de labios de acuerdo con el primer ejemplo de la presente invención.

La figura 4, es un diagrama de flujo que ilustra un método para obtener animación de labios en una animación impulsada por voz de acuerdo con un segundo ejemplo de la presente invención.

La figura 5, es un diagrama esquemático que ilustra un aparato para cambiar la forma de los labios en una animación estimulada por voz de acuerdo con un tercer ejemplo de la presente invención.

La figura 6, es un diagrama esquemático que ilustra otro aparato para cambiar la forma de los labios en una animación estimulada por voz de acuerdo con un tercer ejemplo de la presente invención.

La figura 7, es un diagrama esquemático que ilustra otro aparato para cambiar la forma de los labios en una animación estimulada por voz de acuerdo con el tercer ejemplo de la presente invención.

La figura 8, es un diagrama esquemático que ilustra un aparato para obtener una animación de labios de acuerdo con un cuarto ejemplo de la presente invención.

DESCRIPCIÓN DETALLADA DE LA INVENCIÓN Con el objeto de hacer más claro el propósito, soluciones y méritos, la presente invención se ilustrará con detalle en lo sucesivo haciendo referencia a los dibujos que la acompañan. Objetivamente, los ejemplos descritos más adelante únicamente son ejemplos parciales de la presente invención, en lugar de todos los ejemplos. Con base en los ejemplos de la presente invención, otros ejemplos obtenidos por aquellos expertos en la materia sin trabajo creativo pertenecen al alcance de protección de la presente invención.

El primer ejemplo de la presente invención proporciona un método para cambiar la forma de los labios con base en la voz. Como se muestra en la figura 1 , el método incluye los siguientes pasos.

Paso 101 , las señales de audio son obtenidas, y la proporción de extensión de movimiento de la forma de los labios se obtiene de acuerdo con las características de las señales de audio.

De manera específica, el paso de obtener la proporción de extensión de movimiento de la forma de los labios de acuerdo con las características de las señales de audio incluye los siguientes pasos.

Paso 101 A, las señales de audio son recorridas, y se obtiene un valor de datos de muestra máximo maxSampleValue de las señales de audio.

Paso 101 B, las señales de audio son divididas en dos ventanas, cada ventana se divide en grupos, se obtiene un promedio de los valores de datos de muestra en cada grupo, se obtiene un grupo promedio avgGroup de cada ventana, en donde el grupo promedio avgGroup incluye los promedios que corresponden a los grupos en la ventana; se obtiene un valor máximo entre el grupo promedio avgGroup de cada ventana, y se obtiene un grupo máximo windowPeak, el cual comprende valores máximos correspondientes a todas las ventanas.

Una sílaba es una unidad de voz básica. De manera específica, en Chino, cada sílaba corresponde a un tipo de forma de labios, y se lleva de 200 a 300 milisegundos pronunciar una sílaba en un procedimiento de pronunciación uniforme, de manera que es necesario dividir la sílaba en fonemas. De acuerdo con el principio anterior, las señales de audio obtenidas son divididas en ventanas con una longitud determinada, y cada ventana corresponde a una sílaba; cada ventana está dividida adicionalmente en grupos con una longitud determinada, y cada grupo corresponde a un fonema. Se supone que se lleva x segundos en pronunciar la sílaba y la longitud de la ventana es WindowLen, WindowLen = x * índice de muestreo de audio; se supone que se lleva y segundos en pronunciar el fonema y la longitud del grupo de GroupLen, GroupLen = y * índice de muestreo de audio.

De manera específica, el promedio de los valores de datos de muestra en cada grupo que es igual a aquel de la suma de todos los valores de datos de muestra en el grupo, se divide entre GroupLen, y el promedio se coloca en el grupo promedio avgGroup; un valor máximo en el grupo promedio avgGroup se obtiene y se coloca en un grupo máximo windowPeak.

Opcionalmente, con el objeto de evitar el movimiento innecesario de la forma de los labios y el movimiento necesario presenta de la forma de los labios con fluidez, el procesamiento de ruido suprimido se realiza para las señales de audio cuando se obtienen las señales de audio.

Paso 101C, un valor de extensión de movimiento máximo de la forma de los labios que corresponde a la ventana actual se obtiene de acuerdo con el grupo máximo obtenido windowPeak y el valor de datos de muestra máximo obtenido.

De manera específica, se obtiene un promedio de los valores de datos de muestra de cada grupo en una ventana actual i (i>=0); se obtiene un valor máximo windowPeak[i] entre los promedios que corresponden a los grupos en la ventana actual i; se calcula una proporción scale[i] del máximo w¡ndowPeak[i] y un valor de datos de muestra de audio máximo maxSampleValue. Para cada valor de scale[i] de un grupo de escalas, se calcula un valor de extensión de movimiento máximo extent[i] de la forma de los labios que corresponde a la ventana i actual, es decir, extent[i]=scale[i] * maxLen, en donde maxLen es el valor de extensión de movimiento máximo de la forma de los labios de todas las ventanas.

Paso 101 D, se obtiene la proporción de extensión de movimiento de la forma de los labios en cada cuadro de video que corresponde a la ventana actual de acuerdo con el valor de extensión de movimiento máximo de la forma de los labios que corresponde a la ventana actual.

De manera específica, se obtiene la proporción de extensión de movimiento scaleForFrame[k] de la forma de los labios en el cuadro de video j que corresponde a la ventana actual i, es decir, scaleForFram[k]=j*(scale[¡] / (frameNumber/2)), en donde k=frameNumber*i+j, 0=<k<el número total de cuadros de video, frameNumber representa el número de cuadros de video que corresponde a cada ventana, frameNumber = x * un índice de muestreo de video, x representa la duración de la pronunciación de cada sílaba. En el ejemplo de la presente invención, el índice de muestreo de video por defecto es de 30 cuadros por segundo, el cual puede ser modificado por un usuario de acuerdo con los requerimientos; j es incrementado de 0 a frameNumber/2 y entonces se disminuye de frameNumber/2 a 0, y j es un entero.

Paso 102, se obtiene un modelo de forma de labios origina ingresado por el usuario, y se genera un valor de extensión de movimiento de la forma de los labios de acuerdo con el modelo de forma de los labios original y la proporción de extensión de movimiento obtenida de la forma de los labios.

De manera específica, el valor de extensión de movimiento de la forma de los labios, incluye: el valor de extensión de movimiento de la forma de los labios en la dirección vertical y el valor de extensión de movimiento de la forma de los labios en la dirección horizontal; el valor de extensión de movimiento en la dirección horizontal es Length*scaleForFrame[k], y el valor de extensión de movimiento en la dirección vertical es Width*scaleForFrame[k], en donde 0=<k< el número total de los cuadros de video, y la Longitud y el Ancho son respectivamente, la longitud y el ancho de la forma de los labios original.

Se debe observar que, el modelo de forma de los labios original ingresada por el usuario puede cambiar de acuerdo con las aplicaciones prácticas.

Paso 103, se genera un conjunto de modelo de retícula de forma de los labios de acuerdo con el valor de extensión de movimiento obtenido de la forma de los labios y una biblioteca de modelo de pronunciación de los labios configurada previamente.

En este paso, se establece la biblioteca de modelo de pronunciación de los labios con base en las características de pronunciación del Chino. En Chino, una palabra consiste en una consonante inicial y una vocal, y la forma de los labios se refiere principalmente a la pronunciación de la vocal. Las vocales incluyen vocales sencillas, vocales complejas y vocales nasales. Las vocales sencillas consisten en una vocal, y la forma de los labios se mantiene sin cambios durante la pronunciación; la vocal compleja consiste en dos o tres vocales, y tanto la pronunciación como la forma de los labios cambian gradualmente; la pronunciación de las vocales nasales no cambia mucho la forma de los labios. Por consiguiente, los modelos de pronunciación establecidos para la forma de los labios principalmente se basan en las características de pronunciación de las vocales sencillas. La pronunciación de las vocales sencillas incluye "a, wo, e yi, wu, yu", las cuales representan a seis caracteres Chinos con la misma pronunciación que las vocales sencillas. La forma de los labios que corresponde a "wu" y "yu" es similar, y por consiguiente, los dos tipos de forma de labios son combinados en una clase de forma de los labios; la forma de los labios que corresponde a "e" y "yi" es similar, y por consiguiente, se combinan las dos clases de forma de los labios en una clase de forma de los labios; finalmente, una biblioteca de modelo de pronunciación de labios que incluye cuatro tipos de modelos de pronunciación de labios se utiliza para expresar la forma de los labios de las vocales sencillas, como se muestra en la figura 3. La biblioteca del modelo de pronunciación de los labios debe incluir: un modelo de labios original y diversos modelos de pronunciación de labios establecidos de acuerdo con el principio anterior y con base en el modelo de labios original. Se debe observar que, la biblioteca de modelo de pronunciación de labios no se limita a incluir únicamente los cuatro modelos de pronunciación de labios anteriores de las vocales sencillas. Los modelos de pronunciación de los labios en la biblioteca del modelo de pronunciación de los labios pueden cambiar de acuerdo con las características de pronunciación de los diferentes idiomas. Por ejemplo, de acuerdo con las características de la pronunciación del Inglés, los modelos de pronunciación de labios que corresponden a las vocales "a, e, i, o y u" del Inglés, están incluidas en la biblioteca de modelo de pronunciación de labios.

De manera específica, el paso de generación del conjunto modelo de retícula de forma de los labios de acuerdo con el valor de extensión de movimiento de la forma de los labios y la biblioteca del modelo de pronunciación de labios configurada previamente incluye los siguientes pasos.

Paso 103A, un modelo de pronunciación de labios es seleccionado en forma aleatorio a partir de una biblioteca de modelo de pronunciación de labios configurada previamente, y se toma como un modelo de pronunciación original de la forma de los labios actual.

Paso 103B, se obtiene vértice del modelo de pronunciación original y el modelo de labios original en la biblioteca de modelo de pronunciación, se calcula una proporción de compensación de cada vértice del modelo de pronunciación original. De manera específica, la compensación entre el vértice z del modelo de pronunciación original y el vértice z del modelo de labios original en la biblioteca de modelo de pronunciación de labios es x_hor en la dirección horizontal y es y_ver en la dirección vertical, entonces, la proporción de compensación del vértice z en la dirección horizontal es x_hor/modell_ength, y la proporción de compensación del vértice z en la dirección vertical es y_ver/modelWidth, en donde el modelLength y modelWidth son, respectivamente, la longitud y el ancho del modelo de labios original en la biblioteca de modelo de pronunciación de labios, 0=<z<, el número de vértices del modelo de pronunciación original.

Paso 103C, la compensación del cuadro de video actual es obtenido multiplicando la proporción de compensación de cada vértice del modelo de pronunciación original mediante el valor de extensión de movimiento de la forma de los labios del cuadro de video actual que corresponde al vértice.

Paso 103D, un modelo de forma de labios del cuadro de video actual es obtenido superponiendo el modelo de forma de labios original ingresado por el usuario, respectivamente con las compensaciones de vértice del cuadro de video actual.

Paso 103E, los modelos de forma de labios de todos los cuadros de video están dispuestos de acuerdo con la secuencia de audio, y se genera el conjunto de modelo de retícula de forma de labios.

En los ejemplos de la presente invención, mediante el uso de la biblioteca de modelo de pronunciación de labios, la forma de los labios cambia con base en la voz; en comparación con la técnica anterior, las soluciones técnicas provistas por los ejemplos de la presente invención tienen un algoritmo simple y de costo bajo.

El segundo ejemplo proporciona un método para obtener una animación de labios. Como se muestra en la figura 4, el método incluye los siguientes pasos.

Paso 201 , se obtienen las señales de audio, y la proporción de extensión de movimiento de la forma de los labios se obtiene de acuerdo con las características de las señales de audio.

Paso 201 , es el mismo que el paso 101 y no se describirá en la presente.

Paso 202, se obtiene un modelo de forma de labios original ingresado por un usuario, y un valor de extensión de movimiento de la forma de labios se genera de acuerdo con el modelo de forma de labios original y la proporción de extensión de movimiento obtenida de la forma de labios.

Paso 202, es el mismo que el paso 102 y no se describirá en la presente.

Paso 203, se genera un conjunto de modelo de retícula con forma de labios de acuerdo con el valor de extensión de movimiento obtenido de la forma de los labios y una biblioteca de modelo de pronunciación de labios previamente configurada.

Paso 203, es el mismo que el paso 103 y no se describirá en la presente.

Paso 204, se genera una animación de labios de acuerdo con el conjunto de modelo de retícula de forma de los labios.

De manera específica, la animación de labios puede ser generada utilizando una tecnología de interpolación común de acuerdo con el conjunto de modelo de retícula de forma de los labios y el modelo original de forma de los labios.

En los ejemplos de la presente invención, mediante el uso de la biblioteca de pronunciación de labios, la forma de los labios se cambia con base en la voz; en comparación con la técnica anterior, las soluciones técnicas provistas por los ejemplos de la presente invención tienen un algoritmo simple y un costo bajo.

El tercer ejemplo de la presente invención proporciona un aparato para cambiar la forma de los labios en una animación estimulada por voz. Como se muestra en la figura 5, el aparato incluye: un módulo de obtención 501 , configurado para obtener señales de audio, y obtener la proporción de extensión de movimiento de la forma de los labios de acuerdo con las características de las señales de audio; un primer módulo de generación 502, configurado para obtener un modelo de forma de labios original ingresada por un usuario, y generar un valor de extensión de movimiento de la forma de labios de acuerdo con el modelo de forma de labios original y la proporción de extensión de movimiento obtenido de la forma de labios; y un segundo módulo de generación 503, configurado para generar un conjunto de modelo de retícula de forma de labios de acuerdo con el valor de extensión de movimiento generado de la forma de los labios y una biblioteca de modelo de pronunciación de los labios previamente configurados.

Adicionalmente, como se muestra en la figura 6, el módulo de obtención 501 comprende: una primera unidad de obtención 501 1 , configurada para recorrer las señales de audio, y obtener un valor de datos de muestra máximo; una segunda unidad de obtención 5012, configurado para dividir las señales de audio en ventanas, divide cada ventana en grupos, obtiene un promedio de los valores de datos de muestra en cada grupo, obtener un grupo promedio avgGroup de cada ventana, en donde el grupo promedio avgGroup comprende los promedios que corresponden a los grupos en la ventana; obtener un valor máximo entre el grupo promedio avgGroup de cada ventana, y obtener un grupo máximo windowPeak, el cual incluye valores máximos que corresponden a todas las ventanas; una tercera unidad de obtención 5013, configurada para obtener un valor de extensión de movimiento máximo de la forma de labios que corresponde a una ventana actual i de acuerdo con el grupo máximo obtenido windowPeak y el valor de datos de muestra máximo obtenido; y una cuarta unidad de obtención 5014, configurada para obtener la proporción de extensión de movimiento de la forma de los labios en un cuadro de video actual que corresponde a la ventana actual i de acuerdo con el valor de extensión de movimiento máximo de la forma de los labios que corresponde a la ventana actual i.

Adicionalmente, la segunda unidad de obtención 5012 incluye: una quinta unidad de obtención, configurada para obtener promedio de los valores de datos muestra de cada grupo en la ventana actual i; una sexta unidad de obtención, configurada para obtener un máximo windowPeak[i], entre los promedios correspondientes al grupo en la ventana actual i; una séptima unidad de obtención, configurada para calcular una proporción scale[i] del máximo windowPeak[i] y un valor de datos de muestra de audio máximo maxSampleValue; una octava unidad de obtención, configurada para calcular el valor de extensión de movimiento máximo extent[i] de la forma de labios que corresponde a la ventana actual i, en donde extent[i]=scale[i] * maxLen; en donde i>=0, maxLen es el valor de extensión de movimiento máximo de la forma de los labios de todas las ventanas; Adicionalmente, la cuarta unidad de obtención 5014 está configurada de manera específica para obtener una proporción de extensión de movimiento scaleForFrame[k] de la forma de los labios en el cuadro de video j que corresponde a la ventana actual i, es decir, ScaleForFrame[k]=j * (scale[i] / (frameNumber/2)), en donde k=frameNumber*i+j, 0=<k<, el número total de cuadros de video, frameNumber representa el número de cuadros de video que corresponden a cada ventana, frameNumber = x * índice de muestreo de video, x representa la duración de la pronunciación de cada sílaba; j es incrementado de 0 a frameNumber/2 y posteriormente es disminuido desde frameNumber/2 a 0, y j es un entero.

Adicionalmente, el primer módulo de generación 502 que genera el valor de extensión de movimiento de la forma de los labios de acuerdo con el modelo de forma de los labios original y la proporción de extensión de movimiento obtenida de la forma de los labios incluye que: el primer módulo de generación 502 está configurado para calcular el valor de extensión de movimiento Length*scaleForFrame[k] en la dirección horizontal, y calcular el valor de alcance de movimiento Width*scaleForFrame[k] en la dirección vertical, en donde 0=<k< el número total de los cuadros de video, y la Longitud y el Ancho son respectivamente, la longitud y ancho de la forma de labios original.

Adicionalmente, como se muestra en la figura 7, el segundo módulo de generación 503 incluye: una unidad de selección 5031 , configurado para seleccionar en forma aleatoria un modelo de pronunciación de labios a partir de la biblioteca de modelo de pronunciación de labios previamente configurado, y tomar el modelo de pronunciación de labios como un modelo de pronunciación original de la forma de labios original; una novena unidad de obtención 5032, configurado para obtener vértices del modelo de pronunciación original y un modelo de labios original en la biblioteca de modelo de pronunciación de los labios, y calcular una proporción de compensación de cada vértice del modelo de pronunciación original; una décima unidad de obtención 5033, configurada para obtener compensaciones de vértice del cuadro de video actual multiplicando la proporción de compensación de cada vértice del modelo de pronunciación original mediante el valor de extensión de movimiento de la forma de los labios del cuadro de video actual que corresponde al vértice; una onceava unidad de obtención 5034, configurada para obtener el modelo de forma de los labios del cuadro de video actual superponiendo el modelo de forma de los labios original obtenido ingresado por el usuario respectivamente con las compensaciones de vértice del cuadro de video actual; una unidad de generación del conjunto de modelo 5035, configurado para disponer los modelos de forma de los labios de todos los cuadros de video, y generar el conjunto de modelo de retícula de forma de los labios.

Adicionalmente, la novena unidad de obtención 5032 que calcula la proporción de compensación de cada vértice del modelo de pronunciación original, incluye que: la novena unidad de obtención 5032 está configurada para calcula una proporción de compensación x_hor/modell_ength de un vértice z del modelo de pronunciación original en la dirección horizontal, y calcular una proporción de compensación y_ver/modelWidth del vértice z en la dirección vertical, en donde modelLength y modelWidth son, respectivamente, la longitud y el ancho del modelo de los labios original en la biblioteca de modelo de pronunciación de labios, y 0=<z< el número de los vértices del modelo de pronunciación original.

Adicionalmente, el modelo de obtención 501 está configurado adicionalmente para realizar un procesamiento de ruido suprimido para las señales de audio.

Se debe observar que, el detalle de procedimiento para obtener las señales de audio y obtener la proporción de extensión de movimiento de la forma de los labios de acuerdo con las características de las señales de audio mediante el módulo de obtención 501 puede referirse al paso 101 en el primer ejemplo.

Se debe observar que, el procedimiento detallado de obtención del modelo de forma de labios original ingresado por el usuario y que genera el valor de extensión de movimiento de la forma de labios de acuerdo con el modelo de forma de labios original y la proporción de extensión de movimiento obtenido de la forma de labios mediante el primer módulo de generación 502 que puede referirse al paso 02 en el primer ejemplo.

Se debe observar que, el detalle del procedimiento de generación del conjunto de modelo de retícula de forma de labios de acuerdo con el valor de extensión de movimiento obtenido de la forma de los labios y la biblioteca del modelo de pronunciación de labios previamente configurada mediante el segundo módulo de generación 503 puede referirse al paso 103 en el primer ejemplo.

En los ejemplos de la presente invención, mediante el uso de la biblioteca del modelo de pronunciación de labios, la forma de los labios cambia con base en la voz; en comparación con la técnica anterior, las soluciones técnicas provistas por los ejemplos de la presente invención tienen un algoritmo simple de bajo costo.

Un cuarto ejemplo de la presente invención proporciona un aparato para obtener una animación de labios. Como se muestra en la figura 8, el aparato incluye: un módulo de obtención 601 , configurado para obtener señales de audio, y obtener la proporción de extensión de movimiento de la forma de los labios de acuerdo con las características de las señales de audio; un primer módulo de generación 602, configurado para obtener un modelo de forma de labios original ingresado por un usuario, y genera un valor de extensión de movimiento de la forma de los labios de acuerdo con el modelo de forma de labios original y la proporción de extensión de movimiento obtenida de la forma de los labios; un segundo módulo de generación 603, configurado para generar un conjunto de modelo de retícula de forma de labios de acuerdo con el valor de extensión de movimiento generado de la forma de los labios y una biblioteca de modelo de pronunciación de labios previamente configurado; y un tercer módulo de generación 604, configurado para generar una animación de labios de acuerdo con el conjunto de modelo de retícula de forma de labios.

El módulo de obtención 60 , el primer módulo de generación 602 y el segundo módulo de generación 603 son respectivamente equivalentes al módulo de obtención, el primer módulo de generación y el segundo módulo de generación en el tercer ejemplo, y no se describirá en la presente.

Se deberá observar que, el detalle de procedimiento para obtener las señales de audio y obtener la proporción de extensión de movimiento de la forma de los labios de acuerdo con las características de las señales de audio mediante el módulo de obtención 601 puede referirse al paso 101 en el primer ejemplo.

Se debe observar que, el detalle del procedimiento para obtener el modelo de forma de los labios original ingresado por el usuario y la generación del valor de extensión de movimiento de la forma de los labios de acuerdo con el modelo de forma de los labios original y la proporción de extensión de movimiento obtenido de la forma de los labios mediante el primer módulo de generación 602 puede referirse al paso 102 en el primer ejemplo.

Se debe observar que, el detalle de procedimiento de generación del conjunto de modelo de retícula de forma de los labios de acuerdo con el valor de extensión de movimiento obtenido de la forma de los labios y la biblioteca de modelo de pronunciación de los labios previamente configurada mediante el segundo módulo de generación 603 puede referirse al paso 103 en el primer ejemplo.

En los ejemplos de la presente invención, al utilizar la biblioteca del modelo de pronunciación de labios, la forma de los labios cambia con base en la voz; en comparación con la técnica anterior, las soluciones técnicas provistas por los ejemplos de la presente invención tienen un algoritmo simple de bajo costo.

Las soluciones técnicas de los cuatro ejemplos anteriores pueden aplicarse a, sin limitación, a una animación basada en terminal de video o una animación con base en video de página de la red mundial para entretenimiento, puede aplicarse no únicamente al idioma Chino, sino también al Inglés, Francés u otros idiomas. Con el objeto de ser conveniente para la descripción, el Chino se toma como un ejemplo en los cuatro ejemplos anteriores, y el procesamiento de otros idiomas es similar y no se describirá en la presente descripción. El modelo de forma de los labios original ingresado por el usuario puede ser obtenido de acuerdo con los rostros humanos, las caras de animales y las imágenes de caricatura, etc., las señales de audio también son definidas por el usuario, por ejemplo, las señales de audio de conversaciones y canciones normales, o las señales de audio procesadas de manera especial.

Aquellos expertos en la materia deberán comprender que la totalidad o partes de los pasos en los ejemplos de método anteriores pueden ser implementados utilizando hardware instruido por un programa, el programa puede ser almacenado en un medio de almacenamiento legible por computadora, y el medio de almacenamiento incluye un disco flexible, un disco duro o un CD.

Los anteriores únicamente son los ejemplos preferidos de la presente invención y no pretenden utilizarse para limitar el alcance de protección de la presente invención. Cualquier modificación, reemplazo equivalente y mejoramiento realizados dentro del alcance de la presente invención será cubierto bajo el alcance de protección de la presente invención.

Claims

NOVEDAD DE LA INVENCIÓN REIVINDICACIONES

1 .- Un método para cambiar la forma de los labios en una animación estimulada por voz, que comprende: obtener señales de audio, y obtener la proporción de extensión de movimiento de la forma de los labios de acuerdo con las características de las señales de audio; obtener un modelo de forma de los labios original ingresado por un usuario, y generar un valor de extensión de movimiento de la forma de los labios de acuerdo con el modelo de forma de los labios original y la proporción de extensión de movimiento obtenida de la forma de los labios; y generar un conjunto de modelo de retícula con la forma de los labios de acuerdo con el valor de extensión de movimiento generado de la forma de los labios y una biblioteca de modelo de pronunciación de los labios configurado previamente.

2.- El método de conformidad con la reivindicación 1 , caracterizado además porque la proporción de extensión de movimiento de la forma de los labios de acuerdo con las características de las señales de audio, comprende: recorrer las señales de audio, y obtener un valor de datos de muestra máximo de las señales de audio; dividir las señales de audio en ventanas, dividir cada ventana en grupos, obtener un promedio de los valores de datos de muestra en cada grupo, obtener un grupo promedio avgGroup de cada ventana, en donde el grupo promedio avgGroup comprende los promedios que corresponden a los grupos en la ventana; obtener un valor máximo entre el grupo promedio avgGroup de cada ventana, y obtener un grupo máximo windowPeak, el cual comprende valores máximos que corresponden a todas las ventanas; obtener un valor de extensión de movimiento máximo de la forma de los labios que corresponde a una ventana actual i de acuerdo con el grupo máximo obtenido windowPeak y el valor de datos de muestra máximo obtenido; y obtener la proporción de extensión de movimiento de la forma de los labios en un cuadro de video actual que corresponde a la ventana actual i de acuerdo con el valor de extensión de movimiento máximo de la forma de los labios que corresponde a la ventana actual i, en donde i>=0.

3.- El método de conformidad con la reivindicación 2, caracterizado además porque obtener un valor de extensión de movimiento máximo de la forma de los labios que corresponde a una ventana actual i de acuerdo con el grupo máximo obtenido windowPeak y el valor de datos de muestra máximo obtenido, comprende: obtener un promedio de los valores de datos de muestra de cada grupo en la ventana actual i; obtener un valor máximo windowPeak[i] entre los promedios que corresponden a los grupos en la ventana actual i; calcular una proporción scale[i] del valor máximo windowPeak[i] y un valor de datos muestra de audio máximo maxSampleValue; calcular el valor de extensión de movimiento máximo extent[i] de la forma de labios que corresponde a la ventana actual i, en donde extent[i]=scale[i] * maxLen; en donde maxLen es el valor de extensión de movimiento máximo de la forma de los labios de todas las ventanas.

4. - El método de conformidad con la reivindicación 2, caracterizado además porque obtener la proporción de extensión de movimiento de la forma de los labios en un cuadro de video actual que corresponde a la ventana actual i de acuerdo con el valor de extensión de movimiento máximo de la forma de los labios que corresponde a la ventana actual i comprende: obtener una proporción de extensión de movimiento scaleForFrame[k] de la forma de los labios en el cuadro de video j que corresponde a la ventana actual i, en donde scaleForFrame[k]=j*(scale[i] / (frameNumber/2)); en donde k=frameNumber*i+j, 0=<k< el número total de cuadros de video frameNumber representa el número de cuadro de video que corresponde a cada ventana, frameNumber = x * un índice de muestreo de video, x representa la duración de la pronunciación de cada sílaba, j es incrementado de 0 a frameNumber/2 y posteriormente es disminuido de frameNumber/2 a 0, y j es un entero.

5. - El método de conformidad con la reivindicación 4, caracterizado además porque generar un valor de extensión de movimiento de la forma de los labios de acuerdo con el modelo de forma de los labios original y la proporción de extensión de movimiento obtenido de la forma de los labios, comprende: calcula el valor de extensión de movimiento Length*scaleForFrame[k] en una dirección horizontal, y calcula el valor de extensión de movimiento Width*scaleForFrame[k] en una dirección vertical en donde la Longitud y el Ancho son respectivamente, la longitud y el ancho del modelo de forma de los labios original.

6. - El método de conformidad con cualquiera de las reivindicaciones 1 a 5, caracterizado además porque la generación de un conjunto de modelo de retícula de forma de los labios de acuerdo con el valor de extensión de movimiento generado de la forma de los labios y una biblioteca de modelo de pronunciación de los labios previamente configurado, que comprende: seleccionar en forma aleatoria un modelo de pronunciación de labios a partir de la biblioteca de modelo de pronunciación de labios previamente configurada, y toma el modelo de pronunciación de labios como un modelo de pronunciación original de una forma de labios actual; obtener vértices del modelo de pronunciación original y un modelo de labios original en la biblioteca de modelo de pronunciación de labios, y calcular una proporción de compensación de cada vértice del modelo de pronunciación original; obtener compensaciones de vértice del cuadro de video actual multiplicando la proporción de compensación de cada vértice del modelo de pronunciación original mediante el valor de extensión de movimiento de la forma de los labios del cuadro de video actual que corresponde al vértice; obtener el modelo de forma de los labios del cuadro de video actual superponiendo el modelo de forma de los labios original obtenido ingresado por el usuario, respectivamente con las compensaciones de vértice del cuadro de video actual; arreglar los modelos de forma de los labios de todos los cuadros de video y generar el conjunto de modelo de retícula de forma de los labios.

7. - El método de conformidad con la reivindicación 6, caracterizado además porque calcular una proporción de compensación de cada vértice del modelo de pronunciación original, que comprende: calcula una proporción de compensación x_hor/modelLength de un vértice z del modelo de pronunciación original en la dirección horizontal, y calcular una proporción de compensación y_ver/modelW¡dth del vértice z en la dirección vertical; en donde modelLength y modelWidth son respectivamente, la longitud y el ancho del modelo de los labios original en la biblioteca de modelo de pronunciación de los labios, x_hor y y_ver, son respectivamente, una compensación entre el vértice z del modelo de pronunciación original y el vértice z del modelo de labios original en la biblioteca de modelo de pronunciación de labios en la dirección horizontal y una compensación entre el vértice z del modelo de pronunciación original y el vértice z del modelo de labios original en la biblioteca del modelo de pronunciación de labios en la dirección vertical, y 0=<z<, el número de vértices del módulo de pronunciación original.

8. - El método de conformidad con la reivindicación 6, caracterizado además porque comprende adicionalmente: realizar el procesamiento de ruido suprimido para las señales de audio.

9. - Un método para obtener una animación de labios, que comprende: obtener señales de audio, y obtener la proporción de extensión de movimiento de la forma de los labios de acuerdo con las características de las señales de audio; obtener un modelo de forma de los labios original ingresado por un usuario, y generar un valor de extensión de movimiento de la forma de los labios de acuerdo con el modelo de forma de los labios original y la proporción de extensión de movimiento obtenido de la forma de los labios; generar un conjunto de modelo de retícula de forma de los labios de acuerdo con el valor de extensión de movimiento generado de la forma de los labios y una biblioteca de modelo de pronunciación de labios previamente configurada; y generar una animación de los labios de acuerdo con el conjunto de modelo de retícula de forma de los labios.

10. - Un aparato para cambiar la forma de los labios en una animación estimulada por voz, que comprende: un módulo de obtención, configurado para obtener señales de audio, y obtener la proporción de extensión de movimiento de la forma de los labios de acuerdo con las características de las señales de audio; un primer módulo de generación, configurado para obtener el modelo de forma de los labios original ingresado por un usuario, y generar un valor de extensión de movimiento de la forma de los labios de acuerdo con el modelo de forma de los labios original y la proporción de extensión de movimiento obtenida de la forma de los labios; y un segundo modelo de generación, configurado para generar el conjunto de modelo de retícula de forma de los labios de acuerdo con el valor de extensión de movimiento generado de la forma de los labios y una biblioteca de modelo de pronunciación de labios previamente configurado.

1 1. - El aparato de conformidad con la reivindicación 10, caracterizado además porque el módulo de obtención comprende: una primera unidad de obtención, configurada para recorrer las señales de audio, y obtener un valor de datos de muestra máximo; una segunda unidad de obtención, configurada para dividir las señales de audio en ventanas, dividir cada ventana en grupos, obtener un promedio de los valores de datos de muestra en cada grupo, obtener un grupo promedio avgGroup de cada ventana, en donde el grupo promedio avgGroup comprende promedios que corresponden a grupos en la ventana; obtener un valor máximo entre el grupo promedio avgGroup de cada ventana, y obtener un grupo máximo windowPeak, el cual comprende valores máximos que corresponden a todas las ventanas; una tercera unidad de obtención, configurada para obtener un valor de extensión de movimiento máximo de la forma de los labios que corresponde a una ventana actual i de acuerdo con el grupo máximo obtenido windowPeak y los valores de datos de muestra máximos obtenidos; y una cuarta unidad de obtención, configurada para obtener la proporción de extensión de movimiento de la forma de los labios en un cuadro de video actual que corresponde a la ventana actual i de acuerdo con el valor de extensión de movimiento máximo de la forma de los labios que corresponde a la ventana actual i.

12.- El aparato de conformidad con la reivindicación 11 , caracterizado además porque la segunda unidad de obtención comprende: una quinta unidad de obtención, configurado para obtener un promedio de los valores de datos de muestra de cada grupo en la ventana actual i; una sexta unidad de obtención, configurada para obtener un máximo windowPeak[i] entre los promedios que corresponden a los grupos en la ventana actual i; una séptima unidad de obtención, configurada para calcular una proporción scale[i] del valor máximo windowPeak[i] y un valor de datos de muestra de audio máximo maxSampleValue; una octava unidad de obtención, configurada para calcular el valor de extensión de movimiento máximo extent[i] de la forma de los labios que corresponde a la ventana actual i, en donde extent[i]=scale[i] * maxLen; en donde i>=0, maxLen es el valor de extensión de movimiento máximo de la forma de los labios de todas las ventanas.

13. - El aparato de conformidad con la reivindicación 1 1 , caracterizado además porque la cuarta unidad de obtención está configurada para obtener una proporción de extensión de movimiento scaleForFrame[k] de la forma de los labios en el cuadro de video j que corresponde a la ventana actual i, en donde scaleForFrame[k]=j*(scale[¡] / (frameNumber/2)); en donde k=frameNumber*i+j, 0=<k< el número total de cuadros de video, frameNumber representa el número de cuadros de video que corresponden a cada ventana, frameNumber = x * índice de muestreo de video, x representa la duración de pronunciación de cada sílaba, j es incrementado de 0 a frameNumber/2 y posteriormente es disminuido de frameNumber/2 a 0, y j es un entero.

14. - El aparato de conformidad con la reivindicación 13, caracterizado además porque el primer módulo de generación está configurado para calcular el valor de extensión de movimiento Length*scaleForFrame[k] en una dirección horizontal, calcular el valor de extensión de movimiento Width*scaleForFrame[k] en una dirección vertical, en donde la Longitud y el Ancho son respectivamente, la longitud y el ancho del modelo de forma de labios original.

15.- El aparato de conformidad con las reivindicaciones 10 a 14, caracterizado además porque el segundo módulo de generación comprende: una unidad de selección, configurada para seleccionar en forma aleatoria un modelo de pronunciación de labios a partir de la biblioteca de modelo de pronunciación de labios previamente configurada, y tomar el modelo de pronunciación de los labios como un modelo de pronunciación original de la forma de los labios actual; una novena unidad de obtención, configurada para obtener vértices del modelo de pronunciación original y un modelo de labios original en la biblioteca del modelo de pronunciación de labios, y calcular una proporción de compensación de cada vértice del modelo de pronunciación original; una décima unidad de obtención, configurada para obtener compensaciones de vértice del cuadro de video actual multiplicando la proporción de compensación de cada vértice del módulo de pronunciación original mediante el valor de extensión de movimiento de forma de los labios del cuadro de video actual que corresponde al vértice; una onceava unidad de obtención, configurada para obtener el modelo de forma de los labios del cuadro de video actual superponiendo el modelo de forma de los labios original obtenido ingresado por el usuario, respectivamente con las compensaciones de vértice del cuadro de video actual; una unidad de generación de conjunto de modelo, configurada para arreglar los modelos de forma de los labios de todos los cuadros de video , y generar el conjunto de modelo de retícula de forma de los labios.

16. - El aparato de conformidad con la reivindicación 15, caracterizado además porque la novena unidad de obtención está configurada para calcular una proporción de compensación x_hor/modell_ength de un vértice z del modelo de pronunciación original en la dirección horizontal, y calcular una proporción de compensación y_ver/modelWidth del vértice z en la dirección vertical, en donde modelLength y modelWidth son, respectivamente la longitud y el ancho del modelo de labios original en la biblioteca del modelo de pronunciación de labios, x_hor y y_ver, son respectivamente, una compensación entre el vértice z del modelo de pronunciación original y el vértice z del modelo de labios original en la biblioteca del modelo de pronunciación de labios en la dirección horizontal y una compensación entre el vértice z del modelo de pronunciación original y el vértice z del modelo de labios original en la biblioteca de modelo de pronunciación de labios en la dirección vertical, y 0=<z< el número de vértices del modelo de pronunciación original.

17. - El aparato de conformidad con la reivindicación 16, caracterizado además porque el módulo de obtención está configurado adicionalmente para realizar el procesamiento de ruido suprimido para las señales de audio.

18.- Un aparato para obtener una animación de los labios, que comprende: un módulo de obtención, configurado para obtener señales de audio, y obtener la proporción de extensión de movimiento de la forma de los labios de acuerdo con las características de las señales de audio; un primer módulo de generación, configurado para obtener un modelo de forma de labios original ingresado por un usuario, y generar un valor de extensión de movimiento de la forma de los labios de acuerdo con el modelo de forma de los labios original y la proporción de extensión de movimiento obtenida de la forma de los labios; un segundo módulo de generación, configurado para generar un conjunto de modelo de retícula de forma de los labios de acuerdo con el valor de extensión de movimiento generado de la forma de los labios y una biblioteca del modelo de pronunciación de labios previamente configurada; y un tercer módulo de generación, configurado para generar una animación de labios de acuerdo con el conjunto del modelo de retícula de la forma de los labios.