MX2011006703A - Metodo y aparato para cambiar la forma de los labios y obtener animacion de los labios en animacion estimulada por voz. - Google Patents

Metodo y aparato para cambiar la forma de los labios y obtener animacion de los labios en animacion estimulada por voz.

Info

Publication number
MX2011006703A
MX2011006703A MX2011006703A MX2011006703A MX2011006703A MX 2011006703 A MX2011006703 A MX 2011006703A MX 2011006703 A MX2011006703 A MX 2011006703A MX 2011006703 A MX2011006703 A MX 2011006703A MX 2011006703 A MX2011006703 A MX 2011006703A
Authority
MX
Mexico
Prior art keywords
shape
lips
lip
model
original
Prior art date
Application number
MX2011006703A
Other languages
English (en)
Inventor
Yisha Lu
Jianyu Wang
Original Assignee
Tencent Tech Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=40880071&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=MX2011006703(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Tencent Tech Shenzhen Co Ltd filed Critical Tencent Tech Shenzhen Co Ltd
Publication of MX2011006703A publication Critical patent/MX2011006703A/es

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/802D [Two Dimensional] animation, e.g. using sprites
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Processing Or Creating Images (AREA)

Abstract

La presente invención describe un método y aparato para cambiar la forma de los labios y obtener una animación de los labios en una animación estimulada por voz, y que se relaciona con tecnologías de cómputo; el método para cambiar la forma de los labios incluye: obtener señales de audio y obtener una proporción de extensión de movimiento de la forma de los labios de acuerdo con las características de las señales de audio; obtener un modelo de forma de los labios original ingresado por un usuario y generar un valor de extensión de movimiento de la forma de los labios de acuerdo con el modelo de forma de los labios original y la proporción de extensión de movimiento obtenido de la forma de los labios; generar un conjunto de modelo de retícula de la forma de los labios de conformidad con el valor de extensión de movimiento obtenido de la forma de los labios y una biblioteca de modelo de pronunciación de los labios configurada previamente; el método para cambiar la forma de los labios en una animación estimulada por voz incluye un módulo de obtención, un primer módulo de generación y un segundo módulo de generación; las soluciones provistas por la presente invención tiene un algoritmo simple y de costo bajo.

Description

MÉTODO Y APARATO PARA CAMBIAR LA FORMA DE LOS LABIOS Y OBTENER ANIMACIÓN DE LOS LABIOS EN ANIMACIÓN ESTIMULADA POR VOZ CAMPO DE LA INVENCIÓN La presente invención se refiere a tecnologías de animación con base en video, y más particularmente, a un método y aparato para cambiar la forma de los labios y obtener una animación de labios en una animación estimulada por la voz.
ANTECEDENTES DE LA INVENCIÓN La respuesta de voz interactiva (IVR) es un producto basado en la transmisión de voz. La mayoría de los usuarios de la Internet disfrutan la presentación personal y que muestra la personalidad. En este sentido, es necesario mejorar la IVR tanto en las tecnologías como la filosofía, por ejemplo, hacer que la voz tenga una mejor expresión, lo cual puede ser implementado mediante las tecnologías de animación basadas en video. Las tecnologías de animación basadas en video toman un teléfono móvil o una página de la red mundial como plataforma, en la cual, la voz está configurada con una animación basada en video definida en forma automática, de manera que le proporcionan a la voz una expresión vivida.
En las tecnologías de animación basadas en video, una tecnología para cambiar la forma de los labios en una animación estimulada por voz es una porción importante. En la técnica anterior, se proporciona una solución, en la cual, las señales de audio son mapeadas a la forma de los labios de los parámetros de animación faciales utilizando un modo de aprendizaje de máquina, aunque, el algoritmo de esta solución es complejo, y el costo del cálculo es alto.
BREVE DESCRIPCIÓN DE LA INVENCIÓN Los ejemplos de la presente invención proporcionan un método y aparato para cambiar la forma de los labios y obtener una animación de labios de una animación estimulada por voz, de manera que simplifica el algoritmo de cambiar la forma de los labios en una animación estimulada por voz y reduce el costo de cálculo.
Las soluciones técnicas son implementadas de la siguiente forma.
Los ejemplos de la presente invención proporcionan un método para cambiar la forma de los labios en una animación estimulada por voz, que incluye: obtener señales de audio y obtener la proporción de extensión de movimiento de la forma de los labios de acuerdo con las características de las señales de audio; obtener un modelo de forma de labios original Ingresado por un usuario, y que genera un valor de extensión de movimiento de la forma de los labios de acuerdo con el modelo de forma de los labios original y la proporción de extensión de movimiento obtenida de la forma de los labios; y generar un modelo de retícula de forma de los labios de acuerdo con el valor de extensión de movimiento general de la forma de los labios y una biblioteca del modelo de pronunciación de los labios previamente configurado.
Los ejemplos de la presente invención, también proporcionan un aparato para cambiar la forma de los labios en una animación estimulada por voz, que incluye: un módulo de obtención, configurado para obtener señales de audio, y obtener la proporción de extensión de movimiento de la forma de los labios de acuerdo con las características de las señales de audio; un primer módulo de generación, configurado para obtener un modelo de forma de labios original ingresado por un usuario, y generar un valor de extensión de movimiento de la forma de los labios de acuerdo con el modelo de forma de los labios original y la porción de extensión de movimiento obtenida de los labios; y un segundo modelo de generación, configurado para generar el conjunto de modelo de retícula de forma de labios de acuerdo con el valor de extensión de movimiento generado de la forma de los labios y una biblioteca de modelo de pronunciación de los labios previamente configurados.
En los ejemplos de la presente invención, con el uso de la biblioteca de modelo de pronunciación de los labios, la forma de los labios se cambia con base en la voz; en comparación con la técnica anterior, las soluciones técnicas provistas por los ejemplos de la presente invención tienen un algoritmo simple y de costo bajo.
Los ejemplos de la presente invención también proporcionan un método para obtener una animación de labios en una animación estimulada por voz, que incluye: obtener señales de audio, y obtener la proporción de extensión de movimiento de la forma de los labios de acuerdo con las características de las señales de audio; obtener un modelo de forma de los labios original ingresado por un usuario, y generar un valor de extensión de movimiento de la forma de los labios de acuerdó con el modelo de la forma de los labios original y la proporción de extensión de movimiento obtenida de la forma de los labios; generar un conjunto modelo de retícula de forma de los labios de acuerdo con el valor de extensión de movimiento generado de la forma de los labios y una biblioteca de modelo de pronunciación de labios previamente definido; y generar una animación de labios de acuerdo con el conjunto de modelo de retícula de forma de los labios.
Los ejemplos de la presente invención también proporcionan un aparato para obtener una animación de labios en una animación estimulada por voz, que incluye: un módulo de obtención, configurado para obtener señales de audio, y obtener la proporción de extensión de movimiento de la forma de los labios de acuerdo con las características de las señales de audio; un primer módulo de generación, configurado para obtener un modelo de forma de los labios original ingresado por un usuario, y generar un valor de extensión de movimiento de la forma de los labios de acuerdo con el modelo de forma de los labios original y la proporción de extensión de movimiento obtenida de la forma de los labios; un segundo módulo de generación, configurado para generar un conjunto de modelo de retícula de la forma de los labios de acuerdo con el valor de extensión de movimiento generado de la forma de los labios y una biblioteca de modelo de pronunciación de los labios previamente configurada; y un tercer módulo de generación, configurado para generar una animación de labios de acuerdo con el conjunto de modelo de retícula de la forma de los labios.
En los ejemplos de la presente invención, con el uso de la biblioteca de modelo de pronunciación de labios, la forma de los labios cambia con base en la voz; en comparación con la técnica anterior, las soluciones técnicas provistas por los ejemplos de la presente invención tienen un algoritmo simple y de bajo costo.
BREVE DESCRIPCIÓN DE LOS DIBUJOS Con el objeto de hacer más claras las soluciones técnicas en los ejemplos de la presente invención o las soluciones técnicas en la técnica anterior, los dibujos utilizados en los ejemplos o utilizados en la técnica anterior serán descritos de manera simple. Obviamente, los dibujos descritos más adelante únicamente son algunos ejemplos de la presente invención, y aquellos expertos en la materia podrán comprender que se pueden obtener otros dibujos de acuerdo con estos dibujos sin trabajo creativo.
La figura 1 , es un diagrama de flujo que ilustra un método para cambiar la forma de los labios en una animación estimulada por voz de acuerdo con un primer ejemplo de la presente invención.
La figura 2, es un diagrama de flujo que ilustra el número de cuadros de video y la proporción de extensión de movimiento de la forma de los labios de acuerdo con el primer ejemplo de la presente invención.
La figura 3, es un diagrama esquemático que ilustra una biblioteca del modelo de pronunciación de labios de acuerdo con el primer ejemplo de la presente invención.
La figura 4, es un diagrama de flujo que ilustra un método para obtener animación de labios en una animación impulsada por voz de acuerdo con un segundo ejemplo de la presente invención.
La figura 5, es un diagrama esquemático que ilustra un aparato para cambiar la forma de los labios en una animación estimulada por voz de acuerdo con un tercer ejemplo de la presente invención.
La figura 6, es un diagrama esquemático que ilustra otro aparato para cambiar la forma de los labios en una animación estimulada por voz de acuerdo con un tercer ejemplo de la presente invención.
La figura 7, es un diagrama esquemático que ilustra otro aparato para cambiar la forma de los labios en una animación estimulada por voz de acuerdo con el tercer ejemplo de la presente invención.
La figura 8, es un diagrama esquemático que ilustra un aparato para obtener una animación de labios de acuerdo con un cuarto ejemplo de la presente invención.
DESCRIPCIÓN DETALLADA DE LA INVENCIÓN Con el objeto de hacer más claro el propósito, soluciones y méritos, la presente invención se ilustrará con detalle en lo sucesivo haciendo referencia a los dibujos que la acompañan. Objetivamente, los ejemplos descritos más adelante únicamente son ejemplos parciales de la presente invención, en lugar de todos los ejemplos. Con base en los ejemplos de la presente invención, otros ejemplos obtenidos por aquellos expertos en la materia sin trabajo creativo pertenecen al alcance de protección de la presente invención.
El primer ejemplo de la presente invención proporciona un método para cambiar la forma de los labios con base en la voz. Como se muestra en la figura 1 , el método incluye los siguientes pasos.
Paso 101 , las señales de audio son obtenidas, y la proporción de extensión de movimiento de la forma de los labios se obtiene de acuerdo con las características de las señales de audio.
De manera específica, el paso de obtener la proporción de extensión de movimiento de la forma de los labios de acuerdo con las características de las señales de audio incluye los siguientes pasos.
Paso 101 A, las señales de audio son recorridas, y se obtiene un valor de datos de muestra máximo maxSampleValue de las señales de audio.
Paso 101 B, las señales de audio son divididas en dos ventanas, cada ventana se divide en grupos, se obtiene un promedio de los valores de datos de muestra en cada grupo, se obtiene un grupo promedio avgGroup de cada ventana, en donde el grupo promedio avgGroup incluye los promedios que corresponden a los grupos en la ventana; se obtiene un valor máximo entre el grupo promedio avgGroup de cada ventana, y se obtiene un grupo máximo windowPeak, el cual comprende valores máximos correspondientes a todas las ventanas.
Una sílaba es una unidad de voz básica. De manera específica, en Chino, cada sílaba corresponde a un tipo de forma de labios, y se lleva de 200 a 300 milisegundos pronunciar una sílaba en un procedimiento de pronunciación uniforme, de manera que es necesario dividir la sílaba en fonemas. De acuerdo con el principio anterior, las señales de audio obtenidas son divididas en ventanas con una longitud determinada, y cada ventana corresponde a una sílaba; cada ventana está dividida adicionalmente en grupos con una longitud determinada, y cada grupo corresponde a un fonema. Se supone que se lleva x segundos en pronunciar la sílaba y la longitud de la ventana es WindowLen, WindowLen = x * índice de muestreo de audio; se supone que se lleva y segundos en pronunciar el fonema y la longitud del grupo de GroupLen, GroupLen = y * índice de muestreo de audio.
De manera específica, el promedio de los valores de datos de muestra en cada grupo que es igual a aquel de la suma de todos los valores de datos de muestra en el grupo, se divide entre GroupLen, y el promedio se coloca en el grupo promedio avgGroup; un valor máximo en el grupo promedio avgGroup se obtiene y se coloca en un grupo máximo windowPeak.
Opcionalmente, con el objeto de evitar el movimiento innecesario de la forma de los labios y el movimiento necesario presenta de la forma de los labios con fluidez, el procesamiento de ruido suprimido se realiza para las señales de audio cuando se obtienen las señales de audio.
Paso 101C, un valor de extensión de movimiento máximo de la forma de los labios que corresponde a la ventana actual se obtiene de acuerdo con el grupo máximo obtenido windowPeak y el valor de datos de muestra máximo obtenido.
De manera específica, se obtiene un promedio de los valores de datos de muestra de cada grupo en una ventana actual i (i>=0); se obtiene un valor máximo windowPeak[i] entre los promedios que corresponden a los grupos en la ventana actual i; se calcula una proporción scale[i] del máximo w¡ndowPeak[i] y un valor de datos de muestra de audio máximo maxSampleValue. Para cada valor de scale[i] de un grupo de escalas, se calcula un valor de extensión de movimiento máximo extent[i] de la forma de los labios que corresponde a la ventana i actual, es decir, extent[i]=scale[i] * maxLen, en donde maxLen es el valor de extensión de movimiento máximo de la forma de los labios de todas las ventanas.
Paso 101 D, se obtiene la proporción de extensión de movimiento de la forma de los labios en cada cuadro de video que corresponde a la ventana actual de acuerdo con el valor de extensión de movimiento máximo de la forma de los labios que corresponde a la ventana actual.
De manera específica, se obtiene la proporción de extensión de movimiento scaleForFrame[k] de la forma de los labios en el cuadro de video j que corresponde a la ventana actual i, es decir, scaleForFram[k]=j*(scale[¡] / (frameNumber/2)), en donde k=frameNumber*i+j, 0=<k<el número total de cuadros de video, frameNumber representa el número de cuadros de video que corresponde a cada ventana, frameNumber = x * un índice de muestreo de video, x representa la duración de la pronunciación de cada sílaba. En el ejemplo de la presente invención, el índice de muestreo de video por defecto es de 30 cuadros por segundo, el cual puede ser modificado por un usuario de acuerdo con los requerimientos; j es incrementado de 0 a frameNumber/2 y entonces se disminuye de frameNumber/2 a 0, y j es un entero.
Paso 102, se obtiene un modelo de forma de labios origina ingresado por el usuario, y se genera un valor de extensión de movimiento de la forma de los labios de acuerdo con el modelo de forma de los labios original y la proporción de extensión de movimiento obtenida de la forma de los labios.
De manera específica, el valor de extensión de movimiento de la forma de los labios, incluye: el valor de extensión de movimiento de la forma de los labios en la dirección vertical y el valor de extensión de movimiento de la forma de los labios en la dirección horizontal; el valor de extensión de movimiento en la dirección horizontal es Length*scaleForFrame[k], y el valor de extensión de movimiento en la dirección vertical es Width*scaleForFrame[k], en donde 0=<k< el número total de los cuadros de video, y la Longitud y el Ancho son respectivamente, la longitud y el ancho de la forma de los labios original.
Se debe observar que, el modelo de forma de los labios original ingresada por el usuario puede cambiar de acuerdo con las aplicaciones prácticas.
Paso 103, se genera un conjunto de modelo de retícula de forma de los labios de acuerdo con el valor de extensión de movimiento obtenido de la forma de los labios y una biblioteca de modelo de pronunciación de los labios configurada previamente.
En este paso, se establece la biblioteca de modelo de pronunciación de los labios con base en las características de pronunciación del Chino. En Chino, una palabra consiste en una consonante inicial y una vocal, y la forma de los labios se refiere principalmente a la pronunciación de la vocal. Las vocales incluyen vocales sencillas, vocales complejas y vocales nasales. Las vocales sencillas consisten en una vocal, y la forma de los labios se mantiene sin cambios durante la pronunciación; la vocal compleja consiste en dos o tres vocales, y tanto la pronunciación como la forma de los labios cambian gradualmente; la pronunciación de las vocales nasales no cambia mucho la forma de los labios. Por consiguiente, los modelos de pronunciación establecidos para la forma de los labios principalmente se basan en las características de pronunciación de las vocales sencillas. La pronunciación de las vocales sencillas incluye "a, wo, e yi, wu, yu", las cuales representan a seis caracteres Chinos con la misma pronunciación que las vocales sencillas. La forma de los labios que corresponde a "wu" y "yu" es similar, y por consiguiente, los dos tipos de forma de labios son combinados en una clase de forma de los labios; la forma de los labios que corresponde a "e" y "yi" es similar, y por consiguiente, se combinan las dos clases de forma de los labios en una clase de forma de los labios; finalmente, una biblioteca de modelo de pronunciación de labios que incluye cuatro tipos de modelos de pronunciación de labios se utiliza para expresar la forma de los labios de las vocales sencillas, como se muestra en la figura 3. La biblioteca del modelo de pronunciación de los labios debe incluir: un modelo de labios original y diversos modelos de pronunciación de labios establecidos de acuerdo con el principio anterior y con base en el modelo de labios original. Se debe observar que, la biblioteca de modelo de pronunciación de labios no se limita a incluir únicamente los cuatro modelos de pronunciación de labios anteriores de las vocales sencillas. Los modelos de pronunciación de los labios en la biblioteca del modelo de pronunciación de los labios pueden cambiar de acuerdo con las características de pronunciación de los diferentes idiomas. Por ejemplo, de acuerdo con las características de la pronunciación del Inglés, los modelos de pronunciación de labios que corresponden a las vocales "a, e, i, o y u" del Inglés, están incluidas en la biblioteca de modelo de pronunciación de labios.
De manera específica, el paso de generación del conjunto modelo de retícula de forma de los labios de acuerdo con el valor de extensión de movimiento de la forma de los labios y la biblioteca del modelo de pronunciación de labios configurada previamente incluye los siguientes pasos.
Paso 103A, un modelo de pronunciación de labios es seleccionado en forma aleatorio a partir de una biblioteca de modelo de pronunciación de labios configurada previamente, y se toma como un modelo de pronunciación original de la forma de los labios actual.
Paso 103B, se obtiene vértice del modelo de pronunciación original y el modelo de labios original en la biblioteca de modelo de pronunciación, se calcula una proporción de compensación de cada vértice del modelo de pronunciación original. De manera específica, la compensación entre el vértice z del modelo de pronunciación original y el vértice z del modelo de labios original en la biblioteca de modelo de pronunciación de labios es x_hor en la dirección horizontal y es y_ver en la dirección vertical, entonces, la proporción de compensación del vértice z en la dirección horizontal es x_hor/modell_ength, y la proporción de compensación del vértice z en la dirección vertical es y_ver/modelWidth, en donde el modelLength y modelWidth son, respectivamente, la longitud y el ancho del modelo de labios original en la biblioteca de modelo de pronunciación de labios, 0=<z<, el número de vértices del modelo de pronunciación original.
Paso 103C, la compensación del cuadro de video actual es obtenido multiplicando la proporción de compensación de cada vértice del modelo de pronunciación original mediante el valor de extensión de movimiento de la forma de los labios del cuadro de video actual que corresponde al vértice.
Paso 103D, un modelo de forma de labios del cuadro de video actual es obtenido superponiendo el modelo de forma de labios original ingresado por el usuario, respectivamente con las compensaciones de vértice del cuadro de video actual.
Paso 103E, los modelos de forma de labios de todos los cuadros de video están dispuestos de acuerdo con la secuencia de audio, y se genera el conjunto de modelo de retícula de forma de labios.
En los ejemplos de la presente invención, mediante el uso de la biblioteca de modelo de pronunciación de labios, la forma de los labios cambia con base en la voz; en comparación con la técnica anterior, las soluciones técnicas provistas por los ejemplos de la presente invención tienen un algoritmo simple y de costo bajo.
El segundo ejemplo proporciona un método para obtener una animación de labios. Como se muestra en la figura 4, el método incluye los siguientes pasos.
Paso 201 , se obtienen las señales de audio, y la proporción de extensión de movimiento de la forma de los labios se obtiene de acuerdo con las características de las señales de audio.
Paso 201 , es el mismo que el paso 101 y no se describirá en la presente.
Paso 202, se obtiene un modelo de forma de labios original ingresado por un usuario, y un valor de extensión de movimiento de la forma de labios se genera de acuerdo con el modelo de forma de labios original y la proporción de extensión de movimiento obtenida de la forma de labios.
Paso 202, es el mismo que el paso 102 y no se describirá en la presente.
Paso 203, se genera un conjunto de modelo de retícula con forma de labios de acuerdo con el valor de extensión de movimiento obtenido de la forma de los labios y una biblioteca de modelo de pronunciación de labios previamente configurada.
Paso 203, es el mismo que el paso 103 y no se describirá en la presente.
Paso 204, se genera una animación de labios de acuerdo con el conjunto de modelo de retícula de forma de los labios.
De manera específica, la animación de labios puede ser generada utilizando una tecnología de interpolación común de acuerdo con el conjunto de modelo de retícula de forma de los labios y el modelo original de forma de los labios.
En los ejemplos de la presente invención, mediante el uso de la biblioteca de pronunciación de labios, la forma de los labios se cambia con base en la voz; en comparación con la técnica anterior, las soluciones técnicas provistas por los ejemplos de la presente invención tienen un algoritmo simple y un costo bajo.
El tercer ejemplo de la presente invención proporciona un aparato para cambiar la forma de los labios en una animación estimulada por voz. Como se muestra en la figura 5, el aparato incluye: un módulo de obtención 501 , configurado para obtener señales de audio, y obtener la proporción de extensión de movimiento de la forma de los labios de acuerdo con las características de las señales de audio; un primer módulo de generación 502, configurado para obtener un modelo de forma de labios original ingresada por un usuario, y generar un valor de extensión de movimiento de la forma de labios de acuerdo con el modelo de forma de labios original y la proporción de extensión de movimiento obtenido de la forma de labios; y un segundo módulo de generación 503, configurado para generar un conjunto de modelo de retícula de forma de labios de acuerdo con el valor de extensión de movimiento generado de la forma de los labios y una biblioteca de modelo de pronunciación de los labios previamente configurados.
Adicionalmente, como se muestra en la figura 6, el módulo de obtención 501 comprende: una primera unidad de obtención 501 1 , configurada para recorrer las señales de audio, y obtener un valor de datos de muestra máximo; una segunda unidad de obtención 5012, configurado para dividir las señales de audio en ventanas, divide cada ventana en grupos, obtiene un promedio de los valores de datos de muestra en cada grupo, obtener un grupo promedio avgGroup de cada ventana, en donde el grupo promedio avgGroup comprende los promedios que corresponden a los grupos en la ventana; obtener un valor máximo entre el grupo promedio avgGroup de cada ventana, y obtener un grupo máximo windowPeak, el cual incluye valores máximos que corresponden a todas las ventanas; una tercera unidad de obtención 5013, configurada para obtener un valor de extensión de movimiento máximo de la forma de labios que corresponde a una ventana actual i de acuerdo con el grupo máximo obtenido windowPeak y el valor de datos de muestra máximo obtenido; y una cuarta unidad de obtención 5014, configurada para obtener la proporción de extensión de movimiento de la forma de los labios en un cuadro de video actual que corresponde a la ventana actual i de acuerdo con el valor de extensión de movimiento máximo de la forma de los labios que corresponde a la ventana actual i.
Adicionalmente, la segunda unidad de obtención 5012 incluye: una quinta unidad de obtención, configurada para obtener promedio de los valores de datos muestra de cada grupo en la ventana actual i; una sexta unidad de obtención, configurada para obtener un máximo windowPeak[i], entre los promedios correspondientes al grupo en la ventana actual i; una séptima unidad de obtención, configurada para calcular una proporción scale[i] del máximo windowPeak[i] y un valor de datos de muestra de audio máximo maxSampleValue; una octava unidad de obtención, configurada para calcular el valor de extensión de movimiento máximo extent[i] de la forma de labios que corresponde a la ventana actual i, en donde extent[i]=scale[i] * maxLen; en donde i>=0, maxLen es el valor de extensión de movimiento máximo de la forma de los labios de todas las ventanas; Adicionalmente, la cuarta unidad de obtención 5014 está configurada de manera específica para obtener una proporción de extensión de movimiento scaleForFrame[k] de la forma de los labios en el cuadro de video j que corresponde a la ventana actual i, es decir, ScaleForFrame[k]=j * (scale[i] / (frameNumber/2)), en donde k=frameNumber*i+j, 0=<k<, el número total de cuadros de video, frameNumber representa el número de cuadros de video que corresponden a cada ventana, frameNumber = x * índice de muestreo de video, x representa la duración de la pronunciación de cada sílaba; j es incrementado de 0 a frameNumber/2 y posteriormente es disminuido desde frameNumber/2 a 0, y j es un entero.
Adicionalmente, el primer módulo de generación 502 que genera el valor de extensión de movimiento de la forma de los labios de acuerdo con el modelo de forma de los labios original y la proporción de extensión de movimiento obtenida de la forma de los labios incluye que: el primer módulo de generación 502 está configurado para calcular el valor de extensión de movimiento Length*scaleForFrame[k] en la dirección horizontal, y calcular el valor de alcance de movimiento Width*scaleForFrame[k] en la dirección vertical, en donde 0=<k< el número total de los cuadros de video, y la Longitud y el Ancho son respectivamente, la longitud y ancho de la forma de labios original.
Adicionalmente, como se muestra en la figura 7, el segundo módulo de generación 503 incluye: una unidad de selección 5031 , configurado para seleccionar en forma aleatoria un modelo de pronunciación de labios a partir de la biblioteca de modelo de pronunciación de labios previamente configurado, y tomar el modelo de pronunciación de labios como un modelo de pronunciación original de la forma de labios original; una novena unidad de obtención 5032, configurado para obtener vértices del modelo de pronunciación original y un modelo de labios original en la biblioteca de modelo de pronunciación de los labios, y calcular una proporción de compensación de cada vértice del modelo de pronunciación original; una décima unidad de obtención 5033, configurada para obtener compensaciones de vértice del cuadro de video actual multiplicando la proporción de compensación de cada vértice del modelo de pronunciación original mediante el valor de extensión de movimiento de la forma de los labios del cuadro de video actual que corresponde al vértice; una onceava unidad de obtención 5034, configurada para obtener el modelo de forma de los labios del cuadro de video actual superponiendo el modelo de forma de los labios original obtenido ingresado por el usuario respectivamente con las compensaciones de vértice del cuadro de video actual; una unidad de generación del conjunto de modelo 5035, configurado para disponer los modelos de forma de los labios de todos los cuadros de video, y generar el conjunto de modelo de retícula de forma de los labios.
Adicionalmente, la novena unidad de obtención 5032 que calcula la proporción de compensación de cada vértice del modelo de pronunciación original, incluye que: la novena unidad de obtención 5032 está configurada para calcula una proporción de compensación x_hor/modell_ength de un vértice z del modelo de pronunciación original en la dirección horizontal, y calcular una proporción de compensación y_ver/modelWidth del vértice z en la dirección vertical, en donde modelLength y modelWidth son, respectivamente, la longitud y el ancho del modelo de los labios original en la biblioteca de modelo de pronunciación de labios, y 0=<z< el número de los vértices del modelo de pronunciación original.
Adicionalmente, el modelo de obtención 501 está configurado adicionalmente para realizar un procesamiento de ruido suprimido para las señales de audio.
Se debe observar que, el detalle de procedimiento para obtener las señales de audio y obtener la proporción de extensión de movimiento de la forma de los labios de acuerdo con las características de las señales de audio mediante el módulo de obtención 501 puede referirse al paso 101 en el primer ejemplo.
Se debe observar que, el procedimiento detallado de obtención del modelo de forma de labios original ingresado por el usuario y que genera el valor de extensión de movimiento de la forma de labios de acuerdo con el modelo de forma de labios original y la proporción de extensión de movimiento obtenido de la forma de labios mediante el primer módulo de generación 502 que puede referirse al paso 02 en el primer ejemplo.
Se debe observar que, el detalle del procedimiento de generación del conjunto de modelo de retícula de forma de labios de acuerdo con el valor de extensión de movimiento obtenido de la forma de los labios y la biblioteca del modelo de pronunciación de labios previamente configurada mediante el segundo módulo de generación 503 puede referirse al paso 103 en el primer ejemplo.
En los ejemplos de la presente invención, mediante el uso de la biblioteca del modelo de pronunciación de labios, la forma de los labios cambia con base en la voz; en comparación con la técnica anterior, las soluciones técnicas provistas por los ejemplos de la presente invención tienen un algoritmo simple de bajo costo.
Un cuarto ejemplo de la presente invención proporciona un aparato para obtener una animación de labios. Como se muestra en la figura 8, el aparato incluye: un módulo de obtención 601 , configurado para obtener señales de audio, y obtener la proporción de extensión de movimiento de la forma de los labios de acuerdo con las características de las señales de audio; un primer módulo de generación 602, configurado para obtener un modelo de forma de labios original ingresado por un usuario, y genera un valor de extensión de movimiento de la forma de los labios de acuerdo con el modelo de forma de labios original y la proporción de extensión de movimiento obtenida de la forma de los labios; un segundo módulo de generación 603, configurado para generar un conjunto de modelo de retícula de forma de labios de acuerdo con el valor de extensión de movimiento generado de la forma de los labios y una biblioteca de modelo de pronunciación de labios previamente configurado; y un tercer módulo de generación 604, configurado para generar una animación de labios de acuerdo con el conjunto de modelo de retícula de forma de labios.
El módulo de obtención 60 , el primer módulo de generación 602 y el segundo módulo de generación 603 son respectivamente equivalentes al módulo de obtención, el primer módulo de generación y el segundo módulo de generación en el tercer ejemplo, y no se describirá en la presente.
Se deberá observar que, el detalle de procedimiento para obtener las señales de audio y obtener la proporción de extensión de movimiento de la forma de los labios de acuerdo con las características de las señales de audio mediante el módulo de obtención 601 puede referirse al paso 101 en el primer ejemplo.
Se debe observar que, el detalle del procedimiento para obtener el modelo de forma de los labios original ingresado por el usuario y la generación del valor de extensión de movimiento de la forma de los labios de acuerdo con el modelo de forma de los labios original y la proporción de extensión de movimiento obtenido de la forma de los labios mediante el primer módulo de generación 602 puede referirse al paso 102 en el primer ejemplo.
Se debe observar que, el detalle de procedimiento de generación del conjunto de modelo de retícula de forma de los labios de acuerdo con el valor de extensión de movimiento obtenido de la forma de los labios y la biblioteca de modelo de pronunciación de los labios previamente configurada mediante el segundo módulo de generación 603 puede referirse al paso 103 en el primer ejemplo.
En los ejemplos de la presente invención, al utilizar la biblioteca del modelo de pronunciación de labios, la forma de los labios cambia con base en la voz; en comparación con la técnica anterior, las soluciones técnicas provistas por los ejemplos de la presente invención tienen un algoritmo simple de bajo costo.
Las soluciones técnicas de los cuatro ejemplos anteriores pueden aplicarse a, sin limitación, a una animación basada en terminal de video o una animación con base en video de página de la red mundial para entretenimiento, puede aplicarse no únicamente al idioma Chino, sino también al Inglés, Francés u otros idiomas. Con el objeto de ser conveniente para la descripción, el Chino se toma como un ejemplo en los cuatro ejemplos anteriores, y el procesamiento de otros idiomas es similar y no se describirá en la presente descripción. El modelo de forma de los labios original ingresado por el usuario puede ser obtenido de acuerdo con los rostros humanos, las caras de animales y las imágenes de caricatura, etc., las señales de audio también son definidas por el usuario, por ejemplo, las señales de audio de conversaciones y canciones normales, o las señales de audio procesadas de manera especial.
Aquellos expertos en la materia deberán comprender que la totalidad o partes de los pasos en los ejemplos de método anteriores pueden ser implementados utilizando hardware instruido por un programa, el programa puede ser almacenado en un medio de almacenamiento legible por computadora, y el medio de almacenamiento incluye un disco flexible, un disco duro o un CD.
Los anteriores únicamente son los ejemplos preferidos de la presente invención y no pretenden utilizarse para limitar el alcance de protección de la presente invención. Cualquier modificación, reemplazo equivalente y mejoramiento realizados dentro del alcance de la presente invención será cubierto bajo el alcance de protección de la presente invención.

Claims (18)

NOVEDAD DE LA INVENCIÓN REIVINDICACIONES
1 .- Un método para cambiar la forma de los labios en una animación estimulada por voz, que comprende: obtener señales de audio, y obtener la proporción de extensión de movimiento de la forma de los labios de acuerdo con las características de las señales de audio; obtener un modelo de forma de los labios original ingresado por un usuario, y generar un valor de extensión de movimiento de la forma de los labios de acuerdo con el modelo de forma de los labios original y la proporción de extensión de movimiento obtenida de la forma de los labios; y generar un conjunto de modelo de retícula con la forma de los labios de acuerdo con el valor de extensión de movimiento generado de la forma de los labios y una biblioteca de modelo de pronunciación de los labios configurado previamente.
2.- El método de conformidad con la reivindicación 1 , caracterizado además porque la proporción de extensión de movimiento de la forma de los labios de acuerdo con las características de las señales de audio, comprende: recorrer las señales de audio, y obtener un valor de datos de muestra máximo de las señales de audio; dividir las señales de audio en ventanas, dividir cada ventana en grupos, obtener un promedio de los valores de datos de muestra en cada grupo, obtener un grupo promedio avgGroup de cada ventana, en donde el grupo promedio avgGroup comprende los promedios que corresponden a los grupos en la ventana; obtener un valor máximo entre el grupo promedio avgGroup de cada ventana, y obtener un grupo máximo windowPeak, el cual comprende valores máximos que corresponden a todas las ventanas; obtener un valor de extensión de movimiento máximo de la forma de los labios que corresponde a una ventana actual i de acuerdo con el grupo máximo obtenido windowPeak y el valor de datos de muestra máximo obtenido; y obtener la proporción de extensión de movimiento de la forma de los labios en un cuadro de video actual que corresponde a la ventana actual i de acuerdo con el valor de extensión de movimiento máximo de la forma de los labios que corresponde a la ventana actual i, en donde i>=0.
3.- El método de conformidad con la reivindicación 2, caracterizado además porque obtener un valor de extensión de movimiento máximo de la forma de los labios que corresponde a una ventana actual i de acuerdo con el grupo máximo obtenido windowPeak y el valor de datos de muestra máximo obtenido, comprende: obtener un promedio de los valores de datos de muestra de cada grupo en la ventana actual i; obtener un valor máximo windowPeak[i] entre los promedios que corresponden a los grupos en la ventana actual i; calcular una proporción scale[i] del valor máximo windowPeak[i] y un valor de datos muestra de audio máximo maxSampleValue; calcular el valor de extensión de movimiento máximo extent[i] de la forma de labios que corresponde a la ventana actual i, en donde extent[i]=scale[i] * maxLen; en donde maxLen es el valor de extensión de movimiento máximo de la forma de los labios de todas las ventanas.
4. - El método de conformidad con la reivindicación 2, caracterizado además porque obtener la proporción de extensión de movimiento de la forma de los labios en un cuadro de video actual que corresponde a la ventana actual i de acuerdo con el valor de extensión de movimiento máximo de la forma de los labios que corresponde a la ventana actual i comprende: obtener una proporción de extensión de movimiento scaleForFrame[k] de la forma de los labios en el cuadro de video j que corresponde a la ventana actual i, en donde scaleForFrame[k]=j*(scale[i] / (frameNumber/2)); en donde k=frameNumber*i+j, 0=<k< el número total de cuadros de video frameNumber representa el número de cuadro de video que corresponde a cada ventana, frameNumber = x * un índice de muestreo de video, x representa la duración de la pronunciación de cada sílaba, j es incrementado de 0 a frameNumber/2 y posteriormente es disminuido de frameNumber/2 a 0, y j es un entero.
5. - El método de conformidad con la reivindicación 4, caracterizado además porque generar un valor de extensión de movimiento de la forma de los labios de acuerdo con el modelo de forma de los labios original y la proporción de extensión de movimiento obtenido de la forma de los labios, comprende: calcula el valor de extensión de movimiento Length*scaleForFrame[k] en una dirección horizontal, y calcula el valor de extensión de movimiento Width*scaleForFrame[k] en una dirección vertical en donde la Longitud y el Ancho son respectivamente, la longitud y el ancho del modelo de forma de los labios original.
6. - El método de conformidad con cualquiera de las reivindicaciones 1 a 5, caracterizado además porque la generación de un conjunto de modelo de retícula de forma de los labios de acuerdo con el valor de extensión de movimiento generado de la forma de los labios y una biblioteca de modelo de pronunciación de los labios previamente configurado, que comprende: seleccionar en forma aleatoria un modelo de pronunciación de labios a partir de la biblioteca de modelo de pronunciación de labios previamente configurada, y toma el modelo de pronunciación de labios como un modelo de pronunciación original de una forma de labios actual; obtener vértices del modelo de pronunciación original y un modelo de labios original en la biblioteca de modelo de pronunciación de labios, y calcular una proporción de compensación de cada vértice del modelo de pronunciación original; obtener compensaciones de vértice del cuadro de video actual multiplicando la proporción de compensación de cada vértice del modelo de pronunciación original mediante el valor de extensión de movimiento de la forma de los labios del cuadro de video actual que corresponde al vértice; obtener el modelo de forma de los labios del cuadro de video actual superponiendo el modelo de forma de los labios original obtenido ingresado por el usuario, respectivamente con las compensaciones de vértice del cuadro de video actual; arreglar los modelos de forma de los labios de todos los cuadros de video y generar el conjunto de modelo de retícula de forma de los labios.
7. - El método de conformidad con la reivindicación 6, caracterizado además porque calcular una proporción de compensación de cada vértice del modelo de pronunciación original, que comprende: calcula una proporción de compensación x_hor/modelLength de un vértice z del modelo de pronunciación original en la dirección horizontal, y calcular una proporción de compensación y_ver/modelW¡dth del vértice z en la dirección vertical; en donde modelLength y modelWidth son respectivamente, la longitud y el ancho del modelo de los labios original en la biblioteca de modelo de pronunciación de los labios, x_hor y y_ver, son respectivamente, una compensación entre el vértice z del modelo de pronunciación original y el vértice z del modelo de labios original en la biblioteca de modelo de pronunciación de labios en la dirección horizontal y una compensación entre el vértice z del modelo de pronunciación original y el vértice z del modelo de labios original en la biblioteca del modelo de pronunciación de labios en la dirección vertical, y 0=<z<, el número de vértices del módulo de pronunciación original.
8. - El método de conformidad con la reivindicación 6, caracterizado además porque comprende adicionalmente: realizar el procesamiento de ruido suprimido para las señales de audio.
9. - Un método para obtener una animación de labios, que comprende: obtener señales de audio, y obtener la proporción de extensión de movimiento de la forma de los labios de acuerdo con las características de las señales de audio; obtener un modelo de forma de los labios original ingresado por un usuario, y generar un valor de extensión de movimiento de la forma de los labios de acuerdo con el modelo de forma de los labios original y la proporción de extensión de movimiento obtenido de la forma de los labios; generar un conjunto de modelo de retícula de forma de los labios de acuerdo con el valor de extensión de movimiento generado de la forma de los labios y una biblioteca de modelo de pronunciación de labios previamente configurada; y generar una animación de los labios de acuerdo con el conjunto de modelo de retícula de forma de los labios.
10. - Un aparato para cambiar la forma de los labios en una animación estimulada por voz, que comprende: un módulo de obtención, configurado para obtener señales de audio, y obtener la proporción de extensión de movimiento de la forma de los labios de acuerdo con las características de las señales de audio; un primer módulo de generación, configurado para obtener el modelo de forma de los labios original ingresado por un usuario, y generar un valor de extensión de movimiento de la forma de los labios de acuerdo con el modelo de forma de los labios original y la proporción de extensión de movimiento obtenida de la forma de los labios; y un segundo modelo de generación, configurado para generar el conjunto de modelo de retícula de forma de los labios de acuerdo con el valor de extensión de movimiento generado de la forma de los labios y una biblioteca de modelo de pronunciación de labios previamente configurado.
1 1. - El aparato de conformidad con la reivindicación 10, caracterizado además porque el módulo de obtención comprende: una primera unidad de obtención, configurada para recorrer las señales de audio, y obtener un valor de datos de muestra máximo; una segunda unidad de obtención, configurada para dividir las señales de audio en ventanas, dividir cada ventana en grupos, obtener un promedio de los valores de datos de muestra en cada grupo, obtener un grupo promedio avgGroup de cada ventana, en donde el grupo promedio avgGroup comprende promedios que corresponden a grupos en la ventana; obtener un valor máximo entre el grupo promedio avgGroup de cada ventana, y obtener un grupo máximo windowPeak, el cual comprende valores máximos que corresponden a todas las ventanas; una tercera unidad de obtención, configurada para obtener un valor de extensión de movimiento máximo de la forma de los labios que corresponde a una ventana actual i de acuerdo con el grupo máximo obtenido windowPeak y los valores de datos de muestra máximos obtenidos; y una cuarta unidad de obtención, configurada para obtener la proporción de extensión de movimiento de la forma de los labios en un cuadro de video actual que corresponde a la ventana actual i de acuerdo con el valor de extensión de movimiento máximo de la forma de los labios que corresponde a la ventana actual i.
12.- El aparato de conformidad con la reivindicación 11 , caracterizado además porque la segunda unidad de obtención comprende: una quinta unidad de obtención, configurado para obtener un promedio de los valores de datos de muestra de cada grupo en la ventana actual i; una sexta unidad de obtención, configurada para obtener un máximo windowPeak[i] entre los promedios que corresponden a los grupos en la ventana actual i; una séptima unidad de obtención, configurada para calcular una proporción scale[i] del valor máximo windowPeak[i] y un valor de datos de muestra de audio máximo maxSampleValue; una octava unidad de obtención, configurada para calcular el valor de extensión de movimiento máximo extent[i] de la forma de los labios que corresponde a la ventana actual i, en donde extent[i]=scale[i] * maxLen; en donde i>=0, maxLen es el valor de extensión de movimiento máximo de la forma de los labios de todas las ventanas.
13. - El aparato de conformidad con la reivindicación 1 1 , caracterizado además porque la cuarta unidad de obtención está configurada para obtener una proporción de extensión de movimiento scaleForFrame[k] de la forma de los labios en el cuadro de video j que corresponde a la ventana actual i, en donde scaleForFrame[k]=j*(scale[¡] / (frameNumber/2)); en donde k=frameNumber*i+j, 0=<k< el número total de cuadros de video, frameNumber representa el número de cuadros de video que corresponden a cada ventana, frameNumber = x * índice de muestreo de video, x representa la duración de pronunciación de cada sílaba, j es incrementado de 0 a frameNumber/2 y posteriormente es disminuido de frameNumber/2 a 0, y j es un entero.
14. - El aparato de conformidad con la reivindicación 13, caracterizado además porque el primer módulo de generación está configurado para calcular el valor de extensión de movimiento Length*scaleForFrame[k] en una dirección horizontal, calcular el valor de extensión de movimiento Width*scaleForFrame[k] en una dirección vertical, en donde la Longitud y el Ancho son respectivamente, la longitud y el ancho del modelo de forma de labios original.
15.- El aparato de conformidad con las reivindicaciones 10 a 14, caracterizado además porque el segundo módulo de generación comprende: una unidad de selección, configurada para seleccionar en forma aleatoria un modelo de pronunciación de labios a partir de la biblioteca de modelo de pronunciación de labios previamente configurada, y tomar el modelo de pronunciación de los labios como un modelo de pronunciación original de la forma de los labios actual; una novena unidad de obtención, configurada para obtener vértices del modelo de pronunciación original y un modelo de labios original en la biblioteca del modelo de pronunciación de labios, y calcular una proporción de compensación de cada vértice del modelo de pronunciación original; una décima unidad de obtención, configurada para obtener compensaciones de vértice del cuadro de video actual multiplicando la proporción de compensación de cada vértice del módulo de pronunciación original mediante el valor de extensión de movimiento de forma de los labios del cuadro de video actual que corresponde al vértice; una onceava unidad de obtención, configurada para obtener el modelo de forma de los labios del cuadro de video actual superponiendo el modelo de forma de los labios original obtenido ingresado por el usuario, respectivamente con las compensaciones de vértice del cuadro de video actual; una unidad de generación de conjunto de modelo, configurada para arreglar los modelos de forma de los labios de todos los cuadros de video , y generar el conjunto de modelo de retícula de forma de los labios.
16. - El aparato de conformidad con la reivindicación 15, caracterizado además porque la novena unidad de obtención está configurada para calcular una proporción de compensación x_hor/modell_ength de un vértice z del modelo de pronunciación original en la dirección horizontal, y calcular una proporción de compensación y_ver/modelWidth del vértice z en la dirección vertical, en donde modelLength y modelWidth son, respectivamente la longitud y el ancho del modelo de labios original en la biblioteca del modelo de pronunciación de labios, x_hor y y_ver, son respectivamente, una compensación entre el vértice z del modelo de pronunciación original y el vértice z del modelo de labios original en la biblioteca del modelo de pronunciación de labios en la dirección horizontal y una compensación entre el vértice z del modelo de pronunciación original y el vértice z del modelo de labios original en la biblioteca de modelo de pronunciación de labios en la dirección vertical, y 0=<z< el número de vértices del modelo de pronunciación original.
17. - El aparato de conformidad con la reivindicación 16, caracterizado además porque el módulo de obtención está configurado adicionalmente para realizar el procesamiento de ruido suprimido para las señales de audio.
18.- Un aparato para obtener una animación de los labios, que comprende: un módulo de obtención, configurado para obtener señales de audio, y obtener la proporción de extensión de movimiento de la forma de los labios de acuerdo con las características de las señales de audio; un primer módulo de generación, configurado para obtener un modelo de forma de labios original ingresado por un usuario, y generar un valor de extensión de movimiento de la forma de los labios de acuerdo con el modelo de forma de los labios original y la proporción de extensión de movimiento obtenida de la forma de los labios; un segundo módulo de generación, configurado para generar un conjunto de modelo de retícula de forma de los labios de acuerdo con el valor de extensión de movimiento generado de la forma de los labios y una biblioteca del modelo de pronunciación de labios previamente configurada; y un tercer módulo de generación, configurado para generar una animación de labios de acuerdo con el conjunto del modelo de retícula de la forma de los labios.
MX2011006703A 2009-01-19 2010-01-05 Metodo y aparato para cambiar la forma de los labios y obtener animacion de los labios en animacion estimulada por voz. MX2011006703A (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2009100030839A CN101482976B (zh) 2009-01-19 2009-01-19 语音驱动嘴唇形状变化的方法、获取嘴唇动画的方法及装置
PCT/CN2010/070026 WO2010081395A1 (zh) 2009-01-19 2010-01-05 语音驱动动画中嘴唇形状变化、获取嘴唇动画的方法及装置

Publications (1)

Publication Number Publication Date
MX2011006703A true MX2011006703A (es) 2011-07-28

Family

ID=40880071

Family Applications (1)

Application Number Title Priority Date Filing Date
MX2011006703A MX2011006703A (es) 2009-01-19 2010-01-05 Metodo y aparato para cambiar la forma de los labios y obtener animacion de los labios en animacion estimulada por voz.

Country Status (7)

Country Link
US (1) US8350859B2 (es)
CN (1) CN101482976B (es)
BR (1) BRPI1006026B1 (es)
CA (1) CA2744347C (es)
MX (1) MX2011006703A (es)
RU (1) RU2487411C2 (es)
WO (1) WO2010081395A1 (es)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101482976B (zh) 2009-01-19 2010-10-27 腾讯科技(深圳)有限公司 语音驱动嘴唇形状变化的方法、获取嘴唇动画的方法及装置
CN102054287B (zh) * 2009-11-09 2015-05-06 腾讯科技(深圳)有限公司 面部动画视频生成的方法及装置
CN102368198A (zh) * 2011-10-04 2012-03-07 上海量明科技发展有限公司 通过嘴唇图像进行信息提示的方法及系统
CN103295576A (zh) * 2012-03-02 2013-09-11 腾讯科技(深圳)有限公司 一种即时通信的语音识别方法和终端
CN104392729B (zh) * 2013-11-04 2018-10-12 贵阳朗玛信息技术股份有限公司 一种动画内容的提供方法及装置
CN103705218B (zh) * 2013-12-20 2015-11-18 中国科学院深圳先进技术研究院 构音障碍识别的方法、系统和装置
CN104298961B (zh) * 2014-06-30 2018-02-16 中国传媒大学 基于口型识别的视频编排方法
CN106203235B (zh) * 2015-04-30 2020-06-30 腾讯科技(深圳)有限公司 活体鉴别方法和装置
CN104869326B (zh) * 2015-05-27 2018-09-11 网易(杭州)网络有限公司 一种配合音频的图像显示方法和设备
CN105405160B (zh) * 2015-10-14 2018-05-01 佛山精鹰传媒股份有限公司 一种简单规则模型变化效果的实现方法
CN105632497A (zh) * 2016-01-06 2016-06-01 昆山龙腾光电有限公司 一种语音输出方法、语音输出系统
CN107808191A (zh) * 2017-09-13 2018-03-16 北京光年无限科技有限公司 虚拟人多模态交互的输出方法和系统
US10586368B2 (en) * 2017-10-26 2020-03-10 Snap Inc. Joint audio-video facial animation system
US10635893B2 (en) * 2017-10-31 2020-04-28 Baidu Usa Llc Identity authentication method, terminal device, and computer-readable storage medium
CN108538308B (zh) * 2018-01-09 2020-09-29 网易(杭州)网络有限公司 基于语音的口型和/或表情模拟方法及装置
US10657972B2 (en) * 2018-02-02 2020-05-19 Max T. Hall Method of translating and synthesizing a foreign language
CN108538282B (zh) * 2018-03-15 2021-10-08 上海电力学院 一种由唇部视频直接生成语音的方法
WO2019219968A1 (en) * 2018-05-18 2019-11-21 Deepmind Technologies Limited Visual speech recognition by phoneme prediction
CN108847234B (zh) * 2018-06-28 2020-10-30 广州华多网络科技有限公司 唇语合成方法、装置、电子设备及存储介质
CN108986191B (zh) * 2018-07-03 2023-06-27 百度在线网络技术(北京)有限公司 人物动作的生成方法、装置及终端设备
US11568864B2 (en) 2018-08-13 2023-01-31 Carnegie Mellon University Processing speech signals of a user to generate a visual representation of the user
CN111953922B (zh) * 2019-05-16 2022-05-27 南宁富联富桂精密工业有限公司 视频会议的人脸辨识方法、服务器及计算机可读存储介质
CN110277099A (zh) * 2019-06-13 2019-09-24 北京百度网讯科技有限公司 基于语音的嘴型生成方法和装置
CN111415677B (zh) * 2020-03-16 2020-12-25 北京字节跳动网络技术有限公司 用于生成视频的方法、装置、设备和介质
CN113240781A (zh) * 2021-05-20 2021-08-10 东营友帮建安有限公司 基于语音驱动及图像识别的影视动画制作方法、系统
CN113506563A (zh) * 2021-07-06 2021-10-15 北京一起教育科技有限责任公司 一种发音识别的方法、装置及电子设备
CN115222856B (zh) * 2022-05-20 2023-09-26 一点灵犀信息技术(广州)有限公司 表情动画生成方法及电子设备

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5426460A (en) * 1993-12-17 1995-06-20 At&T Corp. Virtual multimedia service for mass market connectivity
US5657426A (en) * 1994-06-10 1997-08-12 Digital Equipment Corporation Method and apparatus for producing audio-visual synthetic speech
US6737572B1 (en) * 1999-05-20 2004-05-18 Alto Research, Llc Voice controlled electronic musical instrument
US6654018B1 (en) * 2001-03-29 2003-11-25 At&T Corp. Audio-visual selection process for the synthesis of photo-realistic talking-head animations
CN1320497C (zh) * 2002-07-03 2007-06-06 中国科学院计算技术研究所 基于统计与规则结合的语音驱动人脸动画方法
RU2358319C2 (ru) * 2003-08-29 2009-06-10 Самсунг Электроникс Ко., Лтд. Способ и устройство для фотореалистического трехмерного моделирования лица на основе изображения
JP2006162760A (ja) * 2004-12-03 2006-06-22 Yamaha Corp 語学学習装置
CN100369469C (zh) * 2005-08-23 2008-02-13 王维国 语音驱动头部图像合成影音文件的方法
CN100386760C (zh) * 2005-09-20 2008-05-07 文化传信科技(澳门)有限公司 动画生成系统以及方法
CN100476877C (zh) * 2006-11-10 2009-04-08 中国科学院计算技术研究所 语音和文本联合驱动的卡通人脸动画生成方法
CN101482976B (zh) * 2009-01-19 2010-10-27 腾讯科技(深圳)有限公司 语音驱动嘴唇形状变化的方法、获取嘴唇动画的方法及装置

Also Published As

Publication number Publication date
BRPI1006026A8 (pt) 2017-10-10
US20110227931A1 (en) 2011-09-22
CA2744347A1 (en) 2010-07-22
CN101482976B (zh) 2010-10-27
CN101482976A (zh) 2009-07-15
US8350859B2 (en) 2013-01-08
RU2011124736A (ru) 2013-02-27
RU2487411C2 (ru) 2013-07-10
BRPI1006026A2 (pt) 2016-05-10
WO2010081395A1 (zh) 2010-07-22
BRPI1006026B1 (pt) 2020-04-07
CA2744347C (en) 2014-02-25

Similar Documents

Publication Publication Date Title
MX2011006703A (es) Metodo y aparato para cambiar la forma de los labios y obtener animacion de los labios en animacion estimulada por voz.
US7136818B1 (en) System and method of providing conversational visual prosody for talking heads
US7353177B2 (en) System and method of providing conversational visual prosody for talking heads
KR102035596B1 (ko) 인공지능 기반의 가상 캐릭터의 페이셜 애니메이션 자동 생성 시스템 및 방법
US20080259085A1 (en) Method for Animating an Image Using Speech Data
US20030149569A1 (en) Character animation
GB2516965A (en) Synthetic audiovisual storyteller
CN108766413A (zh) 语音合成方法及系统
Tang et al. Humanoid audio–visual avatar with emotive text-to-speech synthesis
CN116363268A (zh) 一种口型动画的生成方法、装置、电子设备和存储介质
Massaro et al. A multilingual embodied conversational agent
JP2003058908A (ja) 顔画像制御方法および装置、コンピュータプログラム、および記録媒体
CN112331184B (zh) 语音口型同步方法、装置、电子设备及存储介质
Tang et al. EAVA: a 3D emotive audio-visual avatar
Kolivand et al. Realistic lip syncing for virtual character using common viseme set
Leone et al. Lucia: An open source 3d expressive avatar for multimodal hmi
Granström et al. Speech and gestures for talking faces in conversational dialogue systems
Ivanov et al. Simplifying Facial Animation using Deep Learning based Phoneme Recognition
Chu et al. CorrTalk: Correlation Between Hierarchical Speech and Facial Activity Variances for 3D Animation
Cosi et al. LUCIA, a New Emotive/Expressive Italian Talking Head
Badin et al. Virtual Talking Heads and audiovisual articulatory synthesis
Chen et al. Real-time lip synchronization using wavelet network
Sahandi et al. Text-to-Visual Speech Synthesis
Leone et al. A FACIAL ANIMATION FRAMEWORK WITH EMOTIVE/EXPRESSIVE CAPABILITIES
Sun et al. An approach to speech driven animation

Legal Events

Date Code Title Description
FG Grant or registration