WO2011116937A1 - Verfahren zur zuordnung von sprachmerkmalen zu bewegungsmustern - Google Patents

Verfahren zur zuordnung von sprachmerkmalen zu bewegungsmustern Download PDF

Info

Publication number
WO2011116937A1
WO2011116937A1 PCT/EP2011/001424 EP2011001424W WO2011116937A1 WO 2011116937 A1 WO2011116937 A1 WO 2011116937A1 EP 2011001424 W EP2011001424 W EP 2011001424W WO 2011116937 A1 WO2011116937 A1 WO 2011116937A1
Authority
WO
WIPO (PCT)
Prior art keywords
speech
features
movement
signal
avatar
Prior art date
Application number
PCT/EP2011/001424
Other languages
English (en)
French (fr)
Inventor
Lenard F. Krawinkel
Sascha Fagel
Original Assignee
Zoobe Gmbh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zoobe Gmbh filed Critical Zoobe Gmbh
Priority to EP11714929A priority Critical patent/EP2572357A1/de
Publication of WO2011116937A1 publication Critical patent/WO2011116937A1/de

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Definitions

  • the invention relates to a method for the assignment of
  • Speech features to motion patterns in particular a method for controlling an avatar by voice features.
  • DE 602 10 295 T2 describes a method for determining emotional excitement of a subject by means of speech analysis.
  • DE 699 35 909 T2 describes an information processing apparatus, a portable apparatus, a recording medium storing information processing procedures, and an information processing method which can be applied in various ways to information equipment such as mobile phones and personal computers.
  • the object underlying the invention is achieved in a first aspect by a method in which a
  • Speech input is introduced into a speech analysis system, the speech input into a first speech signal by a
  • Speech detection unit is transformed, a feature vector from the first speech signal with speech features by a speech analysis unit is created and an assignment of the speech characteristics of the feature vector to motion patterns by a computer unit is performed, the assignment the speech features ( ⁇ , ⁇ 2, ⁇ 3, ... ⁇ ) to motion patterns ( ⁇ , ⁇ 2, ⁇ 3, ... ⁇ ) via direct feature mapping takes place.
  • speech input is understood as any reproduction of phonemes (sounds) and / or words and / or sentences of a person.
  • a sound input can also be understood as sounds of animals.
  • speech input is usually either a discrete speech input, i. H. a clear conscious input of stringed words with pauses between words or a continuous speech input in which the individual words merge into each other.
  • the speech input may include words from all languages, dialects, accents.
  • a voice input may be a voice message. This voice message is preferably acquired via the voice analysis system.
  • language analysis system is understood to mean a combination of hardware and software with which the emotion of a speech input and the linguistic content are analyzed and translated into verbal and / or nonverbal communication and / or movement patterns.
  • the speech analysis system preferably consists of a speech recognition unit and / or preprocessing unit and / or a main processing unit and / or a speech analysis unit and / or a memory and / or a computer unit.
  • These mentioned components are available as hardware and / or software as part of the speech analysis system.
  • the hardware and / or the software of the speech analysis system are preferably combined in one unit, ie the above-mentioned components are all located on a PC, for example.
  • the hardware of the speech analysis system is divided into different units.
  • the user's PC only functions as a web interface with a a microphone and a screen.
  • the preprocessing unit, the speech analysis unit, the memory and the computer unit of the speech analysis system are accommodated on a server, for example.
  • the speech input is transformed into a first speech signal.
  • the speech input (acoustic signal) is picked up by a microphone (preferably with audio hardware) and converted into a digital speech signal.
  • the speech capture unit preferably with audio hardware
  • the and / or the microphone are preferably part of a mobile phone or a PC.
  • the type of signal is preferably detected, and thus an annotation of signal sections is made and, for example, the signal is recognized as speech and / or noise (eg silence, music, background noise) is detected.
  • the preprocessing unit preferably comprises a "Voice Activity Detection.”
  • the annotation of signal sections is / are preferably recognized and / or speech is recognized and / or noises (eg silence, music, background noises) are detected.
  • the voice analysis system preferably includes a main processing unit that can be divided into a first main processing unit and a second main processing unit.
  • the first main processing unit undertakes the analysis of verbal properties of the speech signal.
  • the second main processing unit undertakes the analysis of nonverbal properties of the speech signal (eg emotions, expression).
  • VAD first signal processing
  • a feature vector is created from the first speech signal with speech features.
  • the memory preferably stores a reference list on which individual speech features or the entirety of the speech features of a time window is / are associated with a movement pattern and / or a word and / or a sign.
  • HMM Hidden Markov Model
  • a support vector machine is preferably used as a classifier.
  • the basis for such a support vector machine is a set of objects (an object consists of one or more speech signals), for each of which it is known to which movement characteristics they belong.
  • Each object is represented by a feature vector.
  • the task of the Support Vector Machine is to classify the objects, ie to assign movement characteristics. Even objects that do not correspond exactly to the detected objects (speech signals) are thereby classified as reliably as possible, ie assigned motion patterns.
  • the computer unit contributes to the processing of the speech signals or of the feature vector or of the speech features and preferably assigns the speech features via the stored reference list or feature mapping to either a movement pattern and / or a word and / or a sign.
  • no phonetic categories are used, but continuous speech features are used to control the avatar's speech movements.
  • the verbal information is not processed in the form of discrete linguistic units. Rather, on the basis of acoustic characteristics, arithmetic operations of the avatar are controlled, which have no linguistic significance properties. This allows a speaker to be interpreted, whether it speaks English, French, Spanish or German.
  • the control of an avatar by continuous speech feature in the form of feature mapping is thus language-independent.
  • the representation of the speech movements of the avatar on non-linguistic and / or non-categorical continuous processing is thereby achieved. Consequently, articulatory values can be generated by the speech analysis unit by a purely acoustic analysis of the speech input. That that by the interpretation of the pure onomatopoeia, for example, the lip width and the lip movement of the avatar is controlled.
  • Speech input into a first speech signal by a speech detection unit transformed.
  • voice signal does not mean the analogue signal of the voice input, but the digital signal of the voice input.
  • the speech signal is a digital bit sequence, which is processed by the electronic components of the speech analysis system.
  • the discrete analog signal (time-discrete or value-discrete) of the voice input is sampled and digitized.
  • the result is an electronically processable bit sequence (first speech signal).
  • This information is preferably added to the feature vector.
  • the duration of the speech signal, or the duration of the speech input is measured and stored in a memory.
  • models for the types of signal to be recognized for example noises, background noises, speech, music, silence, are stored in the memory. With these models, each time window of the signal is preferably compared and the signal type with the greatest match is assigned to the corresponding signal section.
  • a feature vector from the first speech signal with speech features is created by a speech analysis unit.
  • a speech analysis unit in the sense of this application is understood to mean a logical unit of the speech analysis system.
  • the speech analysis unit extracts from the speech signal the speech features known to the speech analysis system and forms a feature vector therefrom.
  • the above-mentioned logical models can be considered, so for example SVM, HMM, GMM.
  • Known speech features are those that are stored on a memory of the speech analysis system. preferably stored in a reference list on the memory of the voice analysis system. As a reference list, it is preferable not to look at an actual list with columns and rows, but rather a logical unit which, in accordance with a kind of list, assigns certain speech characteristics to certain movement patterns.
  • the feature vector is a signal sequence consisting of speech features known to the speech analysis system.
  • the feature vector comprises not only a collection of individual known speech features, but also a temporal assignment to each speech feature. That is, the speech features shown in the feature vector are preferably ordered chronologically.
  • Speech feature is any physically measurable size of the speech signal that can be evaluated to evaluate the linguistic information contained in the speech input and / or contained emotional coloring (emotion) and / or contained vocal expression.
  • emotion emotional coloring
  • speech feature is any physically measurable size of the speech signal that can be evaluated to evaluate the linguistic information contained in the speech input and / or contained emotional coloring (emotion) and / or contained vocal expression.
  • phonetic and non-phonetic segments of the speech signal that are recognized by the processing unit and associated with stored motion patterns (i.e., dynamic motion or movie sequences).
  • motion patterns i.e., dynamic motion or movie sequences
  • a stored motion pattern may be a motion sequence that includes the avatar drawing a heart symbol into the air with two index fingers.
  • This motion pattern is stored, for example, in the speech analysis unit and associated with a particular feature vector. If this particular feature vector is obtained from a region of the speech signal, then the processing unit may use the above Assign said movement to this feature vector.
  • This particular feature vector was, for example, obtained or imaged from the speech signal of the word "heart.”
  • These physically measurable magnitudes of the speech signal may be eg fundamental frequency and / or energy and / or duration and / or pitch and / or loudness and / or Signal energy and / or spectral coefficients and / or cepstral coefficients and / or formants and / or noise-to-harmonic ration and / or derivatives thereof, inter alia, supplemented by further prosodic features such as intonation (phonetics) and / or Accent and / or stress and / or pauses and / or
  • Speech rhythm and / or pace and / or quantity Furthermore, it is possible to determine speech characteristics such as the ripples and accumulated absolute accelerations of the speech melody and the signal energy, segment durations and speech rate measures. It is also possible
  • the speech features are obtained segmentally, i. H. by analyzing individual sound units within limited time slots of speech input, more preferably speech features are also supra-segmental, d. H. Across time windows or cross-segment across to the entire analysis of the entire speech signal won.
  • the speech features are prosodic features.
  • the prosodic features and / or extralinguistic features (features) are used to determine immutable speaker characteristics.
  • the speech analysis system is able to use speaker characteristics that can not change or change during the course of using the speech analysis system for controlling the avatar.
  • characteristics include, for example, age, sex, physiognomy, and anatomical proportions. disabilities, personality traits, geographic and social origin, phenotype, and level of education. Due to the properties that result from the prosodic features, for example, an automatic choice of the avatar can be made.
  • the speech analysis system determines, for example, that it must be a woman based on the analysis of the prosodic features, and then selects a female character, ie an avatar, on the basis of this determination.
  • these speech features of the feature vector are assigned to individual movement patterns by a computer unit.
  • a speech feature is associated with a movement pattern, more preferably a motion pattern is associated with a plurality of speech features, most preferably multiple motion patterns are associated with multiple speech features.
  • movement patterns are preferably emotionalized animation data and / or verbal and non-verbal animation data.
  • a movement pattern is an active movement, for example in the form of a film.
  • the movement patterns according to the invention include movement sequences, for example
  • Hand / arm gestures mimic processes and body movements, which manifest themselves through a temporal sequence.
  • the use of movement patterns, ie moving units, takes into account the dynamic characteristics of visualized physical processes.
  • Movement patterns are, for example, elements of the gestures and / or elements of the facial expressions and / or elements of the gaze (eye movement, eye position, pupil width, eyelid movement, winking, etc.) and / or movements of the mouth, lips, tongue, jaw. Preference is given to the movement stored as executable programs, particularly preferred as animation data. These programs or animation data are preferably applicable to any avatar, preferably already tailored to an avatar.
  • the movement patterns are preferably prefabricated movement schemes, which are freely transferable to all animated computer systems.
  • Movement patterns are preferably all movements of nonverbal communication or sign language (ie sign of the sign).
  • the movement patterns should reflect the emotional content of the speech input, the speech signal, the speech characteristics or convey emotion.
  • the obtained speech features from the speech input are preferably assigned to motion patterns or animation parameters by direct feature mapping.
  • motion patterns are randomly assigned to one or more speech features.
  • each time feature is assigned a time.
  • the time preferably begins to run from the start time at which the first speech signal is detected, more preferably when the start time is triggered manually, e.g. Eg by pressing a button on the voice analysis system or by clicking on a button displayed on its screen.
  • the time preferably stops when the voice signal disappears, more preferably after an adjustable delay time after the end of the voice signal, most preferably the time is manually stopped.
  • the movement patterns are preferably compared with individual speech characteristics in a reference list.
  • the reference list is a file stored in the memory of the speech analysis system, which contains a comparison of speech features and associated motion patterns.
  • the references list is an important reference file for the speech analysis unit.
  • the speech analysis unit preferably orientates itself on the reference list if it searches for known speech features.
  • the feature vector is preferably compared with the speech features of the reference list. Since a speech pattern is assigned to each speech feature in the reference list, it is also possible for a known detected speech
  • Language feature of the speech signal to be assigned a movement pattern.
  • the times associated with a speech feature are preferably transmitted to the associated movement pattern.
  • the reference list is preferably stored on a memory of a PC, particularly preferably on a memory of a server, particularly preferably on the memory of the voice analysis system.
  • a speech feature can be associated with a movement pattern, preferably associated with a combination of speech features and a movement pattern, particularly preferably with a combination of speech features and a combination of movement patterns.
  • Emotions such as joy, pleasure, security, love, grief, anger, happiness, well-being, etc. are preferably expressed in the stored movement patterns.
  • the method should make it possible to analyze transmitted emotions of speech input and to reproduce these emotions in the form of juxtaposed movement patterns.
  • the intonation of the speech input can be described on the basis of the fundamental frequency of this speech input. Starting from the fundamental frequency, the intonation, So determine the pitch course starting from this fundamental frequency, within a sentence or speech act.
  • intonation for example, the irony used or the expression of surprise can be extended from the speech input.
  • the computer unit would now match these concrete speech features with the reference list and determine the movement patterns associated with these speech features.
  • the movement pattern is preferably stored, particularly preferably reproduced in real time (for example on a screen).
  • the speech characteristics which for example were taken from the emotion "to be irascible", are thus assigned to a movement pattern that conveys surprise, for example, the determined, associated movement pattern composed of the elements: wide-open eyes, raised eyebrows, wrinkled forehead, open mouth -
  • verbal audio-visual voice recordings are trained, non-verbal movements are preferably designed by an animator.
  • the (speech characteristics) prosodic duration features such as rhythm, speech rate, pauses, strain, etc. can be measured by measuring the time length of these signal segments or, for example, by forming mean values (mean speech rate). From these
  • speech characteristics can be derived if the speaker of the speech input was upset, for example
  • the associated movement pattern would be composed, for example, of the following components: fast mouthfeel. movement, seesaws with the feet, rapid lifting and lowering of the rib cage.
  • Speech features are preferably assigned to the emotions to be recognized by training existing speech material in which the expressed emotion is known.
  • the movement patterns are formed by stringing together into a sequence of movements.
  • a leader and / or a guy can be selected.
  • This header also consists of motion patterns, which are not generated due to the speech input. These movement patterns are freely selectable by the user (speaker) and are preceded or followed by the movement sequence.
  • Voice input motion patterns were assigned, these movement patterns are transformed into a flowing movement by the computer unit.
  • the juxtaposition of the individual movement pattern is preferably carried out according to the times that were assigned to the movement patterns.
  • the generated movement sequence is preferably just as long as the recorded voice input, for example also including the possible credits and credits.
  • this motion sequence is then transferred to an avatar.
  • An avatar in the sense of the application is understood to mean an artificial person or an artificial animal as the graphical representative of the speaker of the speech input in a virtual world (ie a virtual character).
  • the avatar is, for example, a three-dimensional animated figure, which for example is created by a user himself with a CAD program or which already exists as a character, for example (Shrek, Tom & Jerry, Wall-E, ).
  • the avatar can be chosen by the speaker (user) preferably freely on a web page, is particularly preferred the speaker on the basis of his speech input, or the associated language features an avatar assigned.
  • the movement sequence is preferably transmitted to the avatar so that it reflects the (verbal) movement patterns, as well as the emotion of the speech input in the form of non-verbal communication.
  • An avatar with an assigned movement sequence is preferably called an animation script.
  • the avatar acts in a "scene" that contains a set, ie scene elements such as backgrounds, props and accessories, as well as camera settings and lighting situations.
  • scene elements such as backgrounds, props and accessories, as well as camera settings and lighting situations.
  • scene elements are freely selectable
  • a scene script is generated which, in combination with the already generated animation script, preferably represents the visual part of the later video message (message) to be generated in further steps.
  • the movement sequence of the avatar is superimposed with the first speech signal.
  • the speech signal is preferably placed as an audio track in the movement sequence of the avatar, preferably under the movie file or the image sequence. This has the effect that the emotion of the verbal and / or non-verbal communication is mediated by the movement of the avatar and the associated speech signal is stored with the voice of the speaker on it.
  • the speech input is preferably reproduced lip-sync from the avatar.
  • the emotional expression is preferably reproduced synchronously with the emotion contained in the speech signal.
  • the speech signal is preferably stored as a speech script.
  • the combination of scene script, animation script and speech script preferably takes over a 2D application or a 3D application, which preferably generates a render file from it.
  • the movement sequence of the avatar and / or the speech signal stored above is rendered into a movie file.
  • This preferably means that the rendering file created by the above-mentioned application is converted into image information.
  • a video clip is created by an avatar, which includes one of the common movie files such as DIVX, XVID, AVI, RM, R VB, etc.
  • the movement sequence can also be a picture sequence. Between the individual images of the sequence, the presentation time of an image can preferably be set. The presentation time is the time that the image is visible to the viewer until the next image is changed.
  • the movie file or sequence is sent electronically.
  • the movie file may preferably be part of an e-mail or attachment of an e-mail or be part of an MMS or be part of any common electronic shipping medium.
  • the file is preferably sent as an SMS, in an SMS as a download link, as a video call, in an application, as an application.
  • a multimedia message is created, which can be sent in all channels of the World Wide Web or mobile telephony.
  • the video file can be posted on the Internet instead of a forum post or attached to an internet blog, or incorporated as status information into an instant messenger system or network system (such as Facebook, Xing, MySpace, etc.).
  • the first speech signal is converted into a second speech signal.
  • Change the tone color and the language characteristics can be changed. For example, the meaning and vocabulary of the speech input remain identical, but the listener gets the impression that, for example, a prominent personality has written the speech input.
  • the movement of the avatar with a voice of Arnold Schwarzenegger, Cameron Diaz, etc. are superimposed.
  • the motion sequence of the avatar is superimposed with the converted second speech signal.
  • individual or all movement patterns are amplified by a multiplier.
  • the emotion the avatar is supposed to convey can be amplified in all directions.
  • the multiplier transforms the movement pattern "grin" into an over-the-top grin.
  • the avatar which moves according to its assigned movement sequence can be played on a screen.
  • the associated speech signal is preferably reproduced via a loudspeaker.
  • a subtitle is displayed on the screen at the same time or instead of the speech signal.
  • the subtitle is preferably generated by the speech analysis system, with no movement patterns being assigned to the individual speech features but words or syllables.
  • the assignment of the speech characteristics of the feature vector to signatures takes place by comparison with a collection of gestures by the computer unit.
  • a gesture in the sense of the application means a word of the written language expressed by a movement, thus a sign of the deaf-mute language.
  • FIG. 1 describes a flow chart of a method for recording and sending a video message.
  • the user visits via his PC 150 a "Zoobe" website 120.
  • a "Zoobe" website 120 On the website 120, which is displayed on the screen 160 of the PC 150, various avatars are shown, from which the user selects an avatar 50 and confirms this with a click Thereafter, the user selects pre-made scene elements 130 for the avatar 50 displayed on the screen 160, ie the scene script, in which case the avatar 50 is to appear on a stage with a spotlight directed directly at it
  • a startup and shutdown 170 which can be selected by the user, in which case the following credits and credits are selected:
  • Prelapse The avatar 50 runs into the image and stops turning to the viewer.
  • Closing The Avatar 50 leaves the picture.
  • the microphone 140 is activated on the PC 150.
  • the voice message has a duration tl of x seconds.
  • the message contains the word: "Party! The message is spoken in a loud, joyful voice.
  • the voice message (voice input a) takes the form of a
  • Speech signal ⁇ 1 (A / D-converted by the audio hardware 200) is transmitted directly to the server 110 on which the "Zoobe" website is also stored
  • the speech input is transformed by a speech detection unit into a first speech signal ⁇ 1.
  • a feature vector ⁇ having certain speech characteristics is created by a speech analysis unit 30.
  • the speech analysis unit 30 is part of the server 110.
  • the above speech properties (eg spectral coefficients) are calculated for all time windows of the speech signal and stored in chronological order. It detects the two-syllables of the message. Also, the phoneme "a" is recognized by its long-drawn character, as is the "y".
  • the movement sequence ⁇ will now be transmitted to the selected avatar 50 with the aid of the computer unit 40.
  • the avatar 50 with its assigned movement sequence ⁇ forms the animation script 180.
  • the avatar reflects the linguistic content (the spoken word) and the emotion, the speech input in the form of non-verbal or verbal communication.
  • the selected scene script 130, the automatically generated animation script 180 and the lead and end credits 170 are processed by the computer unit 40.
  • the movement sequence ⁇ is adapted to the input time t1 of the speech input.
  • the motion sequence ⁇ is underlaid with the recorded speech signal ßl in identical length tl.
  • the data is rendered via the renderer 100 and the resulting film file or video sequence is displayed in a window 200 on the screen 160 of the user PC 150.
  • the user now confirms the movie file.
  • the user now enters the telephone numbers and / or the email addresses of the recipients in the input field 190 provided on the website and clicks on send.
  • the message now appears as an email or MMS or SMS or SMS with download link (on which the movie file is deposited) or application or video call on the receiver devices (cell phones or other devices) of the recipient.
  • the recipient now sees the content of the message as follows:
  • the selected user's avatar 50 for example, enters the screen of the receiving device and positions himself in the middle of the message
  • the spot is aimed at the avatar.
  • the receiver sees that the avatar is standing on a stage.
  • the avatar communicates his message "Party! With the voice of the user with joyous expression in the form of the movement sequence ⁇ , whereby the mouth movements follow the spoken word, for example the mouth opens at the syllable "Par”.
  • the mouth closes slightly with the syllable "ty” and forms a grin, after which the avatar leaves the stage.

Abstract

Die Erfindung beschreibt ein Verfahren zur Zuordnung von Sprachmerkmalen zu Bewegungsmustern, indem eine Spracheingabe (α) in ein Sprachanalysesystem (10) aufgenommen wird, die Spracheingabe (α) in ein erstes Sprachsignal (β1) durch eine Spracherfassungseinheit (20) transformiert wird, ein Merkmalsvektor (μ) aus dem ersten Sprachsignal (β1) mit Sprachmerkmalen (δ1, δ2, δ3, usw.) durch eine Sprachanalyseeinheit (30) erstellt wird und eine Zuordnung der Sprachmerkmale (δ1, δ2, δ3, usw.) des Merkmalsvektors (μ) zu Bewegungsmustern (ε1, ε2, ε3, usw.) durch eine Rechnereinheit (40) erfolgt, wobei die Zuordnung der Sprachmerkmale (δ1, δ2, δ3,... δn) zu Bewegungsmustern (ε1, ε2, ε3,... εn) über direktes Feature-Mapping erfolgt.

Description

Verfahren zur Zuordnung von Sprachmerkmalen zu Bewegungsmustern
Die Erfindung betrifft ein Verfahren zur Zuordnung von
Sprachmerkmalen zu Bewegungsmustern, insbesondere ein Verfahren zur Steuerung eines Avatars durch Sprachmerkmale.
Als Stand der Technik wurden die zwei folgenden Schriften aufgefunden.
Die DE 602 10 295 T2 beschreibt ein Verfahren zur Feststellung emotionaler Erregung eines Probanden durch Sprachanalyse . Die DE 699 35 909 T2 beschreibt ein Informationsverarbeitungsgerät, eine tragbare Einrichtung, ein Informationsverarbeitungsprozeduren speicherndes Aufzeichnungsmedium und ein Informationsverarbeitungsverfahren, welches auf unterschiedliche Arten auf einer Informationseinrichtung wie beispiels- weise Mobiltelefonen und Personalcomputer angewendet werden kann.
Ausgehend von diesem Stand der Technik ist es die Aufgabe der vorliegenden Erfindung ein Verfahren bereit zu stellen, mit welchem aus einer Spracheingabe auf eine Bewegung geschlossen werden kann.
Die der Erfindung zugrunde liegende Aufgabe wird in einem ersten Aspekt durch ein Verfahren gelöst, bei dem eine
Spracheingabe in ein Sprachanalysesystem eingebracht wird, die Spracheingabe in ein erstes Sprachsignal durch eine
Spracherfassungseinheit transformiert wird, ein Merkmalsvektor aus dem ersten Sprachsignal mit Sprachmerkmalen durch eine Sprachanalyseeinheit erstellt wird und eine Zuordnung der Sprachmerkmale des Merkmalsvektors zu Bewegungsmustern durch eine Rechnereinheit durchgeführt wird, wobei die Zuordnung der Sprachmerkmale (δΐ, δ2, δ3, ... δη) zu Bewegungsmustern (εΐ, ε2, ε3, ... εη) über direktes Feature-Mapping erfolgt.
Unter Spracheingabe versteht man im Sinne dieser Anmeldung jede Wiedergabe von Phonemen (Lauten) und/oder Wörtern und/oder Sätzen einer Person. Des Weiteren können unter einer Spracheingabe auch Laute von Tieren verstanden werden. Meist handelt es sich jedoch bei der Spracheingabe entweder um eine diskrete Spracheingabe, d. h. eine deutliche bewusste Eingabe von aneinander gereihten Wörtern mit Pausen zwischen den einzelnen Wörtern oder um eine kontinuierliche Spracheingabe, bei welcher die einzelnen Wörter ineinander übergehen. Die Spracheingabe kann Wörter aus sämtlichen Sprachen, Dialekten, Akzenten umfassen. Insbesondere kann eine Spracheingabe eine Voice Message sein. Bevorzugt wird diese Voice Message über das Sprachanalysesystem erfasst.
Unter Sprachanalysesystem im Sinne dieser Anmeldung versteht man eine Kombination aus Hardware und Software, mit welcher die Emotion einer Spracheingabe, sowie der sprachliche Inhalt analysiert werden und in verbale und/oder nonverbale Kommunikation und/oder Bewegungsmuster übersetzt wird.
Das Sprachanalysesystem besteht bevorzugt aus einer Spracher- fassungseinheit und/oder Vorverarbeitungseinheit und/ oder einer Hauptverarbeitungseinheit und/oder einer Sprachanalyseeinheit und/oder einem Speicher und/oder einer Rechnereinheit . Diese genannten Komponenten liegen als Hardware und/oder Software als Teil des Sprachanalysesystems vor. Bevorzugt sind die Hardware und/oder die Software des Sprachanalysesystem in einer Einheit zusammengefasst, d. h. dass die oben genannten Komponenten sich beispielsweise alle auf einem PC be- finden. Besonders bevorzugt ist die Hardware des Sprachanalysesystem auf verschiedenen Einheiten aufgeteilt. Beispielsweise fungiert der PC des Users nur als Webinterface mit ei- nem Mikrophon und einem Bildschirm. Die Vorverarbeitungseinheit, die Sprachanalyseeinheit, der Speicher und die Rechnereinheit des Sprachanalysesystems sind beispielsweise auf einem Server untergebracht.
Mit der Spracherfassungseinheit wird die Spracheingabe in ein erstes Sprachsignal transformiert.
Bevorzugt wird zwischen Spracherfassungseinheit und Vorverar- beitungseinheit unterteilt.
Ist dies der Fall, wird bei der Spracherfassungseinheit die Spracheingabe (akustisches Signal) von einem Mikrofon (bevorzugt mit Audio-Hardware) aufgenommen und in ein digitales Sprachsignal umgewandelt. Die Spracherfassungseinheit
und/oder das Mikrofon sind bevorzugt Bestandteil eines Handys oder eines PCs. Hier wird bevorzugt die Art des Signals erkannt und somit eine Annotation von Signalabschnitten vorgenommen und bspw. das Signal als Sprache erkannt und/oder Ge- rausche (bspw. Stille, Musik, Hintergrundgeräusche) erkannt.
Die Vorverarbeitungseinheit umfasst bevorzugt eine „Voice Ac- tivity Detection" . Hier werden/wird bevorzugt die Annotation von Signalabschnitten erkannt und/oder Sprache erkannt und/oder Geräusche (bspw. Stille, Musik, Hintergrundgeräusche ) erkannt .
Des Weiteren umfasst das Sprachanalysesystem bevorzugt eine Hauptverarbeitungseinheit, welche sich in eine erste Haupt- Verarbeitungseinheit und eine zweite Hauptverarbeitungseinheit unterteilen lässt. Die erste Hauptverarbeitungseinheit übernimmt die Analyse verbaler Eigenschaften des Sprachsignals. Die zweite Hauptverarbeitungseinheit übernimmt die Analyse von nonverbalen Eigenschaften des Sprachsignals (bspw. Emotionen, Ausdruck) . Mit der Sprachanalyseeinheit, bzw. einer ersten Signalverarbeitung (VAD) wird ein Merkmalsvektor aus dem ersten Sprachsignal mit Sprachmerkmalen erstellt. Auf dem Speicher ist be- vorzugt eine Referenzliste abgelegt, auf welcher einzelne Sprachmerkmale oder die Gesamtheit der Sprachmerkmale eines Zeitfensters einem Bewegungsmuster und/oder einem Wort und/oder einem Gebärdenzeichen zugeordnet sind/ist. Des Weiteren sind auf dem Speicher bevorzugt Modelle in Form von „Support Vector Machines" oder „Hidden Markov Models" o- der „Gaussian Mixture Models" oder abgelegt. Diese logischen Modelle dienen der Zuordnung von Sprachmerkmalen zu Bewegungsmustern, wobei die Logischen Modelle mit der Rechnerein- heit verknüpft sind. Die Rechnereinheit stellt bevorzugt die Rechenleistung für die logischen Modelle zur Verfügung. Als logisches Modell ist bevorzugt auch die Referenzliste anzusehen. Das Hidden Markov Model (HMM) ist ein stochastisches Modell, das sich durch Zufallsprozesse beschreiben lässt. Die Aufgabe besteht bevorzugt darin, aus einer Sequenz eines Sprachsignals bzw. Merkmalsvektors in zufälliger Weise, nach einem bestimmten Zufallsprozess , auf ein Bewegungsmuster zu schlie- ßen.
Eine Support Vector Machine wird bevorzugt als Klassifikator eingesetzt. Ausgangsbasis für eine solche Support Vector Machine ist eine Menge von Objekten (eine Objekt besteht aus einem oder mehreren Sprachsignalen), für die jeweils bekannt ist, welchen Bewegungsmerkmalen sie zugehören. Jedes Objekt wird durch einen Merkmalsvektor repräsentiert. Aufgabe der Support Vector Machine ist es die Objekte zu klassifizieren, d. h. Bewegungsmerkmalen zuzuordnen. Auch Objekte, die nicht genau den erkannten Objekten (Sprachsignalen) entsprechen, werden dadurch möglichst zuverlässig klassifiziert, d. h. Bewegungsmustern zugeordnet. Die Rechnereinheit trägt zur Verarbeitung der Sprachsignale bzw. des Merkmalsvektors bzw. der Sprachmerkmale bei und ordnet die Sprachmerkmale bevorzugt über die abgespeicherte Re- ferenzliste oder über Feature-Mapping entweder einem Bewegungsmuster und/oder einem Wort und/oder einem Gebärdenzeichen zu.
Bevorzugt werden beim direkten Feature-Mapping keine phoneti- sehen Kategorien (phonetischen Sprachmerkmale), sondern kontinuierliche Sprachmerkmale zur Steuerung der Sprechbewegungen des Avatars verwendet. Dabei wird die verbale Information nicht in Form von diskreten linguistischen Einheiten verarbeitet. Vielmehr werden anhand von akustischen Merkmalen ar- tikulatorische Vorgänge des Avatars gesteuert, welche keine sprachlichen Bedeutungseigenschaften haben. Dadurch kann ein Sprecher interpretiert werden, egal ob dieser auf Englisch, Französisch, Spanisch oder Deutsch spricht. Die Steuerung eines Avatars durch kontinuierliche Sprachmerkmales in Form von Feature-Mapping ist folglich sprachenunabhängig. Die Darstellung der Sprechbewegungen des Avatars auf nicht linguistische und/oder nichtkategorialer kontinuierlicher Verarbeitung wird dadurch erreicht. Es können folglich durch eine rein akustische Analyse der Spracheingabe artikulatorische Werte von der Sprachanalyseeinheit erzeugt werden. D.h. dass durch die Interpretation der reinen Lautmalerei bspw. die Lippenbreite und die Lippenbewegung des Avatars gesteuert wird.
In einem weiteren Schritt, der der Spracheingabe in das
Sprachanalysesystem bevorzugt nachgeschaltet ist wird die
Spracheingabe in ein erstes Sprachsignal durch eine Spracher- fassungseinheit transformiert. Als Sprachsignal im Sinne dieser Anmeldung versteht man nicht das analoge Signal der Spracheingabe, sondern das digitale Signal der Spracheingabe. Das Sprachsignal ist eine digitale Bitfolge, was von den elektronischen Komponenten des Sprach- analysesystems verarbeitet wird.
In dem oben genannten Schritt wird das diskrete analoge Signal (zeitdiskret oder wertediskret) der Spracheingabe abgetastet und digitalisiert. Es entsteht eine elektronisch ver- arbeitbare Bitfolge (erstes Sprachsignal). In diesem Schritt werden bevorzugt Umgebungsgeräusche oder Rauschen oder Musik oder Stille erkannt. Diese Information wird dem Merkmalsvektor bevorzugt hinzugefügt. Bevorzugt wird die Dauer des Sprachsignals, bzw. die Dauer der Spracheingabe gemessen und auf einem Speicher gespeichert. Auf den Speicher sind bevorzugt Modelle für die zu erkennenden Arten des Signals, bspw. Geräusche, Hintergrundgeräusche, Sprache, Musik, Stille, abgelegt. Mit diesen Model- len wird bevorzugt jedes Zeitfenster des Signals verglichen und die Signalart mit der größten Übereinstimmung wird dem entsprechenden Signalabschnitt zugeordnet.
In einem weiteren Schritt wird ein Merkmalsvektor aus dem ersten Sprachsignal mit Sprachmerkmalen durch eine Sprachanalyseeinheit erstellt.
Unter einer Sprachanalyseeinheit im Sinne dieser Anmeldung versteht man eine logische Einheit des Sprachanalysesystems. Die Sprachanalyseeinheit extrahiert aus dem Sprachsignal die Sprachmerkmale, die dem Sprachanalysesystem bekannt sind und formt daraus einen Merkmalsvektor. Unter Sprachanalyseeinheit können die oben genannten logischen Modelle angesehen werden, also bspw. SVM, HMM, GMM.
Als bekannte Sprachmerkmale werden diejenigen eingestuft, die auf einem Speicher des Sprachanalysesystems abgelegt sind, bevorzugt in einer Referenzliste auf dem Speicher des Sprachanalysesystems abgelegt sind. Als Referenzliste ist bevorzugt keine tatsächliche Liste mit Spalten und Zeilen anzusehen, sondern eine logische Einheit, welche nach Maßgabe einer Art Liste bestimmte Sprachmerkmale bestimmten Bewegungsmustern zuordnet.
Der Merkmalsvektor ist eine Signalfolge, welche aus Sprachmerkmalen besteht, welche dem Sprachanalysesystem bekannt sind. Bevorzugt umfasst der Merkmalsvektor nicht nur eine Sammlung von einzelnen bekannten Sprachmerkmalen, sondern auch eine zeitliche Zuordnung zu jedem Sprachmerkmal. Das heißt, die im Merkmalsvektor dargestellten Sprachmerkmale sind bevorzugt chronologisch geordnet.
Unter Sprachmerkmal versteht man jegliche physikalisch messbare Größe des Sprachsignals, welche zur Bewertung der in der Spracheingabe enthaltenen sprachlichen Information und/oder enthaltenen emotionalen Färbung (Emotion) und/oder enthalte- nen stimmlichen Ausdrucks ausgewertet werden kann. Insbesondere versteht man phonetische und nichtphonetische Segmente des Sprachsignals, die von der Verarbeitungseinheit erkannt werden und abgespeicherten Bewegungsmustern (d.h. dynamischen Bewegungen oder Filmsequenzen) zugeordnet werden. Dadurch ist es bevorzugt möglich einer Sprechpause eine Blickrichtungsänderung mit begleitendem Augenzwinkern zuzuordnen, da die Sprechpause als eine nichtphonetische Einheit erkannt wird.
Beispielsweise kann ein abgespeichertes Bewegungsmuster eine Bewegungssequenz sein, welche beinhaltet dass der Avatar mit zwei Zeigefingern ein Herzsymbol in die Luft malt. Dieses Bewegungsmuster ist bspw. in der Sprachanalyseeinheit gespeichert und mit einem bestimmten Merkmalsvektor verknüpft. Wird dieser bestimmte Merkmalsvektor aus einem Bereich des Sprach- signals gewonnen, dann kann die Verarbeitungseinheit die oben genannte Bewegung diesem Merkmalsvektor zuordnen. Dieser bestimmte Merkmalsvektor wurde bspw. aus dem Sprachsignal des Wortes „Herz" gewonnen oder bebildet. Diese physikalisch messbaren Größen des Sprachsignals können sein z. B. Grundfrequenz und/oder Energie und/oder Dauer und/oder Tonhöhe und/oder Lautheit und/oder Signalenergie und/oder spektrale Koeffizienten und/oder cepstrale Koeffizienten und/oder Formanten und/oder Noise-to-Harmonic-Ration und/oder deren Derivate, unter anderem ergänzt durch weitere prosodische Merkmale wie z. B. Intonation (Phonetik) und/oder Akzent und/oder Betonung und/oder Sprechpausen und/oder
Sprechrhythmus und/oder Sprechtempo und/oder Quantität. Des Weiteren ist es möglich Sprachmerkmale wie die Welligkeiten und akkumulierten absoluten Beschleunigungen der Sprachmelodie und der Signalenergie, Segmentdauern und Maße der Sprechgeschwindigkeit zu bestimmen. Auch ist es möglich
Sprachmerkmale wie das Maß der Sprachmelodie oder die Fluktu- ation der Spracheingabe oder die Intensität der Spracheingabe zu bestimmen. Bevorzugt werden die Sprachmerkmale segmental gewonnen, d. h. durch Analyse von einzelnen Lauteinheiten innerhalb von begrenzten Zeitfenstern der Spracheingabe, besonders bevorzugt werden Sprachmerkmale auch supra-segmental, d. h. Zeitfensterübergreifend bzw. Lautsegmentübergreifend bis hin zur gesamten Analyse des gesamten Sprachsignals gewonnen .
Bevorzugt sind die Sprachmerkmale prosodische Merkmale. Be- vorzugt werden die prosodischen Merkmale und/oder extralinguistische Features (Merkmale) zur Bestimmung unveränderlicher Sprechereigenschaften verwendet. Das Sprachanalysesystem ist somit in der Lage, Eigenschaften des Sprechers, die sich im Verlauf einer Benutzung des Sprachanalysesystems nicht än- dern oder nicht ändern können, für die Steuerung des Avatars zu verwenden. Solche Eigenschaften sind beispielsweise Alter, Geschlecht, Physiognomie und anatomische Proportionen, Krank- heiten und Behinderungen, Persönlichkeitsmerkmale, geografi- sche und soziale Herkunft, Phenotyp sowie Bildungsstand. Aufgrund der Eigenschaften, welche sich aus den prosodischen Merkmalen ergeben, kann beispielsweise eine automatische Wahl des Avatars erfolgen. Das Sprachanalysesystem stellt dann bspw. fest, dass es sich aufgrund der Analyse der prosodischen Merkmale um eine Frau handeln muss und wählt dann aufgrund dieser Bestimmung einen weiblichen Charakter, sprich Avatar aus .
In einem weiteren Schritt werden diese Sprachmerkmale des Merkmalsvektors einzelnen Bewegungsmustern durch eine Rechnereinheit zugeordnet. Bevorzugt wird einem Sprachmerkmal ein Bewegungsmuster zugeordnet, besonders bevorzugt wird mehreren Sprachmerkmalen ein Bewegungsmuster zugeordnet, am meisten bevorzugt werden mehreren Sprachmerkmalen mehrere Bewegungsmuster zugeordnet.
Diese Bewegungsmuster sind bevorzugt emotionalisierte Anima- tionsdaten und/oder verbale und nonverbale Animationsdaten. Unter einem Bewegungsmuster versteht man eine aktive Bewegung, bspw. in Form eines Films. Die erfindungsgemäßen Bewegungsmuster beinhalten Bewegungsabläufe, beispielsweise
Hand/Arm-Gesten, mimische Abläufe und Körperbewegungen, die sich durch einen zeitlichen Ablauf manifestieren. Die Verwendung von Bewegungsmustern, also an sich bewegten Einheiten, berücksichtigt die dynamischen Eigenheiten von visualisierten physischen Vorgängen.
Unter Bewegungsmustern versteht man beispielsweise Elemente der Gestik und/oder Elemente der Mimik und/oder Elemente des Blicks (Augenbewegung, Augenposition, Puppillenweite, Augenlidbewegung, Zwinkern, usw.) und/oder Bewegungen des Mundes, der Lippen, der Zunge, des Kiefers. Bevorzugt sind die Bewe- gungsmuster als ausführbare Programme hinterlegt, besonders bevorzugt als Animationsdaten. Diese Programme oder Animationsdaten sind bevorzugt auf jegliche Avatare anwendbar, bevorzugt schon auf einen Avatar zugeschnitten. Die Bewegungs- muster sind bevorzugt vorgefertigte Bewegungsschemata, welche auf sämtliche animierte Computerwesen frei übertragbar sind.
Unter Bewegungsmustern werden bevorzugt alle Bewegungen der nonverbalen Kommunikation oder der Gebärdensprache (also Ge- bärdenzeichen) gesehen. Die Bewegungsmuster sollen insbesondere den emotionalen Gehalt der Spracheingabe, des Sprachsignals, der Sprachmerkmale wiedergeben bzw. Emotion vermitteln. Die gewonnenen Sprachmerkmale aus der Spracheingabe werden bevorzugt durch direktes Feature-Mapping Bewegungsmustern bzw. Animationsparametern zugeordnet. Bevorzugt werden Bewegungsmuster per Zufallsgenerator einem oder mehreren Sprachmerkmalen zugeordnet .
Bevorzugt wird jedem Sprachmerkmal ein Zeitpunkt zugeordnet. Die Zeit beginnt bevorzugt ab dem Start-Zeitpunkt zu laufen, an dem das erste Sprachsignal detektiert wird, besonders bevorzugt, wenn der Start-Zeitpunkt manuell ausgelöst wird, z. B. durch drücken eines Knopfes am Sprachanalysesystem oder durch anklicken eines Buttons, dargestellt auf dessen Bild- schirm. Die Zeit stoppt bevorzugt wenn das Sprachsignal verschwindet, besonders bevorzugt nach einer einstellbaren Nachlaufzeit nach dem Ende des Sprachsignals, am meisten bevorzugt wird die Zeit manuell gestoppt. Die Zuordnung einzelner, detektierter Sprachmerkmale zu einzelnen Zwischenzeitpunkten erfolgt entlang der Zeitachse des aufgezeichneten Sprachsignals .
Bevorzugt werden die Bewegungsmuster einzelnen Sprachmerkmalen in einer Referenzliste gegenüber gestellt. Die Referenz- liste ist eine auf dem Speicher des Sprachanalysesystems abgelegte Datei, welche eine Gegenüberstellung von Sprachmerkmalen und zugehörigen Bewegungsmustern beinhaltet. Die Refe- renzliste ist eine wichtige Bezugsdatei für die Sprachanalyseeinheit. Die Sprachanalyseeinheit orientiert sich bevorzugt an der Referenzliste, wenn dieser nach bekannten Sprachmerkmalen sucht. Des Weiteren wird der Merkmalsvektor bevorzugt mit den Sprachmerkmalen der Referenzliste verglichen. Da jedem Sprachmerkmal in der Referenzliste ein Bewegungsmuster zugeordnet ist, kann auch einem bekannten detektierten
Sprachmerkmal des Sprachsignals ein Bewegungsmuster zugeordnet werden.
Die einem Sprachmerkmal zugeordneten Zeitpunkte werden bevorzugt auf das zugehörige Bewegungsmuster übertragen. Die Referenzliste ist bevorzugt auf einem Speicher eines PCs abgelegt, besonders bevorzugt auf einem Speicher eines Servers, besonders bevorzugt auf dem Speicher des Sprachanalysesystems . Dabei kann ein Sprachmerkmal einem Bewegungsmuster zugeordnet sein, bevorzugt einer Kombination aus Sprachmerkmalen und einem Bewegungsmuster zugeordnet sein, besonders bevorzugt einer Kombination aus Sprachmerkmalen und einer Kom- bination aus Bewegungsmustern zugeordnet sein.
Bei der Erstellung der Referenzliste wird bevorzugt darauf geachtet, dass eine Kombination an Sprachmerkmalen eine bestimmte Emotion vermittelt, welche durch ein oder mehrere Be- wegungsmuster oder durch ein oder mehrere verbale Bewegungsmuster dargestellt werden kann.
Bei den gespeicherten Bewegungsmustern sollen bevorzugt Emotionen wie beispielsweise Freude, Lust, Geborgenheit, Liebe, Trauer, Ärger, Glücklichsein, Wohlbehagen, usw. ausgedrückt werden. Das Verfahren soll es ermöglichen übermittelte Emotionen der Spracheingabe zu analysieren und diese Emotionen in Form von aneinandergereihten Bewegungsmustern wiederzugeben. Beispielsweise lässt sich die Intonation der Spracheingabe aufgrund der Grundfrequenz dieser Spracheingabe beschreiben. Ausgehend von der Grundfrequenz lässt sich die Intonation, also der Tonhöhenverlauf ausgehend von dieser Grundfrequenz, innerhalb eines Satzes oder Sprechaktes feststellen. Über die Intonation lässt sich beispielsweise die verwendete Ironie oder der Ausdruck von Überraschung aus der Spracheingabe ext- rahieren. Lässt die Intonation der Spracheingabe, bzw. lassen die Sprachmerkmale beispielsweise auf einen Ausdruck von Ü- berraschung schließen, so würde die Rechnereinheit nun diese konkreten Sprachmerkmale mit der Referenzliste abgleichen und das diesen Sprachmerkmalen zugeordnete Bewegungsmuster ermit- teln. Das Bewegungsmuster wird bevorzugt abgespeichert besonders bevorzugt in Echtzeit wiedergegeben (bspw. Auf einem Bildschirm) .
Den Sprachmerkmalen, welchen beispielsweise die Emotion „Iiberrascht sein" entnommen wurde, werden damit einem Bewegungsmuster zugeordnet, welches Überraschung vermittelt. Das ermittelte, zugeordnete Bewegungsmuster wäre beispielsweise komponiert aus den Elementen: weit aufgerissene Augen, hochgezogene Augenbrauen, runzlige Stirn, offener Mund. Bei- spielsweise werden verbale aus audiovisuellen Sprachaufnahmen trainiert, nonverbale Bewegungen werden bevorzugt von einem Animator designt.
Die (Sprachmerkmale) prosodischen Dauermerkmale wie bei- spielsweise Rhythmus, Sprechgeschwindigkeit, Pausen, Gedehntheit usw. lassen sich durch Messung der zeitlichen Länge dieser Signalabschnitte oder bspw. durch Bildung von Mittelwerten (mittlere Sprechgeschwindigkeit) messen. Aus diesen
Sprachmerkmalen lässt sich beispielsweise ableiten ob der Sprecher der Spracheingabe beispielsweise aufregt war
(schneller, ununterbrochener Sprachfluss) oder ängstlich war (Stottern, stakkatoähnlicher Sprachaufbau) oder nachdenklich war (lange Sprechpausen, Gedehntheit der Wörter). ird durch die Sprachmerkmale bspw. die Gemütsregung „Aufgeregtheit" de- tektiert, so würde sich das zugeordnete Bewegungsmuster bspw. aus den folgenden Komponenten zusammensetzen: schnelle Mund- bewegung, Wippen mit den Füßen, schnelles Heben und Senken des Brustkorbes.
Sprachmerkmale werden bevorzugt den zu erkennenden Emotionen durch trainieren von vorhandenem Sprachmaterial, bei dem die ausgedrückte Emotion bekannt ist, zugeordnet.
In einem bevorzugten weiteren Schritt werden die Bewegungsmuster durch Aneinanderreihung in einen Bewegungsablauf ge- formt. Bevorzugt kann ein Vorspann und/oder ein Abspann gewählt werden. Dieser Vorspann (oder Abspann) besteht ebenfalls aus Bewegungsmustern, welche aber nicht aufgrund der Spracheingabe generiert werden. Diese Bewegungsmuster sind durch den User (Sprecher) frei wählbar und werden dem Bewegungsablauf vor- bzw. nachgeschaltet. Nach dem die Sprachmerkmale über die Dauer der Spracheingabe ausgewertet wurden und diesen einzelnen Sprachmerkmalen über die Dauer der
Spracheingabe Bewegungsmuster zugeordnet wurden, werden diese Bewegungsmuster in einen fließenden Bewegungsablauf durch die Rechnereinheit umgeformt. Das Aneinanderreihen der einzelnen Bewegungsmuster erfolgt dabei bevorzugt nach den Zeitpunkten die den Bewegungsmustern zugeordnet wurden. Der generierte Bewegungsablauf ist bevorzugt genauso lang, wie die aufgezeichnete Spracheingabe, bspw. auch zuzüglich des möglichen Vor- und Abspanns.
In einem weiteren Schritt wird dieser Bewegungsablauf dann auf einen Avatar übertragen. Als Avatar im Sinne der Anmeldung versteht man eine künstliche Person oder ein künstliches Tier als grafischen Stellvertreter des Sprechers der Spracheingabe in einer virtuellen Welt (also ein virtueller Charakter). Der Avatar ist beispielsweise eine dreidimensionale a- nimierte Figur, welche beispielsweise mit einem CAD-Programm von einem User selbst erstellt wird oder welche beispielswei- se als Charakter bereits besteht (Shrek, Tom & Jerry, Wall-E, ...). Der Avatar kann von dem Sprecher (User) bevorzugt frei auf einer Webseite gewählt werden, besonders bevorzugt wird dem Sprecher aufgrund seiner Spracheingabe, bzw. der zugehörigen Sprachmerkmale ein Avatar zugewiesen.
Der Bewegungsablauf wird bevorzugt auf den Avatar übertragen, sodass dieser die (verbalen) Bewegungsmuster, sowie die Emotion der Spracheingabe in Form von nonverbaler Kommunikation widerspiegelt. Einen Avatar mit einem zugewiesenen Bewegungsablauf bezeichnet man bevorzugt als AnimationsSkript . Bevorzugt agiert der Avatar in einer „Szene", die ein Set, also Szenenelemente, wie Hintergründe, Props und Accessoires, sowie Kameraeinstellungen und Beleuchtungssituationen enthält. Bevorzugt sind nicht nur der Avatar, sondern auch diese Szenenelemente frei wählbar. Die Szenenelemente werden bevor- zugt über einen Zufallsgenerator bestimmt. Aus diesen Szenenelementen wird ein Szenenskript erzeugt, welches bevorzugt in Kombination mit dem schon erzeugten Animationsskript den visuellen Teil der späteren in weiteren Schritten zu erzeugenden Video-Botschaft (Message) darstellt.
In einem weiteren bevorzugten Schritt wird der Bewegungsablauf des Avatars mit dem ersten Sprachsignal überlagert.
D. h. dass das Sprachsignal bevorzugt als Tonspur unter den Bewegungsablauf des Avatars gelegt wird, bevorzugt unter die Filmdatei oder die Bildsequenz. Dies hat den Effekt, dass die Emotion der verbalen und/oder nonverbalen Kommunikation durch den Bewegungsablauf des Avatars vermittelt wird und das dazugehörige Sprachsignal mit der Stimme des Sprechers darüber gelagert wird. Bevorzugt wird die Spracheingabe lippensyn- chron von dem Avatar wiedergegeben. Des Weiteren wird bevorzugt der emotionale Ausdruck synchron zu der im Sprachsignal enthaltenen Emotion wiedergegeben. Besonders bevorzugt erfolgen die Wiedergabe der Spracheingabe und die dazugehörige Bewegung des Avatars in Echtzeit. Das Sprachsignal wird bevor- zugt als Sprachskript abgespeichert. Die Zusammenfügung von Szenenskript, Animationsskript und Sprachskript übernimmt bevorzugt eine 2D Applikation oder eine 3D Applikation, welche daraus bevorzugt ein Renderfile er- zeugt.
In einem weiteren bevorzugten Schritt wird der Bewegungsablauf des Avatars und/oder das darüber gelagerte Sprachsignal in eine Filmdatei gerendert. Dies bedeutet bevorzugt, dass das durch die oben genannte Applikation entstandene Renderfile in eine Bildinformation umgesetzt wird. Bevorzugt entsteht ein Videoclip von einem Avatar, welcher eine der gängigen Filmdateien wie beispielsweise DIVX, XVID, AVI, RM, R VB, usw. umfasst. Der Bewegungsablauf kann auch eine Bildsequenz sein. Zwischen den einzelnen Bildern der Sequenz kann bevorzugt die Darstellungszeit eines Bildes eingestellt werden. Die Darstellungszeit ist die Zeit, die das Bild bis zum Wechsel des nächsten Bildes für den Betrachter zu sehen ist. In einem weiteren bevorzugten Schritt wird die Filmdatei oder Sequenz elektronisch versandt. Die Filmdatei kann bevorzugt Teil einer E-Mail sein oder Anhang einer E-Mail sein oder Teil einer MMS sein oder Teil eines jeglichen gängigen elektronischen Versandmediums sein. Bevorzugt wird die Datei als SMS, in einer SMS als Downloadlink, als Videocall, in einer Applikation, als Applikation versandt.
Bevorzugt entsteht eine multimediale Botschaft, welche in allen Kanälen des WorldWideWeb oder der Mobiltelefonie versandt werden kann. Des Weiteren kann die Videodatei im Internet anstatt eines Forumsbeitrages gepostet werden oder in einem In- ternetblog angebracht werden oder als Statusinformation in ein Instant Messenger-System oder ein Netzwerksystem (wie beispielsweise Facebook, Xing, MySpace, usw.) eingepflegt werden.
In einem weiteren bevorzugten Schritt wird das erste Sprachsignal in ein zweites Sprachsignal umgewandelt. Durch die Um- Wandlung kann die Klangfarbe sowie die Sprachcharakteristik geändert werden. Beispielsweise bleiben der Sinngehalt und die Wortwahl der Spracheingabe identisch, jedoch bekommt der Zuhörer den Eindruck, dass beispielsweise eine prominente Persönlichkeit die Spracheingabe verfasst hat. Dadurch kann beispielsweise der Bewegungsablauf des Avatars mit einer Stimme von Arnold Schwarzenegger, Cameron Diaz, usw. überlagert werden. Dadurch wird der Bewegungsablauf des Avatars mit dem umgewandelten zweiten Sprachsignal überlagert.
In einem weiteren bevorzugten Schritt werden einzelne oder alle Bewegungsmuster durch einen Multiplikator verstärkt. Dadurch kann die Emotion, welche der Avatar vermitteln soll in sämtliche Richtungen verstärkt werden. Beispielsweise wird durch den Multiplikator das Bewegungsmuster „Grinsen" in ein überbreites Grinsen verwandelt.
In einer weiteren bevorzugten Ausführungsform lässt sich der Avatar welcher sich nach seinem zugeordneten Bewegungsablauf bewegt auf einem Bildschirm abspielen. Bevorzugt wird das zugehörige Sprachsignal über einen Lautsprecher wiedergegeben. Denkbar ist auch, dass gleichzeitig oder anstatt des Sprachsignals ein Untertitel auf dem Bildschirm angezeigt wird. Der Untertitel wird bevorzugt durch das Sprachanalysesystem er- zeugt, wobei den einzelnen Sprachmerkmalen keine Bewegungsmuster, sondern Wörter oder Silben zugeordnet werden.
In einer weiteren bevorzugten Ausführungsform erfolgt die Zuordnung der Sprachmerkmale des Merkmalsvektors zu Gebärden durch Abgleich mit einer Gebärdensammlung durch die Rechnereinheit. Unter einer Gebärde im Sinne der Anmeldung versteht man ein durch eine Bewegung ausgedrücktes Wort der Schriftsprache, also ein Zeichen der Taubstummensprache. Weitere vorteilhafte Ausgestaltungen finden sich in der Figurenbeschreibung. Die Figur zeigt: Fig.l ein AblaufSchema zum Aufnehmen und Verschicken einer Videobotschaft
In Figur 1 wird ein Ablaufschema eines Verfahrens zum Aufneh- men und Verschicken einer Videobotschaft beschrieben.
Der User besucht über seinen PC 150 eine „Zoobe" Website 120 . Auf der Website 120 , welche auf dem Bildschirm 160 des PCs 150 angezeigt wird, sind verschiedene Avatare abgebildet, von welchen sich der User einen Avatar 50 aussucht und diesen mit einem Klick bestätigt. Danach wählt der User vorgefertigte, auf dem Bildschirm 160 angezeigte, Szenenelemente 130 für den Avatar 50 aus, also das Szenenskript. In diesem Fall soll der Avatar 50 auf einer Bühne auftreten, wobei ein Spotlight di- rekt auf ihn gerichtet wird. Es werden weiter auf dem Bildschirm 160 Vor- und ein Abspanne 170 angezeigt, welche durch den User gewählt werden können. In diesem Fall werden der folgende Vor- und Abspann gewählt. Vorspann: Der Avatar 50 läuft in das Bild bleibt stehen und wendet sich dem Betrach- ter zu. Abspann: Der Avatar 50 verlässt das Bild.
Danach klickt der User auf den Start Button, womit die Aufzeichnung der Spracheingabe α beginnt. Durch den Klick auf den Start Button wird das Mikrophon 140 am PC 150 aktiviert. Der User spricht seine Voicemessage (Spracheingabe et ) und beendet die Aufzeichnung (Spracheingabe a), indem er den Stop Button anklickt. Die Voicemessage hat eine Dauer tl von x Sekunden. Die Nachricht beinhaltet das Wort: „Party!" Die Nachricht wird mit lautstarker, freudiger Stimme aufgespro- chen.
Die Voicemessage (Spracheingabe a) wird in Form eines
Sprachsignals ßl (A/D-umgewandelt durch die Audio-Hardware 200 ) direkt auf den Server 110 übertragen, auf welchem auch die „Zoobe" Website gespeichert ist. Die Spracheingabe wird durch eine Spracherfassungseinheit in ein erstes Sprachsignal ßl transformiert. Aus dem ersten Sprachsignal ßl wird ein Merkmalsvektor μ mit bestimmten Sprachmerkmalen durch eine Sprachanalyseeinheit 30 erstellt. Die Sprachanalyseeinheit 30 ist Teil des Servers 110. Die oben genannten Spracheigenschaften (bspw. spektrale Koeffizienten) werden für alle Zeitfenster des Sprachsignals berechnet und in chronologischer Reihenfolge abgelegt. Es wird die Zweisilbigkeit der Nachricht erkannt. Auch wird das Phonem „a" mit seinem lang gezogenen Charakter erkannt. Ge- nauso das „y" .
Es erfolgt die Zuordnung der Sprachmerkmale δΐ, 62 des Merkmalsvektors μ zu bestimmten Bewegungsmustern (Animationsdaten) . Dabei werden die auf Speicher 70 in der Referenzliste 80 gespeicherten Bewegungsmuster εΐ, ε2 den detektierten
Sprachmerkmalen δΐ, δ2 zugewiesen. Dem lang gezogenen Phonem „a", bzw. dessen Merkmalen wird das Bewegungsmuster εΐ weit geöffneter Mund zugeordnet. Dem „y" ist ein leicht geöffneter, leicht gespreizter Mund als Bewegungsmuster ε2 zugeord- net, bei dem die Zähne zu sehen sind. Diese Animationsdaten (Bewegungsmuster εΐ und ε2) Formen durch Aneinanderreihung den Bewegungsablauf γ.
Der Bewegungsablauf γ wird nun auf den ausgewählten Avatar 50 übertragen mit Hilfe der Rechnereinheit 40 übertragen. Der Avatar 50 mit seinem zugewiesenen Bewegungsablauf γ bildet das Animationsskript 180. Der Avatar spiegelt den sprachlichen Inhalt (das Gesagte - Spracheingabe) und die Emotion, der Spracheingabe in Form von nonverbaler, bzw. verbalen Kom- munikation wider.
Über die Rechnereinheit 40 wird das gewählte Szenenskript 130, das automatisch erstellte Animationsskript 180 und der Vor- und Abspann 170 verarbeitet. Dabei wird der Bewegungsab- lauf γ an die Eingabezeit tl der Spracheingabe angepasst. Der Bewegungsablauf γ wird mit dem aufgezeichneten Sprachsignal ßl in identischer Länge tl unterlegt. Die Daten werden über den Renderer 100 gerendert und die entstandene Filmdatei, bzw. Videosequenz in einem Fenster 200 auf dem Bildschirm 160 des User-PCs 150 angezeigt. Der User bestätigt nun die Filmdatei. Der User gibt jetzt die Telefonnummern und/oder die Emailadressen der Empfänger in das auf der Website dafür vorgesehene Eingabefeld 190 ein und klickt auf versenden. Die Nachricht erscheint nun als Email oder MMS oder SMS oder SMS mit Downloadlink (auf welchem die Filmdatei hinterlegt ist) oder Applikation oder Videocall auf den Empfängergeräten (Handys oder andere Engeräte) der Empfänger.
Der Empfänger sieht nun den Inhalt der Message wie folgt: Der ausgewählte Avatar 50 des Users, betritt bspw. den Bildschirm des Empfängergerätes, positioniert sich in der Mitte des
Bildschirmes. Der Spot richtet sich auf den Avatar. Der Empfänger sieht, dass der Avatar auf einer Bühne steht. Der Avatar teilt mit freudigem Ausdruck in Form des Bewegungsablaufes γ seine Botschaft „Party!" mit der Stimme des Users mit. Dabei folgen die Mundbewegungen dem gesprochenen Wort. Bspw. öffnet sich dabei der Mund bei der Silbe „Par". Der Mund schließt sich bei der Silbe „ty" leicht und formt ein grinsen. Danach verlässt der Avatar die Bühne.
Bezugszeichenliste α Spracheingabe
ßl erstes Sprachsignal
ß2 zweites Sprachsignal
γ Bewegungsablauf des Avatars δ Sprachmerkmal
ε Bewegungsmuster
μ Merkmalsvektor
10 Sprachanalysesystem
20 Vorverarbeitungseinheit
30 Sprachanalyseeinheit
40 Rechnereinheit
50 Avatar
60 Filmdatei
70 Speicher
80 Referenzliste
90 Multiplikator
100 Renderer
110 Server
120 Website „ZOOBE"
130 Szenenskript
140 Mikrophon
150 PC
160 Bildschirm
170 Abspann, Vorspann
180 Animationsskript
190 Fenster
200 Audio-Hardware

Claims

Patentansprüche
1. Verfahren zur Zuordnung von Sprachmerkmalen zu Bewegungsmustern, umfassend die folgenden Schritte: a) Spracheingabe (a) in ein Sprachanalysesystem (10); b) Transformation der Spracheingabe (a) in ein erstes Sprachsignal (ßl) durch eine Spracherfassungseinheit d) Erstellen eines Merkmalsvektors (μ) aus dem ersten Sprachsignal (ßl) mit Sprachmerkmalen (δΐ, δ2, δ3, ...δη) durch eine Sprachanalyseeinheit (30); e) Zuordnung der Sprachmerkmale (δΐ, δ2, δ3, ...δη) des Merkmalsvektors (μ) zu Bewegungsmustern (εΐ, ε2, ε3, ... εη) durch eine Rechnereinheit (40), wobei die Zu Ordnung der Sprachmerkmale (δΐ, δ2 , δ3, ... δη) zu Bewegungsmustern (εΐ, ε2, ε3, ... εη) über direktes Feature-Mapping erfolgt;
2. Verfahren nach Anspruch 1, umfassend die zusätzlichen Schritte : f) Formen eines Bewegungsablaufes (γ) durch die Aneinan derreihung der Bewegungsmuster (εΐ, ε2, ε3, ... εη); g) Übertragung des Bewegungsablaufes (γ) auf einen Ava- tar (50);
3. Verfahren nach einem der vorherigen Ansprüche, wobei die Sprachmerkmale (61, 62, 63, ... 6n) prosodische und/oder segmentale und/oder supra-segmentale Merkmale sind.
4. Verfahren nach einem der vorherigen Ansprüche, umfassend den zusätzlichen Schritt: i) Rendern des Bewegungsablaufes (γ) des Avatars (50) in eine Filmdatei (60) oder eine Bildsequenz über einen Renderer (100);
5. Verfahren nach einem der vorherigen Ansprüche, umfassend den zusätzlichen Schritt: j) Elektronischer Versandt der Filmdatei (60) oder Bildsequenz;
6. Verfahren nach einem der vorherigen Ansprüche, wobei die Bewegungsmuster (εΐ, ε2, ε3, ... εη) gestische Elemente und/oder mimische Elemente und/oder Blickelemente beinhalten.
7. Verfahren nach einem der vorherigen Ansprüche, umfassend den zusätzlichen Schritt: bl) Geräusche und/oder die Annotation von Signalab- schnitten des Sprachsignals (ßl) werden durch die Vorverarbeitungseinheit erkannt.
8. Verfahren nach einem der vorherigen Ansprüche, umfassend den zusätzlichen Schritt:
c) Umwandlung des ersten Sprachsignals (ßl) in ein zweites Sprachsignal (ß2);
9. Verfahren nach einem der vorherigen Ansprüche, umfassend den zusätzlichen Schritt: h) Überlagern des Bewegungsablaufes (γ) des Avatars (50) mit dem ersten Sprachsignal (ßl) oder mit dem umgewandelten zweiten Sprachsignal (ß2);
10. Verfahren nach einem der vorherigen Ansprüche, umfassend den zusätzlichen Schritt: e) Verstärken einzelner oder aller Bewegungsmuster (εΐ, ε2, ε3, ... εη) durch einen Multiplikator (90);
PCT/EP2011/001424 2010-03-23 2011-03-22 Verfahren zur zuordnung von sprachmerkmalen zu bewegungsmustern WO2011116937A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
EP11714929A EP2572357A1 (de) 2010-03-23 2011-03-22 Verfahren zur zuordnung von sprachmerkmalen zu bewegungsmustern

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102010012427.3 2010-03-23
DE102010012427.3A DE102010012427B4 (de) 2010-03-23 2010-03-23 Verfahren zur Zuordnung von Sprachmerkmalen zu Bewegungsmustern

Publications (1)

Publication Number Publication Date
WO2011116937A1 true WO2011116937A1 (de) 2011-09-29

Family

ID=44310325

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2011/001424 WO2011116937A1 (de) 2010-03-23 2011-03-22 Verfahren zur zuordnung von sprachmerkmalen zu bewegungsmustern

Country Status (3)

Country Link
EP (1) EP2572357A1 (de)
DE (1) DE102010012427B4 (de)
WO (1) WO2011116937A1 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102015114216B4 (de) * 2015-08-27 2017-07-06 Til Gmbh Verfahren zur Kontrolle eines Lernerfolges

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0992933A2 (de) * 1998-10-09 2000-04-12 Mitsubishi Denki Kabushiki Kaisha Verfahren zur direkten Erzeugung realistischer Gesichtsanimation aus Sprache mittels verborgenen Markovmodells
DE60210295T2 (de) 2001-08-09 2006-12-07 Voicesense Ltd. Verfahren und vorrichtung zur sprachanalyse
DE69935909T2 (de) 1998-12-24 2008-01-10 Sony Corp. Vorrichtung zur Informationsverarbeitung

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5235489A (en) * 1991-06-28 1993-08-10 Sgs-Thomson Microelectronics, Inc. Integrated solution to high voltage load dump conditions
EP0543329B1 (de) * 1991-11-18 2002-02-06 Kabushiki Kaisha Toshiba Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung
US5734794A (en) * 1995-06-22 1998-03-31 White; Tom H. Method and system for voice-activated cell animation
GB2328849B (en) * 1997-07-25 2000-07-12 Motorola Inc Method and apparatus for animating virtual actors from linguistic representations of speech by using a neural network
WO2001038959A2 (en) * 1999-11-22 2001-05-31 Talkie, Inc. An apparatus and method for determining emotional and conceptual context from a user input
IL133797A (en) * 1999-12-29 2004-07-25 Speechview Ltd Apparatus and method for visible indication of speech
EP1326445B1 (de) * 2001-12-20 2008-01-23 Matsushita Electric Industrial Co., Ltd. Virtuelles Bildtelefon
CN100339885C (zh) * 2002-02-26 2007-09-26 Sap股份公司 智能个人助理
KR101015975B1 (ko) * 2008-07-29 2011-02-23 주식회사 제노웰 Ria 기반 인터페이스를 이용하여 캐릭터 동영상을생성하는 시스템 및 방법
DE102008045128A1 (de) * 2008-09-01 2010-03-04 Volkswagen Ag Informationsvermittlungseinrichtung in einem Fahrzeug zum grafischen Ausgeben von Information unter Verwendung eines an einen Zustand angepassten animierten anthropomorphen Charakters (Avatar)

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0992933A2 (de) * 1998-10-09 2000-04-12 Mitsubishi Denki Kabushiki Kaisha Verfahren zur direkten Erzeugung realistischer Gesichtsanimation aus Sprache mittels verborgenen Markovmodells
DE69935909T2 (de) 1998-12-24 2008-01-10 Sony Corp. Vorrichtung zur Informationsverarbeitung
DE60210295T2 (de) 2001-08-09 2006-12-07 Voicesense Ltd. Verfahren und vorrichtung zur sprachanalyse

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP2572357A1 *

Also Published As

Publication number Publication date
DE102010012427B4 (de) 2014-04-24
DE102010012427A1 (de) 2011-09-29
EP2572357A1 (de) 2013-03-27

Similar Documents

Publication Publication Date Title
WO2022048403A1 (zh) 基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端
Wood Willingness to communicate and second language speech fluency: An idiodynamic investigation
Chawla et al. Gesture and speech in spontaneous and rehearsed narratives
Busso et al. IEMOCAP: Interactive emotional dyadic motion capture database
Chou et al. NNIME: The NTHU-NTUA Chinese interactive multimodal emotion corpus
Albrecht et al. Automatic generation of non-verbal facial expressions from speech
WO2007098560A1 (en) An emotion recognition system and method
Kim et al. Hearing speech in noise: Seeing a loud talker is better
Heald et al. Talker variability in audio-visual speech perception
Dahmani et al. Conditional variational auto-encoder for text-driven expressive audiovisual speech synthesis
US11860925B2 (en) Human centered computing based digital persona generation
Priego-Valverde et al. “Cheese!”: a Corpus of Face-to-face French Interactions. A Case Study for Analyzing Smiling and Conversational Humor
Charalambous et al. Audio‐driven emotional speech animation for interactive virtual characters
Mattheij et al. Mirror mirror on the wall
Nordstrand et al. Measurements of articulatory variation in expressive speech for a set of Swedish vowels
Wolfe et al. State of the art and future challenges of the portrayal of facial nonmanual signals by signing avatar
Serra et al. A proposal for a visual speech animation system for European Portuguese
Perlman et al. Talking fast: The use of speech rate as iconic gesture
DE102010012427B4 (de) Verfahren zur Zuordnung von Sprachmerkmalen zu Bewegungsmustern
Geiger et al. Perceptual evaluation of video-realistic speech
Kirkland et al. Perception of smiling voice in spontaneous speech synthesis
Verma et al. Animating expressive faces across languages
Urbain et al. Laugh machine
Kolivand et al. Realistic lip syncing for virtual character using common viseme set
Krason et al. Mouth and facial informativeness norms for 2276 English words

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11714929

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2012145666

Country of ref document: RU

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 2011714929

Country of ref document: EP