WO2020170441A1 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
WO2020170441A1
WO2020170441A1 PCT/JP2019/006855 JP2019006855W WO2020170441A1 WO 2020170441 A1 WO2020170441 A1 WO 2020170441A1 JP 2019006855 W JP2019006855 W JP 2019006855W WO 2020170441 A1 WO2020170441 A1 WO 2020170441A1
Authority
WO
WIPO (PCT)
Prior art keywords
emotion
motion
character
utterance
utterance sentence
Prior art date
Application number
PCT/JP2019/006855
Other languages
English (en)
French (fr)
Inventor
長坂 英夫
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US17/430,755 priority Critical patent/US12002487B2/en
Priority to JP2021501268A priority patent/JPWO2020170441A1/ja
Priority to PCT/JP2019/006855 priority patent/WO2020170441A1/ja
Publication of WO2020170441A1 publication Critical patent/WO2020170441A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information

Definitions

  • the present disclosure relates to an information processing device, an information processing method, and a program.
  • a computer determines an emotion based on an utterance sentence analysis result performed on an utterance sentence of a character included in a scenario, and the utterance is determined according to the content of the utterance sentence and the determined emotion.
  • the present embodiment is a system that generates a motion (motion) of a character that is synchronized with a speech voice of the character.
  • a motion motion
  • the operation target for example, a 2D or 3D CG character (image), a robot (real object), or the like is assumed.
  • the motion generation system analyzes the utterance sentence, selects a pre-generated motion in accordance with the detected predetermined word or phrase, and automatically allocates the motion to reduce the motion generation load. It is possible to reduce. For example, in the case of an utterance sentence such as "I am you?", the natural language processing decomposes the words as follows, and the respective parts of speech are determined. ⁇ Word decomposition "I (pronoun) / and (case particle) / you (pronoun) / is (auxiliary verb) / ka (final particle)"
  • each motion is executed at the timing when the corresponding word of the utterance sentence is read out (the utterance voice of the character is output). This makes it possible to correspond to various sentences by creating motions corresponding to each word without having to generate a series of animations corresponding to the entire utterance sentence such as "I am you?" Therefore, the burden on the creator is reduced.
  • a plurality of motions corresponding to a predetermined word or phrase are prepared in advance, and an appropriate motion is appropriately selected and automatically assigned according to the character's emotion or emotional strength.
  • an appropriate motion is appropriately selected and automatically assigned according to the character's emotion or emotional strength.
  • FIG. 3 is a diagram showing an example of a plurality of motions corresponding to words/phrases.
  • a motion corresponding to "I am different" (or "Different") included in the utterance sentence such as "I am not", "(1) Shake your hands left and right in front of your body” (light denial) , "(2) Shake your head left and right” (normal denial) and “(3) Shake your hand left and right in front of your body and shake your head left and right” (strong denial).
  • the motion may be generated in advance, and may be selected according to the emotion of the character or the emotional intensity (intensity of “negative”).
  • a plurality of motions may be combined and used according to the emotion of the character and the emotion intensity. For example, only the actions (1) and (2) shown in FIG. 3 are generated in advance, and in the case of a strong negative, the action (3) obtained by combining (1) and (2) may be reflected in the character. Good.
  • FIG. 4 is a diagram illustrating a series of motions corresponding to words/phrases of a spoken sentence according to this embodiment. As shown in FIG. 4, for example, when there is a pose motion corresponding to the word "No. 1", the motion starts a little before the utterance of "No. 1", and the pose is started at the timing of starting to say "No. 1". It is desirable to complete it.
  • the timing to start quitting the pose may be slightly shifted. I started quitting before I finished saying "No. 1."
  • FIG. 1 is a block diagram showing a configuration example of the information processing device 20 according to the present embodiment.
  • the information processing device 20 includes a control unit 200, a communication unit 210, an input unit 220, an output unit 230, and a storage unit 240.
  • the control unit 200 functions as an arithmetic processing device and a control device, and controls the overall operation in the information processing device 20 according to various programs.
  • the control unit 200 is realized by an electronic circuit such as a CPU (Central Processing Unit) and a microprocessor. Further, the control unit 200 may include a ROM (Read Only Memory) that stores a program to be used, a calculation parameter, and the like, and a RAM (Random Access Memory) that temporarily stores parameters that appropriately change.
  • ROM Read Only Memory
  • RAM Random Access Memory
  • control unit 200 includes a character utterance sentence analysis unit 201, a tense analysis unit 202, an emotion expression extraction unit 203, an emotion determination unit 204, a response selection unit 205, a predetermined word/phrase detection unit 207, and a motion setting unit.
  • a character utterance sentence analysis unit 201 includes a character utterance sentence analysis unit 201, a tense analysis unit 202, an emotion expression extraction unit 203, an emotion determination unit 204, a response selection unit 205, a predetermined word/phrase detection unit 207, and a motion setting unit.
  • the utterance parameter setting unit 209, the scenario description unit 211, the user utterance recognition unit 214, the scenario control unit 215, and the character control unit 216 also function.
  • the character utterance sentence analysis unit 201 acquires the utterance sentence (text) of the character from the scenario data (see the scenario data storage unit 242) generated in advance, and extracts words and phrases (word decomposition by morphological analysis, determination of part of speech). Etc.), syntactic analysis, semantic analysis, and other natural language processing.
  • the scenario data is data including at least the utterance sentence (text) of the character.
  • the utterance of the character can be performed using, for example, "TTS (Text To Speech)" which is a function of reading a text by using voice synthesis.
  • the tense analysis unit 202 analyzes the tense of when to speak based on the analysis result of the utterance sentence. For example, when the word "past tense” is used, it is determined that the story is in the past, and when the word "present tense” is used, it is determined that the present story is being spoken. In addition, the tense analysis unit 202 uses words indicating the time included in the utterance sentence (for example, “Saki”, “Yesterday”, “One month ago”, “Last year”, “Very old”, “Tomorrow”, “Next week”). , “Next month”, “now”, etc.) may be used to determine the tense of the utterance.
  • the emotion expression extraction unit 203 extracts an emotion expression based on the analysis result of the utterance sentence. For example, a table in which emotions are associated with words expressing emotions (co-occurrence words) is prepared in advance (see emotion co-occurrence word DB 244), and emotion expressions are extracted from the words extracted from the utterance sentence. For example, the co-occurrence word for "joy” includes “fun, cheap, happy", and the like, and the co-occurrence word for "impairment” includes “sorry, thinking, and painful”.
  • the emotional expression set in advance is not particularly limited.
  • the method of classifying “emotion” is not particularly limited, but for example, eight basic emotions based on the ring of emotion by Robert Plutchik “joy, trust, worry, surprise, sadness, disgust, anger, prediction” And eight applied emotions “optimism, love, obedience, awe, pessimism, regret, contempt, attack” consisting of a combination of two basic emotions may be used.
  • the emotion determination unit 204 determines the emotion of the character based on the analysis result of the utterance sentence. Specifically, the emotion determination unit 204 may use the extraction result of the emotion expression extraction unit 203 as the final determination result of the character emotion.
  • the emotion determination unit 204 determines a change in the degree of emotion or a change in emotion type according to the tense as described above based on how far the time of occurrence of the emotion and the current distance are. Good.
  • the emotion determination unit 204 can determine from the semantic analysis of the utterance sentence (such as the context before and after) that the old emotion is remembered and is still sad now, the emotion determination unit 204 should use the “current” tense as an exception. May be.
  • the emotion determination unit 204 may change the degree of emotion or the type of emotion when the expression of “hearing” or “estimation” is used for the word that expresses emotion, because the emotion is not the emotion of the character itself. ..
  • people talk about other people, such as others when they express their feelings ("You seem to have had something sad about you,” “What happened? Are you sad?") You don't always have the same feelings. There are times when the person himself becomes sad while talking, "I think he had something sad about him.” In some cases, it is normal just by telling him as a hearsay, and in some cases he is curious and has a pleasant feeling.
  • estimate is used for emotional expression is assumed to be, for example, predicting the emotional state of a conversation partner (user, etc.).
  • Table 3 shows an example of changes in emotions when expressions such as “hearing” and “estimation” are used in the words that express emotions.
  • the method of acquiring the intimacy (relationship) between the character and the user is not particularly limited, but, for example, the number of conversations between the character and the user or the accumulation of conversation time, the content of the conversation (the number of questions to the other party, etc.), start Can be obtained according to the time from, the degree of progress of the scenario, and the like.
  • FIG. 5 shows an example of selecting a type of response attitude according to the degree of intimacy according to the present embodiment.
  • the distribution of response types may be set for each character.
  • the response type normal response, normal response, or normal response, on the vertical axis indicating good/bad emotions and the horizontal axis indicating deep/shallow relationship (intimacy) between the user and the character.
  • a little good response, a little bad response, a very good response, a little good response, a very bad response are mapped (such data can be preset as a character profile).
  • the predetermined word/phrase detection unit 207 detects a predetermined word (pre-generated motion) or phrase based on the analysis result of the utterance sentence. Specifically, the predetermined word/phrase detection unit 207, the words and phrases decomposed by the character utterance sentence analysis unit 201, and the motion information stored in the motion information database 246 (information of motion corresponding to the word/phrase). And are compared with each other to detect a predetermined word or phrase. At this time, the predetermined word/phrase detection unit 207 detects the predetermined word or phrase by considering the part of speech of the word or the combination of the parts of speech included in the phrase.
  • default actions may be set for connectives, exclamations, final particles, and exclamation marks, and custom actions may be set for each character with respect to other parts of speech, definite speech, and the like. ..
  • the motion setting unit 208 refers to the motion information and sets the motion corresponding to the predetermined word/phrase detected by the predetermined word/phrase detection unit 207. Further, the motion setting unit 208 according to the present embodiment further sets the motion to be assigned in consideration of the emotion determined by the emotion determination unit 204. In the motion information, one or a plurality of motions are defined in advance for one predetermined word or phrase, and a desired emotion is associated with each of the plurality of motions.
  • FIG. 6 is a diagram illustrating continuation of the emotion of the character based on the utterance sentence according to the present embodiment.
  • the emotion determination unit 204 determines the emotion of “joy” based on the utterance sentence “super happy!” of the character, after that, for a certain period of time, a predetermined number of utterances, or the next The emotion of "joy” is considered to continue until the emotion appears (in the example shown in FIG. 6, the emotion of "anger” is generated based on the utterance sentence of "Fuzakenna (anger)").
  • Table 2 below shows an example of motion information stored in the motion information database 246.
  • Table 4 below is an example of a motion for each emotion corresponding to the utterance word "No. 1" used as a noun in the utterance sentence.
  • FIG. 7 shows an example of each set operation.
  • the motion setting unit 208 indicates “ “Raise your arm, straighten it, and raise your index finger” (see the operation shown on the left side of FIG. 7).
  • the emotion determination unit 204 determines that the character emotion is “reliable (weak)” as the motion corresponding to “most (part of speech: noun)” detected from the utterance sentence
  • the motion setting unit 208 “Operation of raising index finger in front of chest” (see operation shown on the right side of FIG. 7).
  • Table 5 below shows an example of other motion information stored in the motion information database 246.
  • Table 5 below is an example of a motion for each emotion, which corresponds to the utterance word "yes" used as a touch verb indicating a response in the utterance sentence.
  • the emotion determined by the emotion determination unit 204 may attenuate the degree of the emotion as time passes and the number of utterances. For example, as shown in FIG. 8, after the emotion of "joy” is generated based on a certain utterance sentence, the emotional degree of "joy” is attenuated according to the passage of time (and the number of utterances), and the emotion level of "joy” falls below a certain threshold. If so, the emotion may be determined to be “normal”. For example, a character who was angry in the morning is in a mood in the evening.
  • the motion setting unit 208 is a motion corresponding to “joy (weak)” (because the emotion level is attenuated) (for example, Table 4 above). (“Raising the arm to the face position and raising the index finger”), as shown in the example).
  • the emotion of "anger” is subsequently determined along with the passage of time and the number of utterances. The degree decreases. Then, the motion corresponding to “No. 1” of the next character utterance “No. 1 tte na yo” is “None” in the example illustrated in Table 4 above when the character's emotion is “anger (strong)”. Therefore, the motion setting unit 208 does not give a motion to the character.
  • the motion setting unit 208 does not give a motion to the character. Then, as time passes, the motion corresponding to the utterance sentence "Yeah” in a state where the emotional level of "anger” falls below the threshold value and becomes "normal”, for example, in the example illustrated in Table 4 above, "Nod” Operation”.
  • the motion setting unit 208 considers “joy (weak)” and, for example, “arm Raise to the position of your face and raise your index finger”.
  • the motion setting unit 208 may adjust the strength of the set motion according to the response type selected by the response selecting unit 205. For example, since the emotion of the character is “joy” and the relation is deep, when “very good response” is selected, the strength of the motion assigned based on the utterance and emotion is increased. Specifically, for example, in the case of a nod motion, the strength of the motion can be strengthened by making the nod larger (adjusting the moving width) or making the nod earlier (adjusting the moving speed).
  • the strength of motion may be set based on the spoken word. For example, when a word to which a motion is assigned, such as “great” or “very”, is modified by a word (adverb, adjective) indicating emphasis, the motion setting unit 208 enhances the motion.
  • the parameter of what case and how much the strength of the motion is increased may be defined in advance.
  • the motion setting unit 208 extracts a predetermined word or phrase from a name (that is, a proper noun) such as a utterance of a music name when introducing a song by a character, an utterance of a product name when introducing a product, and an utterance of a store name when introducing a store. If detected, it is not desirable to assign motions when speaking these names, so motion setting may not be performed. Further, the motion setting unit 208 may present a plurality of motion candidates corresponding to a predetermined word/phrase to the user and allocate the motion selected by the user. For example, the motion setting unit 208 can also present one or more motion candidates prepared for each emotion corresponding to a predetermined word/phrase and select a motion to be assigned.
  • a name that is, a proper noun
  • the utterance parameter setting unit 209 The utterance parameter setting unit 209, according to the emotion determined by the emotion determination unit 204 and the response type selected by the response selection unit 205, a voice utterance parameter, specifically, the tempo (reading speed) of the utterance, Set the voice tone (voice pitch, voice type), volume, etc.
  • the utterance parameter setting unit 209 may also set the utterance parameter based on, for example, a predetermined exclamation mark or an adverb according to the analysis result of the utterance sentence.
  • motion includes facial expressions (including movements of eyes and mouth) as well as movements of various parts of the body such as hands, arms, head, upper body, whole body, and feet. May be In addition, the facial expression may be separately set in advance.
  • the motion setting unit 208 and the utterance parameter setting unit 209 may adjust the motion setting and the utterance parameter setting according to the facial expression of the character set in advance for the utterance sentence. For example, since the motions when happy are usually large and the motions when sad are small, the motion setting unit 208 makes motions according to the set facial expression (smile, troubled face, crying face, etc.). May be adjusted in intensity. Further, normally, when the facial expression is dark, the voice is depressed, and when the facial expression is bright, the voice is also bright. Therefore, the utterance parameter setting unit 209 may change the tone and volume of the voice according to the set facial expression.
  • the recorded voice is converted into text by voice recognition
  • the text data that is, the utterance sentence
  • the character utterance sentence analysis unit 201 the emotion determination and the motion setting are performed as in the above-described example.
  • the description may be added to the scenario.
  • the emotion determination unit 204 can also obtain an emotion from the expression (voice tone, voice quality, breathing, speaking speed, etc.) of the recorded voice. Further, the emotion determination unit 204 may prioritize the emotion obtained by analyzing the utterance sentence when the emotion is obtained from the recorded voice.
  • the emotion determination in the emotion determination unit 204 according to the present system is basically performed based on the analysis of the utterance sentence, but the present embodiment is not limited to this, and for example, an external input to the information processing device 20 is performed. You may make it based on this.
  • the emotion determination unit 204 may determine the emotion of the character according to how the user touches the character (image or robot) (skinship) or the uttered words.
  • the skinship to the character can be detected by a touch sensor or the like, and the speech to the character can be picked up by a microphone.
  • the emotion determination unit 204 determines that the character's emotion is negative when a negative input such as an action such as hitting or hitting the character or an aggressive statement is made.
  • the emotion determination unit 204 determines that the character's emotion is positive when a positive input such as an action such as gently stroking the character or a praise is made.
  • the scenario control unit 215 selects and generates a response (spoken sentence) of the character to the recognized speech of the user based on the scenario.
  • the utterance of the character is not limited to the one triggered by the user's utterance, and may be started according to a scenario according to the place, time, situation, and the like.
  • the motion corresponding to the utterance sentence is already described in the scenario by the scenario description unit 211, as described above.
  • the communication unit 210 communicates with an external device by wire or wirelessly and transmits/receives data.
  • the communication unit 210 is, for example, a wired/wireless LAN (Local Area Network), or Wi-Fi (registered trademark), Bluetooth (registered trademark), a mobile communication network (LTE (Long Term Evolution), 3G (third generation mobile unit). Communication system)), etc., for communication connection with an external device.
  • the information processing device 20 can perform communication connection with a server on the network through the communication unit 210 to acquire scenario data or the like.
  • the output unit 230 is a device that outputs from the information processing device 20.
  • the output unit 230 may be a display unit, a projector, or an audio output unit (speaker).
  • the display unit may be a display device such as a liquid crystal display (LCD) or an organic EL (Electroluminescence) display.
  • the output unit 230 can display the character by an image or a sound under the control of the character control unit 216.
  • the storage unit 240 is realized by a ROM (Read Only Memory) that stores programs and calculation parameters used in the processing of the control unit 200, and a RAM (Random Access Memory) that temporarily stores parameters that appropriately change.
  • ROM Read Only Memory
  • RAM Random Access Memory
  • the storage unit 240 stores a scenario data storage unit 242, an emotion co-occurrence word database 244, and a motion information database 246.
  • the scenario data storage unit 242 stores the scenario data including the utterance sentence.
  • the emotion co-occurrence word database 244 stores data of co-occurrence words (or phrases) associated with emotions.
  • the motion information database 246 stores motion information (motion information to be performed by the character) for each emotion corresponding to a word or a phrase.
  • the configuration of the information processing device 20 according to this embodiment has been specifically described above.
  • the configuration of the information processing device 20 according to the present embodiment is not limited to the example shown in FIG.
  • the functional configuration shown in FIG. 1 may not include the tense analysis unit 202, the response selection unit 205, and the utterance parameter setting unit 209.
  • the user utterance recognition unit 214, the scenario control unit 215, and the character control unit 216 which are functional configurations related to scenario control (scenario execution), may be provided in another device.
  • each database included in the storage unit 240 may be stored in an external device such as a server on the network.
  • the information processing device 20 may be composed of a plurality of devices.
  • the information processing device 20 may be, for example, a PC, a smartphone, a tablet terminal, a mobile phone terminal, a mobile game machine, a projector, a television device, a transparent or non-transparent HMD (Head Mounted Display), a robot, or the like. Good.
  • the input unit 220 and the output unit 230 may be provided in an external device.
  • the information processing device 20 is a PC, a smartphone, a server, or the like, and is communicatively connected to an external device (smartphone, projector, HMD, robot, etc.) that displays a character, and the utterance voice data and motion video data of the character You may make it transmit the character control signal containing.
  • FIG. 12 is a flowchart showing an example of the overall flow of the motion generation system according to this embodiment.
  • the tense analysis unit 202 analyzes the tense of the utterance sentence (step S109).
  • the emotion determination unit 204 determines the emotion of the character in consideration of the emotion expression extraction result and the tense analysis result (step S112).
  • the response selection unit 205 selects a response type based on the familiarity of the character with the user (step S115).
  • the utterance parameter setting unit 209 sets utterance parameters such as setting the tone of the voice of the entire utterance sentence and setting the volume of the voice of the entire utterance sentence based on the determined emotion and the selected response type. (Steps S118 and S121).
  • the predetermined word/phrase detection unit 207 refers to the motion information database 246 based on the analysis result of the utterance sentence, and detects a predetermined word to which motion is assigned (step S124). At this time, the predetermined word/syllable detection unit 207 also specifies the part of speech of the word and the position in the uttered sentence.
  • the emotional expression extraction unit 203 of the information processing device 20 determines the character's utterance sentence and motion (as described above, already described in the scenario) based on the scenario, and the character control unit 216. Is designated (step S203).
  • the user utterance recognition unit 214 performs voice recognition from the voice data that picks up the user utterance (step S209).
  • the scenario control unit 215 selects (identifies) the utterance sentence (response) of the character in response to the user's utterance from the scenario (step S212), and similarly to step S203, the utterance sentence and motion of the character
  • the control unit 216 is designated (step S215).
  • step S206 the character control unit 216 reads out the designated utterance sentence by the TTS function or the like and outputs the utterance voice from the speaker, or reproduces the corresponding motion video in synchronization with the output of the utterance voice. Control is performed (step S218).
  • the character's conversation can be controlled based on the scenario.
  • the character may unilaterally speak according to the progress of the game or the like.
  • the character may automatically speak according to the position and situation of the user.
  • the emotion of the character is determined, and for a predetermined word or phrase extracted from the utterance sentence of the character, the motion is selected according to the determined emotion. This makes it possible to assign a more natural motion that reflects the emotion of the character.
  • the effects described in the present specification are merely explanatory or exemplifying ones, and are not limiting. That is, the technique according to the present disclosure can exert other effects that are apparent to those skilled in the art from the description of the present specification, in addition to or instead of the above effects.
  • Emotion is judged based on the utterance sentence analysis result performed for the utterance sentence of the character included in the scenario, According to the content of the utterance sentence and the determined emotion, select the motion of the character synchronized with the utterance sentence,
  • An information processing apparatus comprising: a control unit that performs a process of adding a description for matching the expression of the selected motion with the voice output timing of the utterance sentence to the scenario.
  • the control unit selects a motion associated with the determined emotion from among emotion-based motions associated with the word according to the word detected from the utterance and the part of speech of the word, The information processing device according to (1).
  • control unit adjusts the strength of the motion according to the degree of intimacy between the character and the user.
  • control unit refers to a database of co-occurrence words corresponding to emotions and determines an emotion corresponding to a word detected from the utterance sentence as an emotion of the character.
  • the control unit is Analyze the tense based on the utterance sentence analysis result of the utterance sentence, The information processing apparatus according to (4), wherein the degree of emotion corresponding to the word is changed or the emotion of the character is changed according to the tense.
  • the control unit is The information processing apparatus according to any one of (1) to (8), which sets a utterance voice parameter when voice-outputting the utterance sentence according to the emotion.
  • the control unit is The information processing apparatus according to any one of (1) to (8), wherein the utterance voice parameter for voice output of the utterance sentence is set according to a word used in the utterance sentence.
  • the control unit is The information processing apparatus according to (9) or (10), which performs a process of adding a description in which the set utterance voice parameter is associated with the utterance sentence to the scenario.
  • control unit 201 character utterance sentence analysis unit 202 tense analysis unit 203 emotion expression extraction unit 204 emotion determination unit 205 response selection unit 207 predetermined word/phrase detection unit 208 motion setting unit 209 utterance parameter setting unit 210 communication unit 211 Scenario description unit 214 User speech recognition unit 215 Scenario control unit 216 Character control unit 220 Input unit 230 Output unit 240 Storage unit 242 Scenario data storage unit 244 Emotion co-occurrence word database 246 Motion information database

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Child & Adolescent Psychology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)
  • Machine Translation (AREA)

Abstract

【課題】キャラクタの感情を反映したより自然なモーションを割当てることが可能な情報処理装置、情報処理方法、およびプログラムを提供する。 【解決手段】シナリオに含まれるキャラクタの発話文に対して行った発話文解析結果に基づいて感情を判定し、前記発話文の内容と前記判定した感情に応じて、前記発話文と同期する前記キャラクタのモーションを選択し、前記選択したモーションの表出を前記発話文の音声出力タイミングに合わせるための記述を前記シナリオに追加する処理を行う制御部を備える、情報処理装置。

Description

情報処理装置、情報処理方法、およびプログラム
 本開示は、情報処理装置、情報処理方法、およびプログラムに関する。
 従来、CG(コンピュータグラフィックス)キャラクタ等を用いたアニメーション等の制作では、キャラクタの動作を再現するモーションデータを生成するには、高い専門性と長い制作時間を必要としていた。
 下記特許文献1では、CGキャラクタによる手話アニメーションの生成において、入力したテキストに含まれる単語に対応した動作を定義したマクロデータのパラメータを調整することで、入力文章に対応した自然なモーション映像を生成する技術が開示されている。
特開2014-109988号公報
 しかしながら、同じ単語であっても、その時の発話者の感情によって動作が異なるように、予め単語に紐付けた一の動作を割当てるだけでは、キャラクタの発話と連動する動作として不十分といえる。
 本開示によれば、シナリオに含まれるキャラクタの発話文に対して行った発話文解析結果に基づいて感情を判定し、前記発話文の内容と前記判定した感情に応じて、前記発話文と同期する前記キャラクタのモーションを選択し、前記選択したモーションの表出を前記発話文の音声出力タイミングに合わせるための記述を前記シナリオに追加する処理を行う制御部を備える、情報処理装置を提案する。
 本開示によれば、プロセッサが、シナリオに含まれるキャラクタの発話文に対して行った発話文解析結果に基づいて感情を判定することと、前記発話文の内容と前記判定した感情に応じて、前記発話文と同期する前記キャラクタのモーションを選択することと、前記選択したモーションの表出を前記発話文の音声出力タイミングに合わせるための記述を前記シナリオに追加する処理を行うことと、を含む、情報処理方法を提案する。
 本開示によれば、コンピュータを、シナリオに含まれるキャラクタの発話文に対して行った発話文解析結果に基づいて感情を判定し、前記発話文の内容と前記判定した感情に応じて、前記発話文と同期する前記キャラクタのモーションを選択し、前記選択したモーションの表出を前記発話文の音声出力タイミングに合わせるための記述を前記シナリオに追加する処理を行う制御部として機能させるための、プログラムを提案する。
本実施形態による情報処理装置の構成例を示すブロック図である。 本実施形態による発話文の単語/文節に割り当てられるモーションについて説明する図である。 本実施形態による発話文の単語/文節に対応する複数のモーションについて説明する図である。 本実施形態による発話文の単語/文節に対応する一連のモーションについて説明する図である。 本実施形態による親密度に応じた応答態度の種類選択について説明する図である。 本実施形態による発話文に基づくキャラクタの感情の継続について説明する図である。 本実施形態による名詞の「1番」に対応する感情別のモーションの一例を示す図である。 本実施形態による時間経過や発話数に応じて感情の度合いが減衰する場合について説明する図である。 本実施形態による時間経過や発話数に応じて感情の度合いを減衰させている際に同一の感情が再度発生した場合について説明する図である。 本実施形態によるキャラクタの発話文から検出された単語に対応して感情度合いに応じて割り当てられるモーションの具体例について示す図である。 本実施形態によるキャラクタの発話文から検出された単語に対応して、時制を考慮した感情度合いに応じて割り当てられるモーションの他の具体例について示す図である。 本実施形態によるモーション生成システムの全体の流れの一例を示すフローチャートである。 本実施形態によるシナリオ制御処理の一例を示すシーケンス図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 また、説明は以下の順序で行うものとする。
 1.本開示の一実施形態による発話文に対応するモーション生成システムの概要
 2.情報処理装置20の構成例
 3.動作処理
 (3-1.モーション生成処理)
 (3-2.シナリオ制御処理)
 4.まとめ
 <1.本開示の一実施形態による発話文に対応するモーション生成システムの概要>
 本実施形態は、キャラクタの発話音声に同期するキャラクタの動作(モーション)を生成するシステムである。動作対象としては、例えば2Dまたは3DのCGキャラクタ(画像)や、ロボット(実物体)等が想定される。
 しかしながら、予め生成されたキャラクタの発話文に対応するモーション(CGキャラクタの場合はアニメーション)の生成に関し、発話全体に対応する動画として生成する方法の場合、限りなく工数が掛かり、制作者への負担が増大する。
 そこで、本実施形態によるモーション生成システムでは、発話文を解析し、検出された所定の単語や文節に応じて、予め生成されたモーションを選択し、自動的に割り振ることで、モーションの生成負担を軽減することを可能とする。例えば、「私とあなたですか」といった発話文の場合、自然言語処理により、下記のように単語分解され、それぞれの品詞が判定される。
・単語分解
 「私(代名詞)/と(格助詞)/あなた(代名詞)/です(助動詞)/か(終助詞)」
 この場合、本実施形態では、予め生成された、単語に応じたモーション情報に基づいて、図2に示すようなモーションを割当てることが可能となる。ここでは、例えば、代名詞の『私』の場合に割り当てる「手のひらをキャラクタ側に向けてキャラクタの体に軽くつける」動作のアニメーションと、代名詞の『あなた』の場合に割り当てる「キャラクタの体の前で手のひらを上に向けて手全体で相手を指す」動作のアニメーションと、『疑問』の意味で用いられる終助詞に割り当てる「頭を右に傾ける」動作のアニメーションとが予め生成され登録されている場合を想定する。この場合、図2に示すように、発話文の該当する単語が読み上げられる(キャラクタの発話音声が出力される)タイミングで(同期して)、各モーションが実行される。これにより、「私とあなたですか」といった発話文全体に対応する一連のアニメーションを生成する必要なく、各単語に対応するモーションを作成しておくことで、様々な文章に適宜対応することが可能となり、制作者への負担が軽減する。
 また、各単語に対応するモーションの作成では、品詞ごとに単語をグルーピングしてラベルをつけ、グループ毎にモーションを設定するようにしてもよい。モーションを発話語に割り当てる際は、発話語からラベルを参照し、ラベルに対応するモーションを参照する。また、モーションはキャラクタの身体の各部位毎に設定し、組み合わせて割り当てることで、モーション全体の作成数を減らすことができる。グループに対応するモーションの一例を、下記表1に示す。
Figure JPOXMLDOC01-appb-T000001
 ここで、同じ単語や文節であっても、「楽しい時」と「悲しい時」では、発話中の人間の動作が変わる様に、単純に単語や文節に紐付けられた一の動作を割当てるだけではキャラクタの発話と連動する動作として不十分といえる。これに対し、本実施形態によるモーション生成システムでは、さらにキャラクタの感情を判定し、検出された所定の単語または文節と、判定された感情に応じて、キャラクタに割当てるモーションを選択することで、キャラクタの感情を反映したより自然なモーションを割当てることが可能となる。
 例えば、本システムでは、予め所定の単語または文節に対応するモーションを複数準備し、キャラクタの感情や感情の強度に応じて、適宜適切なモーションを選択して自動的に割り当てるようにする。以下、図3を参照して説明する。
 図3は、単語/文節に対応する複数のモーションの一例について示す図である。例えば「私は違います」といった発話文に含まれる「違います」(または、「違う」)に対応するモーションとして、「(1)手を体の前で左右に振る」動作(軽い否定)と、「(2)頭を左右に振る」動作(通常の否定)と、「(3)手を体の前で左右に振ると共に頭を左右に振る」動作(強い否定)と、といった3種類のモーションを予め生成し、キャラクタの感情や感情の強度(「否定」の強さ)に応じて選択するようにしてもよい。また、本システムでは、キャラクタの感情や感情の強度に応じて、複数のモーションを組み合わせて用いてもよい。例えば図3に示す(1)と(2)の動作だけを予め生成し、強い否定の場合は、(1)と(2)を組み合わせた(3)の動作をキャラクタに反映させるようにしてもよい。
 また、本システムでは、発話文の単語/文節に対応するモーションには、動作開始からポーズを取りポーズを辞めるといった一連の動作も想定される。この場合、対象の単語/文節が発話されるタイミングキャラクタにポーズを取らせることが望ましい。図4は、本実施形態による発話文の単語/文節に対応する一連のモーションについて説明する図である。図4に示すように、例えば「1番」という単語に対応するポーズのモーションがある場合、動作の開始は「1番」の発話少し前から始まり、「1番」と言い始めるタイミングでポーズが完成することが望ましい。また、ポーズが大きくなるとポーズの初めから終わりまである程度の時間が掛かり、単語発話区間で動作が終わらない場合もあるため、本システムでは、ポーズを辞め始めるタイミングを少しずらすようにしてもよい(「1番」と言い終わる前に辞め始めるなど)。
 以上、本開示の一実施形態による発話文に対応するモーション生成システムの概要について説明した。続いて、本実施形態による発話文に対応するモーション生成システムを実現する情報処理装置20の構成について、図面を参照して説明する。
 <2.情報処理装置20の構成例>
 図1は、本実施形態による情報処理装置20の構成例を示すブロック図である。図1に示すように、情報処理装置20は、制御部200、通信部210、入力部220、出力部230、および記憶部240を有する。
 (2-1.制御部200)
 制御部200は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置20内の動作全般を制御する。制御部200は、例えばCPU(Central Processing Unit)、マイクロプロセッサ等の電子回路によって実現される。また、制御部200は、使用するプログラムや演算パラメータ等を記憶するROM(Read Only Memory)、及び適宜変化するパラメータ等を一時記憶するRAM(Random Access Memory)を含んでいてもよい。
 また、本実施形態による制御部200は、キャラクタ発話文解析部201、時制分析部202、感情表現抽出部203、感情判定部204、応答選択部205、所定単語・文節検出部207、モーション設定部208、発話パラメータ設定部209、シナリオ記述部211、ユーザ発話認識部214、シナリオ制御部215、およびキャラクタ制御部216としても機能する。
 (キャラクタ発話文解析部201)
 キャラクタ発話文解析部201は、予め生成されたシナリオデータ(シナリオデータ記憶部242参照)からキャラクタの発話文(テキスト)を取得し、単語や文節の抽出(形態素解析による単語の分解、品詞の判定など)、構文解析、意味解析などの自然言語処理を行う。ここで、シナリオデータとは、キャラクタの発話文(テキスト)を少なくとも含むデータである。キャラクタの発話は、例えば音声合成を利用してテキストを読み上げる機能である「TTS(Text To Speech)」を用いて行われ得る。
 (時制分析部202)
 時制分析部202は、発話文の解析結果に基づいて、いつのことを話しているのか、その時制を分析する。例えば「過去形」の単語が用いられている場合は過去の話をしていると判定し、「現在形」の単語が用いられている場合は現在の話をしていると判定する。また、時制分析部202は、発話文に含まれる時期を示す単語(例えば、「さっき」、「昨日」、「1か月前」、「去年」、「すごく昔」、「明日」、「来週」、「来月」、「今」など)によって発話文の時制を判定してもよい。
 (感情表現抽出部203)
 感情表現抽出部203は、発話文の解析結果に基づいて、感情表現を抽出する。例えば、感情と、感情を表現する単語(共起単語)とを対応付けたテーブルを予め用意し(感情共起単語DB244参照)、発話文から抽出された単語から、感情表現を抽出する。例えば『喜び』の共起単語としては「楽しい、安い、うれしい」等が挙げられ、『焦り』の共起単語としては「ごめん、考える、苦しい」等が挙げられる。なお、予め設定する感情表現は特に限定しない。
 また、本実施形態において、「感情」の分類方法は特に限定しないが、例えば、Robert Plutchikによる感情の輪に基づく8つの基本感情「喜び、信頼、心配、驚き、悲しみ、嫌悪、怒り、予測」と、基本感情2つの組み合わせからなる8つの応用感情「楽観、愛、従順、畏敬、悲観、後悔、軽蔑、攻撃」を用いてもよい。
 (感情判定部204)
 感情判定部204は、発話文の解析結果に基づいて、キャラクタの感情を判定する。具体的には、感情判定部204は、感情表現抽出部203による抽出結果を、キャラクタ感情の最終的な判定結果としてもよい。
 また、感情判定部204は、さらに時制分析部202による発話文の時制の分析結果を考慮して最終的な感情判定を行ってもよい。すなわち、時制によっては、感情の種類や度合いが変化する場合がある。例えば、人は過去の失敗談などの悲しい出来事(悲しい感情が発生した出来事)を笑い話として話す場合がある。このように過去の感情は例外を除いて時間が経つほど薄れたり変化したりするため、キャラクタの感情を判定する際も、時制に応じてその度合いを調整したり、感情を変化させることで、より自然なモーションを割当てることが可能となる。時制に応じた感情変化の一例を、下記表2に示す。
Figure JPOXMLDOC01-appb-T000002
 また、感情判定部204は、以上説明したような時制に応じた感情度合いの変化や感情種類の変化を、その感情の発生時点と現在がどの程度時間的に離れているかに基づいて判定してもよい。
 また、感情判定部204は、昔の感情を思い出して現在も悲しくなっていることが発話文の意味解析(前後の文脈など)から判断できる場合は、例外として「現在」の時制で捉えるようにしてもよい。
 また、感情判定部204は、感情を表す言葉に「伝聞」や「推定」の表現が用いられている場合、キャラクタ自身の感情ではないため、感情の度合いや感情の種類を変化させてもよい。人は、他人など自分以外の人について話している際の感情表現(「○○さんに悲しいことがあったみたいだよ」、「どうしたの?悲しいの?」など)を行う際、必ずしも自分自身が同じ感情になるとは限らない。「○○さんに悲しいことがあったみたいだよ」と話しながら本人も悲しむこともあれば、単に伝聞として伝えるだけで平常な場合もあるし、好奇心などから楽しい気持ちになる場合もある。どのような感情になるかは、対象の人物との関係性(仲の良さ、顔見知りか否かなど)や、その人の性格などによって異なる。そこで、キャラクタの感情を発話文から判定する際も、「伝聞」や「推定」の表現が用いられている場合、感情度合いや感情種類を変化させるようにすることで、よりリアルな感情に応じたモーションを割当てることが可能となる。どのような時にどのような感情の変化が生じるかについては、キャラクタプロファイルとして、キャラクタ毎に予め設定されていてもよい。
 感情表現に「推定」が用いられている場合とは、例えば会話相手(ユーザなど)の心情を予測している場合などが想定される。
 ここで、感情を表す言葉に「伝聞」や「推定」の表現が用いられている場合の感情変化の一例を、下記表3に示す。
Figure JPOXMLDOC01-appb-T000003
 (応答選択部205)
 キャラクタに応答態度が設定され、キャラクタとユーザとの親密度(関係性)が取得できる場合、応答選択部205は、キャラクタとユーザとの親密度(関係性)に応じて、キャラクタの応答態度を選択する。例えば、キャラクタとユーザが仲良くなって親密度が高くなる程(関係性が良くなる程)、同じ感情であっても、より良い応答態度(例えば、感情をオープンにした素直な態度など)でキャラクタを動作させることが可能となる。キャラクタとユーザとの親密度(関係性)の取得方法は特に限定しないが、例えば、キャラクタとユーザとの会話数または会話時間の蓄積や、会話の内容(相手への質問の回数など)、開始からの時間、シナリオの進行度合い等に応じて取得され得る。
 ここで、図5に、本実施形態による親密度に応じた応答態度の種類選択の一例について示す。応答種類の分布は、キャラクタ毎に設定されてもよい。
 図5に示すように、感情の良い/悪いを示す縦軸と、ユーザとキャラクタの関係性(親密度)の深い/浅いを示す横軸とで示されるグラフ上に、応答種類(普通応答、少し良い応答、少し悪い応答、すごく良い応答、少し良い応答、すごく悪い応答)がマッピングされる(かかるデータは、キャラクタのプロファイルとして予め設定され得る)。
 応答選択部205は、感情判定部204により判定された感情と、ユーザとキャラクタの親密度に応じて、応答種類を選択し得る。選択された応答種類は、後述するモーション設定部208におけるモーションの設定や、発話パラメータ設定部209における発話パラメータの設定で考慮され得る。例えば「普通応答」の場合は冷静な態度、「少し良い応答」の場合は多少感情を表現する態度、「少し悪い応答」の場合は少し怒っているが我慢もしている態度、「すごく良い応答」の場合は仲が良いので感情全開な態度、「少し良い応答」の場合は仲が良いのでいつも応答はよい態度、「すごく悪い応答」の場合は信頼しているため感情を出す態度になるよう、キャラクタの動作や発話を制御することが望ましい。
 (所定単語・文節検出部207)
 所定単語・文節検出部207は、発話文の解析結果に基づいて、所定の(モーションが予め生成された)単語または文節を検出する。具体的には、所定単語・文節検出部207は、キャラクタ発話文解析部201により分解された単語や文節と、モーション情報データベース246に記憶されたモーション情報(単語/文節に対応するモーションの情報)とを比較し、所定の単語や文節を検出する。この際、所定単語・文節検出部207は、単語の品詞や、文節に含まれる品詞の組み合わせも考慮して所定の単語や文節を検出する。検出する単語の品詞としては、例えば、動詞、名詞、形容詞、数詞+助数詞、接続詞、感嘆詞、終助詞、副詞が挙げられる。また、検出される所定の単語には、感嘆符、擬音語、記号、決め台詞(キャラクタ特有のフレーズなど)も含まれ得る。また、所定単語・文節検出部207は、発話文において検出した所定の単語や文節の位置(発話開始からの経過時間であってもよいし、順番(何単語目など)であってもよい)を特定する。
 なお、本システムでは、接続詞、感嘆詞、終助詞、および感嘆符についてはデフォルトの動作を設定し、その他の品詞や決め台詞などについては、キャラクタ毎にカスタムした動作を設定するようにしてもよい。
 (モーション設定部208)
 モーション設定部208は、モーション情報を参照し、所定単語・文節検出部207により検出された所定の単語/文節に対応するモーションを設定する。また、本実施形態によるモーション設定部208は、さらに感情判定部204により判定された感情を考慮して、割当てるモーションを設定する。モーション情報では、予め所定の一の単語または文節に対して、一または複数のモーションが規定され、複数のモーションには、それぞれ望ましい感情が対応付けられている。
 ここで、感情判定部204により判定される感情は、その感情が発生してから一定時間(標準の読み上げスピードやシナリオの進行を考慮して経過時間を推定してもよい)、所定発話数分、または、次の感情が現れるまで継続しているとみなしてもよい。したがって、事前に生成されたシナリオの場合、シナリオ全体における各時点でのキャラクタの感情分析を予め行うことが可能である。以下、図6を参照して具体的に説明する。
 図6は、本実施形態による発話文に基づくキャラクタの感情の継続について説明する図である。図6に示すように、例えばキャラクタの発話文「超ハッピー!」に基づいて、感情判定部204により、『喜び』の感情が判定された場合、その後一定時間、所定発話数分、または次の感情が出現するまで(図6に示す例では、「ふざけんな(怒)」の発話文に基づいて『怒り』の感情が発生する)、『喜び』の感情が継続するとみなす。
 したがって、モーション設定部208は、例えば『喜び』の感情が継続している間において、発話文の単語/文節に対応するモーションを選択する場合、複数のモーションから、『喜び』の感情に対応付けられたモーションを選択する。
 ここで、モーション情報データベース246に格納されるモーション情報の一例を下記表2に示す。下記表4は、発話文中において名詞として用いられる「1番」という発話語に対応する感情毎のモーションの一例である。また、設定された各動作の一例を、図7に示す。
Figure JPOXMLDOC01-appb-T000004
 この場合、モーション設定部208は、発話文から検出された「一番(品詞:名詞)」に対応するモーションとして、感情判定部204によりキャラクタ感情が「喜び」と判定されている場合は、「腕を上げてまっすぐ伸ばし、人差し指を立てる動作」(図7の左側に示す動作参照)を選択する。また、モーション設定部208は、発話文から検出された「一番(品詞:名詞)」に対応するモーションとして、感情判定部204によりキャラクタ感情が「信頼(弱)」と判定されている場合は、「胸の前で人差し指を立てる動作」(図7の右側に示す動作参照)を選択する。
 また、モーション情報データベース246に格納される他のモーション情報の一例を、下記表5に示す。下記表5は、発話文中において応答を表す感動詞として用いられる「うん」という発話語に対応する、感情毎のモーションの一例である。
Figure JPOXMLDOC01-appb-T000005
 また、感情判定部204により判定される感情は、時間経過や発話数と共にその感情の度合いを減衰させてもよい。例えば図8に示すように、ある発話文に基づいて『喜び』の感情が発生した後、時間の経過(さらには発話数)に応じて『喜び』の感情度合いを減衰させ、ある閾値を下回った場合は、『平常』の感情と判定するようにしてもよい。例えば朝怒っていたキャラクタが夕方には機嫌が直っている状態となる。
 時間経過や発話数と共に感情の度合い(値)を減衰させている際に同一の感情が再度発生した場合は、再度値を設定し、改めて減衰を始めるようにしてもよい。例えば図9に示すように、あるキャラクタの発話文において、「超ハッピー!」という発話文から『喜び』の感情が発生し、時間経過や発話数と共に感情の度合いが減衰している際に、「ほんと幸せ」という発話文から『喜び』の感情が再度発生する場合、『喜び』の感情度合いの値が再度設定され、改めて減衰が開始される。
 次いで、図10を参照して、キャラクタの発話文から検出された単語に対応して感情度合いに応じて割り当てられるモーションの具体例について説明する。
 図10に示すように、例えばキャラクタの「超ハッピー!」という発話文に基づいてキャラクタの『喜び(強)』の感情が発生したと判定した場合は(例えば単語「ハッピー」(名詞)から『喜び』の感情、さらに、「超」(接頭辞、または形容詞)や感嘆符「!」からその感情強度が強いと判定される)、その後、時間経過や発話数と共に『喜び』の感情度合いが減衰する。次いで、次のキャラクタ発話文「1番だよ!」の『1番』に対応するモーションとして、モーション設定部208は、『喜び(強)』に対応する動作(例えば上記表4に例示するような「腕を上げてまっすぐ伸ばし、人差し指を立てる動作」)を選択する。また、さらに時間が経過した後のキャラクタ発話文「うん」に対応するモーションとしては、モーション設定部208は、『喜び(弱)』(感情度合いが減衰したため)に対応する動作(例えば上記表4に例示すような「腕を顔の位置まで上げて人差し指を立てる動作」)を選択する。
 また、続くキャラクタの「ふざけんな(怒)」という発話文に基づいてキャラクタの『怒り(強)』の感情が発生したと判定した場合は、その後、時間経過や発話数と共に『怒り』の感情度合いが減衰する。次いで、次のキャラクタ発話文「1番ってなによ」の『1番』に対応するモーションは、キャラクタ感情が『怒り(強)』の場合、例えば上記表4に例示する例では「無し」であるため、モーション設定部208は、キャラクタに動作を与えない。また、さらに時間が経過した後のキャラクタ発話文「うん」に対応するモーションとしては、キャラクタ感情が『怒り(弱)』(感情度合いが減衰したため)であるが、例えば上記表4に例示する例では「無し」であるため、モーション設定部208は、キャラクタに動作を与えない。そして、さらに時間が経過し、『怒り』の感情度合いが閾値を下回って「平常」となった状態における発話文「うん」に対応するモーションは、例えば上記表4に例示する例では、「頷く動作」となる。
 次に、図11を参照して、本実施形態によるキャラクタの発話文から検出された単語に対応して、時制を考慮した感情度合いに応じて割り当てられるモーションの他の具体例について説明する。
 図11に示すように、例えば発話文「超ハッピーだったよね」からは、『喜び』の感情と共に、時制が過去であるため感情度合いが弱まり、『喜び(弱)』と判定される。この場合、次の「1番だったよね」の発話文から「1番」に対応するモーションを選択する際、モーション設定部208は、『喜び(弱)』を考慮し、例えば、「腕を顔の位置まで上げて人差し指を立てる動作」を選択する。
 また、例えば発話文「なにそれふざけんなって思ったよ」からは、「ふざけんな」という単語により『怒り』が表現されるが、時制が過去であるため、感情の種類の変化が生じ、例えば、『喜び(弱)』と判定される。従って、次の「1番ってね」の発話文から「1番」に対応するモーションを選択する際、モーション設定部208は、『喜び(弱)』を考慮し、例えば、「腕を顔の位置まで上げて人差し指を立てる動作」を選択する。
 また、モーション設定部208は、応答選択部205により選択された応答種類に応じて、設定したモーションの強度を調整してもよい。例えば、キャラクタの感情が「喜び」にあって、関係性が深いため、「すごく良い応答」が選択された場合、発話語と感情に基づいて割当てたモーションの強度を強める。具体的には、例えば頷くモーションの場合に、より大きく頷かせたり(移動幅の調整)、より早く頷かせたり(移動速度の調整)することで、モーションの強度を強めることが可能となる。
 また、モーションの強度は、発話語に基づいて設定されてもよい。例えば「すごい」「とても」など、モーションを割当てた単語を、強調を表す単語(副詞、形容詞)が修飾している場合、モーション設定部208は、当該モーションを強める。どのような場合に、どの程度モーションの強度を強めるかのパラメータは、予め規定され得る。
 なお、モーション設定部208は、キャラクタによる曲紹介での楽曲名の発話、商品紹介での商品名の発話、店舗紹介での店名の発話など、名称(すなわち固有名詞)から所定の単語や文節が検出された場合は、これらの名称を発話している際にモーションを割り当てることは望ましくないため、モーション設定は行わないようにしてもよい。また、モーション設定部208は、所定の単語/文節に対応する複数のモーションの候補をユーザに提示し、ユーザにより選択されたモーションを割当てるようにしてもよい。例えば、モーション設定部208は、所定の単語/文節に対応する、感情毎に用意された1以上のモーションの候補を提示し、割当てるモーションを選択させることも可能である。
 (発話パラメータ設定部209)
 発話パラメータ設定部209は、感情判定部204により判定された感情や、応答選択部205により選択された応答種類に応じて、音声発話のパラメータ、具体的には、発話のテンポ(読み上げスピード)、声のトーン(声の高さ、声のタイプ)、音量などを設定する。
 また、発話パラメータ設定部209は、発話文の解析結果に応じて、例えば所定の感嘆符や副詞に基づき、発話パラメータを設定してもよい。
 所定の感嘆符や副詞に基づく調整は、発話パラメータの他、モーション設定部208におけるモーション設定でも行われ得る。ここで、所定の感嘆符や副詞に応じた発話パラメータやモーションの調整の一例を、下記表6に示す。
Figure JPOXMLDOC01-appb-T000006
 また、終助詞に応じた発話パラメータやモーションの調整の一例を、下記表7に示す。なお、終助詞だけではどのような意図か不明な場合もあるため、感嘆符などの記号や、キャラクタの表情設定なども考慮して判定してもよい。
Figure JPOXMLDOC01-appb-T000007
 (シナリオ記述部211)
 シナリオ記述部211は、単語/文節に割り当てたモーションを、対応する単語と同期させる記述を、シナリオに追加する。例えばシナリオ記述部211は、所定単語・文節検出部207により特定された、各単語/文節の位置(発話開始からの経過時間や、単語/文節の順番など)を参照し、モーションの組み立てを行うことが可能である。また、シナリオ記述部211は、設定された発話パラメータも、対応する単語の音声発話が行われる際に考慮されるよう、シナリオに記述する。例えば、TTS機能により発話文が読み上げられる場合、当該発話文読み上げの際に考慮されるようパラメータを追加するようにしてもよい。
 以上説明したように、本システムでは、予め生成された発話文に対して、制作負担の軽減をしつつ、より自然なモーションの割当てや、発話パラメータの設定を行うことができる。
 なお、本明細書において、「モーション」には、手、腕、頭、上半身、体全体、足といった身体の各部位の動きの他、顔の表情(目や口の動きを含む)を含むものとしてもよい。また、顔の表情については別途予め設定されていてもよい。
 モーション設定部208や発話パラメータ設定部209は、発話文に対して予め設定されたキャラクタの表情に応じて、モーション設定や発話パラメータ設定を調整してもよい。例えば、通常、喜んでいる時の動作は大きくなり、悲しんでいる時の動作は小さくなるため、モーション設定部208は、設定されている表情(笑顔、困り顔、泣き顔など)に合わせて、モーションの強度を調整してもよい。また、通常、表情が暗いと声も沈み、表情が明るいと声も明るくなるため、発話パラメータ設定部209は、設定されている表情に合わせて、声のトーンや音量を変化させてもよい。
 また、TTSなどの音声合成では音声を表現することに限界がある場合、録音した音声をシナリオに埋め込みたい場合もある。このような場合にも、録音音声を音声認識によりテキスト化し、テキストデータ(すなわち発話文)をキャラクタ発話文解析部201により解析し、上述した例と同様に、感情の判定や、モーションの設定を行い、シナリオに記述を追加するようにしてもよい。また、感情判定部204は、録音音声の表現(声のトーン、声質、息継ぎ、話すスピードなど)から感情を得ることも可能である。また、感情判定部204は、録音音声から感情を得られた場合、発話文を解析して得た感情よりも優先するようにしてもよい。
 また、本システムによる感情判定部204における感情判定は、基本的に発話文の解析に基づいて行っているが、本実施形態はこれに限定されず、例えば、情報処理装置20への外部入力に基づいて判定するようにしてもよい。
 例えば、感情判定部204は、ユーザによりキャラクタ(画像またはロボット)への触れ方(スキンシップ)や、発した言葉に応じて、キャラクタの感情を判定してもよい。キャラクタへのスキンシップはタッチセンサなどにより検出され、また、キャラクタへの発言は、マイクロフォンにより収音され得る。例えば感情判定部204は、キャラクタに対してぶつ、叩くなどの行為や、攻撃的な発言など、ネガティブな入力が行われた場合、キャラクタの感情がネガティブとなったと判定する。一方、例えば感情判定部204は、キャラクタに対して優しくなでるなどの行為や、褒める発言など、ポジティブな入力が行われた場合、キャラクタの感情がポジティブとなったと判定する。
 (ユーザ発話認識部214、シナリオ制御部215、およびキャラクタ制御部216)
 シナリオの制御(実行)に関しては、ユーザ発話認識部214、シナリオ制御部215、およびキャラクタ制御部216により実現され得る。
 ユーザ発話認識部214は、マイクロフォンにより収音したユーザの発話音声を音声認識し、テキスト化し、自然言語処理を行う。
 シナリオ制御部215は、認識したユーザの発話音声に対するキャラクタの応答(発話文)を、シナリオに基づいて選択、生成する。なお、キャラクタの発話は、ユーザ発話をトリガとするものに限定されず、場所や時間、状況等に応じて、シナリオに従って開始することも可能である。発話文に対応するモーションは、上述した通り、シナリオ記述部211により既にシナリオに記述されている。
 キャラクタ制御部216は、シナリオ制御部215の制御に従って、キャラクタ制御を行う。具体的には、キャラクタ制御部216は、出力部230からのキャラクタ音声の出力(合成音声の出力)、キャラクタ画像(モーション映像)の再生等を行う。音声と映像の同期は、上述したように、シナリオ記述部211により既にシナリオに記述されているため、シナリオ制御部215により、シナリオの記述に従って、音声と映像の再生タイミングが制御され得る。
 (通信部210)
 通信部210は、有線または無線により外部装置と通信接続し、データの送受信を行う。通信部210は、例えば有線/無線LAN(Local Area Network)、またはWi-Fi(登録商標)、Bluetooth(登録商標)、携帯通信網(LTE(Long Term Evolution)、3G(第3世代の移動体通信方式))等により、外部装置と通信接続する。例えば情報処理装置20は、通信部210によりネットワーク上のサーバと通信接続し、シナリオデータの取得等を行い得る。
 (入力部220)
 入力部220は、情報処理装置20への入力を受け付け、制御部200に入力情報を出力するデバイスである。例えば入力部220は、操作入力部、音声入力部(マイクロフォン)、カメラ、各種センサであってもよい。また、操作入力部は、表示部と一体的に設けられるタッチセンサ、圧力センサ、若しくは近接センサ(静電容量センサなど)であってもよい。あるいは、操作入力部は、ボタンおよびスイッチなど、表示部と分離して設けられる物理的構成であってもよい。
 (出力部230)
 出力部230は、情報処理装置20からの出力を行うデバイスである。例えば出力部230は、表示部、プロジェクタ、音声出力部(スピーカ)であってもよい。表示部は、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)、有機EL(Electroluminescence)ディスプレイなどの表示装置であってもよい。出力部230は、キャラクタ制御部216の制御に従ってキャラクタを画像や音声により表出し得る。
 (記憶部240)
 記憶部240は、制御部200の処理に用いられるプログラムや演算パラメータ等を記憶するROM(Read Only Memory)、および適宜変化するパラメータ等を一時記憶するRAM(Random Access Memory)により実現される。
 例えば、記憶部240は、シナリオデータ記憶部242、感情共起単語データベース244、およびモーション情報データベース246を記憶する。シナリオデータ記憶部242は、発話文が含まれるシナリオデータを格納する。感情共起単語データベース244は、感情に対応付けられる共起単語(または文節)のデータを格納する。モーション情報データベース246は、単語または文節に対応する感情別のモーション情報(キャラクタに行わせる動作の情報)を格納する。
 以上、本実施形態による情報処理装置20の構成について具体的に説明した。なお、本実施形態による情報処理装置20の構成は図1に示す例に限定されない。例えば、図1に示す機能構成のうち、時制分析部202、応答選択部205、発話パラメータ設定部209を有していなくともよい。また、シナリオ制御(シナリオ実行)に関する機能構成であるユーザ発話認識部214、シナリオ制御部215、およびキャラクタ制御部216が、他の装置に設けられていてもよい。また、記憶部240が有する各データベースが、ネットワーク上のサーバなど、外部装置に格納されていてもよい。
 また、情報処理装置20が複数の装置により構成されていてもよい。
 また、情報処理装置20は、例えば、PC、スマートフォン、タブレット端末、携帯電話端末、携帯ゲーム機、プロジェクタ、テレビ装置、透過型または非透過型のHMD(Head Mounted Display)、ロボット等であってもよい。
 また、入力部220および出力部230が外部装置に設けられていてもよい。この場合、例えば情報処理装置20がPC、スマートフォン、サーバ等であって、キャラクタを表出する外部装置(スマートフォン、プロジェクタ、HMD、ロボットなど)と通信接続し、キャラクタの発話音声データやモーション映像データを含むキャラクタ制御信号を送信するようにしてもよい。
 <3.動作処理>
 (3-1.モーション生成処理)
 続いて、本実施形態によるモーション生成システムの動作処理について、図12を参照して説明する。図12は、本実施形態によるモーション生成システムの全体の流れの一例を示すフローチャートである。
 図12に示すように、まず、情報処理装置20のキャラクタ発話文解析部201は、シナリオの発話文章(すなわちキャラクタの発話文)を自然言語処理などにより解析する(ステップS103)。
 次に、感情表現抽出部203は、発話文の解析結果に基づき、感情共起単語データベース244を参照し、発話文から感情と共起する単語(感情表現)を抽出する(ステップS106)。
 次いで、時制分析部202は、発話文の時制を分析する(ステップS109)。
 次に、感情判定部204は、感情表現の抽出結果、さらには時制の分析結果を考慮し、キャラクタの感情を判定する(ステップS112)。
 次いで、応答選択部205は、キャラクタのユーザとの親密度に基づいて、応答種類を選択する(ステップS115)。
 続いて、発話パラメータ設定部209は、判定された感情や選択された応答種類に基づいて、発話文全体の声のトーンの設定や、発話文全体の声の音量の設定など、発話パラメータを設定する(ステップS118、S121)。
 また、所定単語・文節検出部207は、発話文の解析結果に基づき、モーション情報データベース246を参照し、モーションの割当てがされている所定の単語を検出する(ステップS124)。この際、所定単語・文節検出部207は、単語の品詞や、発話文内での位置も特定する。
 次に、モーション設定部208は、発話文内の所定の単語に、判定された感情に応じて、対応するモーションを割当てる(ステップS127)。また、モーション設定部208は、選択された応答種類に応じて、割当てたモーションの強度を調整してもよい。
 そして、シナリオ記述部211は、設定した発話パラメータや、割当てたモーションを、発話文内の対応する単語の位置に紐付けて、発話音声の再生とモーション映像が同期するようシナリオに記述する(ステップS130)。
 (3-2.シナリオ制御処理)
 続いて、図13を参照してシナリオ制御処理について説明する。図13は、本実施形態によるシナリオ制御処理の一例を示すシーケンス図である。
 図13に示すように、まず、情報処理装置20の感情表現抽出部203は、シナリオに基づいて、キャラクタの発話文とモーション(上述したように、既にシナリオに記述済み)を、キャラクタ制御部216に指定する(ステップS203)。
 次に、キャラクタ制御部216は、指定された発話文をTTS機能等により読み上げて発話音声をスピーカから出力したり、発話音声の出力に同期して対応するモーション映像を再生したりといった制御を行う(ステップS206)。
 次いで、ユーザからの発話があった場合、ユーザ発話認識部214は、ユーザ発話を収音した音声データから音声認識を行う(ステップS209)。
 次に、シナリオ制御部215は、ユーザの発話に対するキャラクタの発話文(応答)を、シナリオから選択(特定)し(ステップS212)、上記ステップS203と同様に、キャラクタの発話文とモーションを、キャラクタ制御部216に指定する(ステップS215)。
 そして、キャラクタ制御部216は、上記ステップS206と同様に、指定された発話文をTTS機能等により読み上げて発話音声をスピーカから出力したり、発話音声の出力に同期して対応するモーション映像を再生したりといった制御を行う(ステップS218)。
 以上の処理を繰り返すことで、シナリオに基づいてキャラクタの会話を制御することができる。なお、ここでは一例としてキャラクタがユーザとの対話を行うシナリオについて説明したが本実施形態はこれに限定されず、ゲームの進行等に応じて一方的にキャラクタが発話するものであってもよいし、ユーザの位置や状況に応じて自動的にキャラクタが発話するものであってもよい。
 <4.まとめ>
 上述したように、本開示の実施形態によるモーション生成システムでは、キャラクタの感情を判定し、キャラクタの発話文から抽出した所定の単語または文節に対し、判定された感情に応じて、モーションを選択することで、キャラクタの感情を反映したより自然なモーションを割当てることが可能となる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 例えば、上述した情報処理装置20に内蔵されるCPU、ROM、およびRAM等のハードウェアに、情報処理装置20の機能を発揮させるためのコンピュータプログラムも作成可能である。また、当該コンピュータプログラムを記憶させたコンピュータ読み取り可能な記憶媒体も提供される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、本技術は以下のような構成も取ることができる。
(1)
 シナリオに含まれるキャラクタの発話文に対して行った発話文解析結果に基づいて感情を判定し、
 前記発話文の内容と前記判定した感情に応じて、前記発話文と同期する前記キャラクタのモーションを選択し、
 前記選択したモーションの表出を前記発話文の音声出力タイミングに合わせるための記述を前記シナリオに追加する処理を行う制御部を備える、情報処理装置。
(2)
 前記制御部は、前記発話文から検出された単語と当該単語の品詞に応じて、当該単語に対応付けられた感情別モーションのうち、前記判定した感情に対応付けられたモーションを選択する、前記(1)に記載の情報処理装置。
(3)
 前記制御部は、前記キャラクタとユーザとの親密度に応じて、前記モーションの強弱を調整する、前記(1)または(2)に記載の情報処理装置。
(4)
 前記制御部は、感情に対応する共起単語のデータベースを参照し、前記発話文から検出した単語に対応する感情を、前記キャラクタの感情として判定する、前記(1)~(3)のいずれか1項に記載の情報処理装置。
(5)
 前記制御部は、
  前記発話文の発話文解析結果に基づいて時制を分析し、
  前記時制に応じて、前記単語に対応する感情の度合いの変更、または前記キャラクタの感情を変更する、前記(4)に記載の情報処理装置。
(6)
 前記制御部は、前記判定した感情が、その後一定時間または異なる感情が新たに判定されるまで前記キャラクタの感情として継続させる、前記(1)~(5)のいずれか1項に記載の情報処理装置。
(7)
 前記制御部は、前記判定した感情の度合いを、その後時間の経過または発話数に応じて減衰させる、前記(1)~(6)のいずれか1項に記載の情報処理装置。
(8)
 前記制御部は、
  前記感情が継続している間または前記感情の度合いが閾値を上回っている間に発話される発話文から検出した所定の単語に対応付けられた感情別モーションから、前記感情に対応付けられたモーションを選択する、前記(6)または(7)に記載の情報処理装置。
(9)
 前記制御部は、
  前記感情に応じて、前記発話文を音声出力する際の発話音声パラメータを設定する、前記(1)~(8)のいずれか1項に記載の情報処理装置。
(10)
 前記制御部は、
  前記発話文で用いられている単語に応じて、前記発話文を音声出力する際の発話音声パラメータを設定する、前記(1)~(8)のいずれか1項に記載の情報処理装置。
(11)
 前記制御部は、
  前記設定した発話音声パラメータを前記発話文に対応付けた記述を前記シナリオに追加する処理を行う、前記(9)または(10)に記載の情報処理装置。
(12)
 プロセッサが、
 シナリオに含まれるキャラクタの発話文に対して行った発話文解析結果に基づいて感情を判定することと、
 前記発話文の内容と前記判定した感情に応じて、前記発話文と同期する前記キャラクタのモーションを選択することと、
 前記選択したモーションの表出を前記発話文の音声出力タイミングに合わせるための記述を前記シナリオに追加する処理を行うことと、
を含む、情報処理方法。
(13)
 コンピュータを、
 シナリオに含まれるキャラクタの発話文に対して行った発話文解析結果に基づいて感情を判定し、
 前記発話文の内容と前記判定した感情に応じて、前記発話文と同期する前記キャラクタのモーションを選択し、
 前記選択したモーションの表出を前記発話文の音声出力タイミングに合わせるための記述を前記シナリオに追加する処理を行う制御部として機能させるための、プログラム。
 20 情報処理装置
 200 制御部
 201 キャラクタ発話文解析部
 202 時制分析部
 203 感情表現抽出部
 204 感情判定部
 205 応答選択部
 207 所定単語・文節検出部
 208 モーション設定部
 209 発話パラメータ設定部
 210 通信部
 211 シナリオ記述部
 214 ユーザ発話認識部
 215 シナリオ制御部
 216 キャラクタ制御部
 220 入力部
 230 出力部
 240 記憶部
 242 シナリオデータ記憶部
 244 感情共起単語データベース
 246 モーション情報データベース

Claims (13)

  1.  シナリオに含まれるキャラクタの発話文に対して行った発話文解析結果に基づいて感情を判定し、
     前記発話文の内容と前記判定した感情に応じて、前記発話文と同期する前記キャラクタのモーションを選択し、
     前記選択したモーションの表出を前記発話文の音声出力タイミングに合わせるための記述を前記シナリオに追加する処理を行う制御部を備える、情報処理装置。
  2.  前記制御部は、前記発話文から検出された単語と当該単語の品詞に応じて、当該単語に対応付けられた感情別モーションのうち、前記判定した感情に対応付けられたモーションを選択する、請求項1に記載の情報処理装置。
  3.  前記制御部は、前記キャラクタとユーザとの親密度に応じて、前記モーションの強弱を調整する、請求項1に記載の情報処理装置。
  4.  前記制御部は、感情に対応する共起単語のデータベースを参照し、前記発話文から検出した単語に対応する感情を、前記キャラクタの感情として判定する、請求項1に記載の情報処理装置。
  5.  前記制御部は、
      前記発話文の発話文解析結果に基づいて時制を分析し、
      前記時制に応じて、前記単語に対応する感情の度合いの変更、または前記キャラクタの感情を変更する、請求項4に記載の情報処理装置。
  6.  前記制御部は、前記判定した感情が、その後一定時間または異なる感情が新たに判定されるまで前記キャラクタの感情として継続させる、請求項1に記載の情報処理装置。
  7.  前記制御部は、前記判定した感情の度合いを、その後時間の経過または発話数に応じて減衰させる、請求項1に記載の情報処理装置。
  8.  前記制御部は、
      前記感情が継続している間または前記感情の度合いが閾値を上回っている間に発話される発話文から検出した所定の単語に対応付けられた感情別モーションから、前記感情に対応付けられたモーションを選択する、請求項6に記載の情報処理装置。
  9.  前記制御部は、
      前記感情に応じて、前記発話文を音声出力する際の発話音声パラメータを設定する、請求項1に記載の情報処理装置。
  10.  前記制御部は、
      前記発話文で用いられている単語に応じて、前記発話文を音声出力する際の発話音声パラメータを設定する、請求項1に記載の情報処理装置。
  11.  前記制御部は、
      前記設定した発話音声パラメータを前記発話文に対応付けた記述を前記シナリオに追加する処理を行う、請求項9に記載の情報処理装置。
  12.  プロセッサが、
     シナリオに含まれるキャラクタの発話文に対して行った発話文解析結果に基づいて感情を判定することと、
     前記発話文の内容と前記判定した感情に応じて、前記発話文と同期する前記キャラクタのモーションを選択することと、
     前記選択したモーションの表出を前記発話文の音声出力タイミングに合わせるための記述を前記シナリオに追加する処理を行うことと、
    を含む、情報処理方法。
  13.  コンピュータを、
     シナリオに含まれるキャラクタの発話文に対して行った発話文解析結果に基づいて感情を判定し、
     前記発話文の内容と前記判定した感情に応じて、前記発話文と同期する前記キャラクタのモーションを選択し、
     前記選択したモーションの表出を前記発話文の音声出力タイミングに合わせるための記述を前記シナリオに追加する処理を行う制御部として機能させるための、プログラム。
PCT/JP2019/006855 2019-02-22 2019-02-22 情報処理装置、情報処理方法、およびプログラム WO2020170441A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US17/430,755 US12002487B2 (en) 2019-02-22 2019-02-22 Information processing apparatus and information processing method for selecting a character response to a user based on emotion and intimacy
JP2021501268A JPWO2020170441A1 (ja) 2019-02-22 2019-02-22 情報処理装置、情報処理方法、およびプログラム
PCT/JP2019/006855 WO2020170441A1 (ja) 2019-02-22 2019-02-22 情報処理装置、情報処理方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/006855 WO2020170441A1 (ja) 2019-02-22 2019-02-22 情報処理装置、情報処理方法、およびプログラム

Publications (1)

Publication Number Publication Date
WO2020170441A1 true WO2020170441A1 (ja) 2020-08-27

Family

ID=72143783

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/006855 WO2020170441A1 (ja) 2019-02-22 2019-02-22 情報処理装置、情報処理方法、およびプログラム

Country Status (3)

Country Link
US (1) US12002487B2 (ja)
JP (1) JPWO2020170441A1 (ja)
WO (1) WO2020170441A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115088033A (zh) * 2020-02-10 2022-09-20 谷歌有限责任公司 代表对话中的人参与者生成的合成语音音频数据

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010277588A (ja) * 2009-05-28 2010-12-09 Samsung Electronics Co Ltd アニメーションスクリプト生成装置、アニメーション出力装置、受信端末装置、送信端末装置、携帯用端末装置及び方法
WO2012105318A1 (ja) * 2011-02-01 2012-08-09 有限会社Bond 入力支援装置、入力支援方法及び記録媒体
JP2016038601A (ja) * 2014-08-05 2016-03-22 日本放送協会 Cgキャラクタ対話装置及びcgキャラクタ対話プログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0008537D0 (en) * 2000-04-06 2000-05-24 Ananova Ltd Character animation
US8224652B2 (en) * 2008-09-26 2012-07-17 Microsoft Corporation Speech and text driven HMM-based body animation synthesis
KR101628050B1 (ko) 2009-05-28 2016-06-22 삼성전자주식회사 텍스트 기반 데이터를 애니메이션으로 재생하는 애니메이션 시스템
JP2014109988A (ja) 2012-12-04 2014-06-12 Nippon Hoso Kyokai <Nhk> モーション映像生成装置及びモーション映像生成プログラム
WO2019133710A1 (en) * 2017-12-29 2019-07-04 DMAI, Inc. System and method for dialogue management

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010277588A (ja) * 2009-05-28 2010-12-09 Samsung Electronics Co Ltd アニメーションスクリプト生成装置、アニメーション出力装置、受信端末装置、送信端末装置、携帯用端末装置及び方法
WO2012105318A1 (ja) * 2011-02-01 2012-08-09 有限会社Bond 入力支援装置、入力支援方法及び記録媒体
JP2016038601A (ja) * 2014-08-05 2016-03-22 日本放送協会 Cgキャラクタ対話装置及びcgキャラクタ対話プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SUGAWARA, HISASHI ET AL.: "Affect Extraction from Text in Japanese", THE 23RD ANNUAL CONFERENCE OF THE JAPANESE SOCIETY FOR ARTIFICIAL INTELLIGENCE, 2009, pages 1 - 2 , 314-2, ISSN: 1347-9881 *

Also Published As

Publication number Publication date
JPWO2020170441A1 (ja) 2021-12-16
US12002487B2 (en) 2024-06-04
US20220165293A1 (en) 2022-05-26

Similar Documents

Publication Publication Date Title
US20200279553A1 (en) Linguistic style matching agent
CN106653052B (zh) 虚拟人脸动画的生成方法及装置
EP1269465B1 (en) Character animation
US11989976B2 (en) Nonverbal information generation apparatus, nonverbal information generation model learning apparatus, methods, and programs
JP5913394B2 (ja) 音声同期処理装置、音声同期処理プログラム、音声同期処理方法及び音声同期システム
WO2022242706A1 (zh) 基于多模态的反应式响应生成
US11404063B2 (en) Nonverbal information generation apparatus, nonverbal information generation model learning apparatus, methods, and programs
US20210005218A1 (en) Nonverbal information generation apparatus, method, and program
CN115222856A (zh) 表情动画生成方法及电子设备
WO2020170441A1 (ja) 情報処理装置、情報処理方法、およびプログラム
Zoric et al. Facial gestures: taxonomy and application of non-verbal, non-emotional facial displays for embodied conversational agents
JP2002244842A (ja) 音声通訳システム及び音声通訳プログラム
US20210370519A1 (en) Nonverbal information generation apparatus, nonverbal information generation model learning apparatus, methods, and programs
JP2015176592A (ja) アニメーション生成装置、アニメーション生成方法およびプログラム
EP0982684A1 (en) Moving picture generating device and image control network learning device
Herring et al. MEOW! Okay, I shouldn't have done that: Factors Influencing Vocal Performance through Animoji.
Alper When face-to-face is screen-to-screen: Reconsidering mobile media as communication augmentations and alternatives
WO2001038959A2 (en) An apparatus and method for determining emotional and conceptual context from a user input
Granström et al. Speech and gestures for talking faces in conversational dialogue systems
Lovely et al. Rule-based lip-syncing algorithm for virtual character in voice chatbot
US20240038225A1 (en) Gestural prompting based on conversational artificial intelligence
Paggio Towards an empirically-based grammar of speech and gestures
Oh et al. Toward a Third-Kind Voice for Conversational Agents in an Era of Blurring Boundaries Between Machine and Human Sounds
KR20230057514A (ko) 시각 컨텐츠를 겸비한 오디오북 플랫폼 제공 시스템
Zorić A hybrid approach to real-time speech driven facial gesturing of virtual characters

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19916215

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021501268

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19916215

Country of ref document: EP

Kind code of ref document: A1