WO2012105318A1 - 入力支援装置、入力支援方法及び記録媒体 - Google Patents

入力支援装置、入力支援方法及び記録媒体 Download PDF

Info

Publication number
WO2012105318A1
WO2012105318A1 PCT/JP2012/050937 JP2012050937W WO2012105318A1 WO 2012105318 A1 WO2012105318 A1 WO 2012105318A1 JP 2012050937 W JP2012050937 W JP 2012050937W WO 2012105318 A1 WO2012105318 A1 WO 2012105318A1
Authority
WO
WIPO (PCT)
Prior art keywords
command
character
data
emotion
action
Prior art date
Application number
PCT/JP2012/050937
Other languages
English (en)
French (fr)
Inventor
ひろ美 古川
佐藤 寛之
Original Assignee
有限会社Bond
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 有限会社Bond filed Critical 有限会社Bond
Priority to US13/983,100 priority Critical patent/US9898850B2/en
Priority to KR20137022633A priority patent/KR101492359B1/ko
Priority to CN201280012777.9A priority patent/CN103430217B/zh
Publication of WO2012105318A1 publication Critical patent/WO2012105318A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/802D [Two Dimensional] animation, e.g. using sprites
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Definitions

  • the present invention relates to an input support apparatus, an input support method, and a recording medium, and more particularly to an input support apparatus that supports input processing of a designation command that specifies a character action for introducing content.
  • Patent Document 1 describes that when a human character is created by computer graphics, an action is selected from a menu and an action corresponding to the selected item is made.
  • Patent Document 2 describes a technique for enabling the transmission of emotion without displaying the face of a person who makes a sound in the game field. That is, the user of the game terminal inputs voice data from the microphone.
  • the image creating apparatus classifies voice data into reference voice data, and displays it by selecting from pre-stored character facial expressions.
  • Patent Document 1 when creating a human character, it is necessary to specify the motion of the human character in detail. Therefore, it was necessary to ask an expert to create it. For the creation by experts, each material (photo, video, voice, music, text, etc.) is completed and then incorporated and created. Therefore, once completed, it cannot be changed. Therefore, it is difficult for an amateur to easily and appropriately generate an animation of a person character.
  • Patent Document 2 is for concealing the user when transmitting the voice uttered by the user of the game terminal.
  • the person character is merely a replacement for the user.
  • an object of the present invention is to provide an input support device and the like that can appropriately and easily create a character action for introducing content to a viewer.
  • a first aspect of the present invention is an input support device that supports input processing of a designation command for designating a character's action for introducing content, wherein the content includes material data and word data, and the word
  • the data includes voice data indicating a voice uttered by the character, an emotion type inference means for analyzing the material data and the word data to infer an emotion type to be expressed by the character, and an action indicating the action of the character Command extraction means for generating a command, and confirmation playback means for causing the display device to play back the content and the action of the character in response to the action command.
  • the action for making a voice is determined based on the voice data, and the character is Actions other than the action for generating a sound are determined based on the specified command from the action pattern of the character stored in the expression element storage means, and the action of the character is further based on the inferred emotion type.
  • the operation command is generated by determining.
  • a second aspect of the present invention is the input support apparatus according to the first aspect, wherein the emotion type inference means analyzes the material data and the word data, and selects one or more from a plurality of basic emotion types.
  • the emotion type inference means analyzes the material data and the word data, and selects one or more from a plurality of basic emotion types.
  • the word data Determining a dominant effect process from the basic emotion type selected by the analysis of the above, and determining an auxiliary effect process from the other selected basic emotion type.
  • the action is determined by a combination of a type and its degree, and when the one basic emotion type is selected, it corresponds to the selected basic emotion type and its degree.
  • the action is determined, and when the plurality of basic emotion types are selected, the action is determined by referring to the dominant effect process with a greater specific gravity than the auxiliary effect process. .
  • the input support apparatus wherein the operation pattern includes a standby operation, and whether or not correction by the emotion type is permitted by the command extraction means.
  • the command extraction means is configured to input the operation command that causes the standby operation to be performed when there is no input of the specification command and there is no input of the material data and the word data.
  • the emotion type inference means analyzes the word data or / and the material data to analyze the emotion type
  • the command extraction procedure is generated.
  • the revision permission command does not allow the revision.
  • the command extraction means generates the action command for causing the action designated by the designated command, and the correction permission command permits the correction
  • the emotion type reasoning means determines the word data or /
  • the material data is analyzed to identify the emotion type, and the command extraction means corrects the action specified by the specified command and generates the action command.
  • an input support apparatus comprising a correction history storage means for storing a correction history indicating correction processing of an operation command performed in the past.
  • the command extraction means generates the operation command using the correction history, and the command extraction means determines that the emotion type identified by the emotion type inference means is the next emotion type on the scenario data.
  • the emotion becomes strongest at the time of transition to the time and / or when the specified command changes to the next specified command on the scenario data, and the motion command is generated by attenuating that emotion over time on the scenario data.
  • a fifth aspect of the present invention is the input support apparatus according to any one of the first to fourth aspects, wherein scenario data generating means for generating scenario data including the operation command, the content, and the operation command
  • scenario data generating means for generating scenario data including the operation command, the content, and the operation command
  • the moving image data generating means for generating the moving image data by reproducing the motion of the character in synchronization with the scenario data is received by the remote reproduction processing device together with the content and the character image, The content and the motion of the character based on the scenario data are reproduced in synchronization, and the moving image data is received and reproduced by the remote reproduction device.
  • a sixth aspect of the present invention is the input support apparatus according to any one of the first to fifth aspects, wherein there are a plurality of the characters, and the emotion type reasoning means operates when a part of the characters moves The emotion type of another character is used to correct the emotion type of other characters and / or the degree thereof.
  • an input support method for supporting input processing of a designation command for designating a character motion for introducing content in the input support device, wherein the content includes material data and word data.
  • the word data includes voice data indicating voice uttered by the character
  • the input support device includes emotion type inference means, command extraction means, and confirmation reproduction means, and the emotion type inference
  • the means analyzes the material data and the word data to infer the emotion type inference step to infer the emotion type to be expressed by the character
  • the command extraction means performs the operation for the character to emit the voice. Actions other than the action for the character to make the voice are determined based on voice data.
  • An action command indicating the action of the character by determining the action pattern of the character stored in the element storage means based on the designated command and further determining the action of the character based on the inferred emotion type A command extraction step for generating the content, a confirmation playback step for causing the display device to play back the content and the motion of the character by the motion command in synchronization with the display device, and the input support device,
  • the process includes a step of processing the specified command after the addition or change.
  • the eighth aspect of the present invention is a computer-readable recording medium that steadily records a program for realizing the input support method of the seventh aspect in a computer.
  • the present invention may be understood as a program for realizing the input support method according to the seventh aspect in a computer.
  • the action pattern of the character created by an expert is prestored and stored in the expression element storage means.
  • the user of the input support apparatus inputs a designation command and designates the character action.
  • the input support apparatus determines the character action based on the emotion type obtained by analyzing the content.
  • the user can easily determine the action of the character, and can easily perform the correction by performing the determined action as many times as possible, thereby causing the character to express emotion suitable for the content. It becomes possible.
  • processing is performed for the designated command after addition or change. Therefore, according to the present invention, it is possible to introduce the content to the viewer appropriately and easily using the character.
  • Patent Document 1 only the movement of a character is specified. In this case, it is inappropriate for the user that the character performs an action other than the designation.
  • Patent Document 2 also describes that the user inputs emotion data, but does not describe correction of this. If there is no designation by the user, the voice data is classified into emotion data.
  • the data to be analyzed is also limited to voice data that is directly related to the action of the character. This is because, in the technique described in Patent Document 2, the character takes the place of the user, and performing an operation other than the user's designation is an inappropriate process for the user.
  • the background art is merely passive in that the action of the character is not against the user's will. Changing the operation designation automatically is contrary to the intention of the user and is an inappropriate process. Therefore, Patent Documents 1 and 2 do not describe changing the designation when an operation is designated.
  • the present invention aims to introduce content to viewers.
  • the action of the character is to support the introduction of this content.
  • the purpose is different from the background art. Therefore, unlike the background art, it is not necessary for the user to move the character at will. Rather, it is in line with the user's wishes to perform an appropriate operation for the purpose of introducing content.
  • an operation pattern is incorporated in advance by an expert. The user can input a designated command and easily move the character using this movement pattern.
  • the present invention automatically generates an operation suitable for the content. This makes it possible to automatically generate an appropriate operation.
  • the confirmation reproduction means proposes an automatically generated operation plan to the user.
  • the user can more clearly reflect his / her thoughts on the action of the character by re-entering a more appropriate designation command.
  • each material is delivered as a finished product, and it is difficult to reflect the user's idea from the overall consistency.
  • the present invention is not reluctant that the character's movement is not contrary to the will of the user as in the background art.
  • the present invention has a more positive meaning of realizing the input of a designation command suitable for the standard of content introduction.
  • the user of the input support apparatus only prepares image / video material, music material, text data, etc., and the character having the emotion type extracted from these materials is displayed to the viewer.
  • these materials can be introduced. Therefore, even if the user of the input support apparatus is an amateur, it is possible to introduce materials and the like so that the viewer can easily sympathize with the viewer.
  • the word data including information close to the action of the character called voice data is given priority. Then, the production process is determined. Thereby, even when the content is to transmit a plurality of basic emotion types, it is possible to determine a preferential rendering process from information close to the action of the character.
  • the third aspect of the present invention it is possible to automatically generate a character action even when a designated command is not input. For this reason, even when the designated command is deleted, the process after the deletion can be performed. Furthermore, the user can perform an operation as specified by a specified command.
  • natural emotional expression can be transmitted by attenuating the influence of emotional expression over time.
  • the content is reproduced by processing on the apparatus side.
  • moving image data is generated and played back by the input support device. As a result, it is possible to introduce content even on a device having insufficient processing capability.
  • the moving character when a character moves, other characters can move to sympathize.
  • the moving character is performing an expression activity and becomes a speaker.
  • Other characters become listeners of this expression activity.
  • the character as the listener re-amplifies and re-expresses, for example, if the expression is the same emotion type, and extracts another emotion type if the expression is a different emotion type.
  • a plurality of characters can be expressed as a whole with a unified emotion type. The viewer can assimilate the character as the listener and view the content according to the sympathy of the character, thereby enabling natural emotional types to be transmitted.
  • FIG. 5 is a flowchart showing an outline of operations of an emotion identification unit 41, a command extraction unit 43, and a confirmation reproduction unit 47 in FIG.
  • FIG. 2 is a diagram illustrating a relationship between a combination of basic emotion types and emotion levels determined by an emotion identification unit 41 in FIG. It is a figure which shows the relationship of the determination of the combination of the basic emotion type and emotion level by the emotion identification part 41 of FIG. 1, and its mutual relationship. It is a figure which shows the determination process of the action of the character by the command extraction part 43 of FIG. It is a figure which shows the influence of an emotion type in the command extraction part 43 of FIG.
  • FIG. 1 is a conceptual block diagram for explaining the configuration and operation of a program generation system 1 according to an embodiment of the present invention.
  • the program generation system 1 includes an input support device 3 (an example of “input support device” in the claims of the present application), an input device 5, a display device 7 (an example of “display device” in the claims of the present application), and a remote reproduction process.
  • a device 9 and a remote playback device 11 are provided.
  • the input support device 3 supports input processing of a designation command that designates the action of a character (mainly an action of characters or animals) for introducing content.
  • the user of the input support device 3 performs content and designation command input processing.
  • the display device 7 displays the program plan generated by the input support device 3.
  • the remote reproduction processing device 9 and the remote reproduction device 11 reproduce the program generated by the input support device 3.
  • the input support device 3 includes a content storage unit 21, a designation command storage unit 23, an expression element storage unit 25 (an example of “expression element storage unit” in the claims of the present application), and a character image storage unit 27.
  • the content storage unit 21 stores content input from the input device 5.
  • the content includes material data 29 and word data 31.
  • the material data 29 constitutes a series of information desired to be transmitted to the viewers of the remote reproduction processing device 9 and the remote reproduction device 11.
  • the material data includes image / video material and music material.
  • the word data 31 includes a voice uttered by the character (an example of “voice data” of the present invention) and a description by words.
  • the designated command storage unit 23 stores a designated command input from the input device 5.
  • an action pattern of a character created in advance by an expert is embedded and stored.
  • the character image storage unit 27 stores a character image.
  • the input support apparatus 3 further includes an emotion identification unit 41 (an example of “emotion type inference means” in the claims of the present application), a command extraction unit 43 (an example of “command extraction means” in the claims of the present application), and an operation command storage And a confirmation reproduction unit 47 (an example of “confirmation reproduction means” in the claims of the present application).
  • the emotion identification unit 41 analyzes the specified command, the material data 29, and the word data 31 stored in the specified command storage unit 23, and infers the emotion type that the character should express.
  • the command extraction unit 43 refers to the motion pattern stored in the expression element storage unit 25 and generates a motion command indicating the motion of the character. A correction permission command is also input from the input device.
  • the command extraction unit 43 This designates whether or not the command extraction unit 43 permits correction based on the emotion type. If the modification permission command does not permit modification, the command extraction unit 43 causes the character to perform the action specified by the standby effect or the designation command. When this modification permission command permits modification, the following modification processing is performed.
  • the confirmation playback unit 47 causes the display device 7 to play the character in synchronization with the motion command based on the content and the character image stored in the character image storage unit 27. The user of the input support device 3 can easily realize a more appropriate character action by adding, changing, or deleting a designated command with reference to the display on the display device 7.
  • the input support apparatus 3 further includes a scenario data generation unit 51 (an example of “scenario data generation unit” in the claims of the present application) and a moving image data generation unit 49 (an example of “moving image data generation unit” in the claims of the present application).
  • the scenario data generation unit 51 generates scenario data including operation commands.
  • the moving image data generation unit 49 generates moving image data by reproducing the content and the motion of the character by the motion command in synchronization.
  • the remote reproduction processing device 9 can perform certain information processing, for example, as having a personal computer (PC) function. This is suitable for distribution in which information processing is performed by a terminal based on scenario data. This makes it possible to distribute a program according to the time and place where each terminal exists.
  • PC personal computer
  • the remote playback device 11 is a monitor or the like having only a display function.
  • the remote playback device 11 can play back moving images.
  • program distribution cannot be realized simply by distributing scenario data. Therefore, the input support device 3 uses the moving image data generated by the moving image data generation unit 49 to realize program distribution to the remote playback device 11.
  • the emotion identification unit 41 in FIG. 1 determines whether or not a designation command has been input (step ST1). If input, the main effect (one or a plurality of basic emotion types expressed in consideration of the highest ratio) is determined by the designated command (step ST2). Subsequently, it is determined whether or not the word data 31 is input (step ST3). When the word data 31 is input, the sub-effects (one or a plurality of basic emotion types expressed in consideration of the next highest ratio after the main effect) are determined by the word data 31 (step ST4).
  • step ST5 it is determined whether or not material data 29 has been input.
  • the material data 29 determines an auxiliary effect (one or a plurality of basic emotion types expressed in consideration of the next highest ratio after the sub-effect).
  • the word data 31 and the material data 29 are inputted, one or a plurality of basic emotion types are determined for each, and the action of the character is determined in consideration of a high ratio in this order. Is done.
  • step ST9 If no designation command, word data 31 or material data 29 is input (No in steps ST1, 7 and 8), a standby effect is performed (step ST9).
  • the standby effect is predetermined as one of the operation patterns of the expression element storage unit 25.
  • the main effect, the sub-effect, and the auxiliary effect are determined based on the material data 29 (step ST10).
  • the designation command is not inputted and the word data 31 is inputted
  • the main effect and the sub-effect are determined by the word data 31 (step ST11).
  • the process proceeds to the determination step of step ST5, and when the material data 29 is not inputted, the auxiliary effect is determined by the designation command or / and the word data 31 (step ST12).
  • the subsidiary effect and the auxiliary effect are determined by the material data 29 (step ST14). If the material data 29 is not input, the sub-effect and the auxiliary effect are also determined by the designation command (step ST15).
  • the command extraction unit 43 generates an operation command based on the determined standby effect, main effect, sub-effect, and auxiliary effect (step ST15).
  • the confirmation playback unit 47 presents an operation plan to the display device 7. The user refers to the operation plan and performs input processing such as a designated command.
  • the input support apparatus 3 performs an operation command generation process based on the corrected designated command and the like.
  • the content includes material data 29 and word data 31. Even if this is simply delivered to the viewer, it will only reach the viewer as information.
  • the character and adding information for conveying emotions it is possible to prompt viewers to make an evaluation and convey them to the viewers in a sensitive manner.
  • the present invention is intended to move a character so that not only the content is transmitted unilaterally but also the viewer can support evaluation judgments made on the content.
  • the movement pattern of each character part for example, eyebrows, eyes, shoulders, hands, etc.
  • movement data such as raising both hands diagonally as movement data (“motion” in the claims of this application).
  • An example of “pattern” is stored.
  • illumination data hue, brightness, and vividness of illumination light, ambient light, etc., such as ambient light 20% (white) are stored.
  • camera work data the camera position, time, and angle, such as the upper body, are stored. Other data may also be stored.
  • Basic emotion types include, for example, Joy (joy, etc.), trust (confidence, trust, trust, etc.), and anger (anger, etc.).
  • Each has an emotion level.
  • the emotion identification unit 41 analyzes the designated command and content, selects one or a plurality of basic emotion types, and analyzes the emotion level for each selected basic emotion type.
  • One or a plurality of data such as operation data, illumination data, camera work data, and the like stored in the expression element storage unit 25 are associated with each other by a combination of basic emotion types and emotion levels.
  • the command extraction unit 43 determines an action for the character to make a sound like the movement of the mouth based on the sound of the word data 31 of the content. This is for a natural utterance. Other motions are determined from the designated command and the character motion pattern stored in the expression element storage unit 25. The command extraction unit 43 further determines the character's motion based on the emotion type inferred by the emotion identification unit 41 and generates a motion command.
  • a plurality of basic emotion types can be automatically selected. Therefore, for example, not only a positive emotion type such as Joy or Trust, but also a negative emotion such as Anger may be selected at the same time.
  • a positive emotion type such as Joy or Trust
  • a negative emotion such as Anger may be selected at the same time.
  • the description is “I answered with a smile, but I could not control my anger with rude behavior”
  • the morphological analysis of the part “I answered with a smile” Positive emotion A is selected.
  • the negative emotion B is selected in the morphological analysis of the part “I could't suppress my anger by rude behavior”.
  • the emotional level is high.
  • the command extraction unit 43 determines the action of the character in consideration of the emotion A and the motion corresponding to the emotion level at a higher rate than the emotion B and the motion corresponding to the emotion level. As shown in FIG. 5, the shape (pose) and time (motion speed) are determined for each part of the character according to the ratio to be taken into consideration. Also correct the mouth data as necessary. Furthermore, not only the motion of the character but also lighting data, camera work data, and the like are determined in the same manner.
  • the dominant effect operation and the auxiliary effect operation within the same word data 31 have been described.
  • the action of the character is determined by giving priority to the specified command, the word data 31 and the material data 29 (that is, taking into consideration at a larger ratio). For this reason, in the designation command, the word data 31 and the material data 29, it is considered in a larger proportion as it is directly adapted to the designation of the character movement by the user while being adapted to the introduction of the content.
  • the standby operation is “upright (careful)” at first. It is assumed that there is 10 seconds from the operation selection of (1) (designation by inputting a specified command) to the time of operation selection of (7) (designation by inputting another designation command), and the influence of emotion is reduced during that time.
  • the command extracting unit 43 has the maximum influence on the action of the character at the time of the action selection of (1), and the influence is automatically reduced for 10 seconds until the next command is designated. For this reason, if 9 seconds have elapsed from the action selection of (1) at the time of the action selection of (7), the command extraction unit 43 has an affect of about 10% from the action of (1).
  • the command extraction unit 43 has the strongest emotion when the emotion type changes to the next emotion type on the scenario data or / and when the specified command changes to the next specified command on the scenario data.
  • An action command is generated so that the emotion is attenuated as time passes.
  • this correction process may independently take the influence of emotion into consideration for character movement, reproduction of material data 31, reproduction of word data 29, and reproduction of BGM.
  • the input support apparatus 3 of FIG. 1 includes a correction history storage unit 44 (an example of “correction history storage unit” in the claims of the present application).
  • the correction history storage unit 44 stores a correction history that indicates how emotion types that have been performed in the past have been considered. Based on this correction history, the command extraction unit 43 refers to the preference / preference of the user of the input support apparatus 3 and generates an operation command.
  • FIG. 7 is a diagram showing an example of a program generated by the input support device 3 of FIG.
  • the program generation system 1 in FIG. 8 includes two remote reproduction processing devices 9 1 and 9 2 (an example of “remote reproduction processing device” in the claims of the present application) (hereinafter, subscripts are omitted when a plurality of subscripts are shown). And the remote playback device 11 (an example of “remote playback device” in the claims of the present application). There may be a plurality of remote reproduction processing devices 9 and remote reproduction devices 11.
  • the input support device 3 includes an audio quantization unit 61, an audio quantum storage unit 62, a data transmission unit 63, and a moving image data transmission unit 65.
  • the voice quantization unit 61 divides the voice of the word data 31 of the content, extracts part or all of it as a voice element, quantizes it, and generates quantized data (hereinafter referred to as quantized data). "Sound Quantum”). For example, speech quantum is quantized based on individual speech and silent states, such as “hi”, “sa”, “shi”, “bu”, “ri”, and “ne”, for a CG character line “Long time no see”. To do.
  • the speech quantum storage unit 62 stores each generated speech quantum.
  • the command extraction unit 43 performs frequency analysis on the speech quanta stored in the speech quantum storage unit 62 for an image, and further determines the mouth image of the character by analyzing the sound volume. It is assumed that the character's mouth image is stored in the character image storage unit 27 of FIG. 1 separately from other images.
  • the data transmission unit 63 transmits the scenario data generated by the scenario data generation unit 51 and the content stored in the content storage unit 21 to the remote reproduction processing device 9.
  • the remote reproduction processing device 9 stores a unique character image
  • the remote reproduction processing device 9 uses the character image to reproduce the content and the action of the character in synchronization.
  • the data transmission unit 63 transmits the character image stored in the character image storage unit 27.
  • the moving image data transmission unit 65 transmits the moving image data generated by the moving image data generation unit 49 to the remote playback device 11.
  • the remote reproduction processing device 9 synchronizes the content and the character image with the monitor 75 while reproducing the audio quanta received by the reception unit 71 that receives the information transmitted from the data transmission unit 63 and the speaker 76. And a terminal program image generating unit 73 that reproduces and displays the program image.
  • the remote reproduction device 11 includes a moving image data receiving unit 81 that receives moving image data and a monitor 83 that reproduces the received moving image data.
  • FIG. 9 is a conceptual block diagram for explaining the configuration and operation of the terminal program image generation unit 73 of FIG.
  • the terminal program image generation unit 73 includes a scenario data storage unit 101, a music material storage unit 103, a character image storage unit 105, and an image / video material storage unit 107.
  • the scenario data storage unit 101 stores the received scenario data.
  • the music material storage unit 103 stores music material.
  • the character image storage unit 105 stores a character image.
  • the image / video material storage unit 107 stores image / video material.
  • the character image stored in the character image storage unit 105 may be different for each remote reproduction processing device 9.
  • remote reproduction processing apparatus 9 sends a special type of element image data (e.g. Panda type), without transmitting to other remote reproduction processing unit 9 2, etc., another type of element Image data (for example, cat type) is transmitted.
  • This selection may be specified by the user of the input device 5 so that the input support device 5 transmits an image of a special character and does not transmit it to other remote reproduction processing devices.
  • the user of the remote reproduction processing device 9 may designate and send a special character image.
  • the remote reproduction processing devices 9 1 and 9 2 can reproduce the same content using different characters.
  • program distribution has been a one-way information flow.
  • the program distribution of the present invention enables distribution processing of program images in accordance with the installation location, reproduction time, etc. of each remote reproduction processing device 9.
  • the special character image may be prepared by each remote reproduction processing device.
  • the terminal program image generation unit 73 includes a terminal audio synchronization unit 109, an audio reproduction unit 111, and an audio transmission unit 113.
  • the terminal audio synchronization unit 109 synchronizes each audio quantum and music material.
  • the audio reproduction unit 111 reproduces each audio quantum and music material after synchronization.
  • the audio transmission unit 113 transmits audio to the speaker 76 for reproduction.
  • the image generation unit 115 includes a character moving image generation unit 137 and a program image generation unit 139.
  • the character moving image generation unit 137 creates an animation image of the character from the character image by 3D vector data processing based on the scenario data.
  • the program image creation unit 139 creates a program image by synthesizing the created character moving image and image / video material.
  • the terminal program image generation unit 73 includes a synchronization unit 119 that synchronizes the reproduction by the audio reproduction unit 111 and the display of the program image by the image generation unit 115.
  • the synchronization unit 119 includes an audio frequency analysis unit 131 and a timing control unit 133.
  • the audio frequency analysis unit 131 analyzes the frequency of audio quanta reproduced by the audio reproduction unit 111 and detects reproduction time data.
  • the timing control unit 133 compares the reproduction time data with the time required for the program image generation process from the image generation unit 115 and controls the audio reproduction unit 111 for reproduction timing.
  • FIG. 10 is a conceptual block diagram for explaining the configuration and operation of the moving image data generation unit 49 of FIG.
  • the moving image data generation unit 49 includes each audio quantum stored in the audio quantum storage unit 62, scenario data generated by the scenario data generation unit 51, character image data stored in the character image storage unit 27, and the content storage unit 21.
  • the moving image data is created using the content stored in.
  • the moving image data generation unit 49 includes an audio synchronization unit 159, an image generation unit 161, a 2D vector quantization unit 163, a continuous image storage unit 165, a combining unit 167, and a moving image data storage unit 169.
  • the audio synchronizer 159 synchronizes each audio quantum with music material.
  • the image generation unit 161 generates a program image (see the image generation unit 115 in FIG. 9).
  • the 2D vector quantization unit 163 performs 2D vector processing on the generated program image to generate images 1,..., N, which are continuous images.
  • the continuous image storage unit 165 stores continuous images.
  • the synthesizer 167 synthesizes the audio synchronized with the audio synchronizer 159 and the continuous image to generate moving image data.
  • the moving image data storage unit 169 stores the generated moving image data.
  • the remote playback processing device 9 can also play back video data. Therefore, the moving image data may be transmitted not only to the remote playback device 11 but also to the remote playback processing device 9 in accordance with a user instruction of the input support device 3 or the remote playback processing device 9. Thereby, for example, when the user of the input support apparatus 3 causes the same display to be simultaneously displayed on a plurality of terminals, the processing of the remote reproduction processing apparatus 9 can be reduced.
  • the moving image data may have a large transmission data amount. For this reason, the data transmission unit 63 and the moving image data transmission unit 65 may automatically select whether to transmit scenario data or the like or to transmit moving image data depending on the data amount and communication status.
  • the speech quantum is quantized based on the input speech so that it is quantized based on, for example, a series of speech from when the voice is spoken until the speech is temporarily interrupted. It may be converted. Further, the speech quantum may be quantized based on a certain time (for example, 1/30 second).
  • command extraction unit 43 in FIG. 8 can also generate the character image by detecting the amplitude of the input voice and detecting the degree of opening of the mouth.
  • the input device 5 and the display device 7 have a small processing load. Therefore, these devices can be realized by an Internet browser on the user side.
  • the user of the input support apparatus 3 inputs the material data 29, the word data 31, and the designation command to the input support apparatus 3 using a browser.
  • the input support device 3 realizes this access by a web server.
  • processing is performed using these materials and the like and displayed on the user's browser.
  • the device on the user side only needs to be capable of being displayed by a browser, and is, for example, a PC, a smartphone, a tablet, or the like.
  • the browser to be displayed may be the same as or different from the input one.
  • the character image stored in the character image storage unit 27 may be selected by the user accessing another web server.
  • emotion emotion the expression of emotion types by a plurality of characters and correction thereof. That is, when a character moves based on a certain emotion type, this emotion type is used to correct the emotion type of another character. Hereinafter, this is referred to as “reaction emotion”.
  • FIG. 11 is a diagram showing an example of the transition of reaction emotion in the dialog state.
  • two characters 201 and 203 interact.
  • a character 201 expresses first and third lines.
  • the character 203 expresses a second line.
  • the emotion identification unit 41 in FIG. 1 extracts an emotion type (emotion type 205 (emotion type P 1 )) of “joy” from the first line.
  • the command extraction unit 43 causes the character 201 to describe the first line while expressing the emotion of “joy”. In this case, the character 203 is caused to perform a standby operation.
  • the emotion identification unit 41 extracts an emotion type “emotion” (emotion type 209 (emotion type Q 1 )) from the second line.
  • the command extraction unit 43 causes the character 203 to describe the second line while expressing the emotion of “fear”.
  • the emotion type of the character 201 remains the emotion type P 1 when the character 203 starts to move. Therefore, the character 201 is caused to perform a standby action based on the emotion type P 1 . However, the degree of emotion decreases with time (emotion type 207 (emotion type P 1 )).
  • the emotion identification unit 41 corrects the emotion type or / and the degree of the character 201 using the emotion type of the character 203 after the movement of the character 203 is started. For example, if the emotion type of the character 203 is the same as the emotion type of the character 201, the emotion type of the character 201 is maintained and the degree of emotion is amplified. When the emotion type of the character 203 is different from the emotion type of the character 201, the emotion type of the character 201 is changed. In this case, the emotion level of the character 201 may be corrected according to the emotion level of the character 203.
  • the emotion type of the character 201 is “joy”.
  • the emotion type of the character 203 is “fear”. Since the two are different, the emotion identification unit 41 corrects the emotion type 213 (emotion type P 1 ) using the emotion type 215 (emotion type Q 1 ). In FIG. 11, a new emotion type “confused” is selected (emotion type 219 (emotion type R 1 )). Then, the command extraction unit 43 causes the character 201 to describe the third line while expressing the emotion of “confused”.
  • FIG. 12 is a diagram showing an example of the transition of reaction emotion in the listening state.
  • two characters 251 and 253 interact.
  • the character 251 expresses first, second, and third lines.
  • the character 253 is a listener.
  • the emotion identification unit 41 extracts an emotion type (emotion type 255 (emotion type P 1 )) of “joy” from the first line.
  • the command extraction unit 43 causes the character 251 to describe the first line while expressing the emotion of “joy”. At this time, the character 253 is caused to perform a standby action.
  • the emotion identification unit 41 corrects the emotion type and / or degree of the character 253 using the emotion type and / or degree of the character 251. 12, the emotion type is matched to P2 (emotion type 263 (emotion type P 2 ). Therefore, the character 253 is caused to perform a standby action based on the emotion type P 2 .
  • the emotion identification unit 41 extracts the emotion type “emotion” (emotion type 261 (emotion type Q 1 )) from the second line. At this time, the emotion type of the character 251 remains the emotion type P 1 , but the degree of emotion is attenuated over time (emotion type 259 (emotion type P 1 )).
  • the command extraction unit 251 expresses the emotion type Q 2 while stating the expression of the emotion type P 2 as time passes, so that the second line is described.
  • the emotion identification unit 41 corrects the emotion type P 2 (emotion type 269) of the character 253 using the emotion type Q 2 (emotion type 271).
  • the command extraction unit 43 causes a standby operation based on the corrected emotion type.
  • the emotion type Q 2 newly extracted from the second line is different from the emotion type of the character 251. Therefore, the emotion identification unit 41 extracts a new emotion type “confused” (emotion type 265 (emotion type R 2 )). In the same case, for example, the degree is amplified while maintaining the emotion type.
  • the command extraction unit 43 causes the character 253 to describe the third line while expressing the emotion of “confused”.
  • the other characters move to sympathize.
  • the moving character is performing an expression activity and becomes a speaker.
  • Other characters become listeners of this expression activity.
  • the expression is the same emotion type
  • the character serving as the listener is amplified again and expressed, and if the expression is a different emotion type, another emotion type is extracted and expressed.
  • the viewer can assimilate the character as the listener and view the content according to the sympathy of the character, thereby enabling natural emotional types to be transmitted.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

 視聴者にコンテンツを紹介するためのキャラクタの動作を、適切かつ簡易に作成可能な入力支援装置等を提供する。入力支援装置(3)の利用者は、入力装置(5)に、キャラクタの動作を指定する指定コマンドの入力処理をする。このキャラクタの動作は、コンテンツを紹介するためのものである。入力支援装置(3)は、指定コマンドの入力処理を支援する。コンテンツは、素材データ(29)と言葉データ(31)を含む。言葉データ(31)は、キャラクタが発する音声を含む。感情識別部(41)は、素材データ(29)及び言葉データ(31)を分析して、キャラクタが表現すべき感情類型を推論する。コマンド抽出部(43)は、キャラクタの動作を、指定コマンド及び音声だけでなく、推論された感情類型にも基づいて決定して、動作コマンドを生成する。確認再生部(47)は、コマンド抽出部(43)が作成した番組案を表示装置(7)に表示させて、利用者に確認させる。

Description

入力支援装置、入力支援方法及び記録媒体
 本発明は、入力支援装置、入力支援方法及び記録媒体に関し、特に、コンテンツを紹介するためのキャラクタの動作を指定する指定コマンドの入力処理を支援する入力支援装置等に関する。
 特許文献1には、コンピュータグラフィックスで人物キャラクタを作成するときに、メニューから動作を選択し、選択された項目に対応する動作をさせて作成することが記載されている。
 また、特許文献2には、ゲーム分野において、音声を発する人の顔を表示することなく、感情の伝達を可能とするための技術が記載されている。すなわち、ゲーム端末のユーザは、マイクより音声データを入力する。画像作成装置は、音声データを基準音声データに分類して、予め記憶されたキャラクタの表情から選択して表示するものである。
特開2005-266912号公報 特開2003-248837号公報
 しかしながら、特許文献1にあるように、人物キャラクタを作成する場合には、人物キャラクタの動作を細かく指定する必要がある。そのため、専門家に依頼して作成する必要があった。専門家による作成は、各素材(写真、ビデオ、音声、音楽、文字など)を完成させてから、組み込み、作成する。そのため、一度完成してしまうと、変更はできない。よって、素人が、人物キャラクタのアニメーションを簡易かつ適切に生成することは困難であった。
 また、特許文献2は、ゲーム端末のユーザが発した音声を伝達する際に、ユーザを秘匿するためのものである。人物キャラクタは、ユーザの置き換えにすぎない。
 したがって、本発明は、視聴者にコンテンツを紹介するためのキャラクタの動作を、適切かつ簡易に作成可能な入力支援装置等を提供することを目的とする。
 本願発明の第1の観点は、コンテンツを紹介するためのキャラクタの動作を指定する指定コマンドの入力処理を支援する入力支援装置であって、前記コンテンツは、素材データと言葉データを含み、前記言葉データは、前記キャラクタが発する音声を示す音声データを含み、前記素材データ及び前記言葉データを分析して前記キャラクタが表現すべき感情類型を推論する感情類型推論手段と、前記キャラクタの動作を示す動作コマンドを生成するコマンド抽出手段と、表示装置に対して、前記コンテンツと、前記動作コマンドによる前記キャラクタの動作とを同期して再生させる確認再生手段を備え、前記コマンド抽出手段は、前記キャラクタが前記音声を発するための動作については前記音声データに基づき決定し、前記キャラクタが前記音声を発するための動作以外の動作については表現要素記憶手段に記憶された前記キャラクタの動作パターンから前記指定コマンドに基づき決定し、さらに、前記キャラクタの動作を前記推論された感情類型にも基づいて決定して、前記動作コマンドを生成するものである。
 本願発明の第2の観点は、第1の観点の入力支援装置であって、前記感情類型推論手段は、前記素材データ及び前記言葉データを分析して、複数の基本的感情類型から一つ又は複数を選択して、前記選択された基本的感情類型及びその度合いを、前記キャラクタが表現すべき感情類型とするものであって、複数の前記基本的感情類型を選択したときは、前記言葉データの分析により選択された前記基本的感情類型から優性演出処理を決定し、その他の前記選択された基本的感情類型から補助的演出処理を決定するものであり、前記コマンド抽出手段は、基本的感情類型とその度合いの組合せにより前記動作を決定するものであって、前記一つの基本的感情類型が選択されたときは、選択された前記基本的感情類型及びその度合いに対応して、前記動作を決定するものであり、前記複数の基本的感情類型が選択されたときは、前記優性演出処理を、前記補助的演出処理よりも大きい比重で参照して前記動作を決定するものである。
 本願発明の第3の観点は、第2の観点の入力支援装置であって、前記動作パターンには、待機動作が含まれており、前記コマンド抽出手段により前記感情類型による修正を許可するか否かを指定する修正許可コマンドが入力されるものであり、前記指定コマンドの入力がなく、前記素材データも前記言葉データもない場合には、前記コマンド抽出手段は、前記待機動作をさせる前記動作コマンドを生成し、前記指定コマンドの入力がなく、前記言葉データ又は/及び前記素材データがある場合には、前記感情類型推論手段は、前記言葉データ又は/及び前記素材データを分析して前記感情類型を識別して前記動作コマンドを生成し、前記指定コマンドの入力があり、前記素材データ及び前記言葉データがない場合には、前記コマンド抽出手段は、前記指定コマンドにより指定された動作をさせる前記動作コマンドを生成し、前記指定コマンドの入力があり、前記素材データ及び/又は前記言葉データがある場合に、前記修正許可コマンドが修正を許可しないときは、前記コマンド抽出手段は、前記指定コマンドにより指定された動作をさせる前記動作コマンドを生成し、前記修正許可コマンドが修正を許可するときは、前記感情類型推論手段は、前記言葉データ又は/及び前記素材データを分析して前記感情類型を識別し、前記コマンド抽出手段は、前記指定コマンドにより指定された動作を修正して前記動作コマンドを生成するものである。
 本願発明の第4の観点は、第1から第3のいずれかの観点の入力支援装置であって、過去に行われた動作コマンドの修正処理を示す修正履歴を記憶する修正履歴記憶手段を備え、前記コマンド抽出手段は、前記修正履歴も用いて、前記動作コマンドを生成するものであり、前記コマンド抽出手段は、前記感情類型推論手段により識別された感情類型がシナリオデータ上で次の感情類型に推移した時点又は/及び前記指定コマンドがシナリオデータ上で次の指定コマンドに推移した時点において最も感情が強くなり、シナリオデータ上での時間の経過と共にその感情を減衰させて前記動作コマンドを生成するものである。
 本願発明の第5の観点は、第1から第4のいずれかの観点の入力支援装置であって、前記動作コマンドを含むシナリオデータを生成するシナリオデータ生成手段と、前記コンテンツと、前記動作コマンドによる前記キャラクタの動作とを同期して再生して動画データを生成する動画データ生成手段を備え、前記シナリオデータは、遠隔再生処理装置が、前記コンテンツ及び前記キャラクタ画像とともにこれを受信して、前記コンテンツと、前記シナリオデータによる前記キャラクタの動作とを同期して再生するものであり、前記動画データは、遠隔再生装置がこれを受信して再生するものである。
 本願発明の第6の観点は、第1から第5のいずれかの観点の入力支援装置であって、前記キャラクタは、複数存在し、前記感情類型推論手段は、一部のキャラクタが動作した場合、動作したキャラクタの感情類型を用いて他のキャラクタの感情類型又は/及びその度合いを修正するものである。
 本願発明の第7の観点は、入力支援装置において、コンテンツを紹介するためのキャラクタの動作を指定する指定コマンドの入力処理を支援する入力支援方法であって、前記コンテンツは、素材データと言葉データを含み、前記言葉データは、前記キャラクタが発する音声を示す音声データを含み、前記入力支援装置は、感情類型推論手段と、コマンド抽出手段と、確認再生手段を備えるものであり、前記感情類型推論手段が、前記素材データ及び前記言葉データを分析して前記キャラクタが表現すべき感情類型を推論する感情類型推論ステップと、前記コマンド抽出手段が、前記キャラクタが前記音声を発するための動作については前記音声データに基づき決定し、前記キャラクタが前記音声を発するための動作以外の動作については表現要素記憶手段に記憶された前記キャラクタの動作パターンから前記指定コマンドに基づき決定し、さらに、前記キャラクタの動作を前記推論された感情類型にも基づいて決定して、前記キャラクタの動作を示す動作コマンドを生成するコマンド抽出ステップと、前記確認再生手段が、表示装置に対して、前記コンテンツと、前記動作コマンドによる前記キャラクタの動作とを同期して再生させる確認再生ステップと、前記入力支援装置が、前記指定コマンドが追加又は変更された場合、追加又は変更後の前記指定コマンドに対して処理を行うステップを含むものである。
 本願発明の第8の観点は、コンピュータにおいて、第7の観点の入力支援方法を実現するためのプログラムを定常的に記録するコンピュータ読み取り可能な記録媒体である。
 なお、本願発明において、単にキャラクタの動作を生成するだけでなく、例えばカメラワーク、照明、背景色、効果音なども生成するようにしてもよい。
 また、本願発明を、コンピュータにおいて、第7の観点の入力支援方法を実現するためのプログラムとして捉えてもよい。
 本願発明において、表現要素記憶手段には、専門家が作成したキャラクタの動作パターンが予め組込み記憶されている。入力支援装置のユーザは、指定コマンドを入力して、キャラクタの動作を指定する。入力支援装置は、この指定に併せて、コンテンツの分析により得られる感情類型により、キャラクタの動作を決定する。これにより、ユーザは、キャラクタの動作を簡易に決定でき、さらに、何回でも決定した動作を実施させて修正を行うことも簡易にでき、よって、キャラクタに、コンテンツに合った感情表現を行わせることが可能になる。そして、指定コマンドが追加、変更等された場合には、追加、変更等の後の指定コマンドに対して処理を行う。よって、本願発明により、視聴者へのコンテンツの紹介を、キャラクタを用いて適切かつ簡易に行うことが可能になる。
 従来、特許文献1では、キャラクタの動作のみを指定するものであった。この場合、キャラクタが指定以外の動作を行うことは、ユーザにとって不適切な処理となる。また、特許文献2では、ユーザが感情データを入力することも記載されているが、これを修正すること等については記載されていない。ユーザによる指定がない場合に、音声データを感情データに分類する。分析の対象となるデータも、音声データという、キャラクタの動作に直結するものに限定されている。これは、特許文献2記載の技術において、キャラクタがユーザの代わりをなすものであり、ユーザの指定以外の動作を行うことは、ユーザにとって不適切な処理となるためである。このように、背景技術は、キャラクタの動作が、ユーザの意に反しないという単に消極的なものにとどまる。その動作指定を自動的に変更することは、ユーザの意に反することとなり、不適切な処理となる。そのため、特許文献1及び2には、動作指定があった場合には、その指定を変更することは記載されていない。
 これに対し、本願発明は、視聴者にコンテンツを紹介することを目的とする。キャラクタの動作は、このコンテンツの紹介をサポートするためのものである。背景技術とは、目的が異なる。そのため、背景技術と異なり、ユーザがキャラクタを意のままに動作させる必要はない。むしろ、コンテンツの紹介という目的に合ったものとして適切な動作にすることが、ユーザの希望に沿ったものになる。本願発明では、専門家により動作パターンが予め組み込まれている。ユーザは、指定コマンドを入力して、この動作パターンを用いて簡易にキャラクタを動作させることができる。さらに、本願発明は、コンテンツに合った動作を自動生成する。これにより、適切な動作を自動生成することが可能になる。さらに、確認再生手段は、ユーザに対して、自動生成した動作案を提案する。これにより、ユーザは、より適切な指定コマンドを入力し直す等により、キャラクタの動作に、自分の考えをより明確に反映させることが可能になる。専門家に依頼した場合には、各素材が完成品として納入されてしまい、全体的な整合性からユーザの考えを反映することが困難になる。本願発明は、背景技術のように、単にキャラクタの動作がユーザの意に反するものでない、というような消極的なものではない。本願発明は、コンテンツの紹介という基準に適した指定コマンドの入力を実現するという、より積極的な意義を有するものである。
 特に、本願発明によれば、入力支援装置のユーザは、画像・映像素材、音楽素材、テキストデータなどを用意するだけで、これらの素材等から抽出された感情類型をもったキャラクタが、視聴者に対して、これらの素材等を紹介することが可能になる。そのため、入力支援装置のユーザは、素人であっても、視聴者が共感しやすくなるように、素材等の紹介をすることが可能になる。
 本願発明の第2の観点によれば、素材データ及び言葉データを分析して、複数の基本的感情類型が選択された場合には、音声データというキャラクタの動作に近い情報を含む言葉データを優先して演出処理を決定する。これにより、コンテンツが複数の基本的感情類型を伝達しようとする場合にも、キャラクタの動作に近い情報から、優先的な演出処理を決定することが可能になる。
 本願発明の第3の観点によれば、指定コマンドの入力がない場合にもキャラクタの動作を自動生成することが可能になる。そのため、指定コマンドが削除された場合にも、削除後の状態に対して処理を行うことができる。さらに、ユーザが指定コマンドによる指定どおりの動作をさせることもできる。
 本願発明の第4の観点によれば、時間経過に伴い感情表現の影響を減衰させることにより、自然な感情表現の伝達が可能になる。
 本願発明の第5の観点によれば、シナリオデータの配信について、遠隔再生処理装置のように一定の処理が可能な場合には、装置側での処理によりコンテンツの再生を行う。これにより、装置が設置された場所に適したキャラクタを動作させるなど、情報の受け手に着目したシナリオデータの再生が可能になる。他方、遠隔再生装置のように、動画像を再生するだけの端末の場合には、入力支援装置において動画データを生成して再生させる。これにより、処理能力が不足している装置でも、コンテンツの紹介が可能になる。
 本願発明の第6の観点によれば、キャラクタが動作する場合、他のキャラクタは、共感するように動作することが可能になる。すなわち、動作するキャラクタは、表現活動を行っており、話し手となる。他のキャラクタは、この表現活動の聞き手となる。本願発明の第6の観点によれば、聞き手となるキャラクタは、例えば同じ感情類型の表現であれば再度増幅して表現しなおし、また、異なる感情類型の表現であれば他の感情類型を抽出して表現する。これにより、例えば第4の観点にあるように既存の感情表現を減衰させても、複数のキャラクタが、全体として、感情類型を統一して表現することが可能になる。視聴者は、聞き手となるキャラクタに同化し、このキャラクタの共感に合わせてコンテンツを視聴することにより、自然な感情類型の伝達が可能になる。
本発明の実施例1による番組生成システム1の構成及び動作を説明するための概念ブロック図である。 図1の感情識別部41、コマンド抽出部43及び確認再生部47の動作の概要を示すフロー図である。 図1の感情識別部41により決定される基本的感情類型及び感情レベルの組合せと表現要素記憶部25との関係を示す図である。 図1の感情識別部41による基本的感情類型及び感情レベルの組合せと、その相互関係の決定の関係を示す図である。 図1のコマンド抽出部43によるキャラクタの動作の決定処理を示す図である。 図1のコマンド抽出部43において感情類型の影響を示す図である。 図1の入力支援装置3により生成される番組の一例を示す図である。 図1の番組生成システム51におけるシナリオデータ及び動画データの配信について説明するための概念ブロック図である。 図8の端末番組画像生成部73の構成及び動作を説明するための概念ブロック図である。 図8の動画データ生成部49の構成及び動作を説明するための概念ブロック図である。 本願発明の実施例2における対話状態でのリアクション感情の推移の一例を示す図である。 本願発明の実施例2における聞き状態でのリアクション感情の推移の一例を示す図である。
 以下、図面を参照して、本発明を実施するための形態について説明する。なお、本発明は、以下の実施例に限定されるものではない。
 図1は、本発明の実施例による番組生成システム1の構成及び動作を説明するための概念ブロック図である。番組生成システム1は、入力支援装置3(本願請求項の「入力支援装置」の一例)と、入力装置5と、表示装置7(本願請求項の「表示装置」の一例)と、遠隔再生処理装置9と、遠隔再生装置11を備える。入力支援装置3は、コンテンツを紹介するためのキャラクタ(登場人物や動物などの動作の主体)の動作を指定する指定コマンドの入力処理を支援する。入力装置5は、入力支援装置3のユーザがコンテンツ及び指定コマンドの入力処理をする。表示装置7は、入力支援装置3により生成された番組案を表示する。遠隔再生処理装置9及び遠隔再生装置11は、入力支援装置3により生成された番組を再生する。
 入力支援装置3は、コンテンツ記憶部21と、指定コマンド記憶部23と、表現要素記憶部25(本願請求項の「表現要素記憶手段」の一例)と、キャラクタ画像記憶部27を備える。コンテンツ記憶部21は、入力装置5から入力されたコンテンツを記憶する。ここで、コンテンツは、素材データ29と言葉データ31を含む。素材データ29は、遠隔再生処理装置9及び遠隔再生装置11の視聴者に対して伝達したい一連の情報を構成する。素材データは、画像・映像素材と音楽素材を含む。言葉データ31は、キャラクタが発する音声(本願発明の「音声データ」の一例)と、言葉による説明を含む。指定コマンド記憶部23は、入力装置5から入力された指定コマンドを記憶する。表現要素記憶部25は、専門家により予め作成されたキャラクタの動作パターンが予め組込み記憶されている。キャラクタ画像記憶部27は、キャラクタの画像を記憶する。
 入力支援装置3は、さらに、感情識別部41(本願請求項の「感情類型推論手段」の一例)と、コマンド抽出部43(本願請求項の「コマンド抽出手段」の一例)と、動作コマンド記憶部45と、確認再生部47(本願請求項の「確認再生手段」の一例)を備える。感情識別部41は、指定コマンド記憶部23に記憶された指定コマンドと素材データ29及び言葉データ31を分析して、キャラクタが表現すべき感情類型を推論する。コマンド抽出部43は、表現要素記憶部25に記憶された動作パターンを参照して、キャラクタの動作を示す動作コマンドを生成する。なお、入力装置からは、修正許可コマンドも入力される。これは、コマンド抽出部43において、感情類型による修正を許可するか否かを指定するものである。この修正許可コマンドが修正を許可しないようにしている場合には、コマンド抽出部43は、キャラクタに対して、待機演出又は指定コマンドにより指定された動作をさせる。この修正許可コマンドが修正を許可するようにしている場合に、以下の修正処理を行うようにする。確認再生部47は、表示装置7に対して、コンテンツと、キャラクタ画像記憶部27のキャラクタの画像に基づき、動作コマンドによりキャラクタを動作させて、同期して再生させる。入力支援装置3のユーザは、表示装置7の表示を参考にして、指定コマンドを追加、変更、削除等を行うことにより、より適切なキャラクタの動作を簡易に実現することができる。
 入力支援装置3は、さらに、シナリオデータ生成部51(本願請求項の「シナリオデータ生成手段」の一例)と、動画データ生成部49(本願請求項の「動画データ生成手段」の一例)を備える。シナリオデータ生成部51は、動作コマンドを含むシナリオデータを生成する。動画データ生成部49は、コンテンツと、動作コマンドによるキャラクタの動作とを同期して再生して動画データを生成する。遠隔再生処理装置9は、例えばパソコン(PC)の機能を備えたもののように、一定の情報処理を行うことが可能である。これは、シナリオデータに基づき端末機で情報処理を行う配信に適したものである。これにより、各端末が存在する時間・場所に応じて、番組を配信することが可能になる。他方、遠隔再生装置11は、単に表示機能のみを備えるモニタ等である。遠隔再生装置11は、動画を再生することは可能である。しかし、シナリオデータを配信しただけでは、番組配信を実現することができない。そのため、入力支援装置3は、動画データ生成部49が生成した動画データを用いて、遠隔再生装置11に対する番組配信を実現する。
 続いて、図2を参照して、図1の感情識別部41、コマンド抽出部43及び確認再生部47の動作の概要を説明する。図1の感情識別部41は、指定コマンドが入力されているか否かを判断する(ステップST1)。入力されている場合、指定コマンドにより主演出(最も高い割合で勘案されて表現される一つ又は複数の基本的感情類型)を決定する(ステップST2)。続いて、言葉データ31が入力されているか否かを判断する(ステップST3)。言葉データ31が入力されている場合、言葉データ31により副演出(主演出の次に高い割合で勘案されて表現される一つ又は複数の基本的感情類型)を決定する(ステップST4)。続いて、素材データ29が入力されているか否かを判断する(ステップST5)。素材データ29が入力されている場合、素材データ29により補助演出(副演出の次に高い割合で勘案されて表現される一つ又は複数の基本的感情類型)を決定する。これにより、指定コマンド、言葉データ31及び素材データ29が入力されている場合には、それぞれに一つ又は複数の基本的感情類型が決定され、この順に高い割合で勘案されてキャラクタの動作が決定される。
 指定コマンドも言葉データ31も素材データ29も入力がない場合(ステップST1、7及び8でNoの場合)、待機演出を行う(ステップST9)。待機演出は、表現要素記憶部25の動作パターンの一つとして、予め定められているものである。指定コマンドと言葉データ31の入力がなく、素材データ29が入力されている場合には、素材データ29により主演出、副演出及び補助演出を決定する(ステップST10)。指定コマンドの入力がなく、言葉データ31が入力されている場合には、言葉データ31により主演出及び副演出を決定する(ステップST11)。そして、ステップST5の判断ステップに進み、素材データ29が入力されていないときには、指定コマンド又は/及び言葉データ31により補助演出を決定する(ステップST12)。指定コマンドの入力があり、言葉データ31の入力がない場合には、素材データ29が入力されている場合には、素材データ29により副演出及び補助演出を決定する(ステップST14)。素材データ29が入力されていない場合には、指定コマンドにより副演出及び補助演出も決定する(ステップST15)。コマンド抽出部43は、決定された待機演出、又は、主演出、副演出及び補助演出により、動作コマンドを生成する(ステップST15)。確認再生部47は、表示装置7に対して、動作案を提示する。ユーザは、動作案を参照して、指定コマンド等の入力処理を行う。入力支援装置3は、修正後の指定コマンド等に基づき、動作コマンドの生成処理等を行う。
 続いて、図3から図6を参照して、図1の感情識別部41及びコマンド抽出部43の動作について、具体的に説明する。コンテンツには、素材データ29と言葉データ31が含まれている。これを単純に視聴者に配信したとしても、視聴者には単なる情報として届くのみである。コンテンツに併せて、キャラクタを動作させて、感情を伝えるための情報を付加することにより、視聴者の評価判断を促し、視聴者に対して、感性的に伝えることができる。本願発明は、背景技術と異なり、コンテンツを一方的に伝えるだけでなく、視聴者がコンテンツに対して行う評価判断をもサポートできるように、キャラクタを動作させるためのものである。
 図1の表現要素記憶部25には、例えば、動作データとして、両手を斜めにあげるなど、キャラクタのパーツごと(例えば、眉、目、肩、手など)の動作パターン(本願請求項の「動作パターン」の一例)が記憶されている。照明データとして、環境光20%(白)など、照明光、環境光などの色合い・明るさ・鮮やかさが記憶されている。カメラワークデータとして、上半身など、カメラの位置・時間・角度が記憶されている。なお、その他のデータも記憶していてもよい。
 図3を参照して、基本的感情類型(本願請求項の「基本的感情類型」の一例)及び感情レベル(本願請求項の「基本的感情類型の度合い」の一例)について説明する。基本的感情類型には、例えば、ジョイ(喜びなど)、トラスト(信任、信頼、信用など)、アンガー(怒りなど)などがある。それぞれに感情レベルが設定されている。感情識別部41は、指定コマンド及びコンテンツを分析して、一つ又は複数の基本的感情類型を選択し、選択された基本的感情類型ごとに感情レベルを分析する。基本的感情類型と感情レベルの組合せにより、表現要素記憶部25に記憶された動作データ、照明データ、カメラワークデータなどの各データについて、一つ又は複数が対応付けられている。例えば、基本的感情類型ジョイに対応して、感情レベルが低い時には、動作データとして(2)手をたたくが、照明データとして(2)環境光50%(白)+(3)全身スポットライト(白)が、カメラワークデータとして(3)全身+(6)正面が選択される。感情レベルが高くなると、動作データとして(1)両手を斜め上にあげる+(3)何度も小さく飛び跳ねるが、照明データとして(1)環境光20%(白)+(3)前身スポットライト(白)が、カメラワークデータとして(2)顔アップ+(6)正面が選択される。さらに感情レベルが高くなると、動作データとして(2)手をたたく+(3)何度も小さく飛び跳ねる+(6)右手を真上にあげるが、照明データとして(2)環境光50%(白)+(3)全身スポットライト(白)+(4)上半身スポットライトが、カメラワークデータとして(2)顔アップ+(4)ズームイン+(6)正面が選択される。
 図4を参照して、動作パターンの生成について説明する。コマンド抽出部43は、口元の動きのように、キャラクタが音声を発するための動作については、コンテンツの言葉データ31の音声に基づき決定する。これは、自然な発声のためである。それ以外の動作については、指定コマンドと、表現要素記憶部25に記憶されたキャラクタの動作パターンから決定する。コマンド抽出部43は、さらに、感情識別部41により推論された感情類型にも基づいて、キャラクタの動作を決定して、動作コマンドを生成するものである。
 例えば、言葉データの説明として、「とっても楽しいですよ。」と記載された場合、形態素解析からは、「楽しい」という単語からジョイという基本的感情類型(感情C)が一つのみ選択される。これは、図4の単純表現である。演出としては、一つの基本的感情類型のみに基づいてキャラクタを動作させれば足りる。
 しかしながら、本願発明では、背景技術と異なり、複数の基本的感情類型が自動的に選択され得る。そのため、例えばジョイやトラストのようなプラスの感情類型だけでなく、同時に、アンガーのようなマイナスの感情をも選択される可能性がある。これが、図4の複合表現にあたる。例えば、説明として、「私は笑顔で答えましたが、無礼な行動に怒りを抑えきれませんでした。」と記載されている場合、「私は笑顔で答えました」という部分の形態素解析では、プラスの感情Aが選択される。感情レベルに関する情報はなく、例えば平均値を設定する。他方、「無礼な行動に怒りを抑えきれませんでした。」という部分の形態素解析では、マイナスの感情Bが選択される。感情レベルは大きいものである。このように複数の基本的感情類型が選択された場合、さらに文字解析を行うことにより、基本的感情類型の主格判断を行う。この場合、例えば、「が」という接続詞に着目したり、「笑顔」という外形の表現と「怒り」という内心の表現とに着目したりして、感情Aが優性であり、感情Bが補助的と判断される。そのため、コマンド抽出部43は、感情Aとその感情レベルに対応する動作を、感情B及びその感情レベルに対応する動作よりも大きい割合で勘案して、キャラクタの動作を決定する。図5にあるように、キャラクタの各パーツについて、その勘案する割合に応じて、形状(ポーズ)及び時間(動きスピード)を決定する。口元のデータなども、必要に応じて修正する。さらに、キャラクタの動作にとどまらず、照明データ、カメラワークデータなどについても同様に決定する。
 図4では、同じ言葉データ31内での優性演出動作と補助的演出動作に関して説明をした。本実施例では、図2にあるように、指定コマンド、言葉データ31及び素材データ29の順に優先して(すなわち、より大きい割合で勘案して)、キャラクタの動作を決定する。そのため、指定コマンド、言葉データ31及び素材データ29では、コンテンツの紹介に適合させつつ、ユーザによるキャラクタの動作の指定に直接的なものほど大きい割合で勘案することとなる。
 続いて、図6を参照して、感情の影響について説明する。図6において、最初は、待機動作として「直立(気を付け)」であったとする。(1)の動作選択(ある指定コマンドの入力による指定)から(7)の動作選択(他の指定コマンドの入力による指定)の時点までに10秒あり、その間、感情影響は減少するとする。コマンド抽出部43は、キャラクタの動作に、(1)の動作選択の時点で最大の影響があり、次のコマンドの指定までの10秒間、影響が自動的に減少するようにする。そのため、コマンド抽出部43は、(7)の動作選択の時点で(1)の動作選択から9秒経過していたとすると、(1)の動作からの感情の影響は10%程度にとどまる。すなわち、コマンド抽出部43は、感情類型がシナリオデータ上で次の感情類型に推移した時点又は/及び指定コマンドがシナリオデータ上で次の指定コマンドに推移した時点において最も感情が強くなり、時間の経過と共にその感情が減衰するように、動作コマンドを生成する。この修正処理は、例えば図6にあるように、キャラクタの動作、素材データ31の再生、言葉データ29の再生、及びBGMの再生について、独立に感情の影響を考慮するようにしてもよい。また、図1の入力支援装置3は、修正履歴記憶部44(本願請求項の「修正履歴記憶手段」の一例)を備える。修正履歴記憶部44は、過去に行われた感情類型をどのように考慮してきたかを示す修正履歴を記憶する。コマンド抽出部43は、この修正履歴により、入力支援装置3のユーザの嗜好・好みを参照して、動作コマンドを生成する。図7は、図1の入力支援装置3により生成される番組の一例を示す図である。
 続いて、図8~10を参照して、シナリオデータ及び動画データによる番組配信について説明する。図8~10では、入力支援装置3のユーザは、図1の言葉データ31の音声として、マイク等の音声入力手段によりキャラクタを担当する声優が話す音声を入力する場合について、具体的に説明する。
 図8の番組生成システム1において、シナリオデータの配信は、遠隔再生処理装置9のように一定の処理が可能な場合には、装置側での処理によりコンテンツの再生を行う。これにより、装置が設置された場所に適したキャラクタを動作させるなど、情報の受け手に着目したシナリオデータの再生が可能になる。他方、遠隔再生装置11のように、動画像を再生するだけの端末の場合には、入力支援装置において動画データを生成して再生させる。これにより、処理能力が不足している装置でも、コンテンツの紹介が可能になる。
 図8の番組生成システム1には、2つの遠隔再生処理装置91及び92(本願請求項の「遠隔再生処理装置」の一例)(以下、添え字は、複数のものを示す場合は省略する。)並びに遠隔再生装置11(本願請求項の「遠隔再生装置」の一例)が存在するとする。遠隔再生処理装置9及び遠隔再生装置11は、複数あってもよい。
 図8を参照して、入力支援装置3は、音声量子化部61と、音声量子記憶部62と、データ送信部63と、動画データ送信部65を備える。
 音声量子化部61は、コンテンツの言葉データ31の音声を分割して、その一部又は全部を音声要素として抽出して、量子化して、量子化データを生成する(以下、この量子化データを「音声量子」という。)。音声量子は、例えば、「久しぶりね」というCGキャラクタのセリフについて、「ひ」「さ」「し」「ぶ」「り」「ね」のように個々の音声や無音状態を基準にして量子化する。音声量子記憶部62は、生成された各音声量子を記憶する。コマンド抽出部43は、音声量子記憶部62に記憶された音声量子を、画像用に周波数解析を行い、さらに、音量を解析することによってキャラクタの口元の画像を決定する。このキャラクタの口元の画像は、図1のキャラクタ画像記憶部27に、他の画像とは区別して記憶されているとする。
 データ送信部63は、遠隔再生処理装置9に対し、シナリオデータ生成部51が生成したシナリオデータと、コンテンツ記憶部21に記憶されたコンテンツを送信する。図8では、言葉データ31の音声に代えて、音声量子を送信するものとする。また、遠隔再生処理装置9は、独自のキャラクタ画像を記憶している場合には、そのキャラクタ画像を使って、コンテンツとキャラクタの動作を同期して再生する。遠隔再生処理装置9が独自のキャラクタ画像を記憶していない場合には、データ送信部63がキャラクタ画像記憶部27に記憶されたキャラクタの画像を送信する。動画データ送信部65は、遠隔再生装置11に対し、動画データ生成部49が生成した動画データを送信する。
 遠隔再生処理装置9は、データ送信部63から送信された情報を受信する受信部71と、スピーカ76に対して受信した各音声量子を再生させつつ、モニタ75に対してコンテンツとキャラクタ画像を同期して再生して番組画像を表示させる端末番組画像生成部73を有する。遠隔再生装置11は、動画データを受信する動画データ受信部81と、受信した動画データを再生するモニタ83を備える。
 図9は、図8の端末番組画像生成部73の構成及び動作を説明するための概念ブロック図である。端末番組画像生成部73は、シナリオデータ記憶部101と、音楽素材記憶部103と、キャラクタ画像記憶部105と、画像・映像素材記憶部107を備える。シナリオデータ記憶部101は、受信したシナリオデータを記憶する。音楽素材記憶部103は、音楽素材を記憶する。キャラクタ画像記憶部105は、キャラクタの画像を記憶する。画像・映像素材記憶部107は、画像・映像素材を記憶する。
 キャラクタ画像記憶部105に記憶されるキャラクタの画像は、遠隔再生処理装置9ごとに異なっていてもよい。例えば、遠隔再生処理装置91に対しては、特別の種類の要素画像データ(例えばパンダの種類)を送信し、他の遠隔再生処理装置92等には送信せず、別の種類の要素画像データ(例えばネコの種類)を送信する。この選択は、入力装置5のユーザが指定することにより、入力支援装置5が特別のキャラクタの画像を送信し、他の遠隔再生処理装置に対しては送信させないようにしてもよい。また、遠隔再生処理装置9のユーザが指定して、特別のキャラクタの画像を送信させるようにしてもよい。これにより、遠隔再生処理装置91と92では、異なるキャラクタにより同じコンテンツを再生することが可能になる。従来、番組配信は、一方的な情報の流れであった。これに対し、本願発明の番組配信は、各遠隔再生処理装置9の設置場所・再生時間等に合わせた番組画像の配信処理を可能にするものである。また、特別のキャラクタの画像は、各遠隔再生処理装置で用意されたものであってもよい。
 まず、端末番組画像生成部73の音声再生について説明する。端末番組画像生成部73は、端末音声同期部109と、音声再生部111と、音声送出部113を備える。端末音声同期部109は、各音声量子と音楽素材とを同期させる。音声再生部111は、同期後の各音声量子及び音楽素材を再生させる。音声送出部113は、スピーカ76に対して音声を送信して再生させる。
 続いて、端末番組画像生成部73が備える画像生成部115による画像表示について説明する。画像生成部115は、キャラクタ動画像生成部137と、番組画像作成部139を備える。キャラクタ動画像生成部137は、シナリオデータに基づき、3Dベクトルデータ処理により、キャラクタの画像からキャラクタのアニメーション画像を作成する。番組画像作成部139は、作成したキャラクタ動画像と画像・映像素材を合成して番組画像を作成する。
 ある音声量子に対しては、画像生成部115による番組画像の作成処理の終了後に、画像の表示と音声の再生が行われる場合がありうる。この場合、音声再生部111により再生される音声量子と、画像生成部115による番組画像の作成処理の基礎となる音声量子とは異なる。そのため、端末番組画像生成部73は、音声再生部111による再生と、画像生成部115による番組画像の表示とを同期させる同期部119を備える。同期部119は、音声用周波数解析部131と、タイミング制御部133を備える。音声用周波数解析部131は、音声再生部111で再生される音声量子の周波数を解析して再生時間データを検出する。タイミング制御部133は、再生時間データと、画像生成部115からの番組画像の生成処理に必要な時間とを比較して、音声再生部111に対して再生のタイミングを制御する。
 図10は、図8の動画データ生成部49の構成及び動作を説明するための概念ブロック図である。動画データ生成部49は、音声量子記憶部62に記憶された各音声量子、シナリオデータ生成部51により生成されたシナリオデータ、キャラクタ画像記憶部27に記憶されたキャラクタの画像データ、コンテンツ記憶部21に記憶されたコンテンツを用いて、動画データを作成する。動画データ生成部49は、音声同期部159と、画像生成部161と、2Dベクトル量子化部163と、連像画像記憶部165と、合成部167と、動画データ記憶部169を備える。音声同期部159は、各音声量子と音楽素材を同期する。画像生成部161は、番組画像を生成する(図9の画像生成部115参照)。2Dベクトル量子化部163は、生成された番組画像に対して2Dベクトル処理を行い連続画像である画像1、・・・、画像nを生成する。連像画像記憶部165は、連続画像を記憶する。合成部167は、音声同期部159により同期された音声と連続画像を合成して動画データを生成する。動画データ記憶部169は、生成された動画データを記憶する。
 なお、遠隔再生処理装置9は、動画データを再生することも可能である。そのため、入力支援装置3や遠隔再生処理装置9のユーザの指示により、遠隔再生装置11だけでなく、遠隔再生処理装置9に対しても動画データを送信するようにしてもよい。これにより、例えば入力支援装置3のユーザが、複数の端末に同時に同じ表示をさせる場合などに、遠隔再生処理装置9の処理を軽減することが可能になる。ただし、動画データは、送信データ量が大きくなる可能性がある。そのため、データ送信部63と動画データ送信部65が、データ量や通信状況により、シナリオデータ等の送信とするか、又は、動画データを送信するかを自動的に選択するようにしてもよい。
 また、音声量子は、例えば、「ひさしぶりね」という、発声されてから音声が一時的に途切れるまでの一連の音声を基準にして量子化したりするように、入力された音声を基準にして量子化されたものであってもよい。また、音声量子は、一定の時間(例えば、30分の1秒など)を基準にして量子化されたものであってもよい。
 さらに、図8のコマンド抽出部43は、入力された音声の振幅を検出して、口の開き具合を検出してキャラクタ画像を生成することも可能である。
 このような遠隔再生が可能になることにより、例えば、遠隔再生処理装置9等の前に人がいたときに、CGキャラクタの音声として「久しぶりね」と入力することにより、遠隔再生処理装置9等でCGキャラクタが「久しぶりね」と話すように表示することができる。これにより、リアルタイムなコンテンツの演出だけでなく、視聴者が参加する形でのコンテンツが実現可能になる。さらに、注目度・話題性・認知度も上がり、さらに、実写との連携を図ることから、臨場感が向上する。さらに、疑似的な会話が可能になり、人の誘導など、場面に合ったコンテンツを実現することが可能になる。
 さらに、図1において、入力装置5及び表示装置7は、処理の負担が小さい。そのため、これらの装置は、ユーザ側のインターネット・ブラウザ等により実現することが可能である。例えば、入力支援装置3のユーザは、ブラウザを用いて、入力支援装置3へ、素材データ29及び言葉データ31並びに指定コマンドを入力する。入力支援装置3は、ウェブサーバにより、このアクセスを実現する。そして、これらの素材等を用いて処理を行い、ユーザのブラウザに表示する。ここで、ユーザ側の装置は、ブラウザが表示できるものであればよく、例えば、PC、スマートフォン、タブレット等である。また、表示するブラウザは、入力用のものと同じであっても、異なってもよい。さらに、キャラクタ画像記憶部27のキャラクタ画像は、ユーザが、他のウェブサーバにアクセスして選択したものであってもよい。
 この実施例では、複数のキャラクタによる感情類型の表現及びその修正について説明する。すなわち、ある感情類型に基づきキャラクタが動作した場合、この感情類型を用いて、他のキャラクタの感情類型を修正するものである。以下、これを「リアクション感情」という。
 本実施例では、簡単のため、2体のキャラクタが、週末の映画の観賞について会話する場合について説明する。第1のセリフは、「週末は、映画を見て楽しみましょう」である。第2のセリフは、「上映中の映画は、こわい映画ですよ」である。第3のセリフは、「買い物に予定変更しようかな」である。
 図11は、対話状態でのリアクション感情の推移の一例を示す図である。図11において、2体のキャラクタ201及び203が対話する。キャラクタ201が、第1及び第3のセリフを表現する。キャラクタ203が、第2のセリフを表現する。
 図1の感情識別部41は、第1のセリフから、「喜び」という感情類型(感情類型205(感情類型P1))を抽出する。コマンド抽出部43は、キャラクタ201に対して、この「喜び」という感情を表現させつつ、第1のセリフを述べさせる。この場合、キャラクタ203には、待機動作をさせる。
 感情識別部41は、第2のセリフから、「恐怖」という感情類型(感情類型209(感情類型Q1))を抽出する。コマンド抽出部43は、キャラクタ203に対して、この「恐怖」という感情を表現させつつ、第2のセリフを述べさせる。キャラクタ201の感情類型は、キャラクタ203が動作を開始した時点では、感情類型P1のままである。そのため、キャラクタ201には、感情類型P1に基づく待機動作をさせる。ただし、感情の度合いは、時間経過に伴い減衰する(感情類型207(感情類型P1))。
 感情識別部41は、キャラクタ203の動作が開始した後、キャラクタ201の感情類型又は/及びその度合いを、キャラクタ203の感情類型を用いて修正する。例えば、キャラクタ203の感情類型がキャラクタ201の感情類型と同じであれば、キャラクタ201の感情類型を維持して感情の度合いを増幅する。キャラクタ203の感情類型がキャラクタ201の感情類型と異なる場合には、キャラクタ201の感情類型を変更する。この場合、キャラクタ203の感情の度合いに応じて、キャラクタ201の感情の度合いを修正してもよい。
 図11では、キャラクタ201の感情類型は「喜び」である。キャラクタ203の感情類型は「恐怖」である。両者は異なるため、感情識別部41は、感情類型215(感情類型Q1)を用いて、感情類型213(感情類型P1)を修正する。図11では、新たな感情類型である「困惑」を選択する(感情類型219(感情類型R1))。そして、コマンド抽出部43は、キャラクタ201に対して、この「困惑」という感情を表現させつつ、第3のセリフを述べさせる。
 図12は、聞き状態でのリアクション感情の推移の一例を示す図である。図11において、2体のキャラクタ251及び253が対話する。キャラクタ251が、第1、第2及び第3のセリフを表現する。キャラクタ253は、聞き手である。
 感情識別部41は、第1のセリフから、「喜び」という感情類型(感情類型255(感情類型P1))を抽出する。コマンド抽出部43は、キャラクタ251に対して、この「喜び」という感情を表現させつつ、第1のセリフを述べさせる。この時点では、キャラクタ253には、待機動作をさせる。
 感情識別部41は、キャラクタ251が動作を開始すると、キャラクタ251の感情類型及び/又はその度合いを用いて、キャラクタ253の感情類型及び/又はその度合いを修正する。図12では、感情類型をP2に合わせている(感情類型263(感情類型P2)。そのため、キャラクタ253には、感情類型P2に基づく待機動作をさせる。
 感情識別部41は、第2のセリフから、「恐怖」という感情類型(感情類型261(感情類型Q1))を抽出する。この時点では、キャラクタ251の感情類型は、感情類型P1のままであるが、感情の度合いは、時間経過に伴い減衰している(感情類型259(感情類型P1))。コマンド抽出部251は、両者の感情類型が異なるため、時間経過に伴い感情類型P2の表現を減衰しつつ、感情類型Q2を表現して、第2のセリフを述べさせる。
 キャラクタ251が第2のセリフを述べる動作を開始すると、感情識別部41は、キャラクタ253の感情類型P2(感情類型269)を、感情類型Q2(感情類型271)を使って修正する。コマンド抽出部43は、修正した感情類型に基づく待機動作をさせる。
 第2のセリフから新たに抽出された感情類型Q2は、キャラクタ251の感情類型とは異なる。そのため、感情識別部41は、新たな感情類型である「困惑」を抽出する(感情類型265(感情類型R2))。同じ場合には、例えば、感情類型を維持しつつ、その度合いを増幅する。コマンド抽出部43は、キャラクタ253に対して、この「困惑」という感情を表現させつつ、第3のセリフを述べさせる。
 本実施例によれば、複数のキャラクタが存在する場合、あるキャラクタが動作すると、他のキャラクタは、共感するように動作する。すなわち、動作するキャラクタは、表現活動を行っており、話し手となる。他のキャラクタは、この表現活動の聞き手となる。聞き手となるキャラクタは、例えば同じ感情類型の表現であれば再度増幅して表現しなおし、また、異なる感情類型の表現であれば他の感情類型を抽出して表現する。これにより、複数のキャラクタが、全体として、感情類型を統一して表現することが可能になる。視聴者は、聞き手となるキャラクタに同化し、このキャラクタの共感に合わせてコンテンツを視聴することにより、自然な感情類型の伝達が可能になる。
 1 番組生成システム、3 入力支援装置、5 入力装置、7 表示装置、9 遠隔再生処理装置、11 遠隔再生装置、21 コンテンツ記憶部、23 指定コマンド記憶部、25 表現要素記憶部、27 キャラクタ画像記憶部、29 素材データ、31 言葉データ、41 感情識別部、43 コマンド抽出部、44 修正履歴記憶部、45 動作コマンド記憶部、47 確認再生部、49 動画データ生成部、51 シナリオデータ生成部

Claims (8)

  1.  コンテンツを紹介するためのキャラクタの動作を指定する指定コマンドの入力処理を支援する入力支援装置であって、
     前記コンテンツは、素材データと言葉データを含み、
     前記言葉データは、前記キャラクタが発する音声を示す音声データを含み、
     前記素材データ及び前記言葉データを分析して前記キャラクタが表現すべき感情類型を推論する感情類型推論手段と、
     前記キャラクタの動作を示す動作コマンドを生成するコマンド抽出手段と、
     表示装置に対して、前記コンテンツと、前記動作コマンドによる前記キャラクタの動作とを同期して再生させる確認再生手段を備え、
     前記コマンド抽出手段は、
      前記キャラクタが前記音声を発するための動作については前記音声データに基づき決定し、
      前記キャラクタが前記音声を発するための動作以外の動作については表現要素記憶手段に記憶された前記キャラクタの動作パターンから前記指定コマンドに基づき決定し、
      さらに、前記キャラクタの動作を前記推論された感情類型にも基づいて決定して、前記動作コマンドを生成する、入力支援装置。
  2.  前記感情類型推論手段は、
      前記素材データ及び前記言葉データを分析して、複数の基本的感情類型から一つ又は複数を選択して、前記選択された基本的感情類型及びその度合いを、前記キャラクタが表現すべき感情類型とするものであって、
      複数の前記基本的感情類型を選択したときは、前記言葉データの分析により選択された前記基本的感情類型から優性演出処理を決定し、その他の前記選択された基本的感情類型から補助的演出処理を決定するものであり、
     前記コマンド抽出手段は、基本的感情類型とその度合いの組合せにより前記動作を決定するものであって、
      前記一つの基本的感情類型が選択されたときは、選択された前記基本的感情類型及びその度合いに対応して、前記動作を決定するものであり、
      前記複数の基本的感情類型が選択されたときは、前記優性演出処理を、前記補助的演出処理よりも大きい比重で参照して前記動作を決定する、請求項1記載の入力支援装置。
  3.  前記動作パターンには、待機動作が含まれており、
     前記コマンド抽出手段により前記感情類型による修正を許可するか否かを指定する修正許可コマンドが入力されるものであり、
     前記指定コマンドの入力がなく、前記素材データも前記言葉データもない場合には、前記コマンド抽出手段は、前記待機動作をさせる前記動作コマンドを生成し、
     前記指定コマンドの入力がなく、前記言葉データ又は/及び前記素材データがある場合には、前記感情類型推論手段は、前記言葉データ又は/及び前記素材データを分析して前記感情類型を識別して前記動作コマンドを生成し、
     前記指定コマンドの入力があり、前記素材データ及び前記言葉データがない場合には、前記コマンド抽出手段は、前記指定コマンドにより指定された動作をさせる前記動作コマンドを生成し、
     前記指定コマンドの入力があり、前記素材データ及び/又は前記言葉データがある場合に、
      前記修正許可コマンドが修正を許可しないときは、前記コマンド抽出手段は、前記指定コマンドにより指定された動作をさせる前記動作コマンドを生成し、
      前記修正許可コマンドが修正を許可するときは、前記感情類型推論手段は、前記言葉データ又は/及び前記素材データを分析して前記感情類型を識別し、前記コマンド抽出手段は、前記指定コマンドにより指定された動作を修正して前記動作コマンドを生成する、請求項2記載の入力支援装置。
  4.  過去に行われた動作コマンドの修正処理を示す修正履歴を記憶する修正履歴記憶手段を備え、
     前記コマンド抽出手段は、前記修正履歴も用いて、前記動作コマンドを生成するものであり、
     前記コマンド抽出手段は、前記感情類型推論手段により識別された感情類型がシナリオデータ上で次の感情類型に推移した時点又は/及び前記指定コマンドがシナリオデータ上で次の指定コマンドに推移した時点において最も感情が強くなり、シナリオデータ上での時間の経過と共にその感情を減衰させて前記動作コマンドを生成する、請求項1から3のいずれかに記載の入力支援装置。
  5.  前記動作コマンドを含むシナリオデータを生成するシナリオデータ生成手段と、前記コンテンツと、前記動作コマンドによる前記キャラクタの動作とを同期して再生して動画データを生成する動画データ生成手段を備え、
     前記シナリオデータは、遠隔再生処理装置が、前記コンテンツ及び前記キャラクタ画像とともにこれを受信して、前記コンテンツと、前記シナリオデータによる前記キャラクタの動作とを同期して再生するものであり、
     前記動画データは、遠隔再生装置がこれを受信して再生するものである、請求項1から4のいずれかに記載の入力支援装置。
  6.  前記キャラクタは、複数存在し、
     前記感情類型推論手段は、一部のキャラクタが動作した場合、動作したキャラクタの感情類型を用いて他のキャラクタの感情類型又は/及びその度合いを修正する、請求項1から5のいずれかに記載の入力支援装置。
  7.  入力支援装置において、コンテンツを紹介するためのキャラクタの動作を指定する指定コマンドの入力処理を支援する入力支援方法であって、
     前記コンテンツは、素材データと言葉データを含み、
     前記言葉データは、前記キャラクタが発する音声を示す音声データを含み、
     前記入力支援装置は、感情類型推論手段と、コマンド抽出手段と、確認再生手段を備えるものであり、
     前記感情類型推論手段が、前記素材データ及び前記言葉データを分析して前記キャラクタが表現すべき感情類型を推論する感情類型推論ステップと、
     前記コマンド抽出手段が、
      前記キャラクタが前記音声を発するための動作については前記音声データに基づき決定し、
      前記キャラクタが前記音声を発するための動作以外の動作については表現要素記憶手段に記憶された前記キャラクタの動作パターンから前記指定コマンドに基づき決定し、
      さらに、前記キャラクタの動作を前記推論された感情類型にも基づいて決定して、前記キャラクタの動作を示す動作コマンドを生成するコマンド抽出ステップと、
     前記確認再生手段が、表示装置に対して、前記コンテンツと、前記動作コマンドによる前記キャラクタの動作とを同期して再生させる確認再生ステップと、
     前記入力支援装置が、前記指定コマンドが追加又は変更された場合、前記追加又は変更された指定コマンドに対して処理を行うステップを含む入力支援方法。
  8.  コンピュータにおいて、請求項7記載の入力支援方法を実現するためのプログラムを記録するコンピュータ読み取り可能な記録媒体。
PCT/JP2012/050937 2011-02-01 2012-01-18 入力支援装置、入力支援方法及び記録媒体 WO2012105318A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US13/983,100 US9898850B2 (en) 2011-02-01 2012-01-18 Support and complement device, support and complement method, and recording medium for specifying character motion or animation
KR20137022633A KR101492359B1 (ko) 2011-02-01 2012-01-18 입력 지원 장치, 입력 지원 방법 및 기록 매체
CN201280012777.9A CN103430217B (zh) 2011-02-01 2012-01-18 输入支持装置、输入支持方法及记录介质

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011-020101 2011-02-01
JP2011020101A JP4725936B1 (ja) 2011-02-01 2011-02-01 入力支援装置、入力支援方法及びプログラム

Publications (1)

Publication Number Publication Date
WO2012105318A1 true WO2012105318A1 (ja) 2012-08-09

Family

ID=44350539

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/050937 WO2012105318A1 (ja) 2011-02-01 2012-01-18 入力支援装置、入力支援方法及び記録媒体

Country Status (6)

Country Link
US (1) US9898850B2 (ja)
JP (1) JP4725936B1 (ja)
KR (1) KR101492359B1 (ja)
CN (1) CN103430217B (ja)
TW (1) TWI436808B (ja)
WO (1) WO2012105318A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104424955A (zh) * 2013-08-29 2015-03-18 国际商业机器公司 生成音频的图形表示的方法和设备、音频搜索方法和设备
WO2020170441A1 (ja) * 2019-02-22 2020-08-27 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103369289B (zh) * 2012-03-29 2016-05-04 深圳市腾讯计算机系统有限公司 一种视频模拟形象的通信方法和装置
JP2014085952A (ja) * 2012-10-25 2014-05-12 Kddi Corp 表情生成装置およびプログラム
JP2014167737A (ja) * 2013-02-28 2014-09-11 Kddi Corp 仕草生成装置およびプログラム
CN103785171B (zh) * 2014-01-23 2016-08-17 北京智明星通科技有限公司 一种集成单击自感应及滑动操作模式的游戏系统及方法
US10052056B2 (en) * 2014-09-01 2018-08-21 Beyond Verbal Communication Ltd System for configuring collective emotional architecture of individual and methods thereof
WO2016068262A1 (ja) * 2014-10-29 2016-05-06 京セラ株式会社 コミュニケーションロボット
US10293260B1 (en) * 2015-06-05 2019-05-21 Amazon Technologies, Inc. Player audio analysis in online gaming environments
JP6782173B2 (ja) * 2017-01-11 2020-11-11 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置および音声データ通信管理方法
CN108038160B (zh) * 2017-12-06 2019-03-08 央视动画有限公司 动态动画保存方法、动态动画调用方法及装置
US10546409B1 (en) * 2018-08-07 2020-01-28 Adobe Inc. Animation production system
JP6993314B2 (ja) * 2018-11-09 2022-01-13 株式会社日立製作所 対話システム、装置、及びプログラム
CN109979592A (zh) * 2019-03-25 2019-07-05 广东邮电职业技术学院 心理健康预警方法、用户终端、服务器与系统
WO2021039924A1 (ja) * 2019-08-29 2021-03-04 有限会社Bond 番組制作装置、番組制作方法及び記録媒体

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001275058A (ja) * 2000-01-21 2001-10-05 Jisedai Joho Hoso System Kenkyusho:Kk 映像内容の説明文生成方法、映像内容説明文生成装置、ダイジェスト映像の番組化方法、ダイジェスト映像の番組化装置およびその方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2008046425A (ja) * 2006-08-17 2008-02-28 National Institute Of Information & Communication Technology 印象表現出力装置及び方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020022504A (ko) * 2000-09-20 2002-03-27 박종만 3차원 캐릭터의 동작, 얼굴 표정, 립싱크 및 립싱크된음성 합성을 지원하는 3차원 동영상 저작 도구의 제작시스템 및 방법
KR100374914B1 (ko) * 2000-08-30 2003-03-06 송대호 출판만화를 이용한 애니메이션 제작방법
JP2003248837A (ja) 2001-11-12 2003-09-05 Mega Chips Corp 画像作成装置、画像作成システム、音声生成装置、音声生成システム、画像作成用サーバ、プログラム、および記録媒体
DE60224776T2 (de) * 2001-12-20 2009-01-22 Matsushita Electric Industrial Co., Ltd., Kadoma-shi Virtuelles Bildtelefon
EP1579415A4 (en) * 2002-09-09 2006-04-19 Ingeeni Studios Inc PLATFORM FOR ARTIFICIAL INTELLIGENCE
US7257538B2 (en) * 2002-10-07 2007-08-14 Intel Corporation Generating animation from visual and audio input
JP2005266912A (ja) 2004-03-16 2005-09-29 Nara Institute Of Science & Technology 人物アニメーション作成システム及びそのユーザインタフェース
TWI263156B (en) 2004-12-17 2006-10-01 Shiau-Ming Wang Automatic program production system and method thereof
CN101145244A (zh) * 2006-09-12 2008-03-19 叶琦 网络传播的数码动漫真人秀照片连环画
US20090128567A1 (en) * 2007-11-15 2009-05-21 Brian Mark Shuster Multi-instance, multi-user animation with coordinated chat
US20090132371A1 (en) * 2007-11-20 2009-05-21 Big Stage Entertainment, Inc. Systems and methods for interactive advertising using personalized head models
KR101334066B1 (ko) * 2008-02-11 2013-11-29 이점식 진화하는 사이버 로봇 시스템 및 그 제공 방법
JP5363797B2 (ja) * 2008-12-22 2013-12-11 任天堂株式会社 ゲームプログラムおよびゲーム装置
KR20100112764A (ko) * 2009-04-10 2010-10-20 엘지이노텍 주식회사 동작교정장치 및 그 제어방법과 이를 이용한 동작교정 서비스시스템
US9665563B2 (en) * 2009-05-28 2017-05-30 Samsung Electronics Co., Ltd. Animation system and methods for generating animation based on text-based data and user information
US10540976B2 (en) * 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US9159151B2 (en) * 2009-07-13 2015-10-13 Microsoft Technology Licensing, Llc Bringing a visual representation to life via learned input from the user

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001275058A (ja) * 2000-01-21 2001-10-05 Jisedai Joho Hoso System Kenkyusho:Kk 映像内容の説明文生成方法、映像内容説明文生成装置、ダイジェスト映像の番組化方法、ダイジェスト映像の番組化装置およびその方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2008046425A (ja) * 2006-08-17 2008-02-28 National Institute Of Information & Communication Technology 印象表現出力装置及び方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104424955A (zh) * 2013-08-29 2015-03-18 国际商业机器公司 生成音频的图形表示的方法和设备、音频搜索方法和设备
WO2020170441A1 (ja) * 2019-02-22 2020-08-27 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JPWO2020170441A1 (ja) * 2019-02-22 2021-12-16 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
US12002487B2 (en) 2019-02-22 2024-06-04 Sony Group Corporation Information processing apparatus and information processing method for selecting a character response to a user based on emotion and intimacy

Also Published As

Publication number Publication date
TW201233413A (en) 2012-08-16
CN103430217B (zh) 2016-06-08
CN103430217A (zh) 2013-12-04
US20140002464A1 (en) 2014-01-02
KR101492359B1 (ko) 2015-02-10
US9898850B2 (en) 2018-02-20
TWI436808B (zh) 2014-05-11
KR20130116349A (ko) 2013-10-23
JP4725936B1 (ja) 2011-07-13
JP2012160082A (ja) 2012-08-23

Similar Documents

Publication Publication Date Title
WO2012105318A1 (ja) 入力支援装置、入力支援方法及び記録媒体
US20200304869A1 (en) Information processing device, information processing method, and program
US10235620B2 (en) Guided personal companion
US11113884B2 (en) Techniques for immersive virtual reality experiences
US8429704B2 (en) System architecture and method for composing and directing participant experiences
US8571956B2 (en) System architecture and methods for composing and directing participant experiences
US20160219279A1 (en) EXPERIENCE OR "SENTIO" CODECS, AND METHODS AND SYSTEMS FOR IMPROVING QoE AND ENCODING BASED ON QoE EXPERIENCES
US20150287403A1 (en) Device, system, and method of automatically generating an animated content-item
US20160110922A1 (en) Method and system for enhancing communication by using augmented reality
JP6227459B2 (ja) 遠隔操作方法ならびにシステムならびにそのユーザ端末および視聴端末
JP2016511837A (ja) 分散型ストーリーリーディングのための音声変更
US11651541B2 (en) Integrated input/output (I/O) for a three-dimensional (3D) environment
US10812430B2 (en) Method and system for creating a mercemoji
US20200344549A1 (en) Synchronized multiuser audio
US20230039530A1 (en) Automated generation of haptic effects based on haptics data
US11183219B2 (en) Movies with user defined alternate endings
JP2011055483A (ja) 番組画像配信システム、番組画像配信方法及びプログラム
WO2012166072A1 (en) Apparatus, systems and methods for enhanced viewing experience using an avatar
JP2015115879A (ja) 遠隔操作システムならびにそのユーザ端末および視聴機器
JP2024505988A (ja) シーン説明の再生制御
US11330307B2 (en) Systems and methods for generating new content structures from content segments
WO2024142674A1 (ja) コンテンツ生成装置、コンテンツ生成方法、プログラム、および記録媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12742315

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 20137022633

Country of ref document: KR

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 13983100

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 12742315

Country of ref document: EP

Kind code of ref document: A1