WO2021131772A1 - 情報処理装置及び情報処理方法 - Google Patents
情報処理装置及び情報処理方法 Download PDFInfo
- Publication number
- WO2021131772A1 WO2021131772A1 PCT/JP2020/046214 JP2020046214W WO2021131772A1 WO 2021131772 A1 WO2021131772 A1 WO 2021131772A1 JP 2020046214 W JP2020046214 W JP 2020046214W WO 2021131772 A1 WO2021131772 A1 WO 2021131772A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- information
- information processing
- user
- processing device
- unit
- Prior art date
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 418
- 238000003672 processing method Methods 0.000 title claims description 6
- 230000033001 locomotion Effects 0.000 claims abstract description 388
- 238000012937 correction Methods 0.000 claims abstract description 86
- 238000012545 processing Methods 0.000 claims abstract description 29
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 230000000875 corresponding effect Effects 0.000 description 112
- 230000006870 function Effects 0.000 description 64
- 238000000034 method Methods 0.000 description 62
- 230000005540 biological transmission Effects 0.000 description 33
- 230000008569 process Effects 0.000 description 29
- 230000008859 change Effects 0.000 description 16
- 238000004891 communication Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 15
- 239000000284 extract Substances 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 230000004044 response Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 101001139126 Homo sapiens Krueppel-like factor 6 Proteins 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 230000037237 body shape Effects 0.000 description 4
- 239000004065 semiconductor Substances 0.000 description 4
- 230000001629 suppression Effects 0.000 description 4
- 101000710013 Homo sapiens Reversion-inducing cysteine-rich protein with Kazal motifs Proteins 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 210000000689 upper leg Anatomy 0.000 description 3
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 102100027867 FH2 domain-containing protein 1 Human genes 0.000 description 1
- 101001060553 Homo sapiens FH2 domain-containing protein 1 Proteins 0.000 description 1
- 101000911772 Homo sapiens Hsc70-interacting protein Proteins 0.000 description 1
- 101000661807 Homo sapiens Suppressor of tumorigenicity 14 protein Proteins 0.000 description 1
- AFCARXCZXQIEQB-UHFFFAOYSA-N N-[3-oxo-3-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)propyl]-2-[[3-(trifluoromethoxy)phenyl]methylamino]pyrimidine-5-carboxamide Chemical compound O=C(CCNC(=O)C=1C=NC(=NC=1)NCC1=CC(=CC=C1)OC(F)(F)F)N1CC2=C(CC1)NN=N2 AFCARXCZXQIEQB-UHFFFAOYSA-N 0.000 description 1
- 208000003443 Unconsciousness Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000005674 electromagnetic induction Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/012—Head tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
- G06V10/422—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/98—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Definitions
- This disclosure relates to an information processing device and an information processing method.
- the function of the device is executed or the content including the virtual character is generated by the physical movement of the user.
- the movement information of the user's body part is used without distinguishing each part such as whether the user's body movement is the main part intended for the movement.
- the movement information of the user's body part is used without distinguishing each part such as whether the user's body movement is the main part intended for the movement.
- a change in the position of a body part not intended by the user may be recognized as a device operation of the user, or the movement of the virtual character may become insufficient. Therefore, it is desired to appropriately identify the part related to the user's body movement.
- the information processing apparatus of one form according to the present disclosure includes an acquisition unit that acquires external shape information indicating the external shape of a user who performs a body movement, and the external shape information acquired by the acquisition unit. Based on this, among the body parts, a main part corresponding to the body movement and a specific part for specifying the related part to be the target of the correction processing of the movement information corresponding to the body movement are provided.
- FIG. 1 is a diagram showing an example of information processing according to the first embodiment of the present disclosure.
- the information processing according to the first embodiment of the present disclosure is realized by the information processing system 1 (see FIG. 2) including the information processing device 100 and the terminal device 10 shown in FIG.
- the information processing device 100 is an information processing device that executes information processing according to the first embodiment.
- the information processing device 100 identifies a portion corresponding to the user's physical movement based on the external shape information indicating the outer shape of the user who performs the physical movement.
- the sensor information (image information) detected by the image sensor 171 (see FIG. 6) of the terminal device 10 used by the user is used as the appearance information.
- the sensor that detects the external shape information indicating the external shape of the user is not limited to the image sensor 171 and may be any sensor as long as the external shape information of the user can be detected.
- the sensor that detects the external shape information indicating the external shape of the user may be an optical ranging sensor, a sound wave sensor using ultrasonic waves, or the like.
- the sensor that detects the external shape information indicating the external shape of the user may be a LiDAR (Light Detection and Ringing, Laser Imaging Detection and Ringing) sensor, a ToF (Time of Flight) sensor, or the like.
- the sensor that detects the external shape information indicating the external shape of the user may be a sensor that detects heat, such as a thermal sensor.
- the information processing system 1 may detect the external shape information by using any sensor as long as the external shape information indicating the external shape of the user can be detected.
- the terminal device 10 detects the image information obtained by capturing the image of the user U1 by the image sensor 171 (step S1). Then, the terminal device 10 transmits the detected image information as external shape information to the information processing device 100 (step S2). For example, the terminal device 10 transmits moving image information including a plurality of continuously captured image information as external shape information to the information processing device 100. For example, the terminal device 10 transmits moving image information composed of a plurality of frames to the information processing device 100 as external shape information.
- the information processing device 100 acquires moving image information composed of a plurality of frames as external shape information.
- the information processing device 100 acquires external shape information indicating the physical movement of the user U1.
- the information processing apparatus 100 acquires a plurality of image information such as image information corresponding to the state ST1 and image information corresponding to the state ST2 as external shape information.
- the information processing device 100 may generate motion information corresponding to the user's body movement between states ST1 and ST2, or the user's body between states ST1 and ST2 from an external information processing device. Motion information corresponding to the motion may be acquired.
- the information processing device 100 that has acquired the external shape information performs a process of specifying a part corresponding to the body movement of the user U1 using the external shape information.
- the information processing device 100 identifies a portion (hereinafter, also referred to as a “main portion”) corresponding to the body movement of the user U1 (step S3).
- the information processing device 100 specifies a portion having a large amount of change as a main portion in the body movement of the user U1 between the states ST1 and the state ST2.
- the information processing apparatus 100 identifies the head HD, which is a portion having a large amount of change between the states ST1 and the state ST2, as the main portion M1 among the body parts of the user U1.
- the information processing apparatus 100 extracts the difference between the first frame (first image information) corresponding to the state ST1 and the second frame (second image information) corresponding to the state ST2, and a portion having a large amount of change.
- the head HD is specified as the main part M1.
- the information processing device 100 specifies the operation type of the user U1 between the states ST1 and ST2 (step S4).
- the information processing device 100 specifies the operation type of the user U1 based on the operation of the head HD, which is the main portion M1 between the states ST1 and ST2.
- the operation type is specified as "ROTATE".
- the information processing device 100 specifies a part (hereinafter, also referred to as “related part”) to be corrected for movement information corresponding to the body movement (step S5).
- the information processing apparatus 100 identifies a related portion based on the head HD, which is the main portion M1 between the states ST1 and ST2, and the operation type “ROTATE”. For example, the information processing apparatus 100 identifies the related portion by using the definition information indicating the correspondence between the main portion and the related portion. For example, the information processing device 100 identifies a related part by using data definition information (main part / related part information) of a part where movements linked to each body part can occur.
- the information processing apparatus 100 identifies a related part by using the definition information stored in the part information storage unit 123 (see FIG. 5). In this way, the information processing apparatus 100 acquires the corresponding related part data and identifies the related part using the acquired information.
- the information processing apparatus 100 among the definition information, the combination in which the main part is "HEAD” indicating the head and the operation type is "ROTATE" is associated with the related part.
- the information INF1 is used to identify the relevant site.
- the information processing apparatus 100 identifies the right-hand RW and the left-hand LW of the user U1 as related parts corresponding to the operation of rotating the head of the user U1.
- the information processing device 100 includes the right hand RW and the left hand of the user U1 among the five body parts of the user U1 other than the head HD, which is the main part M1, the body BD, the right hand RW, the left hand LW, the right foot RL, and the left foot LL. Identify the LW as the relevant site. Although the body parts of FIG. 1 show only six parts for the sake of simplicity, the body parts of the user may be divided in more detail. As described above, in the example of FIG. 1, the information processing apparatus 100 specifies the right hand RW as the related portion R1 and the left hand LW as the related portion R2.
- the information processing device 100 performs a process of correcting the operation (step S6).
- the information processing device 100 makes a correction that cancels the operation of the related portion.
- the information processing apparatus 100 makes a correction for canceling the operation of the right-hand RW, which is the related portion R1. That is, the information processing apparatus 100 corrects the position of the right-hand RW in the state ST2 to return to the position of the right-hand RW in the state ST1.
- the information processing apparatus 100 corrects the uncorrected state ST2 to a state in which the position of the right hand RW is returned to the position of the state ST1 as in the corrected state ST3, and only the head HD is tilted.
- the information processing device 100 estimates the intention of input by the user's physical movement by using the motion information corresponding to the state ST3. For example, the information processing device 100 specifies the intention of input by the user's physical movement by inputting the motion information corresponding to the state ST3 into the detector or the like.
- the information processing device 100 specifies the main part corresponding to the body movement to the user based on the external shape information, and specifies the related part based on the specified main part and the movement type.
- the information processing apparatus 100 can specify the main part which is a part corresponding to the input intention of the user and the related part where the movement occurs in association with the movement of the main part. Therefore, the information processing device 100 can appropriately identify a part related to the user's body movement.
- a human tilts his head (bends his neck), the movement of his hand on the opposite side of the tilted direction unconsciously occurs. If such a function for hand movement exists, it may lead to erroneous activation.
- the information processing device 100 identifies the user's hand as a related part when the user tilts his / her head and corrects the movement of the hand, there is a function for the movement of the hand. It is possible to suppress erroneous activation.
- the information processing device 100 can suppress the influence of the user's physical movement that occurs depending on the user's skeleton or the like by canceling the movement with the predefined data.
- the information processing device 100 more accurately recognizes the input due to the user's physical movement by using the movement information in which the movement of the part other than the head HD, which is the main part M1, is canceled as in the corrected state ST3. It becomes possible.
- the information processing device 100 is not limited to canceling the movement of the related portion, and may make a correction for reducing the movement of the related portion. Further, the information processing apparatus 100 may make a correction for emphasizing the movement of the related portion, and details of this point will be described later.
- the part other than the intentionally operated part may move unconsciously due to physical characteristics or the like.
- Such "unconscious movement” of the user causes misrecognition for the system side.
- the information processing device 100 identifies a body part that is unconsciously moving from the user's movement and cancels the movement, so that only the user's actual movement intention is left. As a result, the information processing device 100 can appropriately identify a part related to the user's body movement.
- the information processing device 100 may be applied to various services, processes, and the like. An example of this point will be described below. The applications described below are merely examples, and may be applied to any service or process as long as they are applicable.
- the information processing device 100 is not limited to the case described with reference to FIG. 1, and may be applied to device control of Su ⁇ using body movements.
- the information processing device 100 may be applied to a service provided by a TV, a smart speaker, a smartphone, or the like.
- the information processing device 100 may be applied to a service using a smart speaker with a camera.
- the information processing device 100 may be applied to a service for posting a video or distributing a video using computer graphics or a (virtual) character (avatar).
- the characteristics of the character can be expressed by making the movement of only the intended body part or changing the correction method depending on the character (attribute) of the avatar.
- the characteristics of a character can be expressed by changing the correction method according to the character (attribute) such as the gender and age of the avatar. This point will be described in detail in FIGS. 10 and later.
- the information processing device 100 may be applied to practice such as sports and image creation.
- the ideal movement state of the user is determined by using the suppression information obtained from the movements of professionals (athletes) such as sports and users (also referred to as "model users") such as experts in a certain technique.
- Visualization may be applied to promote practice and image creation.
- the information processing device 100 may use the information generated from the motion information of the model user as the suppression information.
- the information processing apparatus 100 may use the definition information in which the main part and the related part are associated with each other based on the movement of the model user as the suppression information.
- the information processing device 100 may correct the movement of a user other than the model user (also referred to as a “normal user”) based on the suppression information.
- the information processing apparatus 100 can correct the movement of the normal user to an appropriate movement based on the movement of the model user. Further, the information processing apparatus 100 may provide the normal user with information indicating the movement of the normal user corrected based on the movement of the model user (also referred to as “corrected operation information”). The information processing device 100 may transmit the correction operation information to the terminal device 10 normally used by the user. The terminal device 10 displays the correction operation information so that the normal user recognizes an appropriate movement. As a result, the information processing system 1 can make the normal user grasp the movement reflecting the movement of the model user, so that it is possible to promote skill improvement and technical improvement of the normal user.
- FIG. 2 is a diagram showing a configuration example of the information processing system according to the first embodiment.
- the information processing system 1 shown in FIG. 2 may include a plurality of terminal devices 10 and a plurality of information processing devices 100.
- the information processing device 100 is related to a main part of the body part corresponding to the body movement and a target of correction processing of the movement information corresponding to the body movement, based on the external shape information indicating the outer shape of the user who performs the body movement. It is a computer that identifies a part. Further, the information processing device 100 is a computer that transmits various information to the terminal device 10. The information processing device 100 is a server device used to provide services related to various functions.
- the information processing device 100 may have software modules such as voice signal processing, voice recognition, utterance meaning analysis, and dialogue control.
- the information processing device 100 may have a voice recognition function.
- the information processing apparatus 100 may have functions of natural language understanding (NLU: Natural Language Understanding) and automatic speech recognition (ASR: Automatic Speech Recognition).
- NLU Natural Language Understanding
- ASR Automatic Speech Recognition
- the information processing device 100 may estimate information about a user's intent (intention) or entity (target) from input information uttered by the user.
- the information processing device 100 may be able to acquire information from a voice recognition server that provides a voice recognition service.
- the information processing system 1 may include a voice recognition server.
- the information processing device 100 or the voice recognition server appropriately uses various conventional techniques to recognize the user's utterance and identify the user who has spoken.
- the terminal device 10 is a terminal device that detects external shape information indicating the external shape of a user who performs physical movements by a sensor. For example, the terminal device 10 uses the image sensor 171 to detect image information indicating the outer shape of the user who performs the body movement.
- the terminal device 10 is an information processing device that transmits the user's external shape information to a server device such as the information processing device 100.
- the terminal device 10 is a device device used by the user.
- the terminal device 10 accepts input by the user.
- the terminal device 10 accepts voice input by the user's utterance and input by the user's operation.
- the terminal device 10 displays information according to the input of the user.
- the terminal device 10 may be any device as long as the processing according to the first embodiment can be realized.
- the terminal device 10 may be any device as long as it has a function of detecting the external shape information of the user and transmitting it to the information processing device 100.
- the terminal device 10 may be a device such as a television, a smartphone, a tablet terminal, a notebook PC (Personal Computer), a desktop PC, a mobile phone, or a PDA (Personal Digital Assistant).
- FIG. 3 is a diagram showing a configuration example of the information processing device 100 according to the first embodiment of the present disclosure.
- the information processing device 100 includes a communication unit 110, a storage unit 120, and a control unit 130.
- the information processing device 100 includes an input unit (for example, a keyboard, a mouse, etc.) that receives various operations from the administrator of the information processing device 100, and a display unit (for example, a liquid crystal display, etc.) for displaying various information. You may have.
- the communication unit 110 is realized by, for example, a NIC (Network Interface Card) or the like. Then, the communication unit 110 is connected to the network N (see FIG. 2) by wire or wirelessly, and transmits / receives information to / from other information processing devices such as the terminal device 10 and the voice recognition server. Further, the communication unit 110 may send and receive information to and from a user terminal (not shown) used by the user.
- a NIC Network Interface Card
- the storage unit 120 is realized by, for example, a semiconductor memory element such as a RAM (Random Access Memory) or a flash memory (Flash Memory), or a storage device such as a hard disk or an optical disk. As shown in FIG. 3, the storage unit 120 according to the first embodiment includes an operation information storage unit 121, a user information storage unit 122, a site information storage unit 123, and a functional information storage unit 124.
- a semiconductor memory element such as a RAM (Random Access Memory) or a flash memory (Flash Memory)
- flash memory Flash Memory
- FIG. 3 the storage unit 120 according to the first embodiment includes an operation information storage unit 121, a user information storage unit 122, a site information storage unit 123, and a functional information storage unit 124.
- the motion information storage unit 121 stores various information related to the user's physical motion.
- the motion information storage unit 121 stores various information such as user attribute information and motion information corresponding to the user's physical motion.
- the data shown in the data DT1 shows the structure of motion data (operation information). In the example of FIG. 4, only the data DT1 to DT3 are shown, but not limited to the data DT1 to DT3, a large number of data are included.
- attribute information the case where the attribute information of the virtual character (hereinafter, also referred to as "avatar") operated by the user is included is shown as an example, but the physical movement of the user is simply referred to as the physical movement of the user. When used as input, the attribute information of the virtual character may not be included.
- the movement information storage unit 121 includes the attribute information of the virtual character, which will be described later.
- the "user attribute information” shown in FIG. 4 indicates the attribute information of the user to which this motion data is applied.
- the "user attribute information” in the data DT1 of FIG. 4 indicates the attribute information of the user whose body shape is "TYPE 4" for a man in his 50s.
- the information of "user attribute information" in the data DT1 of FIG. 4 corresponds to the attribute information of user U1 shown in FIG.
- the data DT1 indicates that the data (motion information) generated by the body movement of the user whose body shape is "TYPE 4" for a man in his 50s.
- the "movement information" shown in FIG. 4 includes an array of movement types and correction coefficients for each main part.
- the utterance-time Intent in the "movement information" is used to specify the main part or the like from the utterance.
- Each coefficient may act as a constant on the amount of movement of each part of the user, or a value that considers each coefficient in proportion to the amount of movement of the main part may be used.
- the coefficient is set between "-1" and "1". For example, when the coefficient is "0", it indicates that the motion is not corrected. Further, for example, when the coefficient is less than "0", it indicates that the correction for reducing the movement is performed. For example, when the coefficient is "-1”, it indicates that the movement is cancelled. For example, when the coefficient is larger than "0", it indicates that the correction for emphasizing the movement is performed.
- the "motion information" in the data DT1 of FIG. 4 includes a group of motion information.
- the "motion information" in the data DT1 of FIG. 4 includes a group of motion information arranged in chronological order.
- the first movement information is the left hand and the right hand when the movement of rotating the head, which is the main part of the user's body part, is performed.
- the coefficient for each related part indicates that the rotation of the left hand is "-0.5" and the rotation of the right hand is "-0.2". In this case, it indicates that the rotation of the left hand is corrected by "-0.5” and the rotation of the right hand is corrected by "-0.2" with respect to the movement information corresponding to the body part of the user.
- the utterance intention is "CHEER_UP" and the corresponding action is intended to be energized.
- the movement information does not have to include the intention of utterance.
- FIG. 4 a case where a group of motion information is stored in the form of an array is shown, but the example is not limited to the array, and any format may be used as long as the context of each motion information can be specified.
- the operation information storage unit 121 is not limited to the above, and may store various information depending on the purpose.
- the user information storage unit 122 stores various information about the user.
- the user information storage unit 122 stores various information such as attribute information of each user.
- the user information storage unit 122 stores information about the user such as the user ID, age, gender, and place of residence.
- the user information storage unit 122 stores information about the user U1 such as the age, gender, and place of residence of the user U1 in association with the user ID "U1" that identifies the user U1.
- the user information storage unit 122 stores information for identifying a device (television, smartphone, etc.) used by each user in association with the user.
- the user information storage unit 122 stores information (terminal ID, etc.) that identifies the terminal device 10 used by each user in association with the user.
- the user information storage unit 122 is not limited to the above, and may store various information depending on the purpose.
- the user information storage unit 122 may store other demographic attribute information and psychographic attribute information regardless of age and gender.
- the user information storage unit 122 may store information such as a name, a home, a place of work, an interest, a family structure, an income, and a lifestyle.
- the part information storage unit 123 stores various information related to the body part.
- the site information storage unit 123 stores information in which the corresponding related sites are associated with each combination of the main site and the operation type as definition information.
- FIG. 5 is a diagram showing an example of a site information storage unit according to the first embodiment of the present disclosure.
- the part information storage unit 123 shown in FIG. 5 includes items such as "main part", "operation type”, and "related part". Further, in the example of FIG. 5, the “main part” includes items such as “# 1" and “# 2", and the “related parts” include “# 1", “# 2", and “# 3". , “# 4" are included in the illustration.
- the “main part” is not limited to “# 1” and “# 2", and may include a number of items corresponding to the main part such as “# 3" and "# 4".
- the "related parts” are not limited to “# 1", “# 2", “# 3", and "# 4", but the number corresponding to the related parts such as "# 5" and "# 6". Items may be included.
- Main part indicates the main part corresponding to the user's physical movement.
- the “main part” is a movement of the corresponding movement type, and indicates the body movement of the user who mainly moves.
- the "main part” indicates a part in which the amount of change in position due to the user's physical movement is large.
- the “main part” indicates a part in which the amount of change in position due to the user's physical movement is maximum.
- the “main part” may store identification information (part ID, etc.) for identifying each part.
- Opera type indicates the operation type.
- Operaation type indicates the name of the operation type.
- the “operation type” may store identification information (operation type ID, etc.) for identifying each operation type.
- “Related part” indicates the corresponding main part and the part corresponding to the combination of movement types.
- the “related part” indicates a part that moves in conjunction with the movement of the main part during the movement of the corresponding movement type.
- the “related part” indicates a part to be corrected for the movement information corresponding to the body movement.
- the "related site” may store identification information (site ID, etc.) for identifying each site.
- the related parts corresponding to the combination of the main part "HEAD” and the operation type "ROTATE” are two parts, “L_WRIST” and “R_WRIST”. That is, when the movement of rotating the head, which is the main part of the user's body part, is performed, it indicates that the related parts are the left hand and the right hand.
- the related parts corresponding to the combination of the main part "HEAD” and the operation type "MOVE” are four parts of "L_WRIST”, “R_WRIST”, “L_LEG” and “R_LEG”. That is, when the movement of the head, which is the main part of the user's body part, is performed, it indicates that the related parts are the left hand, the right hand, the left foot, and the right foot.
- the site information storage unit 123 is not limited to the above, and may store various information depending on the purpose.
- the part information storage unit 123 may store information (correction amount information) indicating a correction amount when correcting the movement of the related part in association with each related part.
- the site information storage unit 123 may store correction amount information indicating how much to emphasize when emphasizing the movement of the related site in association with each related site.
- the functional information storage unit 124 stores various information related to the function.
- the function information storage unit 124 stores information about each function executed in response to user input.
- the function information storage unit 124 stores information regarding inputs required for executing the function.
- the function information storage unit 124 stores input items necessary for executing each function.
- the functional information storage unit 124 is not limited to the above, and may store various information depending on the purpose.
- control unit 130 for example, a program (for example, an information processing program according to the present disclosure) stored inside the information processing apparatus 100 by a CPU (Central Processing Unit), an MPU (Micro Processing Unit), or the like is stored in a RAM (Random Access). It is realized by executing Memory) etc. as a work area. Further, the control unit 130 is realized by, for example, an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array).
- ASIC Application Specific Integrated Circuit
- FPGA Field Programmable Gate Array
- the control unit 130 includes an acquisition unit 131, a specific unit 132, a correction unit 133, an execution unit 134, and a transmission unit 135, and has information processing functions and operations described below. To realize or execute.
- the internal configuration of the control unit 130 is not limited to the configuration shown in FIG. 3, and may be another configuration as long as it is a configuration for performing information processing described later.
- the connection relationship of each processing unit included in the control unit 130 is not limited to the connection relationship shown in FIG. 3, and may be another connection relationship.
- the acquisition unit 131 acquires various information.
- the acquisition unit 131 acquires various information from an external information processing device.
- the acquisition unit 131 acquires various information from the terminal device 10.
- the acquisition unit 131 acquires various information from the terminal device 10 from the information detected by the sensor unit 17 of the terminal device 10.
- the acquisition unit 131 acquires various information from the terminal device 10 from the information detected by the image sensor 171 of the sensor unit 17.
- the acquisition unit 131 acquires various information from another information processing device such as a voice recognition server.
- the acquisition unit 131 acquires various information from the storage unit 120.
- the acquisition unit 131 acquires various types of information from the operation information storage unit 121, the user information storage unit 122, the site information storage unit 123, and the function information storage unit 124.
- the acquisition unit 131 acquires various information specified by the specific unit 132.
- the acquisition unit 131 acquires various information corrected by the correction unit 133.
- the acquisition unit 131 acquires external shape information indicating the external shape of the user who performs the body movement.
- the acquisition unit 131 acquires the external shape information detected by the sensor.
- the acquisition unit 131 acquires external shape information, which is image information detected by the image sensor.
- the acquisition unit 131 acquires the user's utterance information.
- the acquisition unit 131 acquires the external shape information of the user who inputs by the body movement.
- the acquisition unit 131 acquires definition information indicating the association between the main part and the related part.
- the acquisition unit 131 acquires moving image information composed of a plurality of frames as external shape information.
- the acquisition unit 131 acquires external shape information indicating the body movement of the user U1.
- the acquisition unit 131 acquires a plurality of image information such as image information corresponding to the state ST1 and image information corresponding to the state ST2 as external shape information.
- the specific unit 132 specifies various types of information.
- the specific unit 132 determines various information.
- the specific unit 132 makes various determinations.
- the specific unit 132 determines various information.
- the identification unit 132 specifies various types of information based on information from an external information processing device or information stored in the storage unit 120.
- the identification unit 132 identifies various types of information based on information from other information processing devices such as the terminal device 10 and the voice recognition server.
- the identification unit 132 identifies various types of information based on the information stored in the operation information storage unit 121, the user information storage unit 122, the site information storage unit 123, and the function information storage unit 124.
- the specific unit 132 extracts various information.
- the specific unit 132 extracts various information based on the information from the external information processing device and the information stored in the storage unit 120.
- the specific unit 132 specifies various information based on the various information acquired by the acquisition unit 131.
- the identification unit 132 specifies various information based on the various information corrected by the correction unit 133.
- the specific unit 132 makes various determinations based on the specificity. Various judgments are made based on the information acquired by the acquisition unit 131.
- the specific unit 132 determines the main part of the body part corresponding to the body movement and the related part to be corrected for the movement information corresponding to the body movement. Identify.
- the specific unit 132 identifies a related site for which the influence of body movement is canceled.
- the specific part 132 identifies a related part to be emphasized by the influence of body movement.
- the identification unit 132 identifies the main part based on the amount of conversion of the position of each body part of the user.
- the specific part 132 specifies a part of the body part having a large amount of position conversion as a main part.
- the identification unit 132 identifies the main part based on the user's utterance information.
- the identification unit 132 identifies the related part based on the user's utterance information.
- the identification unit 132 identifies the main part based on the user's utterance intention estimated from the user's utterance content.
- the specific unit 132 specifies an operating part as a related part among the parts other than the main part corresponding to the user's utterance intention.
- the identification unit 132 identifies the related part based on the definition information.
- the identification unit 132 identifies the main part corresponding to the user's input.
- the specific part 132 specifies a part that operates in conjunction with the movement of the main part as a related part.
- the identification unit 132 specifies a function instructed by the user to execute.
- the identification unit 132 specifies a function corresponding to the movement information of the user.
- the identification unit 132 specifies a function based on the movement information of the user.
- the identification unit 132 specifies the function based on the motion information corrected by the correction unit 133.
- the specific unit 132 estimates the user's utterance intention by the function of natural language understanding.
- the specific unit 132 estimates the user's utterance intention by using techniques such as natural language understanding and entity analysis.
- the identification unit 132 specifies a portion having a large amount of change as a main portion in the body movement of the user U1 between the states ST1 and the state ST2.
- the specific unit 132 specifies the head HD, which is a portion of the body portion of the user U1 that has a large amount of change between the states ST1 and the state ST2, as the main portion M1.
- the identification unit 132 specifies the operation type of the user U1 based on the operation of the head HD, which is the main portion M1 between the states ST1 and ST2. Since the user U1 tilts (rotates) the head between the states ST1 and the state ST2 in the identification unit 132, the operation type is specified as "ROTATE".
- the identification unit 132 identifies the related portion based on the head HD, which is the main portion M1 between the states ST1 and the state ST2, and the operation type “ROTATE”.
- the identification unit 132 identifies the right-hand RW and the left-hand LW of the user U1 as related parts corresponding to the operation of rotating the head of the user U1.
- the specific unit 132 specifies the right hand RW as the related part R1 and the left hand LW as the related part R2.
- the correction unit 133 corrects various information.
- the correction unit 133 corrects various information based on the information from the external information processing device and the information stored in the storage unit 120.
- the correction unit 133 corrects various types of information based on information from other information processing devices such as the terminal device 10 and the voice recognition server.
- the correction unit 133 corrects various information based on the information stored in the operation information storage unit 121, the user information storage unit 122, the part information storage unit 123, and the function information storage unit 124.
- the correction unit 133 corrects various information based on the various information acquired by the acquisition unit 131.
- the correction unit 133 corrects various information based on the various information specified by the specific unit 132.
- the correction unit 133 corrects various information based on the processing executed by the execution unit 134.
- the correction unit 133 corrects the motion information corresponding to the related portion specified by the specific unit 132.
- the correction unit 133 corrects the motion information corresponding to the main portion specified by the specific unit 132.
- the correction unit 133 makes a correction to cancel the operation of the right hand RW which is the related part R1.
- the correction unit 133 corrects the position of the right-hand RW in the state ST2 to return to the position of the right-hand RW in the state ST1.
- the correction unit 133 corrects the state ST2 before correction so that the position of the right hand RW is returned to the position of the state ST1 as in the state ST3 after correction, and only the head HD is tilted.
- Execution unit 134 executes various processes.
- the execution unit 134 determines the execution of various processes.
- the execution unit 134 executes various processes based on information from an external information processing device.
- the execution unit 134 executes various processes based on the information stored in the storage unit 120.
- the execution unit 134 executes various processes based on the information stored in the operation information storage unit 121, the user information storage unit 122, the part information storage unit 123, and the function information storage unit 124.
- the execution unit 134 executes various processes based on various information acquired by the acquisition unit 131.
- the execution unit 134 executes various processes based on various information specified by the specific unit 132.
- the execution unit 134 executes various processes based on various information corrected by the correction unit 133.
- Execution unit 134 generates various information.
- the execution unit 134 generates various information based on the information from the external information processing device and the information stored in the storage unit 120.
- the execution unit 134 generates various information based on information from other information processing devices such as the terminal device 10 and the voice recognition server.
- the execution unit 134 generates various information based on the information stored in the operation information storage unit 121, the user information storage unit 122, the site information storage unit 123, and the function information storage unit 124.
- Execution unit 134 generates motion information from image information captured by the user.
- the execution unit 134 generates motion information from a plurality of image information images of the user.
- the execution unit 134 generates motion information corresponding to the user based on the difference between a plurality of image information captured by the user.
- the execution unit 134 generates motion information corresponding to the user's physical motion between the states ST1 and ST2.
- the transmission unit 135 transmits various information.
- the transmission unit 135 transmits various information to an external information processing device.
- the transmission unit 135 provides various information to an external information processing device.
- the transmission unit 135 transmits various information to other information processing devices such as the terminal device 10 and the voice recognition server.
- the transmission unit 135 provides the information stored in the storage unit 120.
- the transmission unit 135 transmits the information stored in the storage unit 120.
- the transmission unit 135 provides various information based on information from other information processing devices such as the terminal device 10 and the voice recognition server.
- the transmission unit 135 provides various types of information based on the information stored in the storage unit 120.
- the transmission unit 135 provides various information based on the information stored in the operation information storage unit 121, the user information storage unit 122, the site information storage unit 123, and the function information storage unit 124.
- the transmission unit 135 transmits information indicating a function to be executed by the terminal device 10 to the terminal device 10.
- the transmission unit 135 transmits information indicating the function determined to be executed by the execution unit 134 to the terminal device 10.
- FIG. 6 is a diagram showing a configuration example of the terminal device according to the first embodiment of the present disclosure.
- the terminal device 10 includes a communication unit 11, an input unit 12, an output unit 13, a storage unit 14, a control unit 15, a display unit 16, and a sensor unit 17.
- the communication unit 11 is realized by, for example, a NIC or a communication circuit.
- the communication unit 11 is connected to the network N (Internet or the like) by wire or wirelessly, and transmits / receives information to / from other devices such as the information processing device 100 via the network N.
- the input unit 12 accepts various inputs.
- the input unit 12 receives the detection by the sensor unit 17 as an input.
- the input unit 12 receives input of external shape information indicating the external shape of the user who performs the body movement.
- the input unit 12 receives the input of the external shape information detected by the sensor unit 17.
- the input unit 12 receives the input of the external shape information which is the image information detected by the image sensor 171.
- the input unit 12 accepts the input of the user's utterance information.
- the input unit 12 receives the input of the external shape information of the user who inputs by the physical movement.
- the input unit 12 accepts the user's gesture and line of sight as input.
- the input unit 12 receives sound as input by a sensor unit 17 having a function of detecting voice.
- the input unit 12 receives the voice information detected by the microphone (sound sensor) that detects the voice as the input information.
- the input unit 12 receives the voice spoken by the user as input information.
- the input unit 12 may accept an operation (user operation) on the terminal device 10 used by the user as an operation input by the user.
- the input unit 12 may receive information regarding the operation of the user using the remote controller (remote controller) via the communication unit 11.
- the input unit 12 may have a button provided on the terminal device 10 or a keyboard or mouse connected to the terminal device 10.
- the input unit 12 may have a touch panel capable of realizing functions equivalent to those of a remote controller, a keyboard, and a mouse.
- various information is input to the input unit 12 via the display unit 16.
- the input unit 12 receives various operations from the user via the display screen by the function of the touch panel realized by various sensors. That is, the input unit 12 receives various operations from the user via the display unit 16 of the terminal device 10.
- the input unit 12 receives an operation such as a user's designated operation via the display unit 16 of the terminal device 10.
- the input unit 12 functions as a reception unit that receives a user's operation by the function of the touch panel.
- the input unit 12 and the reception unit 153 may be integrated.
- the capacitance method is mainly adopted in the tablet terminal, but other detection methods such as the resistance film method, the surface acoustic wave method, the infrared method, and the electromagnetic induction method are used. Any method may be adopted as long as the user's operation can be detected and the touch panel function can be realized.
- the input unit 12 accepts the utterance of the user U1 as an input.
- the input unit 12 receives the utterance of the user U1 detected by the sensor unit 17 as an input.
- the input unit 12 receives the utterance of the user U1 detected by the sound sensor of the sensor unit 17 as an input.
- the output unit 13 outputs various information.
- the output unit 13 has a function of outputting audio.
- the output unit 13 has a speaker that outputs sound.
- the output unit 13 outputs information by voice to the user.
- the output unit 13 outputs the information displayed on the display unit 16 by voice.
- the storage unit 14 is realized by, for example, a semiconductor memory element such as a RAM or a flash memory, or a storage device such as a hard disk or an optical disk.
- the storage unit 14 stores various information used for displaying the information.
- the control unit 15 is realized by, for example, a CPU, an MPU, or the like executing a program stored inside the terminal device 10 (for example, a display program such as an information processing program according to the present disclosure) with a RAM or the like as a work area. Will be done. Further, the control unit 15 may be realized by an integrated circuit such as an ASIC or FPGA.
- control unit 15 includes a reception unit 151, an execution unit 152, a reception unit 153, and a transmission unit 154, and realizes or executes an information processing function or operation described below. ..
- the internal configuration of the control unit 15 is not limited to the configuration shown in FIG. 6, and may be another configuration as long as it is a configuration for performing information processing described later.
- the receiving unit 151 receives various information.
- the receiving unit 151 receives various information from an external information processing device.
- the receiving unit 151 receives various information from other information processing devices such as the information processing device 100 and the voice recognition server.
- the receiving unit 151 receives execution instructions of various functions from the information processing device 100. For example, the receiving unit 151 receives information specifying a function from the information processing device 100 as a function execution instruction. The receiving unit 151 receives the content. The receiving unit 151 receives the content to be displayed from the information processing device 100.
- Execution unit 152 executes various processes.
- the execution unit 152 determines the execution of various processes.
- the execution unit 152 executes various processes based on information from an external information processing device.
- the execution unit 152 executes various processes based on the information from the information processing device 100.
- the execution unit 152 executes various processes in response to an instruction from the information processing device 100.
- the execution unit 152 executes various processes based on the information stored in the storage unit 14.
- the execution unit 152 controls various displays.
- the execution unit 152 controls the display of the display unit 16.
- the execution unit 152 controls the display of the display unit 16 in response to the reception by the reception unit 151.
- the execution unit 152 controls the display of the display unit 16 based on the information received by the reception unit 151.
- the execution unit 152 controls the display of the display unit 16 based on the information received by the reception unit 153.
- the execution unit 152 controls the display of the display unit 16 in response to the reception by the reception unit 153.
- Reception department 153 receives various information.
- the reception unit 153 receives input by the user via the input unit 12.
- the reception unit 153 accepts the utterance by the user as an input.
- the reception unit 153 accepts operations by the user.
- the reception unit 153 accepts the user's operation on the information displayed by the display unit 16.
- the reception unit 153 accepts character input by the user.
- the transmission unit 154 transmits various information to an external information processing device.
- the transmission unit 154 transmits various information to other information processing devices such as the terminal device 10 and the voice recognition server.
- the transmission unit 154 transmits the information stored in the storage unit 14.
- the transmission unit 154 transmits various information based on information from other information processing devices such as the information processing device 100 and the voice recognition server.
- the transmission unit 154 transmits various types of information based on the information stored in the storage unit 14.
- the transmission unit 154 transmits the sensor information detected by the sensor unit 17 to the information processing device 100.
- the transmission unit 154 transmits the external shape information of the user U1 detected by the image sensor 171 of the sensor unit 17 to the information processing device 100.
- the transmission unit 154 transmits the input information input by the user to the information processing device 100.
- the transmission unit 154 transmits the input information voice-input by the user to the information processing device 100.
- the transmission unit 154 transmits the input information input by the user's operation to the information processing device 100.
- the transmission unit 154 transmits the external shape information indicating the external shape of the user who performs the physical movement to the information processing device 100.
- the transmission unit 154 transmits the external shape information detected by the sensor unit 17 to the information processing device 100.
- the transmission unit 154 transmits the external shape information, which is the image information detected by the image sensor 171, to the information processing device 100.
- the transmission unit 154 transmits the user's utterance information to the information processing device 100.
- the transmission unit 154 transmits the external shape information of the user who inputs by physical movement to the information processing device 100.
- the display unit 16 is provided on the terminal device 10 and displays various information.
- the display unit 16 is realized by, for example, a liquid crystal display, an organic EL (Electro-Luminescence) display, or the like.
- the display unit 16 may be realized by any means as long as the information provided by the information processing device 100 can be displayed.
- the display unit 16 displays various information according to the control by the execution unit 152.
- the display unit 16 displays the content.
- the display unit 16 displays the content received by the reception unit 151.
- the sensor unit 17 detects predetermined information.
- the sensor unit 17 detects the outer shape information indicating the outer shape of the user who performs the body movement.
- the sensor unit 17 has an image sensor 171 as a means for detecting external shape information indicating the external shape of a user who performs a body movement.
- the sensor unit 17 detects external shape information, which is image information, by the image sensor 171.
- the sensor unit 17 detects the user's utterance.
- the sensor unit 17 detects the external shape information of the user who inputs by the body movement.
- the sensor unit 17 is not limited to the image sensor 171 and may have any sensor as long as it can detect the external shape information of the user.
- An optical ranging sensor, a sound wave sensor using ultrasonic waves, or the like may be provided as a sensor for detecting the external shape information of the user.
- the sensor unit 17 may have a LiDAR, a ToF sensor, or the like.
- the sensor unit 17 may have a sensor for detecting heat, such as a thermal sensor, as a sensor for detecting the external shape information of the user.
- the sensor unit 17 is not limited to the above, and may have various sensors.
- the sensor unit 17 may have a sensor (position sensor) that detects position information such as a GPS (Global Positioning System) sensor.
- the sensor unit 17 is not limited to the above, and may have various sensors.
- FIG. 7 is a flowchart showing a processing procedure of the information processing apparatus according to the first embodiment of the present disclosure. Specifically, FIG. 7 is a flowchart showing a procedure of information processing by the information processing apparatus 100.
- the information processing device 100 acquires external shape information indicating the external shape of the user who performs the body movement (step S101). Then, the information processing device 100 identifies, among the body parts, a main part corresponding to the body movement and a related part to be corrected for the movement information corresponding to the body movement, based on the external shape information (step). S102).
- FIG. 8 is a sequence diagram showing a processing procedure of the information processing system according to the first embodiment of the present disclosure.
- the terminal device 10 detects the outer shape information indicating the outer shape of the user who performs the physical movement (step S201). For example, the terminal device 10 acquires the image information of the user detected by the image sensor 171. Then, the terminal device 10 transmits the external shape information indicating the external shape of the user who performs the physical movement to the information processing device 100 (step S202).
- the information processing device 100 determines a main part of the body part corresponding to the body movement and a related part to be corrected for the movement information corresponding to the body movement. Specify (step S203). Then, the information processing device 100 corrects the motion information of the specified portion (step S204). Then, the information processing device 100 identifies the function based on the corrected motion information (step S205).
- the information processing device 100 instructs the terminal device 10 to execute the specified function (step S206).
- the information processing device 100 instructs the terminal device 10 to execute the specified function by transmitting information indicating the specified function to the terminal device 10.
- the terminal device 10 executes a function in response to an instruction from the information processing device 100 (step S207).
- the information processing apparatus 100 may specify a main part and a related part by appropriately using various information as well as the external shape information. This point will be described below. In the following description, the same points as in FIG. 1 will be omitted as appropriate.
- the information processing system 1 can recognize the voice information generated by the user's utterance and estimate the content of the utterance by the functions of natural language understanding and automatic voice recognition (ASR).
- ASR natural language understanding and automatic voice recognition
- Any device of the information processing system 1 may have the functions of natural language understanding and automatic speech recognition.
- the information processing device 100 and the terminal device 10 may have functions of natural language understanding and automatic speech recognition.
- the information processing system 1 may include a voice recognition server having a function of natural language understanding and automatic voice recognition.
- the terminal device 10 detects the utterance of the user U1 "returning at 7 o'clock”. Then, the terminal device 10 transmits the character information "returning at 7 o'clock" generated by the automatic voice recognition function to the information processing device 100. As a result, the information processing apparatus 100 acquires the character information "returning at 7 o'clock" corresponding to the utterance of the user U1.
- the information processing device 100 acquires a plurality of image information indicating the user's operation corresponding to the state ST1 to the state ST2 as external shape information.
- the information processing apparatus 100 acquires image information corresponding to the state ST1 before the utterance of the user U1 and image information corresponding to the state ST2 after the utterance of the user U1 as external shape information.
- the information processing apparatus 100 acquires a plurality of image information such as image information corresponding to the state ST1 and image information corresponding to the state ST2 as external shape information.
- the information processing device 100 estimates the intention of the character information "returning at 7 o'clock" by the function of natural language understanding. Further, the information processing device 100 identifies the intention of the user U1 based on the physical movement of tilting the user's head. The information processing device 100 specifies that the intention is to ask the content of the character information "returning at 7 o'clock” based on the physical movement of tilting the user's head. As a result, the information processing apparatus 100 generates the message “return at 7 o'clock?" With "?” Attached to the character information "return at 7 o'clock".
- the information processing device 100 can more accurately estimate the user's intention based on the user's operation. Further, the information processing device 100 can appropriately generate information such as character information by using the user's intention estimated based on the user's operation.
- the information processing device 100 may switch the main part according to the content of the utterance. This point will be described with reference to FIG.
- FIG. 9 is a diagram showing an example of site identification using utterance.
- FIG. 9 shows an example of specifying the main part using the utterance information.
- the information processing device 100 estimates (acquires) the user's intention (Intent) from the content of the voice utterance, identifies the main part associated with the user's intention (speech intention), identifies unnecessary movements, and identifies the unnecessary operation. Cancel the operation.
- FIG. 9 shows a case where the user speaks while walking and expresses the size with both hands, saying "make it this size".
- the user U1 moves from the state ST11 to the state ST12 by walking (step S11). Then, the user U1 performs an operation of spreading the right-hand RW and the left-hand LW while walking, and makes an utterance UT1 of "making it about this size".
- the information processing apparatus 100 estimates the intention of the user's utterance by the function of natural language understanding (NLU), and acquires the body part information corresponding to the estimated intention (Intent) (step S12).
- the information processing device 100 acquires the body part information corresponding to the intention (Intent) estimated from the database DB 11 that stores the body part information for each Intent.
- the information processing apparatus 100 acquires body part information corresponding to an intention (Intent) estimated from a storage unit 120 that stores body part information for each Intent.
- the information processing device 100 presumes that the user's intention for the utterance UT1 is the intention to change the size of the object. Then, the information processing apparatus 100 extracts the body part information for each Intent, which is the Intent "CHANGE_OBJECT_SIZE” corresponding to the estimated intention (Intent), from the database DB 11. The information processing apparatus 100 extracts the body part information INF11 according to the INTent, whose main parts are "LEFT_WRIST” and "RIGHT_WRIST". In addition, "LEFT_WRIST” may be synonymous with "L_WRIST", and “RIGHT_WRIST” may be synonymous with “R_WRIST”.
- the amount of change in position is larger than that of the right foot RL and left foot LL based on the intention of the user U1's utterance, instead of the right foot RL and left foot LL in which the amount of change in position is large between the states ST11 and ST12.
- the small right-hand RW and left-hand LW are specified as the main parts.
- the information processing apparatus 100 identifies the right-hand RW as the main part M11 and the left-hand LW as the main part M12, as shown in the state ST13 (step S13).
- the information processing device 100 identifies the related part (step S14).
- the information processing device 100 specifies an operating part as a related part among the parts other than the main parts M11 and M12 corresponding to the utterance intention of the user U1.
- the information processing apparatus 100 specifies the right foot RL as the related part R11 and the left foot LL as the related part R12, as shown in the state ST14.
- the information processing device 100 performs a process of correcting the operation (step S15).
- the information processing device 100 makes a correction that cancels the operation of the related portion.
- the information processing apparatus 100 performs correction to cancel the movement of the right foot RL which is the related part R11 and the movement of the left foot LL which is the related part R12. That is, the information processing device 100 corrects the positions of the right foot RL and the left foot LL in the state ST12 to return to the positions of the right foot RL and the left foot LL in the state ST11.
- the information processing apparatus 100 returns the positions of the right foot RL and the left foot LL to the positions of the state ST1 as in the state ST15 after the correction from the state ST12 before the correction, and the right hand RW and the left hand LW are expanded. to correct.
- the information processing device 100 estimates the intention of input by the user's physical movement by using the movement information corresponding to the state ST15. For example, the information processing device 100 specifies the intention of input by the user's physical movement by inputting the motion information corresponding to the state ST15 into the detector or the like.
- the information processing device 100 estimates the utterance of the Intent from the intention analysis of the user's utterance, and identifies the main part from the body part information for each Intent. Then, the information processing device 100 suppresses / cancels the movement of a body part that should not be used as an input, and performs processing.
- the amount of movement other than the intended main part may be larger, for example, while walking. In such a case, correct input may not be possible or the user's intention may not be estimated appropriately.
- the information processing device 100 can accept the correct input by suppressing / canceling the movement of the body part that should not be used as the input and performing the processing, and the user's intention can be appropriately estimated.
- the second embodiment shows a case where the operation is emphasized.
- the second embodiment will be described as an example of a case where a user is made to use a physical movement to operate a virtual character such as an avatar.
- the same points as in the first embodiment will be omitted as appropriate.
- the information processing system 1 has an information processing device 100A instead of the information processing device 100.
- FIG. 10 is a diagram showing an example of information processing according to the second embodiment of the present disclosure.
- the information processing according to the second embodiment of the present disclosure is realized by the information processing system 1 including the information processing device 100A and the terminal device 10 shown in FIG.
- FIG. 10 shows an example of emphasizing the operation by the predefined data.
- the information processing device 100A emphasizes the user's motion data according to the predefined data.
- FIG. 10 shows a case where the motion characteristics of the avatar are reproduced by emphasizing the lacking motion information when transferring the motion information to the avatar or the like.
- the content CT21 including the virtual character VC21 which is an idle character (avatar) of a woman in her twenties who operates according to the body movement of the user U1 is displayed on the display unit 16 of the terminal device 10.
- an idle character (avatar) such as the virtual character VC21
- the attribute of the virtual character VC21 is a female in her twenties
- the attribute of the user U1 is a male in her fifties.
- the information processing apparatus 100A causes the avatar to perform an operation suitable for the avatar by correcting the user's operation so as to emphasize it as follows.
- the terminal device 10 may display the whole body of the virtual character VC21 in response to an instruction from the user U1 or the like. Further, in the example of FIG. 10, the case where the terminal device 10 that detects the operation of the user U1 displays the content CT21 is shown, but the terminal device 10 different from the terminal device 10 that detects the operation of the user U1 displays the content CT21. It may be displayed.
- the terminal device 10 detects the image information obtained by capturing the image of the user U1 by the image sensor 171 (step S21). Then, the terminal device 10 transmits the detected image information as external shape information to the information processing device 100A (step S22). For example, the terminal device 10 transmits moving image information including a plurality of continuously captured image information as external shape information to the information processing device 100A. For example, the terminal device 10 transmits moving image information composed of a plurality of frames to the information processing device 100A as external shape information.
- the information processing device 100A acquires moving image information composed of a plurality of frames as external shape information.
- the information processing device 100A acquires external shape information indicating the physical movement of the user U1.
- the information processing apparatus 100A acquires a plurality of image information such as image information corresponding to the state ST21 and image information corresponding to the state ST22 as external shape information.
- the information processing device 100A that has acquired the external shape information performs a process of specifying a part corresponding to the body movement of the user U1 using the external shape information.
- the information processing device 100A identifies a main part corresponding to the body movement of the user U1 (step S23).
- the information processing apparatus 100A specifies the left hand LW, which is a portion having a large amount of change between the states ST21 and the state ST22, as the main portion M21 among the body parts of the user U1.
- the information processing device 100A specifies the operation type of the user U1 between the states ST21 and ST22 (step S24).
- the information processing device 100A specifies the operation type of the user U1 based on the operation of the left hand LW, which is the main portion M21 between the states ST21 and the state ST22.
- the operation type is specified as "RAISE".
- the information processing device 100A specifies a related part to be corrected for movement information corresponding to the body movement.
- the information processing device 100A identifies a related part based on the left hand LW which is the main part M21 and the operation type "RAISE".
- the information processing apparatus 100A identifies the related part by using the definition information indicating the correspondence between the main part and the related part.
- the information processing apparatus 100A uses the corresponding information in which the combination of the definition information whose main part is "LEFT_WRIST" indicating the left hand and the operation type is "RAISE" and the related part are associated with each other. Identify relevant parts.
- the information processing apparatus 100A identifies the user U1's right hand RW, right foot RL, and left foot LL as related parts corresponding to the action of raising the left hand of the user U1.
- the definition information may include information in which each of the right hand RW, the right foot RL, and the left foot LL, which are related parts, is associated with the correction amount information indicating how much each part is corrected.
- the definition information may include information in which correction amount information indicating how much the right hand RW, which is a related portion, is emphasized according to the action of raising the left hand LW is associated with the related portion “RIGHT_WRIST”.
- the definition information may include information in which correction amount information indicating how much the right foot RL, which is a related portion, is emphasized according to the action of raising the left hand LW is associated with the related portion “RIGHT_LEG”.
- the definition information may include information in which correction amount information indicating how much the left foot LL, which is a related portion, is emphasized according to the action of raising the left hand LW is associated with the related portion “LEFT_LEG”.
- the information processing device 100A performs a process of correcting the operation (step S25).
- the information processing device 100A makes a correction that emphasizes the operation of the related portion.
- the information processing apparatus 100A makes a correction that emphasizes the movements of the right hand RW, the right foot RL, and the left foot LL, which are the related parts R21.
- the information processing apparatus 100A uses the correction amount information included in the definition information to perform correction that emphasizes the operation of the related portion.
- the information processing apparatus 100A corrects the positions of the right hand RW, the right foot RL, and the left foot LL in the state ST22 to move further away from the positions of the right hand RW, the right foot RL, and the left foot LL in the state ST21. ..
- the information processing device 100A corrects the position of the right hand RW in the state ST22 in a direction of further expanding from the body BD.
- the information processing device 100A corrects the right foot RL and the left foot LL in the state ST22 to be further moved in the direction of the inner thigh.
- the above emphasis is an example, and the mode of emphasis may be different depending on the attribute of the avatar.
- the information processing device 100A has the virtual character VC21 in which the positions of the right hand RW, the right foot RL, and the left foot LL are the idle characters (avatars) of women in their twenties, as in the state ST23 after the correction of the state ST22 before the correction. It is corrected to a position suitable for movement. That is, the information processing device 100A corrects the movement information based on the movement of the user U1 to the movement suitable for the avatar by emphasizing the movement information so as to match the movement of the virtual character VC21 which is an idle character (avatar) of a woman in her twenties. can do. As a result, the information processing apparatus 100A can correct the motion information to the motion information suitable for the attribute of the avatar, and can provide a service using the avatar that performs a more appropriate operation.
- the information processing device 100A may be emphasized when the movement of the main part is also insufficient.
- the information processing apparatus 100A emphasizes the movement information so that the left hand LW is raised upward so that the position of the left hand LW is shown in the state ST23 when the raising method is insufficient, such as when the user U1 raises the left hand diagonally. You may.
- the information processing device 100A emphasizes the user's movement data by using the predefined data as described above.
- the information processing device 100A can reproduce the motion characteristics of the avatar by emphasizing the lacking motion information when transferring the motion information to the avatar or the like, and the character of the avatar or the like can be improved. It can be suppressed from being damaged.
- FIG. 11 is a diagram showing a configuration example of the information processing device according to the second embodiment of the present disclosure.
- the information processing device 100A includes a communication unit 110, a storage unit 120A, and a control unit 130A.
- the storage unit 120A is realized by, for example, a semiconductor memory element such as a RAM or a flash memory, or a storage device such as a hard disk or an optical disk. As shown in FIG. 11, the storage unit 120A according to the second embodiment includes an operation information storage unit 121, a user information storage unit 122A, a site information storage unit 123, and a content generation information storage unit 125. ..
- the operation information storage unit 121 according to the second embodiment stores information as shown in FIG.
- the operation information storage unit 121 according to the second embodiment stores operation information including the “attribute information” shown in FIG.
- the "attribute information" shown in FIG. 4 indicates attribute information such as a character (avatar) assumed by the movement data.
- Data DT1 to DT3 in FIG. 4 are prepared for each character and avatar.
- a plurality of user attributes to be applied may be prepared.
- the one that is close to the attribute of the user is selected.
- the movement information storage unit 121 is included in the attribute information of the virtual character as shown in FIG.
- the "attribute information" in the data DT1 of FIG. 4 indicates the attribute information of the virtual character whose body shape is "TYPE2" for a woman in her twenties. That is, the data DT1 indicates that it is motion information for operating a virtual character whose body shape is "TYPE2" for a woman in her twenties.
- the information of "attribute information" in the data DT1 of FIG. 4 corresponds to the attribute information of the virtual character VC21 shown in FIG.
- the user information storage unit 122A stores the same information as the user information storage unit 122.
- the user information storage unit 122A stores the movement information of each user.
- the user information storage unit 122A may store information indicating the correspondence between each user and the virtual character.
- the content generation information storage unit 125 stores various information used for content generation.
- the content generation information storage unit 125 stores various information used for generating a virtual character.
- the content generation information storage unit 125 stores various types of information used for generating content including virtual characters.
- the content generation information storage unit 125 stores the editing history related to the operation of the virtual character.
- the content generation information storage unit 125 stores information used for generating content displayed on a display device such as a terminal device 10.
- the content generation information storage unit 125 stores image information used for content generation.
- the content generation information storage unit 125 stores images in various formats such as JPEG (Joint Photographic Experts Group), GIF (Graphics Interchange Format), and PNG (Portable Network Graphics) as image information used for content generation. You may.
- the content generation information storage unit 125 may store information in the format of CSS (Cascading Style Sheets), Javascript (registered trademark), or HTML (HyperText Markup Language) as image information used for content generation.
- the content generation information storage unit 125 is not limited to the above, and may store various information depending on the purpose.
- control unit 130A includes an acquisition unit 131A, a specific unit 132A, a correction unit 133A, an execution unit 134A, and a transmission unit 135, and has information processing functions and operations described below. To realize or execute.
- the acquisition unit 131A acquires various information in the same manner as the acquisition unit 131.
- the acquisition unit 131A acquires various types of information.
- the acquisition unit 131A acquires the external shape information of the user who operates the virtual character by the body movement.
- the acquisition unit 131A acquires the motion information of the corresponding user corresponding to the attribute set in the virtual character as information used for correcting the motion information of the virtual character.
- the acquisition unit 131A acquires the editing history related to the operation of the virtual character as information used for correcting the movement information of the virtual character.
- the specific unit 132A specifies various information in the same manner as the specific unit 132.
- the specific unit 132A identifies a main part corresponding to the operation of the virtual character and a related part to be corrected.
- the identification unit 132A identifies the main part and the related part based on the movement information of the corresponding user corresponding to the attribute set in the virtual character.
- the identification unit 132A identifies the main part and the related part based on the editing history related to the operation of the virtual character.
- the correction unit 133A corrects various information in the same manner as the correction unit 133.
- the correction unit 133A makes a correction that emphasizes the movement of the main part and the related part.
- the correction unit 133A corrects the movement information of the virtual character based on the editing history related to the movement of the virtual character.
- the correction unit 133A corrects the movement information of the virtual character by using the editing history.
- the correction unit 133A corrects the movement information of the virtual character by utilizing the tendency of the past correction included in the editing history. For example, the correction unit 133A applies the correction content of the movement information (similar movement information) similar to the movement information of the virtual character to be corrected in the editing history to the movement information of the virtual character to be corrected.
- the correction unit 133A corrects the movement information of the virtual character to be corrected with the correction content of the similar movement information.
- Execution unit 134A executes various information in the same manner as execution unit 134.
- the execution unit 134A generates various information in the same manner as the execution unit 134.
- the execution unit 134A generates various information based on various information acquired by the acquisition unit 131.
- the execution unit 134A generates various information based on various information determined by the specific unit 132.
- the execution unit 134A generates various information based on the various information corrected by the correction unit 133.
- the execution unit 134A generates motion information of the virtual character based on the motion information of the corresponding user corresponding to the attribute set in the virtual character.
- the execution unit 134A generates motion information of the virtual character by using motion information of a similar user similar to the attribute set for the virtual character.
- Execution unit 134A generates motion information of a virtual character by utilizing the motion tendency of similar users. For example, the execution unit 134A generates motion information of a virtual character so as to be similar to motion information of a similar user.
- the execution unit 134A generates the motion information of the virtual character to be generated so as to approach the motion information of a similar user.
- the execution unit 134A uses various techniques as appropriate to generate various information such as a screen (image information) to be provided to an external information processing device.
- the execution unit 134A generates a screen (image information) or the like to be provided to the terminal device 10.
- the execution unit 134A generates a screen (image information) or the like to be provided to the terminal device 10 based on the information stored in the storage unit 120.
- the execution unit 134A generates the content CT21 including the virtual character VC21.
- the execution unit 134A may generate the content (image information) or the like by any process as long as the content (image information) or the like to be provided to the external information processing device can be generated.
- the execution unit 134A generates contents (image information) to be provided to the terminal device 10 by appropriately using various techniques related to image generation, image processing, and the like.
- the execution unit 134A appropriately uses various techniques such as Java (registered trademark) to generate contents (image information) to be provided to the terminal device 10.
- the execution unit 134A may generate content (image information) to be provided to the terminal device 10 based on the format of CSS, Javascript (registered trademark), or HTML. Further, for example, the execution unit 134A may generate contents (image information) in various formats such as JPEG, GIF, and PNG.
- the transmission unit 135 transmits the content generated by the execution unit 134A to the terminal device 10. For example, the transmission unit 135 transmits the content CT 21 including the virtual character VC 21 to the terminal device 10.
- the information processing apparatus 100A may specify a main part and a related part by appropriately using various information as well as the external shape information. This point will be described below. In the following description, the same points as in FIG. 10 will be omitted as appropriate.
- the information processing device 100A may emphasize the body part in consideration of the utterance content. This point will be described with reference to FIG.
- FIG. 12 is a diagram showing an example of site identification using utterance.
- FIG. 12 shows an example of specifying the main part using the utterance information.
- the information processing device 100A estimates (acquires) the user's intention (Intent) from the content of the voice utterance, and selects motion data to be used for identifying and emphasizing the main part.
- an idol avatar for example, the virtual character VC21 in FIG. 10
- the points to be emphasized are The case where the operation information is selected and used is shown.
- the user U1 raises the left hand of the user U1 corresponding to the state ST31 to the state ST32 (step S31). Then, the user U1 makes an utterance UT31 saying "Let's try” together with the action of raising the left hand of the user U1.
- the information processing apparatus 100A estimates the user's utterance intention by the function of natural language understanding (NLU), and acquires the information corresponding to the estimated intention (Intent) (hereinafter, also referred to as "part motion information") (hereinafter, also referred to as "part motion information").
- the information processing apparatus 100A acquires the part operation information corresponding to the intention (Intent) estimated from the database DB 31 that stores the main part, the related part, and the operation information for each Intent.
- the information processing apparatus 100A acquires the part operation information corresponding to the intention (Intent) estimated from the storage unit 120 that stores the main part, the related part, and the operation information for each Intent.
- the information processing device 100A presumes that the user's intention for the utterance UT31 is the intention to change the size of the object. Then, the information processing apparatus 100A extracts from the database DB 31 the main part / related part / operation information for each Intent, which is the Intent “LETS_GET_STARTED” corresponding to the estimated intention (Intent). The information processing apparatus 100A extracts the main part / related part / operation information INF31 for each Intence whose main part is "LEFT_ARM" and which is the Intent "LETS_GET_STARTED". In addition, "LEFT_ARM” may be synonymous with "LEFT_WRIST" and "L_WRIST”. The main part / related part / motion information INF31 for each Intent may include information (motion emphasis data) in which correction amount information indicating how much each related part is corrected is associated with each of the related parts.
- the information processing device 100A specifies the left hand LW as the main part based on the intention of the user U1 to speak. As a result, the information processing apparatus 100A identifies the right-hand RW as the main portion M31 as shown in the state ST33 (step S33).
- the information processing device 100A identifies the related part (step S34).
- the information processing device 100A specifies an operating portion as a related portion among the portions other than the main portion M31 corresponding to the utterance intention of the user U1.
- the information processing apparatus 100A specifies the right hand RW as the related part R31, the right foot RL as the related part R32, and the left foot LL as the related part R33, as shown in the state ST33.
- the information processing apparatus 100A uses the correction amount information included in the main part / related part / motion information INF31 for each Intent to perform a correction that emphasizes the motion of the related part.
- the information processing device 100A performs a process of correcting the operation (step S35).
- the information processing device 100A makes a correction that emphasizes the operation of the related portion.
- the information processing apparatus 100A makes a correction that emphasizes the movement of the right hand RW which is the related part R31, the movement of the right foot RL which is the related part R32, and the movement of the left foot LL which is the related part R33. That is, the information processing device 100A corrects the positions of the right hand RW, the right foot RL, and the left foot LL in the state ST34 to move further away from the positions of the right hand RW, the right foot RL, and the left foot LL in the state ST32. ..
- the information processing device 100A corrects the position of the right hand RW in the state ST34 to be further expanded from the body BD. For example, the information processing device 100A corrects the right foot RL and the left foot LL in the state ST34 to be further moved in the direction of the inner thigh. As a result, the information processing device 100A corrects the movement of the hand as shown in the state ST35 to be large and the foot is emphasized in the inner thigh.
- the information processing apparatus 100A when the information processing apparatus 100A also lacks movement of the left hand LW, which is the main part M31, due to insufficient hand raising of the user U1, the movement of the left hand LW is also emphasized.
- the information processing apparatus 100A makes a correction that emphasizes the operation of the main part by using the correction amount information about the main part included in the main part / related part / motion information INF31 for each Intent.
- the main part / related part / motion information INF31 for each Intent includes information (motion emphasis data) in which correction amount information indicating how much each main part is corrected is associated with each of the main parts.
- the information processing device 100A estimates the utterance of the INT from the intention analysis of the user's utterance, and identifies the main part from the main part, the related part, and the motion information for each Intent.
- the information processing apparatus 100A uses the user's utterance information even when the main part cannot be specified only by the amount of movement of the body part due to the reason that the movement of the main part performed by the user is small. The main part can be specified appropriately with.
- the information processing apparatus 100A emphasizes by using the main part information and the motion emphasis data associated with the INT.
- the information processing apparatus 100A can emphasize the movement of the main portion lacking in movement and the movement of the related portion lacking in movement. In this way, the information processing device 100A can correct the motion information to the motion information suitable for the attribute of the avatar, and can provide a service using the avatar that performs a more appropriate operation. ..
- FIG. 13 is a diagram showing an example of information utilization according to attributes.
- FIG. 13 shows, for example, an example of a method of automatically acquiring "main part / related part information" which is an information source for canceling / suppressing / emphasizing the movement of a body part.
- the virtual character VC21 has a female gender, an age of 20s, a long hairstyle, a height of 155 cm, and a weight of 50 kg. , Indicates the case of living in the Kanto region.
- the information processing device 100A generates data from the movements of users with similar attributes (step S41).
- the information processing device 100A generates data of the virtual character VC21 from the movement of the user close to the attribute of the virtual character VC21.
- the information processing device 100A generates data of the virtual character VC21 from the movements of similar users similar to the attributes of the virtual character VC21. For example, the information processing device 100A extracts a female user in her twenties as a similar user, and generates data of the virtual character VC21 from the movement of the similar user.
- the information processing device 100A measures the amount of movement at regular time intervals for similar users. Then, the information processing device 100A associates the measured amount of movement with the virtual character VC21 and stores it in the storage unit 120A. The information processing device 100A stores the data DT 41 including the measured movement amount in association with the virtual character VC 21. The information processing device 100A stores motion information indicating the amount of motion as shown in the state ST41 in association with the virtual character VC21.
- the information processing device 100A measures time-near data at the time of utterance for similar users. Then, the information processing device 100A associates the measured amount of movement with the virtual character VC21 and stores it in the storage unit 120A. The information processing device 100A stores the data DT 42 including the measured movement amount in association with the virtual character VC 21. The information processing device 100A stores motion information indicating the amount of motion as shown in the state ST42 in association with the virtual character VC21.
- the information processing device 100A acquires the movement of the user with the same or similar attributes as the avatar setting as data.
- the information processing apparatus 100A can automatically acquire information indicating the relationship between the main portion and the related portion and information indicating the amount of movement of each portion.
- FIG. 14 is a diagram showing an example of motion editing.
- a case of acquiring undefined motion data is shown.
- FIG. 14 shows an example of a method of automatically acquiring "main part / related part information" which is an information source for canceling / suppressing / emphasizing the movement of a body part.
- the information processing device 100A acquires the expected movement data from the movement editing history of the avatar. If the information processing device 100A has a function of correcting the movement of the avatar as an editing tool for SNS (Social Networking Service) contents or the like, the information processing device 100A acquires the history information corrected (edited) by the function. Further, the information processing apparatus 100A may acquire information from the completed data generated by the editing (PC or the like) operation after shooting. For example, the information processing apparatus 100A may acquire the difference between the data before editing (raw data) and the data after editing (completed data) as editing information.
- SNS Social Networking Service
- FIG. 14 shows, as an example, a case where the user U1 edits the raw data and generates the completed data by operating the input unit 12 such as the mouse of the terminal device 10.
- the user U1 edits motion information by operating a model imitating a person displayed on the display unit 16 of the terminal device 10 using a predetermined editing tool TL51 (step S51).
- the user U1 may directly edit the character information as shown in the data DT51.
- User U1 generates data DT52 corresponding to state ST52 by editing data DT51 corresponding to state ST51.
- the user U1 edits the data DT51, which is the raw data, to generate the data DT52, which is the completed data.
- the information processing apparatus 100A generates the data DT 52 by adding the editing information ED 51 corresponding to the editing of the user U1 to the data DT 51.
- the information processing device 100A generates data DT52 in which the movements of the right foot RL and the left foot LL, which are the related parts R52 and R53, are edited.
- the information processing device 100A adds the right foot RL and the left foot LL to the relevant parts of the movement information in response to the user U1 adjusting the movements of the right foot RL and the left foot LL.
- the information processing device 100A acquires the editing history as described above, and corrects the data by using the acquired editing history.
- the information processing device 100A corrects the movement information of the virtual character by using the editing history.
- the information processing device 100A corrects the movement information of the virtual character by utilizing the tendency of the past correction included in the editing history.
- the information processing apparatus 100A may automatically generate completed data from the raw data automatically generated at the initial stage.
- the case where the information processing device 100 or the information processing device 100A and the terminal device 10 are separate bodies is shown, but these devices may be integrated. That is, the device that generates the content (information processing device 100 or the like) and the device that displays information such as the content (terminal device 10 or the like) may be integrated.
- the device used by the user may be an information processing device having a function of generating contents and a function of displaying information and accepting input by the user.
- the information processing device may be a television or the like, and the information processing device acquires user input information from a terminal device (smart speaker, smartphone, etc.) that accepts input by the user, and uses the acquired information. Content may be generated and displayed.
- each component of each device shown in the figure is a functional concept, and does not necessarily have to be physically configured as shown in the figure. That is, the specific form of distribution / integration of each device is not limited to the one shown in the figure, and all or part of the device is functionally or physically distributed / physically in arbitrary units according to various loads and usage conditions. Can be integrated and configured.
- the information processing devices include an acquisition unit (acquisition units 131 and 131A in the embodiment) and a specific unit (specific units 132 and 132A in the embodiment). ) And.
- the acquisition unit acquires external shape information indicating the external shape of the user who performs the body movement.
- the specific unit Based on the external shape information acquired by the acquisition unit, the specific unit identifies the main part of the body part corresponding to the body movement and the related part to be corrected for the movement information corresponding to the body movement. ..
- the information processing apparatus includes the main part of the body part corresponding to the body movement and the movement information corresponding to the body movement based on the external shape information indicating the outer shape of the user who performs the body movement. Identify the relevant part that is the target of the correction process. As a result, the information processing device can appropriately identify the part related to the user's physical movement by specifying the main part which is the main part of the user and the other part which is the target of the correction process. ..
- the acquisition unit acquires the external shape information detected by the sensor.
- the information processing device can appropriately identify the part related to the user's body movement by using the information (sensor information) detected by the sensor.
- the acquisition unit acquires external shape information, which is image information detected by the image sensor.
- the information processing device can appropriately identify the part related to the user's body movement by using the information (image) detected by the image sensor.
- the specific part identifies the related part to be canceled the influence of the body movement.
- the information processing apparatus can appropriately specify the part related to the user's body movement by specifying the related part to be the target for canceling the influence of the body movement.
- the specific part identifies the relevant part to be emphasized by the influence of body movement.
- the information processing apparatus can appropriately specify the part related to the user's body movement by specifying the related part to be emphasized by the influence of the body movement.
- the specific part specifies the main part based on the amount of conversion of the position of each body part of the user.
- the information processing apparatus can appropriately specify the part related to the user's body movement by specifying the main part according to the amount of conversion of the position of each body part of the user.
- the specific part specifies the part of the body part where the amount of position conversion is large as the main part.
- the information processing apparatus can appropriately specify the part related to the user's body movement by specifying the part having a large amount of position conversion as the main part.
- the acquisition unit acquires the user's utterance information.
- the specific part identifies the main part based on the utterance information of the user.
- the information processing apparatus can more accurately identify the part related to the user's body movement by specifying the main part using the external shape information and the utterance information.
- the specific part identifies the related part based on the user's utterance information.
- the information processing device can more accurately identify the part related to the user's body movement by specifying the related part based on the user's utterance information using the external shape information and the utterance information. ..
- the specific unit specifies the main part based on the user's utterance intention estimated from the user's utterance content.
- the information processing device can more accurately identify the part related to the user's body movement by specifying the main part according to the user's utterance intention estimated from the user's utterance content.
- the specific part specifies the operating part as a related part among the parts other than the main part corresponding to the user's utterance intention.
- the information processing device can more accurately identify the part related to the user's physical movement by specifying the part operating other than the part corresponding to the user's utterance intention as the related part.
- the acquisition unit acquires definition information indicating the correspondence between the main part and the related part.
- the specific part identifies the related part based on the definition information.
- the information processing apparatus can more accurately identify the part related to the user's body movement by specifying the main part using the definition information indicating the correspondence between the main part and the related part.
- the acquisition unit acquires the external shape information of the user who inputs by physical movement.
- the specific part identifies the main part corresponding to the user's input.
- the information processing apparatus can appropriately specify the part related to the body movement of the user who inputs by the body movement.
- the specific part specifies a part that operates in conjunction with the movement of the main part as a related part.
- the information processing device can more accurately identify the part related to the user's body movement by specifying the part that operates in conjunction with the movement of the main part as the related part.
- the acquisition unit acquires the external shape information of the user who operates the virtual character by physical movement.
- the specific unit identifies a main part corresponding to the operation of the virtual character and a related part to be corrected. Thereby, the information processing device can appropriately specify the part related to the body movement of the user who operates the virtual character by the body movement.
- the acquisition unit acquires the motion information of the corresponding user corresponding to the attribute set in the virtual character as the information used for generating the motion information of the virtual character.
- the information processing device can operate the virtual character by using the movement information of the user corresponding to the attribute set in the virtual character and using the movement information of the user similar to the virtual character.
- the acquisition unit acquires the editing history related to the movement of the virtual character as information used for correcting the movement information of the virtual character.
- the information processing device can correct the movement information of the virtual character by using the editing history related to the movement of the virtual character, and can operate the virtual character by utilizing the tendency of the past correction.
- the information processing device includes a correction unit (correction unit 133, 133A in the embodiment).
- the correction unit corrects the motion information corresponding to the related portion specified by the specific unit.
- the information processing device can appropriately correct the movement information of the relevant portion of the user's body movement.
- the correction unit corrects the motion information corresponding to the main part specified by the specific unit.
- the information processing device can appropriately correct the movement information of the main part of the user's body movement.
- FIG. 15 is a hardware configuration diagram showing an example of a computer 1000 that realizes the functions of information processing devices such as the information processing devices 100 and 100A and the terminal device 10.
- the computer 1000 includes a CPU 1100, a RAM 1200, a ROM (Read Only Memory) 1300, an HDD (Hard Disk Drive) 1400, a communication interface 1500, and an input / output interface 1600.
- Each part of the computer 1000 is connected by a bus 1050.
- the CPU 1100 operates based on the program stored in the ROM 1300 or the HDD 1400, and controls each part. For example, the CPU 1100 expands the program stored in the ROM 1300 or the HDD 1400 into the RAM 1200 and executes processing corresponding to various programs.
- the ROM 1300 stores a boot program such as a BIOS (Basic Input Output System) executed by the CPU 1100 when the computer 1000 is started, a program that depends on the hardware of the computer 1000, and the like.
- BIOS Basic Input Output System
- the HDD 1400 is a computer-readable recording medium that non-temporarily records a program executed by the CPU 1100 and data used by the program.
- the HDD 1400 is a recording medium for recording an information processing program according to the present disclosure, which is an example of program data 1450.
- the communication interface 1500 is an interface for the computer 1000 to connect to an external network 1550 (for example, the Internet).
- the CPU 1100 receives data from another device or transmits data generated by the CPU 1100 to another device via the communication interface 1500.
- the input / output interface 1600 is an interface for connecting the input / output device 1650 and the computer 1000.
- the CPU 1100 receives data from an input device such as a keyboard or mouse via the input / output interface 1600. Further, the CPU 1100 transmits data to an output device such as a display, a speaker, or a printer via the input / output interface 1600. Further, the input / output interface 1600 may function as a media interface for reading a program or the like recorded on a predetermined recording medium (media).
- the media is, for example, an optical recording medium such as a DVD (Digital Versatile Disc) or PD (Phase change rewritable Disk), a magneto-optical recording medium such as an MO (Magneto-Optical disk), a tape medium, a magnetic recording medium, or a semiconductor memory.
- an optical recording medium such as a DVD (Digital Versatile Disc) or PD (Phase change rewritable Disk)
- a magneto-optical recording medium such as an MO (Magneto-Optical disk)
- a tape medium such as a magnetic tape
- magnetic recording medium such as a magnetic tape
- semiconductor memory for example, an optical recording medium such as a DVD (Digital Versatile Disc) or PD (Phase change rewritable Disk), a magneto-optical recording medium such as an MO (Magneto-Optical disk), a tape medium, a magnetic recording medium, or a semiconductor memory.
- the CPU 1100 of the computer 1000 realizes the functions of the control unit 130 and the like by executing the information processing program loaded on the RAM 1200. To do. Further, the information processing program according to the present disclosure and the data in the storage unit 120 are stored in the HDD 1400. The CPU 1100 reads the program data 1450 from the HDD 1400 and executes the program, but as another example, these programs may be acquired from another device via the external network 1550.
- the present technology can also have the following configurations.
- An acquisition unit that acquires external shape information indicating the external shape of the user who performs physical movements, Based on the external shape information acquired by the acquisition unit, the main part corresponding to the body movement and the related part to be corrected for the movement information corresponding to the body movement are specified among the body parts.
- a specific part Information processing device equipped with.
- the acquisition unit The information processing device according to (1), which acquires the external shape information detected by the sensor.
- the acquisition unit The information processing apparatus according to (2), which acquires the external shape information which is the image information detected by the image sensor.
- the specific part is The information processing apparatus according to any one of (1) to (3), which specifies the related portion to be targeted for canceling the influence of the physical movement.
- the specific part is The information processing apparatus according to any one of (1) to (3), which specifies the related portion to be emphasized by the influence of the body movement.
- the specific part is The information processing device according to any one of (1) to (5), which specifies the main part based on the amount of conversion of the position of each body part of the user.
- the specific part is The information processing apparatus according to (6), wherein a portion of the body portion having a large amount of position conversion is specified as the main portion.
- the acquisition unit Acquire the utterance information of the user and
- the specific part is The information processing device according to any one of (1) to (7), which identifies the main part based on the utterance information of the user.
- the specific part is The information processing device according to (8), which identifies the related part based on the utterance information of the user.
- the specific part is The information processing device according to (8) or (9), which identifies the main part based on the user's utterance intention estimated from the user's utterance content.
- the specific part is The information processing apparatus according to (10), wherein an operating part is specified as the related part among parts other than the main part corresponding to the user's utterance intention.
- the acquisition unit Acquire definition information indicating the correspondence between the main part and the related part, and obtain The specific part is The information processing apparatus according to any one of (1) to (11), which specifies the related portion based on the definition information.
- the acquisition unit Acquires the external shape information of the user who inputs by the physical movement, and obtains the external shape information.
- the specific part is The information processing apparatus according to any one of (1) to (12), which specifies the main part corresponding to the input of the user.
- the specific part is The information processing apparatus according to (13), wherein a portion that operates in conjunction with the operation of the main portion is specified as the related portion.
- the acquisition unit The external shape information of the user who operates the virtual character by the physical movement is acquired, and the external shape information is acquired.
- the specific part is The information processing apparatus according to any one of (1) to (14), which specifies the main part corresponding to the operation of the virtual character and the related part to be corrected.
- the acquisition unit The information processing apparatus according to (15), which acquires motion information of a corresponding user corresponding to an attribute set for the virtual character as information used for generating motion information of the virtual character.
- the acquisition unit The information processing apparatus according to (15) or (16), which acquires an edit history related to the operation of the virtual character as information used for correcting the movement information of the virtual character.
- a correction unit that corrects the motion information corresponding to the related portion specified by the specific unit, The information processing apparatus according to any one of (1) to (17).
- the correction unit The information processing apparatus according to (18), which corrects the motion information corresponding to the main part specified by the specific unit.
- Information processing system 100 100A Information processing device 110 Communication unit 120, 120A Storage unit 121 Operation information storage unit 122 User information storage unit 123 Part information storage unit 124 Function information storage unit 125 Content generation information storage unit 130, 130A Control unit 131 Acquisition unit 132 Specific unit 133, 133A Correction unit 134, 134A Execution unit 135 Transmission unit 10 Terminal device 11 Communication unit 12 Input unit 13 Output unit 14 Storage unit 15 Control unit 151 Reception unit 152 Execution unit 153 Reception unit 154 Transmission unit 16 Display
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Quality & Reliability (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本開示に係る情報処理装置は、身体動作を行うユーザの外形を示す外形情報を取得する取得部と、前記取得部により取得された前記外形情報に基づいて、身体部位のうち、前記身体動作に対応する主部位と、前記身体動作に対応する動き情報の補正処理の対象となる関連部位とを特定する特定部と、を備える。
Description
本開示は、情報処理装置及び情報処理方法に関する。
近年、ユーザの身体動作(ジェスチャ)に関する情報を用いて各種の処理を行う技術が知られている。例えば、ユーザの身体動作を機器の機能実行の指示(機器の操作)として用いる技術が知られている(例えば特許文献1)。また、ユーザの身体動作に対応する動作を行う仮想キャラクタを含むコンテンツを生成する技術が知られている(例えば特許文献2)。
従来技術によれば、ユーザの身体動作により、機器の機能が実行されたり、仮想キャラクタを含むコンテンツを生成されたりする。
しかしながら、従来技術では、ユーザの身体動作に関する部位を適切に特定することができるとは限らない。例えば、従来技術では、ユーザの身体動作についてユーザが動作を意図した主部位であるか等、各部位を区別することなく、ユーザの身体部位の動き情報を用いている。これにより、従来技術の場合、ユーザが意図しない身体部位の位置変化をユーザの機器操作と認識してしまったり、仮想キャラクタの動きが不十分になったりしてしまう可能性がある。そのため、ユーザの身体動作に関する部位を適切に特定することが望まれている。
そこで、本開示では、ユーザの身体動作に関する部位を適切に特定することができる情報処理装置及び情報処理方法を提案する。
上記の課題を解決するために、本開示に係る一形態の情報処理装置は、身体動作を行うユーザの外形を示す外形情報を取得する取得部と、前記取得部により取得された前記外形情報に基づいて、身体部位のうち、前記身体動作に対応する主部位と、前記身体動作に対応する動き情報の補正処理の対象となる関連部位とを特定する特定部と、を備える。
以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、この実施形態により本願にかかる情報処理装置及び情報処理方法が限定されるものではない。また、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
以下に示す項目順序に従って本開示を説明する。
1.第1の実施形態
1-1.本開示の第1の実施形態に係る情報処理の概要
1-1-1.背景及び効果等
1-1-2.応用例
1-2.第1の実施形態に係る情報処理システムの構成
1-3.第1の実施形態に係る情報処理装置の構成
1-4.第1の実施形態に係る端末装置の構成
1-5.第1の実施形態に係る情報処理の手順
1-5-1.情報処理装置に係る処理の手順
1-5-2.情報処理システムに係る処理の手順
1-6.発話を用いた部位特定例
2.第2の実施形態
2-1.第2の実施形態に係る情報処理の概要
2-1-1.背景及び効果等
2-2.第2の実施形態に係る情報処理装置の構成
2-3.発話を用いた部位特定例
2-4.属性に応じた情報利用例
2-5.動作編集例
3.その他の実施形態
3-1.その他の構成例
3-2.その他
4.本開示に係る効果
5.ハードウェア構成
1.第1の実施形態
1-1.本開示の第1の実施形態に係る情報処理の概要
1-1-1.背景及び効果等
1-1-2.応用例
1-2.第1の実施形態に係る情報処理システムの構成
1-3.第1の実施形態に係る情報処理装置の構成
1-4.第1の実施形態に係る端末装置の構成
1-5.第1の実施形態に係る情報処理の手順
1-5-1.情報処理装置に係る処理の手順
1-5-2.情報処理システムに係る処理の手順
1-6.発話を用いた部位特定例
2.第2の実施形態
2-1.第2の実施形態に係る情報処理の概要
2-1-1.背景及び効果等
2-2.第2の実施形態に係る情報処理装置の構成
2-3.発話を用いた部位特定例
2-4.属性に応じた情報利用例
2-5.動作編集例
3.その他の実施形態
3-1.その他の構成例
3-2.その他
4.本開示に係る効果
5.ハードウェア構成
[1.第1の実施形態]
[1-1.本開示の第1の実施形態に係る情報処理の概要]
図1は、本開示の第1の実施形態に係る情報処理の一例を示す図である。本開示の第1の実施形態に係る情報処理は、図1に示す情報処理装置100や端末装置10を含む情報処理システム1(図2参照)によって実現される。
[1-1.本開示の第1の実施形態に係る情報処理の概要]
図1は、本開示の第1の実施形態に係る情報処理の一例を示す図である。本開示の第1の実施形態に係る情報処理は、図1に示す情報処理装置100や端末装置10を含む情報処理システム1(図2参照)によって実現される。
情報処理装置100は、第1の実施形態に係る情報処理を実行する情報処理装置である。情報処理装置100は、身体動作を行うユーザの外形を示す外形情報に基づいて、ユーザの身体動作に対応する部位を特定する。図1の例では、ユーザが利用する端末装置10の画像センサ171(図6参照)により検知されたセンサ情報(画像情報)を外見情報として用いる場合を示す。なお、ユーザの外形を示す外形情報を検知するセンサは、画像センサ171に限らず、ユーザの外形情報を検知可能であれば、どのようなセンサであってもよい。例えば、ユーザの外形を示す外形情報を検知するセンサは、光学式の測距センサや超音波等を用いた音波センサ等であってもよい。例えば、ユーザの外形を示す外形情報を検知するセンサは、LiDAR(Light Detection and Ranging、Laser Imaging Detection and Ranging)やToF(Time of Flight)センサ等であってもよい。また、ユーザの外形を示す外形情報を検知するセンサは、サーマルセンサ等の熱を検知するセンサであってもよい。このように、ユーザの外形を示す外形情報を検知可能であれば、情報処理システム1は、どのようなセンサを用いて外形情報を検知してもよい。
以下、図1について具体的に説明する。以下では、端末装置10を利用するユーザU1が身体動作を行うことにより、端末装置10に入力を行っている場合を一例として説明する。まず、図1の例では、端末装置10は、画像センサ171によりユーザU1を撮像した画像情報を検知する(ステップS1)。そして、端末装置10は、検知した画像情報を外形情報として、情報処理装置100に送信する(ステップS2)。例えば、端末装置10は、連続して撮像した複数の画像情報を含む動画情報を外形情報として、情報処理装置100に送信する。例えば、端末装置10は、複数のフレームからなる動画情報を外形情報として、情報処理装置100に送信する。
これにより、情報処理装置100は、複数のフレームからなる動画情報を外形情報として取得する。情報処理装置100は、ユーザU1の身体動作を示す外形情報を取得する。図1の例では、情報処理装置100は、状態ST1に対応する画像情報や状態ST2に対応する画像情報等の複数の画像情報を外形情報として取得する。なお、情報処理装置100は、状態ST1から状態ST2の間におけるユーザの身体動作に対応する動き情報を生成してもよいし、外部の情報処理装置から状態ST1から状態ST2の間におけるユーザの身体動作に対応する動き情報を取得してもよい。
外形情報を取得した情報処理装置100は、外形情報を用いてユーザU1の身体動作に対応する部位を特定する処理を行う。まず、情報処理装置100は、ユーザU1の身体動作に対応する部位(以下「主部位」ともいう)を特定する(ステップS3)。情報処理装置100は、状態ST1から状態ST2の間におけるユーザU1の身体動作において、変化量の多い部位を主部位として特定する。図1の例では、情報処理装置100は、ユーザU1の身体部位のうち、状態ST1から状態ST2の間で変化量の多い部位である頭部HDを主部位M1に特定する。例えば、情報処理装置100は、状態ST1に対応する第1フレーム(第1画像情報)と、状態ST2に対応する第2フレーム(第2画像情報)との差分を抽出し、変化量の多い部位である頭部HDを主部位M1に特定する。
また、情報処理装置100は、状態ST1から状態ST2の間におけるユーザU1の動作種別を特定する(ステップS4)。情報処理装置100は、状態ST1から状態ST2の間における主部位M1である頭部HDの動作に基づいて、ユーザU1の動作種別を特定する。図1の例では、情報処理装置100は、状態ST1から状態ST2の間でユーザU1が頭を傾ける(回転させる)動作を行っているため、動作種別を「ROTATE」に特定する。
そして、情報処理装置100は、身体動作に対応する動き情報の補正処理の対象となる部位(以下「関連部位」ともいう)を特定する(ステップS5)。情報処理装置100は、状態ST1から状態ST2の間における主部位M1である頭部HDと、動作種別「ROTATE」とに基づいて、関連部位を特定する。例えば、情報処理装置100は、主部位と関連部位との対応付けを示す定義情報を用いて、関連部位を特定する。例えば、情報処理装置100は、各身体部位と連動した動きが起こりうる部位のデータ定義情報(主部位・関連部位情報)を用いて、関連部位を特定する。例えば、情報処理装置100は、部位情報記憶部123(図5参照)に記憶された定義情報を用いて、関連部位を特定する。このように、情報処理装置100は、対応する関連部位データを取得し、取得した情報を用いて関連部位を特定する。
図1の例では、情報処理装置100は、定義情報のうち、主部位が頭部を示す「HEAD」であり、動作種別が「ROTATE」である組合せと関連部位とが対応付けられた対応付情報INF1を用いて、関連部位を特定する。これにより、情報処理装置100は、ユーザU1の右手RW及び左手LWを、ユーザU1の頭部を回転させる動作に対応する関連部位として特定する。
情報処理装置100は、主部位M1である頭部HD以外のユーザU1の胴体BD、右手RW、左手LW、右足RL、及び左足LLの5個の身体部位のうち、ユーザU1の右手RW及び左手LWを関連部位に特定する。なお、図1の身体部位は説明を簡単にするために、6つの部位のみを示すが、ユーザの身体部位はより詳細に分割されてもよい。このように、図1の例では、情報処理装置100は、右手RWを関連部位R1として特定し、左手LWを関連部位R2として特定する。
そして、情報処理装置100は、動作を補正する処理を行う(ステップS6)。情報処理装置100は、関連部位の動作をキャンセルする補正を行う。図1の例では、情報処理装置100は、関連部位R1である右手RWの動作をキャンセルする補正を行う。すなわち、情報処理装置100は、状態ST2の右手RWの位置を状態ST1の右手RWの位置に戻す補正を行う。これにより、情報処理装置100は、補正前の状態ST2を補正後の状態ST3のように右手RWの位置が状態ST1の位置に戻され、頭部HDのみが傾いた状態に補正する。なお、関連部位R2である左手LWについては、状態ST1から状態ST2の間で位置の変化が無かったため、左手LWについては補正を行なわれないが、左手LWに位置の変化がある場合、左手LWの動作もキャンセルしてもよい。そして、情報処理装置100は、状態ST3に対応する動き情報を用いて、ユーザの身体動作による入力の意図を推定する。例えば、情報処理装置100は、状態ST3に対応する動き情報を検出器等に入力することで、ユーザの身体動作による入力の意図を特定する。
このように、情報処理装置100は、外形情報を基にユーザに身体動作に対応する主部位を特定し、特定した主部位や動作種別を基に関連部位を特定する。これにより、情報処理装置100は、ユーザの入力意図に対応する部位である主部位や、主部位の動作に伴って動作が生じる関連部位を特定することができる。したがって、情報処理装置100は、ユーザの身体動作に関する部位を適切に特定することができる。ここで、人間は頭を傾ける(首かしげ)時に、傾けた方向と反対側の手の移動が無意識に発生する。このような、手の動きに対しての機能が存在する場合誤発動につながる場合がある。そのため、情報処理装置100は、ユーザが頭を傾ける場合に関連部位としてユーザの手を特定することにより、その手の動きを補正することで、手の動きに対しての機能が存在する場合の誤発動を抑制することができる。
そして、情報処理装置100は、事前定義データでの動作キャンセルすることで、ユーザの骨格等に依存して発生するユーザの身体動作の影響を抑制することができる。情報処理装置100は、補正後の状態ST3のように主部位M1である頭部HD以外の部位の動作がキャンセルされた動き情報を用いることで、ユーザの身体動作による入力をより精度よく認識することが可能となる。なお、情報処理装置100は、関連部位の動きをキャンセルする場合に限らず、関連部位の動きを軽減する補正を行ってもよい。また、情報処理装置100は、関連部位の動きを強調する補正を行ってもよいが、この点についての詳細は後述する。
[1-1-1.背景及び効果等]
従来、ユーザの身体動作を利用するインターフェイスはジェスチャコマンド等の限定的な利用であったが、近年は詳細な身体動作がセンシング可能になり、これらの動作情報を応用したインタラクションが拡大する。
従来、ユーザの身体動作を利用するインターフェイスはジェスチャコマンド等の限定的な利用であったが、近年は詳細な身体動作がセンシング可能になり、これらの動作情報を応用したインタラクションが拡大する。
そして、上述のように、ユーザが意図して特定の身体部位を動かす場合であっても、身体特性などにより、意図して動作させている以外の部位が無意識的に動いてしまう場合がある。こういったユーザの「無意識の動き」はシステム側にとっては誤認識の原因になる。
一方で、情報処理装置100は、ユーザの動作から無意識的に動いている身体部位を特定し、その動きをキャンセルすることでユーザの実際の動作意図のみを残す。これにより、情報処理装置100は、ユーザの身体動作に関する部位を適切に特定することができる。
[1-1-2.応用例]
情報処理装置100は、種々のサービスや処理等に応用されてもよい。この点について以下、例示を記載する。なお、以下に記載する応用は例示に過ぎす、適用可能であれば、どのようなサービスや処理に応用されてもよい。
情報処理装置100は、種々のサービスや処理等に応用されてもよい。この点について以下、例示を記載する。なお、以下に記載する応用は例示に過ぎす、適用可能であれば、どのようなサービスや処理に応用されてもよい。
情報処理装置100は、図1で説明した場合に限らず、身体動作を使った須臾の機器コントロールに応用されてもよい。例えば、情報処理装置100は、TVやスマートスピーカやスマートフォン等により提供されるサービスに適用されてもよい。例えば、情報処理装置100は、カメラ付きのスマートスピーカを用いたサービスに応用されてもよい。
また、情報処理装置100は、コンピュータグラフィックスや(仮想)キャラクタ(アバター)を用いて動画投稿や動画配信を行うサービスに応用されてもよい。この場合、例えば動きデータをそのまま利用するのではなく、意図する身体部位だけの動きにしたり、アバターのキャラクタ(属性)により補正の方法を変えたりすることでキャラクタの特性を表現することができる。例えば、アバターの性別や年齢などのキャラクタ(属性)により補正の方法を変えたりすることでキャラクタの特性を表現することができる。なお、この点については図10以降に詳述する。
また、情報処理装置100は、スポーツなどの練習やイメージ作りに応用されてもよい。この場合、スポーツ等のプロ(選手)やある技術の熟練者等のユーザ(「模範ユーザ」ともいう)の動きなどから得られた抑制情報を利用して、ユーザの理想的な動きの状態を可視化することで練習やイメージ作りの促進に適用されてもよい。情報処理装置100は、模範ユーザの動き情報から生成した情報を抑制情報として用いてもよい。例えば、情報処理装置100は、模範ユーザの動きに基づく主部位と関連部位とを対応付けた定義情報を抑制情報として用いてもよい。例えば、情報処理装置100は、抑制情報に基づいて、模範ユーザ以外のユーザ(「通常ユーザ」ともいう)の動きを補正してもよい。これにより、情報処理装置100は、模範ユーザの動きを基に、通常ユーザの動きを適切な動きに補正することができる。また、情報処理装置100は、模範ユーザの動きを基に補正した通常ユーザの動きを示す情報(「補正動作情報」ともいう)を、通常ユーザに提供してもよい。情報処理装置100は、補正動作情報を、通常ユーザが利用する端末装置10に送信してもよい。端末装置10は、補正動作情報を表示して、通常ユーザに適切な動きを認識させる。これにより、情報処理システム1は、通常ユーザに模範ユーザの動きを反映した動きを把握させることができるため、通常ユーザのスキルアップや技術向上等を促進することができる。
[1-2.第1の実施形態に係る情報処理システムの構成]
図2に示す情報処理システム1について説明する。図2に示すように、情報処理システム1は、端末装置10と、情報処理装置100とが含まれる。端末装置10と、情報処理装置100とは所定の通信網(ネットワークN)を介して、有線または無線により通信可能に接続される。図2は、第1の実施形態に係る情報処理システムの構成例を示す図である。なお、図2に示した情報処理システム1には、複数台の端末装置10や、複数台の情報処理装置100が含まれてもよい。
図2に示す情報処理システム1について説明する。図2に示すように、情報処理システム1は、端末装置10と、情報処理装置100とが含まれる。端末装置10と、情報処理装置100とは所定の通信網(ネットワークN)を介して、有線または無線により通信可能に接続される。図2は、第1の実施形態に係る情報処理システムの構成例を示す図である。なお、図2に示した情報処理システム1には、複数台の端末装置10や、複数台の情報処理装置100が含まれてもよい。
情報処理装置100は、身体動作を行うユーザの外形を示す外形情報に基づいて、身体部位のうち、身体動作に対応する主部位と、身体動作に対応する動き情報の補正処理の対象となる関連部位とを特定するコンピュータである。また、情報処理装置100は、各種情報を端末装置10に送信するコンピュータである。情報処理装置100は、各種機能に関するサービスを提供するために用いられるサーバ装置である。
また、情報処理装置100は、音声信号処理や音声認識や発話意味解析や対話制御等のソフトウェアモジュールを有してもよい。情報処理装置100は、音声認識の機能を有してもよい。例えば、情報処理装置100は、自然言語理解(NLU:Natural Language Understanding)や自動音声認識(ASR:Automatic Speech Recognition)の機能を有してもよい。例えば、情報処理装置100は、ユーザの発話による入力情報からユーザのインテント(意図)やエンティティ(対象)に関する情報を推定してもよい。
また、情報処理装置100は、音声認識サービスを提供する音声認識サーバから情報を取得可能であってもよい。この場合、情報処理システム1は、音声認識サーバが含まれてもよい。例えば、情報処理装置100や音声認識サーバが、種々の従来技術を適宜用いてユーザの発話を認識したり、発話したユーザを特定したりする。
端末装置10は、センサにより身体動作を行うユーザの外形を示す外形情報を検知する端末装置である。例えば、端末装置10は、画像センサ171により身体動作を行うユーザの外形を示す画像情報を検知する。端末装置10は、ユーザの外形情報を情報処理装置100等のサーバ装置へ送信する情報処理装置である。
端末装置10は、ユーザによって利用されるデバイス装置である。端末装置10は、ユーザによる入力を受け付ける。端末装置10は、ユーザの発話による音声入力や、ユーザの操作による入力を受け付ける。端末装置10は、ユーザの入力に応じた情報を表示する。端末装置10は、第1の実施形態における処理を実現可能であれば、どのような装置であってもよい。端末装置10は、ユーザの外形情報を検知し、情報処理装置100へ送信する機能を有する構成であれば、どのような装置であってもよい。例えば、端末装置10は、テレビや、スマートフォンや、タブレット型端末や、ノート型PC(Personal Computer)や、デスクトップPCや、携帯電話機や、PDA(Personal Digital Assistant)等の装置であってもよい。
[1-3.第1の実施形態に係る情報処理装置の構成]
次に、第1の実施形態に係る情報処理を実行する情報処理装置の一例である情報処理装置100の構成について説明する。図3は、本開示の第1の実施形態に係る情報処理装置100の構成例を示す図である。
次に、第1の実施形態に係る情報処理を実行する情報処理装置の一例である情報処理装置100の構成について説明する。図3は、本開示の第1の実施形態に係る情報処理装置100の構成例を示す図である。
図3に示すように、情報処理装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、情報処理装置100は、情報処理装置100の管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部110は、ネットワークN(図2参照)と有線または無線で接続され、端末装置10や音声認識サーバ等の他の情報処理装置との間で情報の送受信を行う。また、通信部110は、ユーザが利用するユーザ端末(図示省略)との間で情報の送受信を行ってもよい。
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。第1の実施形態に係る記憶部120は、図3に示すように、動作情報記憶部121と、ユーザ情報記憶部122と、部位情報記憶部123と、機能情報記憶部124とを有する。
第1の実施形態に係る動作情報記憶部121は、ユーザの身体動作に関する各種情報を記憶する。動作情報記憶部121は、ユーザの属性情報やユーザの身体動作に対応する動き情報等の各種情報を記憶する。データDT1に示すデータは、動きデータ(動作情報)の構造を示す。図4の例では、データDT1~DT3のみを図示するが、データDT1~DT3に限らず、多数のデータが含まれる。なお、図4の例では、「属性情報」に示すように、ユーザが動作させる仮想キャラクタ(以下「アバター」ともいう)の属性情報が含まれる場合を一例として示すが、ユーザの身体動作を単に入力として用いる場合、仮想キャラクタの属性情報は含まれなくてもよい。なお、ユーザの身体動作を仮想キャラクタの動作に用いる場合、動作情報記憶部121には、仮想キャラクタの属性情報に含まれるが、この点については後述する。
図4に示す「ユーザ属性情報」は、この動きデータが適応されるユーザの属性情報を示す。図4のデータDT1中の「ユーザ属性情報」は、50代男性の体型が「TYPE4」であるユーザの属性情報を示す。例えば、図4のデータDT1中の「ユーザ属性情報」の情報は、図1に示すユーザU1の属性情報に対応する。データDT1は、50代男性の体型が「TYPE4」であるユーザの身体動作により生成されたデータ(動作情報)であることを示す。
図4に示す「動き情報」は、主部位別の動き種類と補正を行う係数の配列を含む。「動き情報」中の発話時Intentは発話から主部位などを特定する場合に利用される。各係数は定数としてユーザの各部位の動き量に作用させても良いし、主部位の動き量に比例して各係数を考慮した値などを使っても良い。
また、例えば、係数は、「-1」~「1」の間で設定される。例えば、係数が「0」の場合、動きを補正しないことを示す。また、例えば、係数が「0」未満の場合、動きを軽減する補正を行うことを示す。例えば、係数が「-1」の場合、動きをキャンセルすることを示す。例えば、係数が「0」より大きい場合、動きを強調する補正を行うことを示す。
図4のデータDT1中の「動き情報」は、一群の動き情報を含む。例えば、図4のデータDT1中の「動き情報」は、時系列で並べられた一群の動き情報を含む。例えば、図4のデータDT1中の「動き情報」のうち、最初の動き情報は、ユーザの身体部位のうち、主部位である頭を回転させる動作が行われる場合、その関連部位は左手と右手であることを示す。また、関連部位別係数が、左手の回転が「-0.5」であり、右手の回転が「-0.2」であることを示す。この場合、ユーザの身体部位に対応する動き情報に対して、左手の回転が「-0.5」だけ補正され、右手の回転が「-0.2」だけ補正されたことを示す。
また、発話意図が「CHEER_UP」であり、対応する動作が元気を出すことを意図したものであることを示す。なお、動き情報に発話意図は含まれなくてもよい。また、図4の例では、一群の動き情報を配列の形式で記憶する場合を示すが、配列に限らず、例えば各動き情報の前後関係が特定できればどのような形式であってもよい。
なお、動作情報記憶部121は、上記に限らず、目的に応じて種々の情報を記憶してもよい。
第1の実施形態に係るユーザ情報記憶部122は、ユーザに関する各種情報を記憶する。例えば、ユーザ情報記憶部122は、各ユーザの属性情報等の種々の情報を記憶する。
ユーザ情報記憶部122は、ユーザID、年齢、性別、居住地といったユーザに関する情報を記憶する。例えば、ユーザ情報記憶部122は、ユーザU1を識別するユーザID「U1」に対応付けて、ユーザU1の年齢、性別、居住地といったユーザU1に関する情報を記憶する。
また、ユーザ情報記憶部122は、各ユーザが利用する装置(テレビやスマートフォン等)を識別する情報をユーザに対応付けて記憶する。ユーザ情報記憶部122は、各ユーザが利用する端末装置10を識別する情報(端末ID等)をユーザに対応付けて記憶する。
なお、ユーザ情報記憶部122は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、ユーザ情報記憶部122は、年齢や性別に限らず他のデモグラフィック属性情報やサイコグラフィック属性情報を記憶してもよい。例えば、ユーザ情報記憶部122は、氏名、自宅、勤務地、興味、家族構成、収入、ライフスタイル等の情報を記憶してもよい。
第1の実施形態に係る部位情報記憶部123は、身体部位に関する各種情報を記憶する。例えば、部位情報記憶部123は、主部位と動作種別の組合せごとに対応する関連部位を対応付けた情報を定義情報として記憶する。図5は、本開示の第1の実施形態に係る部位情報記憶部の一例を示す図である。
図5に示す部位情報記憶部123には、「主部位」、「動作種別」、「関連部位」といった項目が含まれる。また、図5の例では、「主部位」には、「#1」、「#2」といった項目が含まれ、「関連部位」には、「#1」、「#2」、「#3」、「#4」といった項目が含まれる場合を図示する。なお、「主部位」には、「#1」、「#2」に限らず、「#3」、「#4」等、主部位に対応する数の項目が含まれてもよい。また、「関連部位」には、「#1」、「#2」、「#3」、「#4」に限らず、「#5」、「#6」等、関連部位に対応する数の項目が含まれてもよい。
「主部位」は、ユーザの身体動作に対応する主たる部位を示す。例えば、「主部位」は、対応する動作種別の動作で、主として動くユーザの身体動作を示す。「主部位」は、ユーザの身体動作による位置の変化量が大きい部位を示す。例えば、「主部位」は、ユーザの身体動作による位置の変化量が最大の部位を示す。なお、「主部位」は、各部位を識別するための識別情報(部位ID等)が格納されてもよい。
「動作種別」は、動作種別を示す。「動作種別」は、動作種別の名称を示す。なお、「動作種別」は、各動作種別を識別するための識別情報(動作種別ID等)が格納されてもよい。
「関連部位」は、対応する主部位及び動作種別の組合せに対応する部位を示す。「関連部位」は、対応する動作種別の動作時に、主部位の動作に連動して動作する部位を示す。「関連部位」は、身体動作に対応する動き情報の補正処理の対象となる部位を示す。なお、「関連部位」は、各部位を識別するための識別情報(部位ID等)が格納されてもよい。
図5の例では、主部位「HEAD」と動作種別「ROTATE」の組合せに対応する関連部位は、「L_WRIST」及び「R_WRIST」の2つの部位であることを示す。すなわち、ユーザの身体部位のうち、主部位である頭を回転させる動作が行われる場合、その関連部位は左手と右手であることを示す。
また、主部位「HEAD」と動作種別「MOVE」の組合せに対応する関連部位は、「L_WRIST」、「R_WRIST」、「L_LEG」及び「R_LEG」の4つの部位であることを示す。すなわち、ユーザの身体部位のうち、主部位である頭を移動させる動作が行われる場合、その関連部位は左手、右手、左足、右足であることを示す。
なお、部位情報記憶部123は、上記に限らず、目的に応じて種々の情報を記憶してもよい。部位情報記憶部123は、関連部位の動きを補正する場合の補正量を示す情報(補正量情報)を各関連部位に対応付けて記憶してもよい。例えば、部位情報記憶部123は、関連部位の動きを強調する場合にどの程度強調するかを示す補正量情報を各関連部位に対応付けて記憶してもよい。
第1の実施形態に係る機能情報記憶部124は、機能に関する各種情報を記憶する。機能情報記憶部124は、ユーザの入力に応じて実行される各機能に関する情報を記憶する。機能情報記憶部124は、機能の実行に必要な入力に関する情報を記憶する。機能情報記憶部124は、各機能の実行に必要な入力項目を記憶する。なお、機能情報記憶部124は、上記に限らず、目的に応じて種々の情報を記憶してもよい。
図3に戻り、説明を続ける。制御部130は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報処理装置100内部に記憶されたプログラム(例えば、本開示に係る情報処理プログラム等)がRAM(Random Access Memory)等を作業領域として実行されることにより実現される。また、制御部130は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
図3に示すように、制御部130は、取得部131と、特定部132と、補正部133と、実行部134と、送信部135とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図3に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部130が有する各処理部の接続関係は、図3に示した接続関係に限られず、他の接続関係であってもよい。
取得部131は、各種情報を取得する。取得部131は、外部の情報処理装置から各種情報を取得する。取得部131は、端末装置10から各種情報を取得する。取得部131は、端末装置10のセンサ部17が検知した情報を端末装置10から各種情報を取得する。取得部131は、センサ部17の画像センサ171が検知した情報を端末装置10から各種情報を取得する。取得部131は、音声認識サーバ等の他の情報処理装置から各種情報を取得する。
取得部131は、記憶部120から各種情報を取得する。取得部131は、動作情報記憶部121やユーザ情報記憶部122や部位情報記憶部123や機能情報記憶部124から各種情報を取得する。取得部131は、特定部132が特定した各種情報を取得する。取得部131は、補正部133が補正した各種情報を取得する。
取得部131は、身体動作を行うユーザの外形を示す外形情報を取得する。取得部131は、センサにより検知された外形情報を取得する。取得部131は、画像センサにより検知された画像情報である外形情報を取得する。取得部131は、ユーザの発話情報を取得する。取得部131は、身体動作により入力を行うユーザの外形情報を取得する。取得部131は、主部位と関連部位との対応付けを示す定義情報を取得する。
取得部131は、複数のフレームからなる動画情報を外形情報として取得する。取得部131は、ユーザU1の身体動作を示す外形情報を取得する。取得部131は、状態ST1に対応する画像情報や状態ST2に対応する画像情報等の複数の画像情報を外形情報として取得する。
特定部132は、各種情報を特定する。特定部132は、各種情報を決定する。特定部132は、各種の判断を行う。特定部132は、各種情報を判定する。例えば、特定部132は、外部の情報処理装置からの情報や記憶部120に記憶された情報に基づいて、各種情報を特定する。特定部132は、端末装置10や音声認識サーバ等の他の情報処理装置からの情報に基づいて、各種情報を特定する。特定部132は、動作情報記憶部121やユーザ情報記憶部122や部位情報記憶部123や機能情報記憶部124に記憶された情報に基づいて、各種情報を特定する。特定部132は、各種情報を抽出する。例えば、特定部132は、外部の情報処理装置からの情報や記憶部120に記憶された情報に基づいて、各種情報を抽出する。
特定部132は、取得部131により取得された各種情報に基づいて、各種情報を特定する。特定部132は、補正部133により補正された各種情報に基づいて、各種情報を特定する。特定部132は、特定に基づいて、各種の判断を行う。取得部131により取得された情報に基づいて、各種の判断を行う。
特定部132は、取得部131により取得された外形情報に基づいて、身体部位のうち、身体動作に対応する主部位と、身体動作に対応する動き情報の補正処理の対象となる関連部位とを特定する。特定部132は、身体動作の影響を取り消す対象となる関連部位を特定する。特定部132は、身体動作の影響を強調する対象となる関連部位を特定する。
特定部132は、ユーザの各身体部位の位置の変換量に基づいて、主部位を特定する。特定部132は、身体部位のうち、位置の変換量が大きい部位を主部位に特定する。特定部132は、ユーザの発話情報に基づいて、主部位を特定する。特定部132は、ユーザの発話情報に基づいて、関連部位を特定する。特定部132は、ユーザの発話内容により推定されるユーザの発話意図に基づいて、主部位を特定する。特定部132は、ユーザの発話意図に対応する主部位以外の部位のうち、動作している部位を関連部位として特定する。
特定部132は、定義情報に基づいて、関連部位を特定する。特定部132は、ユーザの入力に対応する主部位を特定する。特定部132は、主部位の動作に連動して動作する部位を関連部位として特定する。
特定部132は、ユーザが実行を指示する機能を特定する。特定部132は、ユーザの動き情報に対応する機能を特定する。特定部132は、ユーザの動き情報を基に機能を特定する。特定部132は、補正部133により補正された動き情報を基に機能を特定する。
例えば、特定部132は、自然言語理解の機能によりユーザの発話の意図を推定する。特定部132は、自然言語理解やエンティティ解析等の技術を用いて、ユーザの発話の意図を推定する。
特定部132は、状態ST1から状態ST2の間におけるユーザU1の身体動作において、変化量の多い部位を主部位として特定する。特定部132は、ユーザU1の身体部位のうち、状態ST1から状態ST2の間で変化量の多い部位である頭部HDを主部位M1に特定する。特定部132は、状態ST1から状態ST2の間における主部位M1である頭部HDの動作に基づいて、ユーザU1の動作種別を特定する。特定部132は、状態ST1から状態ST2の間でユーザU1が頭を傾ける(回転させる)動作を行っているため、動作種別を「ROTATE」に特定する。
特定部132は、状態ST1から状態ST2の間における主部位M1である頭部HDと、動作種別「ROTATE」とに基づいて、関連部位を特定する。特定部132は、ユーザU1の右手RW及び左手LWを、ユーザU1の頭部を回転させる動作に対応する関連部位として特定する。特定部132は、右手RWを関連部位R1として特定し、左手LWを関連部位R2として特定する。
補正部133は、各種情報を補正する。補正部133は、外部の情報処理装置からの情報や記憶部120に記憶された情報に基づいて、各種情報を補正する。補正部133は、端末装置10や音声認識サーバ等の他の情報処理装置からの情報に基づいて、各種情報を補正する。補正部133は、動作情報記憶部121やユーザ情報記憶部122や部位情報記憶部123や機能情報記憶部124に記憶された情報に基づいて、各種情報を補正する。
補正部133は、取得部131により取得された各種情報に基づいて、各種情報を補正する。補正部133は、特定部132により特定された各種情報に基づいて、各種情報を補正する。補正部133は、実行部134により実行された処理に基づいて、各種情報を補正する。
補正部133は、特定部132により特定された関連部位に対応する動き情報を補正する。補正部133は、特定部132により特定された主部位に対応する動き情報を補正する。
補正部133は、関連部位R1である右手RWの動作をキャンセルする補正を行う。補正部133は、状態ST2の右手RWの位置を状態ST1の右手RWの位置に戻す補正を行う。補正部133は、補正前の状態ST2を補正後の状態ST3のように右手RWの位置が状態ST1の位置に戻され、頭部HDのみが傾いた状態に補正する。
実行部134は、各種処理を実行する。実行部134は、各種処理の実行を決定する。実行部134は、外部の情報処理装置からの情報に基づいて、各種処理を実行する。実行部134は、記憶部120に記憶された情報に基づいて、各種処理を実行する。実行部134は、動作情報記憶部121やユーザ情報記憶部122や部位情報記憶部123や機能情報記憶部124に記憶された情報に基づいて、各種処理を実行する。
実行部134は、取得部131により取得された各種情報に基づいて、各種処理を実行する。実行部134は、特定部132により特定された各種情報に基づいて、各種処理を実行する。実行部134は、補正部133により補正された各種情報に基づいて、各種処理を実行する。
実行部134は、各種情報を生成する。実行部134は、外部の情報処理装置からの情報や記憶部120に記憶された情報に基づいて、各種情報を生成する。実行部134は、端末装置10や音声認識サーバ等の他の情報処理装置からの情報に基づいて、各種情報を生成する。実行部134は、動作情報記憶部121やユーザ情報記憶部122や部位情報記憶部123や機能情報記憶部124に記憶された情報に基づいて、各種情報を生成する。
実行部134は、ユーザを撮像した画像情報から動き情報を生成する。実行部134は、ユーザを撮像した複数の画像情報から動き情報を生成する。実行部134は、ユーザを撮像した複数の画像情報の差分を基にユーザに対応する動き情報を生成する。実行部134は、状態ST1から状態ST2の間におけるユーザの身体動作に対応する動き情報を生成する。
送信部135は、各種情報を送信する。送信部135は、外部の情報処理装置へ各種情報を送信する。送信部135は、外部の情報処理装置へ各種情報を提供する。例えば、送信部135は、端末装置10や音声認識サーバ等の他の情報処理装置へ各種情報を送信する。送信部135は、記憶部120に記憶された情報を提供する。送信部135は、記憶部120に記憶された情報を送信する。
送信部135は、端末装置10や音声認識サーバ等の他の情報処理装置からの情報に基づいて、各種情報を提供する。送信部135は、記憶部120に記憶された情報に基づいて、各種情報を提供する。送信部135は、動作情報記憶部121やユーザ情報記憶部122や部位情報記憶部123や機能情報記憶部124に記憶された情報に基づいて、各種情報を提供する。
送信部135は、端末装置10に実行させる機能を示す情報を端末装置10に送信する。送信部135は、実行部134による実行が決定された機能を示す情報を端末装置10に送信する。
[1-4.第1の実施形態に係る端末装置の構成]
次に、第1の実施形態に係る情報処理を実行する情報処理装置の一例である端末装置10の構成について説明する。図6は、本開示の第1の実施形態に係る端末装置の構成例を示す図である。
次に、第1の実施形態に係る情報処理を実行する情報処理装置の一例である端末装置10の構成について説明する。図6は、本開示の第1の実施形態に係る端末装置の構成例を示す図である。
図6に示すように、端末装置10は、通信部11と、入力部12と、出力部13と、記憶部14と、制御部15と、表示部16と、センサ部17とを有する。
通信部11は、例えば、NICや通信回路等によって実現される。通信部11は、ネットワークN(インターネット等)と有線又は無線で接続され、ネットワークNを介して、情報処理装置100等の他の装置等との間で情報の送受信を行う。
入力部12は、各種入力を受け付ける。入力部12は、センサ部17による検知を入力として受け付ける。入力部12は、身体動作を行うユーザの外形を示す外形情報の入力を受け付ける。入力部12は、センサ部17により検知された外形情報の入力を受け付ける。入力部12は、画像センサ171により検知された画像情報である外形情報の入力を受け付ける。入力部12は、ユーザの発話情報の入力を受け付ける。入力部12は、身体動作により入力を行うユーザの外形情報の入力を受け付ける。入力部12は、ユーザのジェスチャや視線を入力として受け付ける。
入力部12は、ユーザから各種操作が入力される。入力部12は、音声を検知する機能を有するセンサ部17により音を入力として受け付ける。入力部12は、音声を検知するマイク(音センサ)により検知された音声情報を入力情報として受け付ける。入力部12は、ユーザの発話による音声を入力情報として受け付ける。
また、入力部12は、ユーザが利用する端末装置10への操作(ユーザ操作)をユーザによる操作入力として受け付けてもよい。入力部12は、通信部11を介して、リモコン(リモートコントローラー:remote controller)を用いたユーザの操作に関する情報を受け付けてもよい。また、入力部12は、端末装置10に設けられたボタンや、端末装置10に接続されたキーボードやマウスを有してもよい。
例えば、入力部12は、リモコンやキーボードやマウスと同等の機能を実現できるタッチパネルを有してもよい。この場合、入力部12は、表示部16を介して各種情報が入力される。入力部12は、各種センサにより実現されるタッチパネルの機能により、表示画面を介してユーザから各種操作を受け付ける。すなわち、入力部12は、端末装置10の表示部16を介してユーザから各種操作を受け付ける。例えば、入力部12は、端末装置10の表示部16を介してユーザの指定操作等の操作を受け付ける。例えば、入力部12は、タッチパネルの機能によりユーザの操作を受け付ける受付部として機能する。この場合、入力部12と受付部153とは一体であってもよい。なお、入力部12によるユーザの操作の検知方式には、タブレット端末では主に静電容量方式が採用されるが、他の検知方式である抵抗膜方式、表面弾性波方式、赤外線方式、電磁誘導方式など、ユーザの操作を検知できタッチパネルの機能が実現できればどのような方式を採用してもよい。
例えば、入力部12は、ユーザU1の発話を入力として受け付ける。入力部12は、センサ部17により検知されたユーザU1の発話を入力として受け付ける。入力部12は、センサ部17の音センサにより検知されたユーザU1の発話を入力として受け付ける。
出力部13は、各種情報を出力する。出力部13は、音声を出力する機能を有する。例えば、出力部13は、音声を出力するスピーカーを有する。出力部13は、ユーザに対して音声による情報の出力を行う。出力部13は、表示部16に表示される情報を音声により出力する。
記憶部14は、例えば、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部14は、情報の表示に用いる各種情報を記憶する。
図6に戻り、説明を続ける。制御部15は、例えば、CPUやMPU等によって、端末装置10内部に記憶されたプログラム(例えば、本開示に係る情報処理プログラム等の表示プログラム)がRAM等を作業領域として実行されることにより実現される。また、制御部15は、例えば、ASICやFPGA等の集積回路により実現されてもよい。
図6に示すように、制御部15は、受信部151と、実行部152と、受付部153と、送信部154とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部15の内部構成は、図6に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
受信部151は、各種情報を受信する。受信部151は、外部の情報処理装置から各種情報を受信する。受信部151は、情報処理装置100や音声認識サーバ等の他の情報処理装置から各種情報を受信する。
受信部151は、情報処理装置100から各種機能の実行指示を受信する。例えば、受信部151は、情報処理装置100から機能を指定する情報を機能の実行指示として受信する。受信部151は、コンテンツを受信する。受信部151は、情報処理装置100から表示するコンテンツを受信する。
実行部152は、各種処理を実行する。実行部152は、各種処理の実行を決定する。実行部152は、外部の情報処理装置からの情報に基づいて、各種処理を実行する。実行部152は、情報処理装置100からの情報に基づいて、各種処理を実行する。実行部152は、情報処理装置100からの指示に応じて、各種処理を実行する。実行部152は、記憶部14に記憶された情報に基づいて、各種処理を実行する。
実行部152は、各種表示を制御する。実行部152は、表示部16の表示を制御する。実行部152は、受信部151による受信に応じて、表示部16の表示を制御する。実行部152は、受信部151により受信された情報に基づいて、表示部16の表示を制御する。実行部152は、受付部153により受け付けられた情報に基づいて、表示部16の表示を制御する。実行部152は、受付部153による受付けに応じて、表示部16の表示を制御する。
受付部153は、各種情報を受け付ける。受付部153は、入力部12を介してユーザによる入力を受け付ける。受付部153は、ユーザによる発話を入力として受け付ける。受付部153は、ユーザによる操作を受け付ける。受付部153は、表示部16により表示された情報に対するユーザの操作を受け付ける。受付部153は、ユーザによる文字入力を受け付ける。
送信部154は、外部の情報処理装置へ各種情報を送信する。例えば、送信部154は、端末装置10や音声認識サーバ等の他の情報処理装置へ各種情報を送信する。送信部154は、記憶部14に記憶された情報を送信する。
送信部154は、情報処理装置100や音声認識サーバ等の他の情報処理装置からの情報に基づいて、各種情報を送信する。送信部154は、記憶部14に記憶された情報に基づいて、各種情報を送信する。
送信部154は、センサ部17により検知されたセンサ情報を情報処理装置100へ送信する。送信部154は、センサ部17の画像センサ171により検知されたユーザU1の外形情報を情報処理装置100へ送信する。
送信部154は、ユーザにより入力された入力情報を情報処理装置100へ送信する。送信部154は、ユーザにより音声入力された入力情報を情報処理装置100へ送信する。送信部154は、ユーザの操作により入力された入力情報を情報処理装置100へ送信する。
送信部154は、身体動作を行うユーザの外形を示す外形情報を情報処理装置100へ送信する。送信部154は、センサ部17により検知された外形情報を情報処理装置100へ送信する。送信部154は、画像センサ171により検知された画像情報である外形情報を情報処理装置100へ送信する。送信部154は、ユーザの発話情報を情報処理装置100へ送信する。送信部154は、身体動作により入力を行うユーザの外形情報を情報処理装置100へ送信する。
表示部16は、端末装置10に設けられ各種情報を表示する。表示部16は、例えば液晶ディスプレイや有機EL(Electro-Luminescence)ディスプレイ等によって実現される。表示部16は、情報処理装置100から提供される情報を表示可能であれば、どのような手段により実現されてもよい。表示部16は、実行部152による制御に応じて、各種情報を表示する。
表示部16は、コンテンツを表示する。表示部16は、受信部151により受信されたコンテンツを表示する。
センサ部17は、所定の情報を検知する。センサ部17は、身体動作を行うユーザの外形を示す外形情報を検知する。センサ部17は、身体動作を行うユーザの外形を示す外形情報を検知する手段として画像センサ171を有する。センサ部17は、画像センサ171により画像情報である外形情報を検知する。センサ部17は、ユーザの発話を検知する。センサ部17は、身体動作により入力を行うユーザの外形情報を検知する。
また、センサ部17は、画像センサ171に限らず、ユーザの外形情報を検知可能であれば、どのようなセンサを有してもよい。光学式の測距センサや超音波等を用いた音波センサ等をユーザの外形情報を検知するセンサとして有してもよい。例えば、センサ部17は、LiDARやToFセンサ等を有してもよい。また、センサ部17は、サーマルセンサ等の熱を検知するセンサをユーザの外形情報を検知するセンサとして有してもよい。
また、センサ部17は、上記に限らず、各種センサを有してもよい。センサ部17は、GPS(Global Positioning System)センサ等の位置情報を検知するセンサ(位置センサ)を有してもよい。なお、センサ部17は、上記に限らず、種々のセンサを有してもよい。
[1-5.第1の実施形態に係る情報処理の手順]
次に、図7、図8を用いて、第1の実施形態に係る各種情報処理の手順について説明する。
次に、図7、図8を用いて、第1の実施形態に係る各種情報処理の手順について説明する。
[1-5-1.情報処理装置に係る処理の手順]
まず、図7を用いて、本開示の第1の実施形態に係る情報処理装置に係る処理の流れについて説明する。図7は、本開示の第1の実施形態に係る情報処理装置の処理手順を示すフローチャートである。具体的には、図7は、情報処理装置100による情報処理の手順を示すフローチャートである。
まず、図7を用いて、本開示の第1の実施形態に係る情報処理装置に係る処理の流れについて説明する。図7は、本開示の第1の実施形態に係る情報処理装置の処理手順を示すフローチャートである。具体的には、図7は、情報処理装置100による情報処理の手順を示すフローチャートである。
図7に示すように、情報処理装置100は、身体動作を行うユーザの外形を示す外形情報を取得する(ステップS101)。そして、情報処理装置100は、外形情報に基づいて、身体部位のうち、身体動作に対応する主部位と、身体動作に対応する動き情報の補正処理の対象となる関連部位とを特定する(ステップS102)。
[1-5-2.情報処理システムに係る処理の手順]
次に、図8を用いて、本開示の第1の実施形態に係る情報処理システムに係る処理の流れについて説明する。図8は、本開示の第1の実施形態に係る情報処理システムの処理手順を示すシーケンス図である。
次に、図8を用いて、本開示の第1の実施形態に係る情報処理システムに係る処理の流れについて説明する。図8は、本開示の第1の実施形態に係る情報処理システムの処理手順を示すシーケンス図である。
図8に示すように、端末装置10は、身体動作を行うユーザの外形を示す外形情報を検知する(ステップS201)。例えば、端末装置10は、画像センサ171により検知されたユーザの画像情報を取得する。そして、端末装置10は、身体動作を行うユーザの外形を示す外形情報を情報処理装置100へ送信する(ステップS202)。
情報処理装置100は、端末装置10から取得した外形情報に基づいて、身体部位のうち、身体動作に対応する主部位と、身体動作に対応する動き情報の補正処理の対象となる関連部位とを特定する(ステップS203)。そして、情報処理装置100は、特定した部位の動き情報を補正する(ステップS204)。そして、情報処理装置100は、補正した動き情報を基に機能を特定する(ステップS205)。
そして、情報処理装置100は、特定した機能の実行を端末装置10に指示する(ステップS206)。情報処理装置100は、特定した機能を示す情報を端末装置10に送信することにより、特定した機能の実行を端末装置10に指示する。そして、端末装置10は、情報処理装置100からの指示に応じて機能を実行する(ステップS207)。
[1-6.発話を用いた部位特定例]
情報処理装置100は、外形情報に限らず、種々の情報を適宜用いて、主部位や関連部位を特定してもよい。この点について、以下説明する。なお、以下の説明では、図1と同様の点については適宜説明を省略する。
情報処理装置100は、外形情報に限らず、種々の情報を適宜用いて、主部位や関連部位を特定してもよい。この点について、以下説明する。なお、以下の説明では、図1と同様の点については適宜説明を省略する。
まず、音声発話と身体動作でメッセージにユーザの意図を付加する場合について、図1を例に説明する。この場合、図1の例においてユーザが発話とともに頭を傾ける動作を行った場合を一例として説明する。情報処理システム1は、自然言語理解や自動音声認識(ASR)の機能により、ユーザの発話による音声情報を認識し、発話の内容を推定することができるものとする。なお、自然言語理解や自動音声認識の機能は、情報処理システム1のいずれの装置が有してもよい。例えば、自然言語理解や自動音声認識の機能は、情報処理装置100や端末装置10が有してもよい。また、情報処理システム1には、自然言語理解や自動音声認識の機能を有する音声認識サーバが含まれてもよい。
端末装置10を利用するユーザU1が「7時に帰ってくる」と発話する。端末装置10は、ユーザU1の「7時に帰ってくる」という発話を検知する。そして、端末装置10は、自動音声認識の機能により生成した文字情報「7時に帰ってくる」を情報処理装置100へ送信する。これにより、情報処理装置100は、ユーザU1の発話に対応する文字情報「7時に帰ってくる」を取得する。
また、ユーザU1は、頭を傾ける身体動作を行う。ユーザU1は、「7時に帰ってくる」という発話後に、頭を傾ける身体動作を行う。情報処理装置100は、状態ST1から状態ST2に対応するユーザの動作を示す複数の画像情報を外形情報として取得する。情報処理装置100は、ユーザU1の発話前の状態ST1に対応する画像情報やユーザU1の発話後の状態ST2に対応する画像情報を外形情報として取得する。これにより、情報処理装置100は、状態ST1に対応する画像情報や状態ST2に対応する画像情報等の複数の画像情報を外形情報として取得する。
情報処理装置100は、自然言語理解の機能により文字情報「7時に帰ってくる」の意図を推定する。また、情報処理装置100は、ユーザの頭を傾ける身体動作を基にユーザU1の意図を特定する。情報処理装置100は、ユーザの頭を傾ける身体動作を基に文字情報「7時に帰ってくる」の内容を尋ねる意図であると特定する。これにより、情報処理装置100は、文字情報「7時に帰ってくる」に「?」が付されたメッセージ「7時に帰ってくる?」を生成する。
このように、情報処理装置100は、ユーザの動作を基にユーザの意図をより精度よく推定することができる。また、情報処理装置100は、ユーザの動作を基に推定したユーザの意図を用いることで、適切に文字情報などの情報を生成することができる。
情報処理装置100は、発話内容による主部位の切替えてもよい。この点について、図9を用いて説明する。図9は、発話を用いた部位特定の一例を示す図である。図9は、発話情報を用いた主部位の特定の一例を示す。情報処理装置100は、音声発話の内容からユーザの意図(Intent)を推定(取得)し、そのユーザの意図(発話意図)に紐づいた主部位を特定し、不要な動作の特定し、その動作のキャンセルを行う。そのユースケースの一例として、図9では、「これくらいの大きさにして」とユーザが歩きながら発話し、両手でサイズ表現をする場合を示す。
図9の例では、ユーザU1は、歩行により状態ST11から状態ST12に対応する移動を行う(ステップS11)。そして、ユーザU1は、歩きながら右手RWと左手LWとを広げる動作を行い、「これくらいの大きさにして」という発話UT1を行う。
そして、情報処理装置100は、自然言語理解(NLU)の機能によりユーザの発話の意図を推定し、推定した意図(Intent)に対応する身体部位情報を取得する(ステップS12)。情報処理装置100は、Intent別身体部位情報を記憶したデータベースDB11から推定した意図(Intent)に対応する身体部位情報を取得する。例えば、情報処理装置100は、Intent別身体部位情報を記憶した記憶部120から推定した意図(Intent)に対応する身体部位情報を取得する。
図9の例では、情報処理装置100は、発話UT1に対するユーザの意図をオブジェクトのサイズを変更する意図であると推定する。そして、情報処理装置100は、推定した意図(Intent)に対応するIntent「CHANGE_OBJECT_SIZE」であるIntent別身体部位情報をデータベースDB11から抽出する。情報処理装置100は、Intent「CHANGE_OBJECT_SIZE」であり、その主部位が「LEFT_WRIST」及び「RIGHT_WRIST」であるIntent別身体部位情報INF11を抽出する。なお、「LEFT_WRIST」は「L_WRIST」と同義であり、「RIGHT_WRIST」は「R_WRIST」と同義であってもよい。
情報処理装置100は、状態ST11から状態ST12の間において、位置の変化量が大きい右足RL及び左足LLではなく、ユーザU1の発話の意図を基に、位置の変化量が右足RL及び左足LLよりも小さい右手RW及び左手LWを主部位に特定する。これにより、情報処理装置100は、状態ST13に示すように、右手RWを主部位M11として特定し、左手LWを主部位M12として特定する(ステップS13)。
そして、情報処理装置100は、関連部位を特定する(ステップS14)。情報処理装置100は、ユーザU1の発話意図に対応する主部位M11、M12以外の部位のうち、動作している部位を関連部位として特定する。図9の例では、情報処理装置100は、状態ST14に示すように、右足RLを関連部位R11として特定し、左足LLを関連部位R12として特定する。
そして、情報処理装置100は、動作を補正する処理を行う(ステップS15)。情報処理装置100は、関連部位の動作をキャンセルする補正を行う。図1の例では、情報処理装置100は、関連部位R11である右足RLの動作と関連部位R12である左足LLの動作をキャンセルする補正を行う。すなわち、情報処理装置100は、状態ST12の右足RL及び左足LLの位置を状態ST11の右足RL及び左足LLの位置に戻す補正を行う。これにより、情報処理装置100は、補正前の状態ST12を補正後の状態ST15のように右足RL及び左足LLの位置が状態ST1の位置に戻され、右手RW及び左手LWが広げられた状態に補正する。
そして、情報処理装置100は、状態ST15に対応する動き情報を用いて、ユーザの身体動作による入力の意図を推定する。例えば、情報処理装置100は、状態ST15に対応する動き情報を検出器等に入力することで、ユーザの身体動作による入力の意図を特定する。
このように、情報処理装置100は、ユーザの発話の意図解析からIntentを発話推定し、Intent別身体部位情報から主部位を特定する。そして、情報処理装置100は、入力として使うべきでない身体部位の動きを抑制・キャンセルし処理を行う。
例えば、単純に動き量の多い部分を主部位とする場合、例えば歩行中などに意図する主部位以外の動き量の方が大きくなる場合がある。このような場合、正しい入力ができない場合やユーザの意図が適切に推定できない場合がある。
一方で、情報処理装置100は、入力として使うべきでない身体部位の動きを抑制・キャンセルし処理を行うことで、正しい入力を受け付けることができ、ユーザの意図が適切に推定することができる。
[2.第2の実施形態]
ここから、第2の実施形態について説明する。第2の実施形態は、動作を強調する場合を示す。また、第2の実施形態は、アバター等の仮想キャラクタを動作させるためにユーザに身体動作を利用させる場合を一例として説明する。なお、第1の実施形態と同様の点については、適宜説明を省略する。第2の実施形態においては、情報処理システム1は、情報処理装置100に代えて、情報処理装置100Aを有する。
ここから、第2の実施形態について説明する。第2の実施形態は、動作を強調する場合を示す。また、第2の実施形態は、アバター等の仮想キャラクタを動作させるためにユーザに身体動作を利用させる場合を一例として説明する。なお、第1の実施形態と同様の点については、適宜説明を省略する。第2の実施形態においては、情報処理システム1は、情報処理装置100に代えて、情報処理装置100Aを有する。
[2-1.第2の実施形態に係る情報処理の概要]
図10は、本開示の第2の実施形態に係る情報処理の一例を示す図である。本開示の第2の実施形態に係る情報処理は、図2に示す情報処理装置100Aや端末装置10を含む情報処理システム1によって実現される。図10は、事前定義データによる動作の強調の一例を示す。情報処理装置100Aは、事前定義されたデータに沿ってユーザの動きデータを強調する。そのユースケースの一例として、図10では、アバターなどへの動き情報を転写する際に、不足している動き情報を強調する事で、アバターの動作特徴を再現する場合を示す。
図10は、本開示の第2の実施形態に係る情報処理の一例を示す図である。本開示の第2の実施形態に係る情報処理は、図2に示す情報処理装置100Aや端末装置10を含む情報処理システム1によって実現される。図10は、事前定義データによる動作の強調の一例を示す。情報処理装置100Aは、事前定義されたデータに沿ってユーザの動きデータを強調する。そのユースケースの一例として、図10では、アバターなどへの動き情報を転写する際に、不足している動き情報を強調する事で、アバターの動作特徴を再現する場合を示す。
図10の例では、ユーザU1の身体動作に応じて動作する20代女性のアイドルキャラクタ(アバター)である仮想キャラクタVC21を含むコンテンツCT21を端末装置10の表示部16に表示される場合を示す。例えば、仮想キャラクタVC21のようなアイドルキャラクタ(アバター)をユーザの身体動作に応じて操作する場合、ユーザの身体動作をそのままアバターの動作として転写しただけでは、アバターの動作としては不十分な場合がある。例えば、図10の例では、仮想キャラクタVC21の属性は20代女性であり、ユーザU1の属性は50代男性である。そのため、若い女性の仮想キャラクタVC21のようなアイドルキャラクタ(アバター)を、中年男性のユーザU1の身体動作に応じて操作する場合、ユーザU1の身体動作をそのままアバターの動作として転写しただけでは、アバターの動作としては不十分な場合がある。そこで、情報処理装置100Aは、以下のようにユーザの動作を強調するように補正することで、アバターに適した動作をアバターに行わせる。
なお、図10の例では、ユーザU1の左手を挙げる動作を示すため、端末装置10の表示部16に仮想キャラクタVC21の上半身のみが表示されている場合を示すが、仮想キャラクタVC21の全身が表示されてもよい。例えば、端末装置10は、ユーザU1の指示等に応じて仮想キャラクタVC21の全身を表示してもよい。また、図10の例では、ユーザU1の動作を検知する端末装置10がコンテンツCT21を表示する場合を示すが、ユーザU1の動作を検知する端末装置10とは別の端末装置10がコンテンツCT21を表示してもよい。
まず、図10の例では、端末装置10は、画像センサ171によりユーザU1を撮像した画像情報を検知する(ステップS21)。そして、端末装置10は、検知した画像情報を外形情報として、情報処理装置100Aに送信する(ステップS22)。例えば、端末装置10は、連続して撮像した複数の画像情報を含む動画情報を外形情報として、情報処理装置100Aに送信する。例えば、端末装置10は、複数のフレームからなる動画情報を外形情報として、情報処理装置100Aに送信する。
これにより、情報処理装置100Aは、複数のフレームからなる動画情報を外形情報として取得する。情報処理装置100Aは、ユーザU1の身体動作を示す外形情報を取得する。図10の例では、情報処理装置100Aは、状態ST21に対応する画像情報や状態ST22に対応する画像情報等の複数の画像情報を外形情報として取得する。
外形情報を取得した情報処理装置100Aは、外形情報を用いてユーザU1の身体動作に対応する部位を特定する処理を行う。まず、情報処理装置100Aは、ユーザU1の身体動作に対応する主部位を特定する(ステップS23)。図10の例では、情報処理装置100Aは、ユーザU1の身体部位のうち、状態ST21から状態ST22の間で変化量の多い部位である左手LWを主部位M21に特定する。
また、情報処理装置100Aは、状態ST21から状態ST22の間におけるユーザU1の動作種別を特定する(ステップS24)。情報処理装置100Aは、状態ST21から状態ST22の間における主部位M21である左手LWの動作に基づいて、ユーザU1の動作種別を特定する。図10の例では、情報処理装置100Aは、状態ST21から状態ST22の間でユーザU1が左手を挙げる動作を行っているため、動作種別を「RAISE」に特定する。
そして、情報処理装置100Aは、身体動作に対応する動き情報の補正処理の対象となる関連部位を特定する。情報処理装置100Aは、主部位M21である左手LWと、動作種別「RAISE」とに基づいて、関連部位を特定する。例えば、情報処理装置100Aは、主部位と関連部位との対応付けを示す定義情報を用いて、関連部位を特定する。例えば、情報処理装置100Aは、定義情報のうち、主部位が左手を示す「LEFT_WRIST」であり、動作種別が「RAISE」である組合せと関連部位とが対応付けられた対応付情報を用いて、関連部位を特定する。これにより、情報処理装置100Aは、ユーザU1の右手RW、右足RL及び左足LLを、ユーザU1の左手を挙げる動作に対応する関連部位として特定する。
例えば、定義情報は、関連部位である右手RW、右足RL及び左足LLの各々と、各部位をどの程度補正するかを示す補正量情報を対応付けた情報を含んでもよい。例えば、定義情報は、左手LWを挙げる動作に応じて、関連部位である右手RWをどの程度強調するかを示す補正量情報を関連部位「RIGHT_WRIST」に対応付けた情報を含んでもよい。例えば、定義情報は、左手LWを挙げる動作に応じて、関連部位である右足RLをどの程度強調するかを示す補正量情報を関連部位「RIGHT_LEG」に対応付けた情報を含んでもよい。例えば、定義情報は、左手LWを挙げる動作に応じて、関連部位である左足LLをどの程度強調するかを示す補正量情報を関連部位「LEFT_LEG」に対応付けた情報を含んでもよい。
そして、情報処理装置100Aは、動作を補正する処理を行う(ステップS25)。情報処理装置100Aは、関連部位の動作を強調する補正を行う。図10の例では、情報処理装置100Aは、関連部位R21である右手RW、右足RL及び左足LLの動作を強調する補正を行う。例えば、情報処理装置100Aは、定義情報に含まれる補正量情報を用いて、関連部位の動作を強調する補正を行う。
例えば、情報処理装置100Aは、状態ST22の右手RW、右足RL及び左足LLの各々の位置を、状態ST21の右手RW、右足RL及び左足LLの各々の位置からさらに離れる方向に移動させる補正を行う。例えば、情報処理装置100Aは、状態ST22の右手RWの位置をさらに胴体BDから広げる方向に移動させる補正を行う。例えば、情報処理装置100Aは、状態ST22の右足RL及び左足LLを、さらに内股にする方向に移動させる補正を行う。なお、上記の強調は一例であり、アバターの属性に応じて強調する態様は異なってもよい。
これにより、情報処理装置100Aは、補正前の状態ST22を補正後の状態ST23のように、右手RW、右足RL及び左足LLの位置が20代女性のアイドルキャラクタ(アバター)である仮想キャラクタVC21の動きに適した位置に補正される。すなわち、情報処理装置100Aは、ユーザU1の動作に基づく動き情報を、20代女性のアイドルキャラクタ(アバター)である仮想キャラクタVC21の動きに合うように強調することで、アバターに適した動きに補正することができる。これにより、情報処理装置100Aは、動き情報をアバターの属性に適した動き情報に補正することができ、より適切な動作を行うアバターを用いたサービスを提供することを可能にすることができる。
なお、情報処理装置100Aは、主部位についても動きが不足している場合、強調してもよい。例えば、情報処理装置100Aは、ユーザU1が左手を斜めにあげる等、挙げ方が十分でない場合、左手LWの位置を状態ST23に示すように、左手LWが上方向に挙がるように動き情報を強調してもよい。
[2-1-1.背景及び効果等]
アバターなどキャラクタ性があるものにユーザの動きをそのまま転写すると、キャラクタ性が損なわれる場合がある。また、全身情報を利用する場合など、座ったまま操作出来ない等制限が発生する場合がある。
アバターなどキャラクタ性があるものにユーザの動きをそのまま転写すると、キャラクタ性が損なわれる場合がある。また、全身情報を利用する場合など、座ったまま操作出来ない等制限が発生する場合がある。
一方で、情報処理装置100Aは、上述のように事前定義データを用いて、ユーザの動きデータを強調する。これにより、情報処理装置100Aは、アバターなどへの動き情報を転写する際に、不足している動き情報を強調する事で、アバターの動作特徴を再現することができ、アバターなどのキャラクタ性が損なわれることを抑制することができる。
[2-2.第2の実施形態に係る情報処理装置の構成]
次に、第2の実施形態に係る情報処理を実行する情報処理装置の一例である情報処理装置100Aの構成について説明する。図11は、本開示の第2の実施形態に係る情報処理装置の構成例を示す図である。
次に、第2の実施形態に係る情報処理を実行する情報処理装置の一例である情報処理装置100Aの構成について説明する。図11は、本開示の第2の実施形態に係る情報処理装置の構成例を示す図である。
図11に示すように、情報処理装置100Aは、通信部110と、記憶部120Aと、制御部130Aとを有する。
記憶部120Aは、例えば、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。第2の実施形態に係る記憶部120Aは、図11に示すように、動作情報記憶部121と、ユーザ情報記憶部122Aと、部位情報記憶部123と、コンテンツ生成用情報記憶部125とを有する。
第2の実施形態に係る動作情報記憶部121は、図4に示すような情報を記憶する。第2の実施形態に係る動作情報記憶部121は、図4に示す「属性情報」を含む動作情報を記憶する。図4に示す「属性情報」は、この動きデータが想定するキャラクタ(アバター)等の属性情報を示す。図4中のデータDT1~DT3がキャラクタやアバター毎に用意される。また、適用するユーザ属性も複数用意されてもよい。また、利用ユーザの属性に近いものが選択される。
上述したように、ユーザの身体動作を仮想キャラクタの動作に用いる場合、動作情報記憶部121には、図4に示すように仮想キャラクタの属性情報に含まれる。図4のデータDT1中の「属性情報」は、20代女性の体型が「TYPE2」である仮想キャラクタの属性情報を示す。すなわち、データDT1は、20代女性の体型が「TYPE2」である仮想キャラクタを動作させるための動作情報であることを示す。例えば、図4のデータDT1中の「属性情報」の情報は、図10に示す仮想キャラクタVC21の属性情報に対応する。
ユーザ情報記憶部122Aは、ユーザ情報記憶部122と同様の情報を記憶する。ユーザ情報記憶部122Aは、各ユーザの動き情報を記憶する。ユーザ情報記憶部122Aは、各ユーザと仮想キャラクタとの対応付けを示す情報を記憶してもよい。
第2の実施形態に係るコンテンツ生成用情報記憶部125は、コンテンツの生成に用いる各種情報を記憶する。コンテンツ生成用情報記憶部125は、仮想キャラクタの生成に用いる各種情報を記憶する。コンテンツ生成用情報記憶部125は、仮想キャラクタを含むコンテンツの生成に用いる各種情報を記憶する。コンテンツ生成用情報記憶部125は、仮想キャラクタの動作に関する編集履歴を記憶する。
例えば、コンテンツ生成用情報記憶部125は、端末装置10等の表示装置に表示されるコンテンツの生成に用いる情報を記憶する。例えば、コンテンツ生成用情報記憶部125は、コンテンツの生成に用いる画像情報を記憶する。例えば、コンテンツ生成用情報記憶部125は、JPEG(Joint Photographic Experts Group)やGIF(Graphics Interchange Format)やPNG(Portable Network Graphics)など様々な形式の画像を、コンテンツの生成に用いる画像情報として記憶してもよい。また、コンテンツ生成用情報記憶部125は、CSS(Cascading Style Sheets)やJavaScript(登録商標)やHTML(HyperText Markup Language)の形式の情報を、コンテンツの生成に用いる画像情報として記憶してもよい。なお、コンテンツ生成用情報記憶部125は、上記に限らず、目的に応じて種々の情報を記憶してもよい。
図11に示すように、制御部130Aは、取得部131Aと、特定部132Aと、補正部133Aと、実行部134Aと、送信部135とを有し、以下に説明する情報処理の機能や作用を実現または実行する。
取得部131Aは、取得部131と同様に各種情報を取得する。取得部131Aは、各種情報を取得する。取得部131Aは、身体動作により仮想キャラクタを動作させるユーザの外形情報を取得する。取得部131Aは、仮想キャラクタに設定された属性に対応する対応ユーザの動き情報を、仮想キャラクタの動き情報の補正に用いる情報として取得する。取得部131Aは、仮想キャラクタの動作に関する編集履歴を、仮想キャラクタの動き情報の補正に用いる情報として取得する。
特定部132Aは、特定部132と同様に各種情報を特定する。特定部132Aは、仮想キャラクタの動作に対応する主部位と、補正処理の対象となる関連部位とを特定する。特定部132Aは、仮想キャラクタに設定された属性に対応する対応ユーザの動き情報に基づいて、主部位と、関連部位とを特定する。特定部132Aは、仮想キャラクタの動作に関する編集履歴に基づいて、主部位と、関連部位とを特定する。
補正部133Aは、補正部133と同様に各種情報を補正する。補正部133Aは、主部位や関連部位の動きを強調する補正を行う。補正部133Aは、仮想キャラクタの動作に関する編集履歴に基づいて、仮想キャラクタの動き情報を補正する。補正部133Aは、編集履歴を用いて、仮想キャラクタの動き情報を補正する。補正部133Aは、編集履歴に含まれる過去の補正の傾向を利用して仮想キャラクタの動き情報を補正する。例えば、補正部133Aは、編集履歴のうち、補正対象の仮想キャラクタの動き情報と類似する動き情報(類似動き情報)の補正内容を、その補正対象の仮想キャラクタの動き情報に適用する。補正部133Aは、補正対象の仮想キャラクタの動き情報を、類似動き情報の補正内容で補正する。
実行部134Aは、実行部134と同様に各種情報を実行する。実行部134Aは、実行部134と同様に各種情報を生成する。
実行部134Aは、取得部131により取得された各種情報に基づいて、各種情報を生成する。実行部134Aは、特定部132により決定された各種情報に基づいて、各種情報を生成する。実行部134Aは、補正部133により補正された各種情報に基づいて、各種情報を生成する。実行部134Aは、仮想キャラクタに設定された属性に対応する対応ユーザの動き情報に基づいて、仮想キャラクタの動き情報を生成する。実行部134Aは、仮想キャラクタに設定された属性に類似する類似ユーザの動き情報を用いて、仮想キャラクタの動き情報を生成する。実行部134Aは、類似ユーザの動きの傾向を利用して仮想キャラクタの動き情報を生成する。例えば、実行部134Aは、類似ユーザの動き情報に類似するように、仮想キャラクタの動き情報を生成する。実行部134Aは、生成対象の仮想キャラクタの動き情報を、類似ユーザの動き情報に近づくように生成する。
実行部134Aは、種々の技術を適宜用いて、外部の情報処理装置へ提供する画面(画像情報)等の種々の情報を生成する。実行部134Aは、端末装置10へ提供する画面(画像情報)等を生成する。例えば、実行部134Aは、記憶部120に記憶された情報に基づいて、端末装置10へ提供する画面(画像情報)等を生成する。実行部134Aは、仮想キャラクタVC21を含むコンテンツCT21を生成する。実行部134Aは、外部の情報処理装置へ提供するコンテンツ(画像情報)等が生成可能であれば、どのような処理によりコンテンツ(画像情報)等を生成してもよい。例えば、実行部134Aは、画像生成や画像処理等に関する種々の技術を適宜用いて、端末装置10へ提供するコンテンツ(画像情報)を生成する。例えば、実行部134Aは、Java(登録商標)等の種々の技術を適宜用いて、端末装置10へ提供するコンテンツ(画像情報)を生成する。なお、実行部134Aは、CSSやJavaScript(登録商標)やHTMLの形式に基づいて、端末装置10へ提供するコンテンツ(画像情報)を生成してもよい。また、例えば、実行部134Aは、JPEGやGIFやPNGなど様々な形式でコンテンツ(画像情報)を生成してもよい。
送信部135は、実行部134Aにより生成されたコンテンツを端末装置10に送信する。例えば、送信部135は、仮想キャラクタVC21を含むコンテンツCT21を端末装置10に送信する。
[2-3.発話を用いた部位特定例]
情報処理装置100Aは、外形情報に限らず、種々の情報を適宜用いて、主部位や関連部位を特定してもよい。この点について、以下説明する。なお、以下の説明では、図10と同様の点については適宜説明を省略する。
情報処理装置100Aは、外形情報に限らず、種々の情報を適宜用いて、主部位や関連部位を特定してもよい。この点について、以下説明する。なお、以下の説明では、図10と同様の点については適宜説明を省略する。
情報処理装置100Aは、発話内容を考慮した身体部位を強調してもよい。この点について、図12を用いて説明する。図12は、発話を用いた部位特定の一例を示す図である。図12は、発話情報を用いた主部位の特定の一例を示す。情報処理装置100Aは、音声発話の内容からユーザの意図(Intent)を推定(取得)し、主部位の特定と強調に用いる動きデータの選択を行う。そのユースケースの一例として、図12では、アイドルアバター(例えば図10中の仮想キャラクタVC21等)の利用時に「やってみよう」と発話しながら手を挙げる動作をした場合に、強調すべき個所の動作情報を選択して利用する場合を示す。
図12の例では、ユーザU1は、状態ST31から状態ST32に対応するユーザU1の左手を挙げる動作を行う(ステップS31)。そして、ユーザU1は、ユーザU1の左手を挙げる動作とともに「やってみよう」という発話UT31を行う。
そして、情報処理装置100Aは、自然言語理解(NLU)の機能によりユーザの発話の意図を推定し、推定した意図(Intent)に対応する情報(以下「部位動作情報」ともいう)を取得する(ステップS32)。情報処理装置100Aは、Intent別主部位・関連部位・動作情報を記憶したデータベースDB31から推定した意図(Intent)に対応する部位動作情報を取得する。例えば、情報処理装置100Aは、Intent別主部位・関連部位・動作情報を記憶した記憶部120から推定した意図(Intent)に対応する部位動作情報を取得する。
図12の例では、情報処理装置100Aは、発話UT31に対するユーザの意図をオブジェクトのサイズを変更する意図であると推定する。そして、情報処理装置100Aは、推定した意図(Intent)に対応するIntent「LETS_GET_STARTED」であるIntent別主部位・関連部位・動作情報をデータベースDB31から抽出する。情報処理装置100Aは、Intent「LETS_GET_STARTED」であり、その主部位が「LEFT_ARM」であるIntent別主部位・関連部位・動作情報INF31を抽出する。なお、「LEFT_ARM」は「LEFT_WRIST」や「L_WRIST」と同義であってもよい。Intent別主部位・関連部位・動作情報INF31には、各関連部位をどの程度補正するかを示す補正量情報を、関連部位の各々に対応付けた情報(動作強調データ)を含んでもよい。
情報処理装置100Aは、ユーザU1の発話の意図を基に、左手LWを主部位に特定する。これにより、情報処理装置100Aは、状態ST33に示すように、右手RWを主部位M31として特定する(ステップS33)。
そして、情報処理装置100Aは、関連部位を特定する(ステップS34)。情報処理装置100Aは、ユーザU1の発話意図に対応する主部位M31以外の部位のうち、動作している部位を関連部位として特定する。図12の例では、情報処理装置100Aは、状態ST33に示すように、右手RWを関連部位R31として特定し、右足RLを関連部位R32として特定し、左足LLを関連部位R33として特定する。例えば、情報処理装置100Aは、Intent別主部位・関連部位・動作情報INF31に含まれる補正量情報を用いて、関連部位の動作を強調する補正を行う。
そして、情報処理装置100Aは、動作を補正する処理を行う(ステップS35)。情報処理装置100Aは、関連部位の動作を強調する補正を行う。図1の例では、情報処理装置100Aは、関連部位R31である右手RWの動作と関連部位R32である右足RLの動作と関連部位R33である左足LLの動作を強調する補正を行う。すなわち、情報処理装置100Aは、状態ST34の右手RW、右足RL及び左足LLの各々の位置を、状態ST32の右手RW、右足RL及び左足LLの各々の位置からさらに離れる方向に移動させる補正を行う。例えば、情報処理装置100Aは、状態ST34の右手RWの位置をさらに胴体BDから広げる方向に移動させる補正を行う。例えば、情報処理装置100Aは、状態ST34の右足RL及び左足LLを、さらに内股にする方向に移動させる補正を行う。これにより、情報処理装置100Aは、状態ST35に示すような手の動きが大きく、足が内股に強調された動きに補正する。
また、情報処理装置100Aは、ユーザU1の手挙げ不足により、主部位M31である左手LWについても動きが不足しているため場合、左手LWの動きについても強調する。図12の例では、情報処理装置100Aは、ユーザU1が左手を斜めにあげ、挙げ方が十分でないため、左手LWの位置を状態ST35に示すように、左手LWが上方向に挙がるように動き情報を強調する。例えば、情報処理装置100Aは、Intent別主部位・関連部位・動作情報INF31に含まれる主部位に関する補正量情報を用いて、主部位の動作を強調する補正を行う。この場合、Intent別主部位・関連部位・動作情報INF31には、各主部位をどの程度補正するかを示す補正量情報を、主部位の各々に対応付けた情報(動作強調データ)を含む。
このように、情報処理装置100Aは、ユーザの発話の意図解析からIntentを発話推定し、Intent別主部位・関連部位・動作情報から主部位を特定する。これにより、情報処理装置100Aは、ユーザの行う主部位の動きが小さいなどの理由により、身体部位の動き量だけでは主部位の特定ができない場合であっても、ユーザの発話情報を利用することで適切に主部位を特定することができる。そして、情報処理装置100Aは、Intentに紐づく主部位情報と動作強調データを利用して強調を行う。これにより、情報処理装置100Aは、動きが不足している主部位の動きの強調や、動きが不足している関連部位の動きの強調を行うことができる。このように、情報処理装置100Aは、動き情報をアバターの属性に適した動き情報に補正することができ、より適切な動作を行うアバターを用いたサービスを提供することを可能にすることができる。
[2-4.属性に応じた情報利用例]
なお、上記は一例であり、種々の情報を適宜用いて、部位の特定や動きの補正を行ってもよい。この点について、以下説明する。なお、以下の説明では、上述した説明と同様の点については適宜説明を省略する。以下では、情報処理装置100Aを一例として説明するが、以下の処理などは情報処理装置100が行ってもよい。
なお、上記は一例であり、種々の情報を適宜用いて、部位の特定や動きの補正を行ってもよい。この点について、以下説明する。なお、以下の説明では、上述した説明と同様の点については適宜説明を省略する。以下では、情報処理装置100Aを一例として説明するが、以下の処理などは情報処理装置100が行ってもよい。
例えば、情報処理装置100Aは、属性に応じた情報利用を行ってもよい。この点について、図13を用いて説明する。図13は、属性に応じた情報利用の一例を示す図である。以下では、そのユースケースの一例として、事前定義されていない動きデータの取得する場合を示す。図13では、例えば、身体部位の動きのキャンセル・抑制・強調を行うための情報源となる「主部位・関連部位情報」を自動的に取得する方法の一例を示す。
図13の例では、属性情報INF41に示すように、仮想キャラクタVC21は、性別が女性であり、年齢が20代であり、髪型がロングヘアであり、身長が155cmであり、体重が50キロであり、関東地方に居住する設定である場合を示す。
情報処理装置100Aは、属性の近いユーザの動きからデータを生成する(ステップS41)。情報処理装置100Aは、仮想キャラクタVC21の属性に近いユーザの動きから仮想キャラクタVC21のデータを生成する。情報処理装置100Aは、仮想キャラクタVC21の属性に類似する類似ユーザの動きから仮想キャラクタVC21のデータを生成する。例えば、情報処理装置100Aは、20代女性のユーザを類似ユーザとして抽出し、その類似ユーザの動きから仮想キャラクタVC21のデータを生成する。
例えば、情報処理装置100Aは、類似ユーザを対象として、一定時間間隔で動き量を測定する。そして、情報処理装置100Aは、測定した動き量を仮想キャラクタVC21に対応付けて記憶部120Aに記憶する。情報処理装置100Aは、測定した動き量を含むデータDT41を仮想キャラクタVC21に対応付けて記憶する。情報処理装置100Aは、状態ST41に示すような動き量を示す動き情報を仮想キャラクタVC21に対応付けて記憶する。
例えば、情報処理装置100Aは、類似ユーザを対象として、発話時の時間近傍データを測定する。そして、情報処理装置100Aは、測定した動き量を仮想キャラクタVC21に対応付けて記憶部120Aに記憶する。情報処理装置100Aは、測定した動き量を含むデータDT42を仮想キャラクタVC21に対応付けて記憶する。情報処理装置100Aは、状態ST42に示すような動き量を示す動き情報を仮想キャラクタVC21に対応付けて記憶する。
このように、情報処理装置100Aは、アバター設定と同じまたは類似する属性のユーザの動きをデータとして取得する。これにより、情報処理装置100Aは、主部位と関連部位との関係を示す情報や各部位の動き量を示す情報を自動的に取得することができる。
[2-5.動作編集例]
また、例えば、情報処理装置100Aは、動作編集の履歴情報の利用を行ってもよい。この点について、図14を用いて説明する。図14は、動作編集の一例を示す図である。以下では、そのユースケースの一例として、事前定義されていない動きデータの取得する場合を示す。図14では、例えば、身体部位の動きのキャンセル・抑制・強調を行うための情報源となる「主部位・関連部位情報」を自動的に取得する方法の一例を示す。
また、例えば、情報処理装置100Aは、動作編集の履歴情報の利用を行ってもよい。この点について、図14を用いて説明する。図14は、動作編集の一例を示す図である。以下では、そのユースケースの一例として、事前定義されていない動きデータの取得する場合を示す。図14では、例えば、身体部位の動きのキャンセル・抑制・強調を行うための情報源となる「主部位・関連部位情報」を自動的に取得する方法の一例を示す。
情報処理装置100Aは、アバターの動き編集履歴から期待される動きデータを取得する。情報処理装置100Aは、SNS(Social Networking Service)用コンテンツ等の編集ツールとしてアバターの動きを修正できる機能がある場合、その機能により修正(編集)された履歴情報を取得する。また、情報処理装置100Aは、撮影後の編集(PC等)操作によって生成られた完成データから情報を取得してもよい。例えば、情報処理装置100Aは、編集前のデータ(生データ)と、編集後のデータ(完成データ)との差分を編集情報として取得してもよい。
図14では、ユーザU1が端末装置10のマウス等の入力部12を操作することにより、生データを編集し完成データを生成する場合を一例として示す。図14では、ユーザU1は、端末装置10の表示部16に表示された人を模した模型を所定の編集ツールTL51を用いて操作することにより、動き情報を編集する(ステップS51)。なお、ユーザU1は、データDT51に示すような文字情報を直接編集してもよい。
ユーザU1は、状態ST51に対応するデータDT51を編集することにより、状態ST52に対応するデータDT52を生成する。これにより、ユーザU1は、生データであるデータDT51を編集することにより、完成データであるデータDT52を生成する。例えば、情報処理装置100Aは、ユーザU1の編集に対応する編集情報ED51をデータDT51に追加することにより、データDT52を生成する。情報処理装置100Aは、関連部位R52、R53である右足RL及び左足LLの動きが編集されたデータDT52を生成する。例えば、情報処理装置100Aは、ユーザU1が右足RL及び左足LLの動を調整したことに応じて、動き情報の関連部位に右足RL及び左足LLを追加する。
情報処理装置100Aは、上述のような編集履歴を取得し、取得した編集履歴を用いて、データを補正する。情報処理装置100Aは、編集履歴を用いて、仮想キャラクタの動き情報を補正する。情報処理装置100Aは、編集履歴に含まれる過去の補正の傾向を利用して仮想キャラクタの動き情報を補正する。例えば、情報処理装置100Aは、初期に自動生成された生データから、完成データを自動生成してもよい。
[3.その他の実施形態]
上述した各実施形態に係る処理は、上記各実施形態や変形例以外にも種々の異なる形態(変形例)にて実施されてよい。
上述した各実施形態に係る処理は、上記各実施形態や変形例以外にも種々の異なる形態(変形例)にて実施されてよい。
[3-1.その他の構成例]
なお、上記の例では、情報処理装置100や情報処理装置100Aと端末装置10とが別体である場合を示したが、これらの装置は一体であってもよい。すなわち、コンテンツの生成を行う装置(情報処理装置100等)と、コンテンツ等の情報を表示する装置(端末装置10等)とは一体であってもよい。例えば、ユーザが利用する装置がコンテンツの生成を行う機能と情報の表示やユーザによる入力の受付けを行う機能を有する情報処理装置であってもよい。この場合、例えば、情報処理装置はテレビ等であってもよく、情報処理装置はユーザによる入力を受け付ける端末装置(スマートスピーカやスマートフォン等)からユーザの入力情報を取得し、取得した情報を用いてコンテンツを生成し表示してもよい。
なお、上記の例では、情報処理装置100や情報処理装置100Aと端末装置10とが別体である場合を示したが、これらの装置は一体であってもよい。すなわち、コンテンツの生成を行う装置(情報処理装置100等)と、コンテンツ等の情報を表示する装置(端末装置10等)とは一体であってもよい。例えば、ユーザが利用する装置がコンテンツの生成を行う機能と情報の表示やユーザによる入力の受付けを行う機能を有する情報処理装置であってもよい。この場合、例えば、情報処理装置はテレビ等であってもよく、情報処理装置はユーザによる入力を受け付ける端末装置(スマートスピーカやスマートフォン等)からユーザの入力情報を取得し、取得した情報を用いてコンテンツを生成し表示してもよい。
[3-2.その他]
また、上記各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、上記各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
また、上述してきた各実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
また、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。
[4.本開示に係る効果]
上述のように、本開示に係る情報処理装置(実施形態では情報処理装置100、100A)は、取得部(実施形態では取得部131、131A)と、特定部(実施形態では特定部132、132A)とを備える。取得部は、身体動作を行うユーザの外形を示す外形情報を取得する。特定部は、取得部により取得された外形情報に基づいて、身体部位のうち、身体動作に対応する主部位と、身体動作に対応する動き情報の補正処理の対象となる関連部位とを特定する。
上述のように、本開示に係る情報処理装置(実施形態では情報処理装置100、100A)は、取得部(実施形態では取得部131、131A)と、特定部(実施形態では特定部132、132A)とを備える。取得部は、身体動作を行うユーザの外形を示す外形情報を取得する。特定部は、取得部により取得された外形情報に基づいて、身体部位のうち、身体動作に対応する主部位と、身体動作に対応する動き情報の補正処理の対象となる関連部位とを特定する。
このように、本開示に係る情報処理装置は、身体動作を行うユーザの外形を示す外形情報に基づいて、身体部位のうち、身体動作に対応する主部位と、身体動作に対応する動き情報の補正処理の対象となる関連部位とを特定する。これにより、情報処理装置は、ユーザの主たる部位である主部位と、その他の部位であり補正処理の対象となる部位を特定することで、ユーザの身体動作に関する部位を適切に特定することができる。
また、取得部は、センサにより検知された外形情報を取得する。これにより、情報処理装置は、センサにより検知された情報(センサ情報)を用いて、ユーザの身体動作に関する部位を適切に特定することができる。
また、取得部は、画像センサにより検知された画像情報である外形情報を取得する。これにより、情報処理装置は、画像センサにより検知された情報(画像)を用いて、ユーザの身体動作に関する部位を適切に特定することができる。
また、特定部は、身体動作の影響を取り消す対象となる関連部位を特定する。これにより、情報処理装置は、身体動作の影響を取り消す対象となる関連部位を特定することで、ユーザの身体動作に関する部位を適切に特定することができる。
また、特定部は、身体動作の影響を強調する対象となる関連部位を特定する。これにより、情報処理装置は、身体動作の影響を強調する対象となる関連部位を特定することで、ユーザの身体動作に関する部位を適切に特定することができる。
また、特定部は、ユーザの各身体部位の位置の変換量に基づいて、主部位を特定する。これにより、情報処理装置は、ユーザの各身体部位の位置の変換量に応じて主部位を特定することで、ユーザの身体動作に関する部位を適切に特定することができる。
また、特定部は、身体部位のうち、位置の変換量が大きい部位を主部位に特定する。これにより、情報処理装置は、位置の変換量が大きい部位を主部位に特定することで、ユーザの身体動作に関する部位を適切に特定することができる。
また、取得部は、ユーザの発話情報を取得する。特定部は、ユーザの発話情報に基づいて、主部位を特定する。これにより、情報処理装置は、外形情報と発話情報とを用いて主部位を特定することで、より精度よくユーザの身体動作に関する部位を適切に特定することができる。
また、特定部は、ユーザの発話情報に基づいて、関連部位を特定する。これにより、情報処理装置は、外形情報と発話情報とを用いてユーザの発話情報に基づいて、関連部位を特定することで、より精度よくユーザの身体動作に関する部位を適切に特定することができる。
また、特定部は、ユーザの発話内容により推定されるユーザの発話意図に基づいて、主部位を特定する。これにより、情報処理装置は、ユーザの発話内容により推定されるユーザの発話意図に応じて主部位を特定することで、より精度よくユーザの身体動作に関する部位を適切に特定することができる。
また、特定部は、ユーザの発話意図に対応する主部位以外の部位のうち、動作している部位を関連部位として特定する。これにより、情報処理装置は、ユーザの発話意図に対応する部位以外で動作している部位を関連部位として特定することで、より精度よくユーザの身体動作に関する部位を適切に特定することができる。
また、取得部は、主部位と関連部位との対応付けを示す定義情報を取得する。特定部は、定義情報に基づいて、関連部位を特定する。これにより、情報処理装置は、主部位と関連部位との対応付けを示す定義情報を用いて主部位を特定することで、より精度よくユーザの身体動作に関する部位を適切に特定することができる。
また、取得部は、身体動作により入力を行うユーザの外形情報を取得する。特定部は、ユーザの入力に対応する主部位を特定する。これにより、情報処理装置は、身体動作により入力を行うユーザの身体動作に関する部位を適切に特定することができる。
また、特定部は、主部位の動作に連動して動作する部位を関連部位として特定する。これにより、情報処理装置は、主部位の動作に連動して動作する部位を関連部位として特定することで、より精度よくユーザの身体動作に関する部位を適切に特定することができる。
また、取得部は、身体動作により仮想キャラクタを動作させるユーザの外形情報を取得する。特定部は、仮想キャラクタの動作に対応する主部位と、補正処理の対象となる関連部位とを特定する。これにより、情報処理装置は、身体動作により仮想キャラクタを動作させるユーザの身体動作に関する部位を適切に特定することができる。
また、取得部は、仮想キャラクタに設定された属性に対応する対応ユーザの動き情報を、仮想キャラクタの動き情報の生成に用いる情報として取得する。これにより、情報処理装置は、仮想キャラクタに設定された属性に対応するユーザの動き情報を用いることで、仮想キャラクタに類似するユーザの動き情報を利用して仮想キャラクタを動作させることができる。
また、取得部は、仮想キャラクタの動作に関する編集履歴を、仮想キャラクタの動き情報の補正に用いる情報として取得する。これにより、情報処理装置は、仮想キャラクタの動作に関する編集履歴を用いて、仮想キャラクタの動き情報の補正することができ、過去の補正の傾向を利用して仮想キャラクタを動作させることができる。
また、本開示に係る情報処理装置は、補正部(実施形態では補正部133、133A)備える。補正部は、特定部により特定された関連部位に対応する動き情報を補正する。これにより、情報処理装置は、ユーザの身体動作の関連部位の動き情報を適切に補正することができる。
また、補正部は、特定部により特定された主部位に対応する動き情報を補正する。これにより、情報処理装置は、ユーザの身体動作の主部位の動き情報を適切に補正することができる。
[5.ハードウェア構成]
上述してきた各実施形態に係る情報処理装置100、100Aや端末装置10等の情報機器は、例えば図15に示すような構成のコンピュータ1000によって実現される。図15は、情報処理装置100、100Aや端末装置10等の情報処理装置の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。以下、第1の実施形態に係る情報処理装置100を例に挙げて説明する。コンピュータ1000は、CPU1100、RAM1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インターフェイス1500、及び入出力インターフェイス1600を有する。コンピュータ1000の各部は、バス1050によって接続される。
上述してきた各実施形態に係る情報処理装置100、100Aや端末装置10等の情報機器は、例えば図15に示すような構成のコンピュータ1000によって実現される。図15は、情報処理装置100、100Aや端末装置10等の情報処理装置の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。以下、第1の実施形態に係る情報処理装置100を例に挙げて説明する。コンピュータ1000は、CPU1100、RAM1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インターフェイス1500、及び入出力インターフェイス1600を有する。コンピュータ1000の各部は、バス1050によって接続される。
CPU1100は、ROM1300又はHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、CPU1100は、ROM1300又はHDD1400に格納されたプログラムをRAM1200に展開し、各種プログラムに対応した処理を実行する。
ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるBIOS(Basic Input Output System)等のブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、HDD1400は、プログラムデータ1450の一例である本開示に係る情報処理プログラムを記録する記録媒体である。
通信インターフェイス1500は、コンピュータ1000が外部ネットワーク1550(例えばインターネット)と接続するためのインターフェイスである。例えば、CPU1100は、通信インターフェイス1500を介して、他の機器からデータを受信したり、CPU1100が生成したデータを他の機器へ送信したりする。
入出力インターフェイス1600は、入出力デバイス1650とコンピュータ1000とを接続するためのインターフェイスである。例えば、CPU1100は、入出力インターフェイス1600を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、CPU1100は、入出力インターフェイス1600を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス1600は、所定の記録媒体(メディア)に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
例えば、コンピュータ1000が第1の実施形態に係る情報処理装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされた情報処理プログラムを実行することにより、制御部130等の機能を実現する。また、HDD1400には、本開示に係る情報処理プログラムや、記憶部120内のデータが格納される。なお、CPU1100は、プログラムデータ1450をHDD1400から読み取って実行するが、他の例として、外部ネットワーク1550を介して、他の装置からこれらのプログラムを取得してもよい。
なお、本技術は以下のような構成も取ることができる。
(1)
身体動作を行うユーザの外形を示す外形情報を取得する取得部と、
前記取得部により取得された前記外形情報に基づいて、身体部位のうち、前記身体動作に対応する主部位と、前記身体動作に対応する動き情報の補正処理の対象となる関連部位とを特定する特定部と、
を備える情報処理装置。
(2)
前記取得部は、
センサにより検知された前記外形情報を取得する
(1)に記載の情報処理装置。
(3)
前記取得部は、
画像センサにより検知された画像情報である前記外形情報を取得する
(2)に記載の情報処理装置。
(4)
前記特定部は、
前記身体動作の影響を取り消す対象となる前記関連部位を特定する
(1)~(3)のいずれか1項に記載の情報処理装置。
(5)
前記特定部は、
前記身体動作の影響を強調する対象となる前記関連部位を特定する
(1)~(3)のいずれか1項に記載の情報処理装置。
(6)
前記特定部は、
前記ユーザの各身体部位の位置の変換量に基づいて、前記主部位を特定する
(1)~(5)のいずれか1項に記載の情報処理装置。
(7)
前記特定部は、
前記身体部位のうち、位置の変換量が大きい部位を前記主部位に特定する
(6)に記載の情報処理装置。
(8)
前記取得部は、
前記ユーザの発話情報を取得し、
前記特定部は、
前記ユーザの発話情報に基づいて、前記主部位を特定する
(1)~(7)のいずれか1項に記載の情報処理装置。
(9)
前記特定部は、
前記ユーザの発話情報に基づいて、前記関連部位を特定する
(8)に記載の情報処理装置。
(10)
前記特定部は、
前記ユーザの発話内容により推定される前記ユーザの発話意図に基づいて、前記主部位を特定する
(8)または(9)に記載の情報処理装置。
(11)
前記特定部は、
前記ユーザの発話意図に対応する前記主部位以外の部位のうち、動作している部位を前記関連部位として特定する
(10)に記載の情報処理装置。
(12)
前記取得部は、
前記主部位と前記関連部位との対応付けを示す定義情報を取得し、
前記特定部は、
前記定義情報に基づいて、前記関連部位を特定する
(1)~(11)のいずれか1項に記載の情報処理装置。
(13)
前記取得部は、
前記身体動作により入力を行う前記ユーザの前記外形情報を取得し、
前記特定部は、
前記ユーザの前記入力に対応する前記主部位を特定する
(1)~(12)のいずれか1項に記載の情報処理装置。
(14)
前記特定部は、
前記主部位の動作に連動して動作する部位を前記関連部位として特定する
(13)に記載の情報処理装置。
(15)
前記取得部は、
前記身体動作により仮想キャラクタを動作させる前記ユーザの前記外形情報を取得し、
前記特定部は、
前記仮想キャラクタの動作に対応する前記主部位と、前記補正処理の対象となる前記関連部位とを特定する
(1)~(14)のいずれか1項に記載の情報処理装置。
(16)
前記取得部は、
前記仮想キャラクタに設定された属性に対応する対応ユーザの動き情報を、前記仮想キャラクタの動き情報の生成に用いる情報として取得する
(15)に記載の情報処理装置。
(17)
前記取得部は、
前記仮想キャラクタの動作に関する編集履歴を、前記仮想キャラクタの動き情報の補正に用いる情報として取得する
(15)または(16)に記載の情報処理装置。
(18)
前記特定部により特定された前記関連部位に対応する前記動き情報を補正する補正部、
をさらに備える(1)~(17)のいずれか1項に記載の情報処理装置。
(19)
前記補正部は、
前記特定部により特定された前記主部位に対応する前記動き情報を補正する
(18)に記載の情報処理装置。
(20)
身体動作を行うユーザの外形を示す外形情報を取得し、
取得した前記外形情報に基づいて、身体部位のうち、前記身体動作に対応する主部位と、前記身体動作に対応する情報の補正処理の対象となる関連部位とを特定する、
処理を実行する情報処理方法。
(1)
身体動作を行うユーザの外形を示す外形情報を取得する取得部と、
前記取得部により取得された前記外形情報に基づいて、身体部位のうち、前記身体動作に対応する主部位と、前記身体動作に対応する動き情報の補正処理の対象となる関連部位とを特定する特定部と、
を備える情報処理装置。
(2)
前記取得部は、
センサにより検知された前記外形情報を取得する
(1)に記載の情報処理装置。
(3)
前記取得部は、
画像センサにより検知された画像情報である前記外形情報を取得する
(2)に記載の情報処理装置。
(4)
前記特定部は、
前記身体動作の影響を取り消す対象となる前記関連部位を特定する
(1)~(3)のいずれか1項に記載の情報処理装置。
(5)
前記特定部は、
前記身体動作の影響を強調する対象となる前記関連部位を特定する
(1)~(3)のいずれか1項に記載の情報処理装置。
(6)
前記特定部は、
前記ユーザの各身体部位の位置の変換量に基づいて、前記主部位を特定する
(1)~(5)のいずれか1項に記載の情報処理装置。
(7)
前記特定部は、
前記身体部位のうち、位置の変換量が大きい部位を前記主部位に特定する
(6)に記載の情報処理装置。
(8)
前記取得部は、
前記ユーザの発話情報を取得し、
前記特定部は、
前記ユーザの発話情報に基づいて、前記主部位を特定する
(1)~(7)のいずれか1項に記載の情報処理装置。
(9)
前記特定部は、
前記ユーザの発話情報に基づいて、前記関連部位を特定する
(8)に記載の情報処理装置。
(10)
前記特定部は、
前記ユーザの発話内容により推定される前記ユーザの発話意図に基づいて、前記主部位を特定する
(8)または(9)に記載の情報処理装置。
(11)
前記特定部は、
前記ユーザの発話意図に対応する前記主部位以外の部位のうち、動作している部位を前記関連部位として特定する
(10)に記載の情報処理装置。
(12)
前記取得部は、
前記主部位と前記関連部位との対応付けを示す定義情報を取得し、
前記特定部は、
前記定義情報に基づいて、前記関連部位を特定する
(1)~(11)のいずれか1項に記載の情報処理装置。
(13)
前記取得部は、
前記身体動作により入力を行う前記ユーザの前記外形情報を取得し、
前記特定部は、
前記ユーザの前記入力に対応する前記主部位を特定する
(1)~(12)のいずれか1項に記載の情報処理装置。
(14)
前記特定部は、
前記主部位の動作に連動して動作する部位を前記関連部位として特定する
(13)に記載の情報処理装置。
(15)
前記取得部は、
前記身体動作により仮想キャラクタを動作させる前記ユーザの前記外形情報を取得し、
前記特定部は、
前記仮想キャラクタの動作に対応する前記主部位と、前記補正処理の対象となる前記関連部位とを特定する
(1)~(14)のいずれか1項に記載の情報処理装置。
(16)
前記取得部は、
前記仮想キャラクタに設定された属性に対応する対応ユーザの動き情報を、前記仮想キャラクタの動き情報の生成に用いる情報として取得する
(15)に記載の情報処理装置。
(17)
前記取得部は、
前記仮想キャラクタの動作に関する編集履歴を、前記仮想キャラクタの動き情報の補正に用いる情報として取得する
(15)または(16)に記載の情報処理装置。
(18)
前記特定部により特定された前記関連部位に対応する前記動き情報を補正する補正部、
をさらに備える(1)~(17)のいずれか1項に記載の情報処理装置。
(19)
前記補正部は、
前記特定部により特定された前記主部位に対応する前記動き情報を補正する
(18)に記載の情報処理装置。
(20)
身体動作を行うユーザの外形を示す外形情報を取得し、
取得した前記外形情報に基づいて、身体部位のうち、前記身体動作に対応する主部位と、前記身体動作に対応する情報の補正処理の対象となる関連部位とを特定する、
処理を実行する情報処理方法。
1 情報処理システム
100、100A 情報処理装置
110 通信部
120、120A 記憶部
121 動作情報記憶部
122 ユーザ情報記憶部
123 部位情報記憶部
124 機能情報記憶部
125 コンテンツ生成用情報記憶部
130、130A 制御部
131 取得部
132 特定部
133、133A 補正部
134、134A 実行部
135 送信部
10 端末装置
11 通信部
12 入力部
13 出力部
14 記憶部
15 制御部
151 受信部
152 実行部
153 受付部
154 送信部
16 表示部
100、100A 情報処理装置
110 通信部
120、120A 記憶部
121 動作情報記憶部
122 ユーザ情報記憶部
123 部位情報記憶部
124 機能情報記憶部
125 コンテンツ生成用情報記憶部
130、130A 制御部
131 取得部
132 特定部
133、133A 補正部
134、134A 実行部
135 送信部
10 端末装置
11 通信部
12 入力部
13 出力部
14 記憶部
15 制御部
151 受信部
152 実行部
153 受付部
154 送信部
16 表示部
Claims (20)
- 身体動作を行うユーザの外形を示す外形情報を取得する取得部と、
前記取得部により取得された前記外形情報に基づいて、身体部位のうち、前記身体動作に対応する主部位と、前記身体動作に対応する動き情報の補正処理の対象となる関連部位とを特定する特定部と、
を備える情報処理装置。 - 前記取得部は、
センサにより検知された前記外形情報を取得する
請求項1に記載の情報処理装置。 - 前記取得部は、
画像センサにより検知された画像情報である前記外形情報を取得する
請求項2に記載の情報処理装置。 - 前記特定部は、
前記身体動作の影響を取り消す対象となる前記関連部位を特定する
請求項1に記載の情報処理装置。 - 前記特定部は、
前記身体動作の影響を強調する対象となる前記関連部位を特定する
請求項1に記載の情報処理装置。 - 前記特定部は、
前記ユーザの各身体部位の位置の変換量に基づいて、前記主部位を特定する
請求項1に記載の情報処理装置。 - 前記特定部は、
前記身体部位のうち、位置の変換量が大きい部位を前記主部位に特定する
請求項6に記載の情報処理装置。 - 前記取得部は、
前記ユーザの発話情報を取得し、
前記特定部は、
前記ユーザの発話情報に基づいて、前記主部位を特定する
請求項1に記載の情報処理装置。 - 前記特定部は、
前記ユーザの発話情報に基づいて、前記関連部位を特定する
請求項8に記載の情報処理装置。 - 前記特定部は、
前記ユーザの発話内容により推定される前記ユーザの発話意図に基づいて、前記主部位を特定する
請求項8に記載の情報処理装置。 - 前記特定部は、
前記ユーザの発話意図に対応する前記主部位以外の部位のうち、動作している部位を前記関連部位として特定する
請求項10に記載の情報処理装置。 - 前記取得部は、
前記主部位と前記関連部位との対応付けを示す定義情報を取得し、
前記特定部は、
前記定義情報に基づいて、前記関連部位を特定する
請求項1に記載の情報処理装置。 - 前記取得部は、
前記身体動作により入力を行う前記ユーザの前記外形情報を取得し、
前記特定部は、
前記ユーザの前記入力に対応する前記主部位を特定する
請求項1に記載の情報処理装置。 - 前記特定部は、
前記主部位の動作に連動して動作する部位を前記関連部位として特定する
請求項13に記載の情報処理装置。 - 前記取得部は、
前記身体動作により仮想キャラクタを動作させる前記ユーザの前記外形情報を取得し、
前記特定部は、
前記仮想キャラクタの動作に対応する前記主部位と、前記補正処理の対象となる前記関連部位とを特定する
請求項1に記載の情報処理装置。 - 前記取得部は、
前記仮想キャラクタに設定された属性に対応する対応ユーザの動き情報を、前記仮想キャラクタの動き情報の生成に用いる情報として取得する
請求項15に記載の情報処理装置。 - 前記取得部は、
前記仮想キャラクタの動作に関する編集履歴を、前記仮想キャラクタの動き情報の補正に用いる情報として取得する
請求項15に記載の情報処理装置。 - 前記特定部により特定された前記関連部位に対応する前記動き情報を補正する補正部、
をさらに備える請求項1に記載の情報処理装置。 - 前記補正部は、
前記特定部により特定された前記主部位に対応する前記動き情報を補正する
請求項18に記載の情報処理装置。 - 身体動作を行うユーザの外形を示す外形情報を取得し、
取得した前記外形情報に基づいて、身体部位のうち、前記身体動作に対応する主部位と、前記身体動作に対応する情報の補正処理の対象となる関連部位とを特定する、
処理を実行する情報処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/757,422 US20230012053A1 (en) | 2019-12-24 | 2020-12-11 | Information processing device and information processing method |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019-232838 | 2019-12-24 | ||
JP2019232838 | 2019-12-24 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2021131772A1 true WO2021131772A1 (ja) | 2021-07-01 |
Family
ID=76575906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2020/046214 WO2021131772A1 (ja) | 2019-12-24 | 2020-12-11 | 情報処理装置及び情報処理方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20230012053A1 (ja) |
WO (1) | WO2021131772A1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002042168A (ja) * | 2000-07-31 | 2002-02-08 | Taito Corp | 踊り映像強調合成装置 |
JP2006514366A (ja) * | 2003-02-11 | 2006-04-27 | 株式会社ソニー・コンピュータエンタテインメント | リアルタイムのモーション・キャプチャ方法および装置 |
JP2013535717A (ja) * | 2010-06-29 | 2013-09-12 | マイクロソフト コーポレーション | 骨格関節認識および追跡システム |
-
2020
- 2020-12-11 US US17/757,422 patent/US20230012053A1/en active Pending
- 2020-12-11 WO PCT/JP2020/046214 patent/WO2021131772A1/ja active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002042168A (ja) * | 2000-07-31 | 2002-02-08 | Taito Corp | 踊り映像強調合成装置 |
JP2006514366A (ja) * | 2003-02-11 | 2006-04-27 | 株式会社ソニー・コンピュータエンタテインメント | リアルタイムのモーション・キャプチャ方法および装置 |
JP2013535717A (ja) * | 2010-06-29 | 2013-09-12 | マイクロソフト コーポレーション | 骨格関節認識および追跡システム |
Also Published As
Publication number | Publication date |
---|---|
US20230012053A1 (en) | 2023-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10726836B2 (en) | Providing audio and video feedback with character based on voice command | |
US20220392371A1 (en) | Real-time language learning within a smart space | |
US10726062B2 (en) | System and method for converting image data into a natural language description | |
CN106502638B (zh) | 用于提供视听反馈的设备、方法和图形用户界面 | |
US11544590B2 (en) | Answering questions during video playback | |
CN113678133B (zh) | 用于对话中断检测的具有全局和局部编码的上下文丰富的注意记忆网络的系统和方法 | |
KR20190126906A (ko) | 돌봄 로봇을 위한 데이터 처리 방법 및 장치 | |
CN108885485A (zh) | 基于存在性检测的数字助理体验 | |
US11660022B2 (en) | Adaptive skeletal joint smoothing | |
KR102193029B1 (ko) | 디스플레이 장치 및 그의 화상 통화 수행 방법 | |
WO2019107145A1 (ja) | 情報処理装置、及び情報処理方法 | |
JPWO2017130486A1 (ja) | 情報処理装置、情報処理方法およびプログラム | |
EP3575005B1 (en) | Method and apparatus for providing vibration in electronic device | |
WO2022005845A1 (en) | Augmented reality-based speech translation with travel | |
US11763690B2 (en) | Electronic apparatus and controlling method thereof | |
US11244682B2 (en) | Information processing device and information processing method | |
US11935556B2 (en) | Neural networks for changing characteristics of vocals | |
WO2015104883A1 (ja) | 情報処理装置、情報処理方法およびプログラム | |
WO2022215361A1 (ja) | 情報処理装置及び情報処理方法 | |
WO2016206643A1 (zh) | 机器人交互行为的控制方法、装置及机器人 | |
WO2021131772A1 (ja) | 情報処理装置及び情報処理方法 | |
US11238846B2 (en) | Information processing device and information processing method | |
CN111311713A (zh) | 漫画处理方法、显示方法、装置、终端及存储介质 | |
US20200234187A1 (en) | Information processing apparatus, information processing method, and program | |
US10123060B2 (en) | Method and apparatus for providing contents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20906205 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 20906205 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: JP |