WO2002099545A1 - Man-machine interface unit control method, robot apparatus, and its action control method - Google Patents

Man-machine interface unit control method, robot apparatus, and its action control method Download PDF

Info

Publication number
WO2002099545A1
WO2002099545A1 PCT/JP2002/005441 JP0205441W WO02099545A1 WO 2002099545 A1 WO2002099545 A1 WO 2002099545A1 JP 0205441 W JP0205441 W JP 0205441W WO 02099545 A1 WO02099545 A1 WO 02099545A1
Authority
WO
WIPO (PCT)
Prior art keywords
state
action
user
target
data
Prior art date
Application number
PCT/JP2002/005441
Other languages
English (en)
French (fr)
Inventor
Thomas Kemp
Ralf Kompe
Raquel Tato
Masahiro Fujita
Katsuki Minamino
Kenta Kawamoto
Rika Horinaka
Original Assignee
Sony International (Europe) Gmbh
Sony Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony International (Europe) Gmbh, Sony Corporation filed Critical Sony International (Europe) Gmbh
Priority to JP2003502598A priority Critical patent/JPWO2002099545A1/ja
Priority to EP02730881A priority patent/EP1406135B8/en
Priority to US10/343,525 priority patent/US6862497B2/en
Publication of WO2002099545A1 publication Critical patent/WO2002099545A1/ja

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/04Programme control other than numerical control, i.e. in sequence controllers or logic controllers
    • G05B19/042Programme control other than numerical control, i.e. in sequence controllers or logic controllers using digital processors
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B62LAND VEHICLES FOR TRAVELLING OTHERWISE THAN ON RAILS
    • B62DMOTOR VEHICLES; TRAILERS
    • B62D57/00Vehicles characterised by having other propulsion or other ground- engaging means than wheels or endless track, alone or in addition to wheels or endless track
    • B62D57/02Vehicles characterised by having other propulsion or other ground- engaging means than wheels or endless track, alone or in addition to wheels or endless track with ground-engaging propulsion means, e.g. walking members
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B62LAND VEHICLES FOR TRAVELLING OTHERWISE THAN ON RAILS
    • B62DMOTOR VEHICLES; TRAILERS
    • B62D57/00Vehicles characterised by having other propulsion or other ground- engaging means than wheels or endless track, alone or in addition to wheels or endless track
    • B62D57/02Vehicles characterised by having other propulsion or other ground- engaging means than wheels or endless track, alone or in addition to wheels or endless track with ground-engaging propulsion means, e.g. walking members
    • B62D57/032Vehicles characterised by having other propulsion or other ground- engaging means than wheels or endless track, alone or in addition to wheels or endless track with ground-engaging propulsion means, e.g. walking members with alternately or sequentially lifted supporting base and legs; with alternately or sequentially lifted feet or skid
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion

Definitions

  • the present invention relates to a control method of a man 'machine' interface unit, and a robot device and its behavior.
  • a control method in particular, a method for controlling a man 'machine' interface unit having a step of learning operation and / or entertainment ability, and a robot apparatus to which such a method for controlling a man 'machine' interface unit are applied And its behavior control method.
  • Today in order to make devices and devices easy and reliable to use, and for the convenience of users, many devices and devices have adopted man-machine interface technology and man-machine interaction systems. I have.
  • This object is achieved by a method for controlling a man-machine interface according to claim 1.
  • Preferred embodiments of the control method of the man 'machine' interface unit are within the dependent claims.
  • this object is achieved by a man-machine interface unit control system described in claim 19 and a computer program product described in claim 20.
  • an initial state before performing an action and a final state after performing the action are detected for at least one user.
  • data triples indicating the initial state, final state, and executed actions are collected as learning samples. This learning sample is used to derive and / or initialize at least the goal actions to be performed and to guide the user from any current state to the desired goal state.
  • the basic concept of the present invention relates to an action to be performed on at least one user, in particular a user before performing an action, by means of the man-machine-interaction unit itself or an execution unit coupled thereto. It is to derive the data corresponding to or displayed in the initial state and the final state after executing the action, or the user's initial state and / or final state. Then, a learning sample is generated as a data triple representing the initial state, the final state, and the action performed between the initial state and the final state. In addition, this training sample is collected and used to at least derive and / or initialize the target actions to be performed. The user is guided by this goal action from any present state to any desired goal state.
  • the method of the present invention is particularly flexible, however, because it is a fixed method that results in user independence. This is because they do not depend on predetermined rules.
  • the method acquires data selectively (alt ernat ivel y) or additional (additional ly) from the happening situation and the interaction between the user and the man-machine interface.
  • the user's state before and after the executed action is measured, and the corresponding data is obtained.
  • the executed action associates the initial state of the user before the action with the final state of the user after the action.
  • current state data or initial state data correspond to and / or indicate the user's current state and Z or initial state, respectively.
  • final state data or target state data is received, and no or generated.
  • These final state data or target state data correspond to and / or indicate the user's final state and target state, respectively.
  • behavioral data and target behavioral data can be received and / or generated. These behavioral data and target behavioral data correspond to, and / or indicate, the behaviors performed and the target behaviors derived by other preferred embodiments of the method of the present invention.
  • the current state, the initial state, the final state and / or the target state, and in particular their display data and / or corresponding data are in each case embedded topological manifolds.
  • embedded topological manifolds In particular by means of a two-dimensional embedded topology manifold and / or modeled in the form of the embedded topology manifold.
  • the performed actions, target actions, and / or their corresponding data and / or display data are in each case indicated by an embedded topology manifold and / or the embedded topology variants. It can be modeled in the form of a body.
  • this embedded top manifold can also be formed, derived, and / or used as a separate manifold for each user.
  • multiple users can be divided into several classes of equivalent users, and separate manifolds can be formed, derived, and / or used for each of these classes.
  • common or global manifolds can be derived and / or used for all users. This can be implemented additionally.
  • the user's current state, initial state, final state described above It is preferable to use the emotional state as the target state.
  • Each action performed or to be performed can be viewed as associating at least one initial state of the user with at least one final state or goal state. Thus, in a sense, several pairs of initial states and specific actions are associated with one final state.
  • all states and actions can be understood as topological manifolds, it is also possible to define a mapping called trans-motion matching T for each user based on all learning samples. This translation mapping T is given by the following equation 1,
  • E means an emotional manifold, and is one of the topological manifolds for the user state or its state data.
  • Each pair ⁇ e , a > of the direct product operation EXA or the tensor operation E ® A is assigned another element T (e, a) of the emotional manifold E. Therefore, the translation mapping T and the behavioral manifold A define a group of mappings T a from E to E.
  • the translation mapping T is generally user dependent, but may include user independent and / or general parts or components.
  • any user For the desired initial state and / or target state, the initial state and current state and / or final state and / or target state and / or from the already sampled learning samples including any current state, final state and executed actions.
  • the action whose data is in the neighboring phase is selected as the target action.
  • a series of actions to be performed should be performed as a target action in order to guide any user to a target state and best suit the user's desired final state. It is effective to derive or initialize it.
  • the sequence of actions described above characterizes and defines the path through the emotional manifold.
  • This correction can also be introduced randomly by probabilistic measurements based on phase, distance, weighing, continuity, direction, vector properties, etc.
  • the training samples are used as reference points and Z or measurement points in topological manifolds E and A. Play a role, and its generalization plays the role of a trap between measurement points.
  • the generalization step may also be a step of averaging and / or weighting learning samples from different users, especially to derive a common and Z or global topological manifold.
  • different users can be grouped based on their typical state and behavior or behavior, especially based on emotion.
  • the generalized steps ⁇ learning samples as described above, especially c thereby can also be also included as fewer steps to reduce the dimensions of the behavior manifold A by projection or the like, the degree of freedom is reduced, Several classes of behavior are identified and are mutually equivalent.
  • the generalizing step of the training sample may include expanding and / or reducing a neighborhood or a range of the neighborhood of the training sample, and inside the training sample, the initial state, the final state, and the like. All data triples or data triples of the target action are classified as being equivalent to this arbitrary training sample. This is especially done up to the point where the target action and / or final state is valid for all initial states. Additionally or alternatively, this action is taken to the point where the final state is irrelevant and only the direction of the state change is considered.
  • the method of the present invention for controlling a man-machine interface unit and / or a control system, apparatus, device, etc. of a man-machine interface unit capable of executing and / or realizing the steps thereof.
  • Providing is another embodiment of the present invention.
  • a method of the present invention for controlling a man 'machine' interface unit when executed by a computer, digital processing means, etc. and / or a computer program suitable for performing and / or implementing the steps thereof Providing a computer program product comprising the means is another embodiment of the present invention.
  • the goal of performing the man 'machine' interface and / or entertaining and responding to the user can also be achieved by artificial systems such as entertainment robots.
  • this goal is This can be achieved by estimating a topological map or topological manifold.
  • this topological map or topological manifold can be formed from a two-dimensional emotion plane.
  • a topological map or manifold is defined over a multidimensional space of possible system operations.
  • the method and system automatically improves its performance by measuring the user's emotions during use. This allows the method and system to improve map roughness and create Z or user dependent maps or manifolds.
  • the human state can be described as a topological manifold, especially as a two-dimensional map.
  • the two axes represent pleasure and arousal.
  • the upper right area represents emotional states such as joy (del ighted), happiness (bl issful), and excitement (exc i ted).
  • the upper left area represents, for example, the emotional state of fear (terri fied), anger (angry), and disgust (di sgust ed).
  • the lower right area contains, for example, content and relaxed emotions, and the lower left area contains sadness. It expresses emotions such as dness, depression, and boredom.
  • Emotions that are close to each other in this manifold or plane are similar emotions. It is easier to change an emotion from one point on the emotional manifold or emotional plane to another point that is closer than it is to a distant point. This phase property of the emotional manifold or emotional plane is the basis for the present invention.
  • the appropriate action in the task of taking the appropriate action or entertaining the user depends heavily on the user's identity, in addition to the user's current emotions and circumstances and changes in the desired situations or emotions.
  • the identity of the user is not known in advance in the Man 'Machine' interface unit, especially in entertainment robots that must be sold in large quantities.
  • the entertainment capabilities of the system are necessarily limited to a general set of user-independent actions. While this is the best solution on average, it is the next best solution for almost every individual user. Therefore, performance and entertainment abilities should be learned independently for each unit of the entertainment robot or man 'machine' interface unit, with each owner as the optimization goal.
  • this measurement can be used as a learning sample, from which the future decisions in similar situations can be derived. it can. However, only a small number of training samples are obtained per second. So far, how are entertainment robots or man-machine interface units using individual training samples when the training samples are sent in incrementally at a previously unknown frequency? There is no technically known way to do this.
  • each sample has (a) an initial position on the emotional manifold or emotion plane that shows the initial user's emotion, and (b) an action of the device, for example, A multidimensional vector that describes the entertainment robot's behavior or the chatter box's interaction strategy, and (c) an emotional manifold or emotional plane that shows the final user's emotions after the device behavior is perceived.
  • the final destination on Point In this case, each learning sample can be placed on a map or manifold, starting from the initial point on the emotional manifold or the emotional plane and pointing to the final point, with a number of behavioral variants described in (b) above. It can be described as a vector having the attribute of the dimensional action vector.
  • Each sample can be placed on the emotion plane independently of each other. Every user typically has a unique emotion map or variety, in which only his or her learning samples are added, described, and / or generalized.
  • the appropriate behavior given the user's initial state or emotion and the desired goal state or emotion, It's easy and easy to find. This starts at least near or near the point corresponding to the initial state or emotion, and is accurate to the point near or near the point corresponding to any target emotion or state within the emotional manifold or emotion map for each user. This is achieved by selecting appropriate action vectors that point to different directions.
  • the actions described by the clear action vectors are executed and performed.
  • the user's emotional varieties or emotion maps can be easily averaged by adding training samples from different user sample vectors to one user-independent sample. Can be. Additionally, it is possible to derive a global or common emotional variety or map for each class of user or for all users.
  • projections of multidimensional action vectors or action data can be obtained to reduce the action dimension, thereby reducing the number of dimensions of the action manifold or action space.
  • the target area can be extended in a similar manner to the point where it is considered completely irrelevant and only the direction of the emotion change vector is considered.
  • This new method and algorithm will improve system performance incrementally starting from the first sample observation, and allow for a very accurate model of emotional change. Similar algorithms can be used for both core and precision models.
  • FIG. 1 is a diagram showing control of a man-machine interface unit according to the present embodiment.
  • 4 is a flowchart illustrating a method and system.
  • FIG. 2 is a diagram illustrating an emotional variety, an emotional data variety, a behavioral variety, and a correspondence relationship between the behavioral data types.
  • FIG. 3 is a perspective view showing an external configuration of the robot device according to the present embodiment.
  • FIG. 4 is a block diagram showing a circuit configuration of the robot device.
  • FIG. 5 is a block diagram showing a software configuration of the robot device.
  • FIG. 6 is a block diagram showing the configuration of a middle 'ware' layer in the software configuration of the same device.
  • FIG. 7 is a block diagram showing a configuration of an application layer in a software configuration of the robot apparatus.
  • FIG. 8 is a block diagram showing the configuration of the behavior model library of the application layer.
  • FIG. 9 is a diagram illustrating a finite probability automaton that is information for determining the action of the robot device.
  • FIG. 10 is a diagram showing a state transition table prepared for each node of the finite probability automaton.
  • FIG. 11 is a diagram for explaining a main part of the robot apparatus to which a control method of a man'machine 'interface unit is applied.
  • FIG. 12 is a diagram illustrating an internal configuration of a user voice recognition unit of the robot device.
  • FIG. 13 is a diagram for explaining a facial movement unit (AU) used for recognition of a facial expression of a user.
  • AU facial movement unit
  • FIG. 14 is a diagram illustrating an internal configuration of a user image recognition unit of the robot device.
  • FIG. 15 is a diagram illustrating a three-dimensional phase space representing an emotion of the robot device.
  • Fig. 16 is a diagram illustrating an example in which the emotional state is mapped to one point in the three-dimensional topological space.
  • FIG. 17 is a diagram for explaining how the initial state on the phase plane is converted to the target state.
  • FIG. 18 is a flowchart illustrating a behavior control method of the robot device.
  • BEST MODE FOR CARRYING OUT THE INVENTION a man-machine interface unit, which is a basic principle of the present invention, operates a man-machine interface unit in response to a user's operation, expectation, emotion, or the like.
  • the control method and system are described below.
  • the control method and system are applied to an autonomous entertainment robot having at least an emotion model and capable of changing an action expressed according to emotion. A specific example will be described.
  • FIG. 1 A preferred embodiment of the method and system of the present invention for controlling a man-machine interface is shown in the flowchart of FIG. In FIG. 1, the embodiment is described by steps S0 to S12.
  • step S0 the method and system are initialized at the beginning of execution, and then, in step S1, general information and / or general and / or generic behavior models are Read from the predefined database DB. Based on the primary information obtained from the database DB, an initial operation of the method and system of the present embodiment is constructed.
  • step S3 the desired target status and Z or individual target status data TSD (Target Status Data) to guide the user are received, acquired, and Z or generated.
  • TSD Target Status Data
  • clear sample data can be obtained from the database DB described above, and can also be obtained directly from the user or from an external control unit.
  • step S7 the closest other learning sample 1 or general rule is read from the database DB.
  • step S8 an appropriate target action t is derived and generated from the given information, from the process of generalizing comprehensive information, and / or from the nearest learning sample. Note that after step S6 and / or step S8, that is, before step S9, the target action t can be modified according to some modification rule and / or randomly.
  • step S9 the derived target action t is set and executed.
  • Step S 1 is detected final state e f of the user as a result of target behavior t executing, in step S 1 1 followed, Detatoripuruku ea, e f> is called again, as a new learning sample 1 Be evaluated.
  • Step S 1 2 the final state e f of the user is compared to a desired target state e t. Then, evaluation data (comparison data) is obtained and recorded in the database DB together with a new learning sample ⁇ ea, ef>. Steps after step S2 are repeated until the external control device or the user finishes executing the method and system of the present embodiment.
  • the correspondence between the emotion manifold EM (Emotion Manifolds), the emotion data manifold EDM (Emotion Data Manifolds), the behavior manifold AM (Action Manifolds), and the behavior data manifold ADM (Action Data Manifolds) Is shown schematically in FIG.
  • the direct product operation or tensor operation E®A composed of the user's emotional manifold EM and the behavioral manifold AM that characterize the man 'machine' interface unit is generally used by any user.
  • Transmosh which is unique to It is associated with the emotional variety (map) ⁇ ⁇ ⁇ by Yon Mapping T.
  • ei is an arbitrary initial state (emotion) of the user
  • a is an action that the system can execute.
  • the lower or inner part of the AM, ie, the corresponding emotional data manifold (map) EDM and the corresponding row and motion data manifold (map) ADM are obtained. In this example, it is displayed in a Cartesian coordinate system.
  • a user identification process may be included.
  • user identification may be based on speech recognition and / or auditory emotion detection systems or processes.
  • the control method and system of the man-machine interface unit described above is, for example, an autonomous entertainment robot having at least an emotion model and capable of changing an action to be performed according to an emotion. Can be applied.
  • One of the most important and basic functions required for robot devices such as entertainment robots is to capture human emotions (Pica rd R. (1997) Affective Computing, MIT Press. It is necessary to recognize human emotions and express their own emotions.
  • the robot device can change the behavior according to, for example, the emotions of a human being as a user, it works very effectively to enhance intimacy with humans. Also, In addition to simply improving the sociability, if the robot's behavior can guide human emotions to the desired emotions by applying the man-machine interface unit control method described above, You can increase the width of the interaction with humans from the side. Such a function works particularly effectively in a robot device having a learning function.
  • an autonomous robot loading device that has an emotion model and can change the action to be expressed according to the emotion.
  • the main part to which the control method and system of the machine interface unit are applied will be described.
  • a so-called four-legged walking robot will be described as an example of a mouth bot device, but any robot device that operates according to an emotion model is applicable. It is possible, and the means of transportation is not limited to quadrupedal walking, or even legged transportation.
  • the robot apparatus 1 is a so-called pet-type robot having a shape imitating an animal such as a “dog”, and has leg units 3 at front, rear, left and right sides of a body unit 2.
  • A, 3B, 3C, and 3D are connected, and a head unit 4 and a tail unit 5 are connected to a front end and a rear end of the body unit 2, respectively.
  • the body unit 2 has a central processing unit (CPU) 10, a dynamic random access memory (DRAM) 11 and a flash ROM.
  • CPU central processing unit
  • DRAM dynamic random access memory
  • flash ROM flash ROM
  • the body unit 2 also houses an angular velocity sensor 18 and an acceleration sensor 19 for detecting the acceleration of the direction and movement of the robot device 1.
  • the head unit 4 also has a CCD (Charge Coupled Device) camera 20 for capturing an image of the external situation, and the pressure received by the user from physical actions such as stroking and tapping.
  • Touch sensor 21 to detect and position in front
  • a distance sensor 22 for measuring the distance to an object to be heard, a microphone 23 for collecting external sounds, a speaker 24 for outputting sounds such as squeals, and a robot device 1 LEDs (Light Emitting Diodes) (not shown) corresponding to eyes are arranged at predetermined positions.
  • CCD Charge Coupled Device
  • the actuators 25 i to 25 n and the potentiometers 26 1 to 26 for the degrees of freedom are provided at the connection part of the tail 5 A of the tail unit 5 and the tail unit 5.
  • Akuchiyue Ichita 2 5 L ⁇ 2 5 has a structure of a servo motor.
  • the drive of the servo motor is controlled leg units 3 A to 3 D, the goal position or operation Transition.
  • the signal processing circuit 14 sequentially captures the sensor data, image data, and audio data supplied from each of the above-described sensors, and sequentially stores them at predetermined positions in the DRAM 11 via the internal bus 15. . Further, the signal processing circuit 14 sequentially takes in remaining battery power data indicating the remaining battery power supplied from the battery 17 and stores the data in a predetermined position in the DRAM 11.
  • the sensor data, image data, audio data, and remaining battery data stored in the DRAM 11 in this manner are used when the CPU 10 performs the work control of the robot device 1 thereafter. .
  • the CPU 10 is stored in the memory card 28 or the flash ROM 12 inserted in the PC card slot (not shown) of the body unit 2 when the power of the robot apparatus 1 is turned on.
  • the control program is read out directly or directly via the PC card interface circuit 13 and stored in the DRAM 11. Further, the CPU 10 then determines itself and its own based on the sensor data, image data, audio data, and remaining battery level data sequentially stored in the DRAM 11 from the signal processing circuit 14 as described above. Judgment of the surrounding conditions, instructions from the user and the presence or absence of any action.
  • the CPU 10 determines the subsequent action based on the determination result and the control program stored in the DRAM 11, and drives the necessary actuator 25t to 25 administratbased on the determination result.
  • the head unit 4 can be swung up and down, left and right, the tail unit 5A of the tail unit 5 can be moved, and the leg units 3A to 3D can be driven to walk. .
  • the CPU 10 generates audio data as necessary, and supplies the generated audio data to the speaker 24 as an audio signal via the signal processing circuit 14, thereby outputting the audio based on the audio signal to the outside. Output, or turn on, off or blink the above LED.
  • the robot device 1 is capable of acting autonomously in accordance with its own and surrounding conditions, and instructions and actions from the user.
  • the device / driver / layer 30 is located at the lowest layer of the control program, and is composed of a device / driver / set 31 comprising a plurality of devices and drivers.
  • each device driver is an object that is allowed to directly access hardware used in a normal computer, such as a CCD camera 20 (FIG. 4) and a timer, and an interrupt from the corresponding hardware is performed. Then, the processing is performed.
  • robotic server. Object 3 2 is located in the lowermost layer of the device 'driver' Les I catcher 3 0, for example, to access the above-described various sensors Ya Akuchiyueta 2 5-2 5 hardware n such Virtual 'Robot 33', which is a group of software that provides an interface for power management, Power Manager 34, which is a group of software that manages power supply switching, and software that manages various other devices' drivers Groups of devicesDryokuManager 35 and robots It consists of a design 'robot 36 which is a software group for managing the mechanism of the device 1.
  • the manager object 37 includes an object manager 38 and a service manager 39.
  • the object manager 38 is a software that manages the startup and termination of each software group included in the mouth server server object 32, middleware layer 40, and application layer 41. I'm tired and the service manager 39 manages the connection of each object based on the connection information between the objects described in the connection file stored in the memory card 28 (Fig. 4). Group.
  • the middle ware layer 40 is located on the upper layer of the mouth object server object 32 and is composed of a group of software that provides basic functions of the robot device 1 such as image processing and audio processing. ing. Also, the application 'layer 41 is located in a layer above the middle' ware 'layer 40, and is based on a processing result processed by each software group constituting the middle' ware-layer 40 '.
  • the robot device 1 is composed of a software group for determining the behavior of the robot device 1.
  • FIG. 6 shows specific software configurations of the middleware “layer 40” and the application “layer 41”.
  • Middle layer 40 is for noise detection, temperature detection, brightness detection, scale recognition, distance detection, attitude detection, touch sensor, and motion detection, as shown in Figure 6.
  • a recognition system 60 having signal processing modules 50 to 58 for color recognition and an input semantics converter module 59, and an output semantics converter module 68 and attitude management, tracking, motion playback, It comprises an output system 69 having signal processing modules 61 to 67 for walking, falling and returning, turning on an LED, and reproducing sound.
  • the signal processing modules 50 to 58 of the recognition system 60 are connected to the sensor data and the sensor data read from the DRAM 11 (Fig. 4) by the virtual robot 3 of the mouth robotic server object 32.
  • the corresponding data of the image data and the audio data is fetched, predetermined processing is performed based on the data, and the processing result is given to the input semantics converter module 59.
  • birch The bot 33 is configured as a part that exchanges or converts a signal according to a predetermined communication protocol.
  • the input semantics converter module 59 detects “noisy”, “hot”, “bright”, “ball detected”, and “fall” based on the processing results given from these signal processing modules 50 to 58.
  • the application layer 41 is composed of five modules, namely, behavior model library 70, behavior switching module 71, learning module 72, emotion model 73, and instinct model 74. .
  • the behavior model library 70 includes “when the battery level is low”, “returns to fall”, “when avoiding obstacles”, “when expressing emotions”, “ Independent action models 70 i to 70 ⁇ ⁇ ⁇ ⁇ are provided corresponding to several preselected condition items such as “when a ball is detected”.
  • behavior models 70 to 70 are necessary when the recognition result is given from the input semantics converter module 59 or when a certain time has elapsed since the last recognition result was given. Then, the following actions are determined by referring to the corresponding emotion parameter values held in the emotion model 73 and the corresponding desire parameter values held in the instinct model 74, as described later. The decision result is output to the action switching module 71.
  • each of the behavior models 70 to 70 n has a single node (state) NODE as shown in FIG. 9 as a method for determining the next behavior.
  • ⁇ NOD E each node or transition to n NO DE.
  • each of the behavior models 70 i to 70 n corresponds to its own behavior model 70 i to 7 Node 1 ⁇ 00 £ forming 0 n .
  • These node NODEs correspond to ⁇ 00 £ romance, respectively, and each NODE n has a state transition table 80 as shown in Fig. 10.
  • this state transition table 80 the node NODE.
  • Input event (recognition result) as a transition condition in NOD E
  • FriPower S Listed in order of priority in the column of“ input event name ”, and further conditions for the transition condition in the column of“ data name ”and“ data range ” It is described in the corresponding line.
  • the node NO D E! Represented by the state transition table 80 in FIG. . .
  • the “SIZE” of the ball given together with the recognition result is in the range of “0 to 1000”.
  • the “Distance (DIS TAN CE)” to the obstacle given with the recognition result is “0 to 100”. Is the condition for transitioning to another node.
  • this node NOD E i. .
  • the behavior model 7 (the emotion model 73 periodically referenced by ⁇ ⁇ ⁇ 0 cough) and the parameter values of each emotion and Among them, the parameter value of “JOY”, “SUR PRISE” or “SUDNE SS” held in emotion model 73 is in the range of “50 to 100” Sometimes it is possible to transition to another node.
  • the state transition table 8 0, with the node name that can transition from the node NOD E. ⁇ NOD E n in the line of "transition destination node J in the column of” probability of transition to another node "is written column , Other nodes that can transition when all the conditions described in the columns of “Input event name”, “Data value” and “Data range” are met.
  • the transition probabilities from NODE n to NO DE n are described in the corresponding places in the column “Transition probabilities to other nodes”, and the node NODE.
  • the action to be output when transitioning to NODE n is described in the row of “output action” in the column of “Probability of transition to another node”. Note that the sum of the probabilities of each row in the column “Transition probabilities to other nodes” is 100 [%].
  • the node NODE represented by the state transition table 80 in FIG. . So, for example If “ball is detected (BAL L)" and “SIZE (size)" of the ball
  • Each of the behavior models 70 to 70 n is a node N ⁇ DE described as such a state transition table 80.
  • ⁇ NOD E vigorously connected to each other.
  • the behavior switching module 71 shown in FIG. 7 includes a behavior model 70 i having a predetermined high priority order among behaviors output from the behavior models 70 t to 70 ⁇ of the behavior model library 70.
  • the action output from ⁇ 70 is selected, and a command indicating that the action should be executed (hereinafter referred to as an action command) is output to the middle 'wear' layer 40 output semantics converter module.
  • the action model is sent to 68.
  • the action switching module 71 also notifies the learning module 72, the emotion model 73, and the instinct model 74 that the action has been completed based on the action completion information given from the output semantics converter module 68 after the action is completed. Notice.
  • the learning module 72 inputs, from among the recognition results given from the input semantics converter module 59, the recognition result of the instruction received from the user, such as “hitted” or “stroked”. I do.
  • the learning module 72 lowers the probability of occurrence of the action when “beaten (scolded)” and “strokes ( praised obtained) "sometimes to increase the expression probability of that action, changes the corresponding transition probability of the corresponding behavior model 7 ( ⁇ ⁇ ⁇ 0 n in the behavioral model library 70.
  • the emotion model 7 3 includes “joy”, “sadness”, and “anger”. (anger), "surprise” J, “di sgust” and “fear” For a total of six emotions, each emotion has a parameter that represents the intensity of that emotion. ing. Then, the emotion model 73 converts the parameter values of each of these emotions into a specific recognition result such as “hit” and “stroke” given from the input semantic converter module 59, and the elapsed time and Action switching module 71 Updates periodically based on notifications from 1 and so on.
  • the emotion model 73 is configured to perform a predetermined calculation based on the recognition result given from the input semantics converter module 59, the behavior of the robot device 1 at that time, the elapsed time since the last update, and the like. ⁇ the variation of its emotion at that time calculated by the equation ⁇ [t], E [t ] of the current parameter value of the emotion, the coefficient representing the sensitivity of the information moving as k e, the following expression 2 ,
  • E [/ + l] E [/] + X ⁇ E [ ⁇ ] calculates the parameter value ⁇ ⁇ [t + 1] of the emotion in the next cycle, and substitutes it with the current parameter value of the emotion E [t ] And update the parameter value for that emotion.
  • the emotion model 73 updates the parameter values of all emotions in the same manner.
  • each recognition result and the notification from the output semantics converter module 68 affect the variation ⁇ ⁇ [t] of the parameter value of each emotion is determined in advance. Recognition results such as “angry” have a large effect on the variation ⁇ ⁇ ⁇ [t] of the emotion parameter value, while recognition results such as “stroke” affect the variation value of the emotion parameter “joy” ⁇ ⁇ [ t].
  • the notification from the output semantics converter module ⁇ ⁇ 68 is so-called feedback information (action completion information) of the action, information of the appearance result of the action, and the emotion model 73 is such information. Also change emotions. This is the case, for example, when an action like “barking” lowers the emotional level of anger.
  • the output semantics converter module 68 The notification is also input to the learning module 72 described above, and the learning module 72 changes the corresponding transition probabilities of the behavior models 70 to 70 n based on the notification.
  • the feedback of the action result may be made by the output of the action switching module 71 (the action to which the emotion is added).
  • the instinct model 74 is independent of “exercise”, “affection”, “appetite” J and “curios ity”. For each of the four desires, a parameter indicating the strength of the desire is stored for each of the desires. The instinct model 74 calculates the parameter values of these needs based on the recognition result given from the input semantics converter module 59, the elapsed time, the notification from the action switching module 71, and the like. Update.
  • the instinct model 74 determines predetermined values for “exercise desire”, “affection desire”, and “curiosity” based on recognition results, elapsed time, and notifications from the output semantics converter module 68.
  • ⁇ ⁇ [k] the current parameter value of the desire I [k]
  • the coefficient ki representing the sensitivity of the desire, calculated as Equation 3,
  • the degree to which the recognition result and the notification from the output semantics converter module 68 affect the amount of variation [I [k] of the parameter value of each desire is determined in advance.
  • the output semantics converter module 6 The notification from 8 has a large effect on the variation ⁇ ⁇ I [k] of the parameter value of “fatigue”.
  • the parameter values of each emotion and each desire are regulated so as to fluctuate in the range of 0 to 100, respectively.
  • the value of k is also set individually for each emotion and each desire.
  • the middle 'wear' layer 40 output semantics converter module 68 is provided by the application 'layer 4 1 behavior switching module 71 1 , "Rejoice,” “scream” or
  • An abstract action command such as "tracking (following the ball) j" is given to the corresponding signal processing modules 61 to 67 of the output system 69.
  • these signal processing modules 61 to 67 execute a servo command value to be given to the corresponding actuator 2 SLS S- (FIG. 4) to perform the action, It generates audio data of the sound output from the speaker 24 (Fig. 4) and / or drive data to be applied to the LED of the "eye", and uses these data in the robotic server object 32 virtual robot. 3 3 and sequentially transmits the signal processing circuit 1 4 sequentially through the (FIG. 4) to the corresponding Akuchiyueta 2 5 • L ⁇ 2 5 n or the speaker 2 4 or LED.
  • the robot apparatus 1 can perform autonomous actions according to its own (internal) and surrounding (external) conditions, and instructions and actions from the user, based on the control program. Has been made.
  • the robot device 1 in the present embodiment estimates the emotion of the user based on the image signal and / or the audio signal obtained for the user, and changes the action according to the estimation result.
  • the robot device 1 has an input unit 101 and an internal state.
  • Model 102 user voice recognition unit 103, user image recognition unit 104, short term memory (STM) 105, emotion estimation unit 106, long term storage (LTM: Long Term Memory) 107 and an action selection unit 108.
  • STM short term memory
  • LTM Long Term Memory
  • the input unit 101 receives, for example, image signals from the CCD camera 20 shown in FIG. 4, audio signals (acoustic signals) from the microphone phone 23, and various sensors such as the touch sensor 21. Enter sensor information.
  • the internal state model 102 corresponds to the emotion model 73 and the instinct model 74 shown in FIG. 7 and includes “joy”, “sadness”, “anger”, and “surprise”. surpri se), “disgust” and “fear”, and emotion parameters, "exercise”, “affection”, “appetite” appet ite) ”and“ curiosity ”are supplied to the greed novometer and the emotion estimator 106.
  • the user voice recognition unit 103 receives the voice data based on the voice strength and the fundamental frequency (pitch) as described later.
  • the emotion is detected, and the type of the detected emotion and its likelihood are supplied to the short-term storage unit 105.
  • the user image recognizing unit 104 extracts a face region from the image as described later, and extracts the emotion of the user from the expression of the extracted face image.
  • Short-term storage unit that detects the type of emotion and its likelihood 1
  • the short-term memory unit 105 is a unit that controls short-term memory of the robot device 1, and includes the types of emotions supplied from the user voice recognition units 103 and Z or the user image recognition unit 104 and their likelihoods. Is temporarily stored and supplied to the emotion estimation unit 106.
  • the type of emotion and the likelihood thereof are not always supplied from both the user voice recognition unit 103 and the user image recognition unit 104.
  • the emotion estimation unit 106 is detected by the user speech recognition unit 103 and / or the user image recognition unit 104, and based on the type of emotion supplied from the short-term storage unit 105 and the likelihood thereof. The current state of the user in the emotional manifold described above e. And supplies this data to the action selection unit 108. Further, the emotion estimation unit 106 obtains the current state of the robot apparatus 1 in the above-mentioned emotion manifold based on the emotion parameters and instinct parameters of the robot apparatus 1 supplied from the internal state model 102. The data is supplied to the action selector 108.
  • Long-term memory unit 1 0 7 is a part responsible for long-term storage of the robot apparatus 1, learned in advance a plurality of data triples ⁇ ei, a, e f> is stored as a learning sample 1 described above.
  • the action selection unit 108 corresponds to the action model library 70 and the action switching module 71 shown in FIG.
  • the action selection unit 108 determines the current state e of the user supplied from the emotion estimation unit 106.
  • the current state of the robot device 1 supplied from the emotion estimating unit 106 is used as the target state et. You will be able to switch your behavior so that your emotional state leads to an emotional state that approximates your current emotion.
  • the robot apparatus 1 is capable of detecting the user's voice tone and the user's facial expression.
  • the user's emotions can be estimated, and the behavior can be changed in accordance with the estimation result so as to guide the user's emotional state to an emotional state similar to his / her current emotion.
  • the user voice recognition unit 103 outputs “joy (jov / pleasurej)”, “sorrow / sadness” based on the strength of the voice uttered by the user and the fundamental frequency (pitch). / grief) ",” angry “and” calm / neutral ".
  • the types of emotions to be detected are not limited to these four types.
  • the algorithm for classifying the input speech into each emotion is, for example, a report by Pierre-yves Oudeyer (2001) Algorithm and Features, Proceedings of the Humanoids Conference.
  • the Naive Bayes classi fi cation algorithm is used as an example.
  • the user speech recognition unit 103 includes a speech input unit 111, a feature extraction unit 112, an emotion detection unit 113, and a classification unit (class ifi er) 114, an emotional speech database 115, and a result output unit 116.
  • the classifier 1 1 4 is composed of a joy classifier 1 1 4 corresponding to each of the four emotions described above, a sad classifier 1 1 4 2 , an anger classifier 1 1 4 3, and a calm classifier. It has 1 1 4 .
  • the audio input unit 111 inputs a digital audio signal obtained by subjecting a user's voice to AZD conversion among audio signals (acoustic signals) from the microphone 23 shown in FIG.
  • the audio input unit 111 supplies the digital audio signal to the feature extraction unit 112.
  • the characteristic amount extraction unit 112 extracts the voice intensity (intensity) and the voice pitch (pitch) as features from the digital audio signal supplied from the audio input unit 111.
  • the strength of the voice is given as the power of the signal
  • the pitch of the voice is given as the fundamental frequency of the signal.
  • Various methods have been proposed for obtaining the fundamental frequency. For example, there are a method using an autocorrelation function of a voice waveform and a method using a spectrum.
  • the sentiment detector 1 13 uses the naive 'Bayes' class classification algorithm to classify each classifier 1 in the classifier 1 1 4.
  • naive 'Bayes' class classification algorithm uses 1 Ail 1 4 4 to classify each classifier 1 in the classifier 1 1.
  • the above-mentioned “joy (pleasure / pleasure)”, “I sadness (sorrow / sadness / grief)”, “o-ai (angry)” and “taira (calm / neutral)” Classify as either.
  • the likelihood of the 18-dimensional vector corresponding to each emotion is calculated. Is done.
  • This probability density function can be estimated using the emotional speech database 115 in which a large number of speech data corresponding to each emotion is stored. For example, if there is 100,000 utterances of voice data corresponding to a certain emotion, the feature amount (the above-described 18-dimensional vector) of each voice data is extracted, and each dimension of the feature amount vector is extracted. To By calculating the mean ⁇ and the variance ⁇ from the corresponding data, the following equation 6,
  • Equation 6 ⁇ i- exp ⁇ -_ ⁇ Ji3 ⁇ 4
  • Emotion detecting unit 1 1 3, with the 1 8-dimensional base-vector supplied from the feature extractor 1 1 2, joy classifier (classifier) 1 1 4 sadness classifier 1 1 4 2, anger classifier 1 1
  • the likelihood of each emotion is obtained from the probability density function in 4 3 and the calm classifier 1 1 4 4 .
  • the emotion detection unit 113 compares the likelihoods, and supplies the type of emotion having the highest likelihood and the likelihood to the result output unit 116 as a detection result.
  • the result output unit 116 outputs the emotion type and the likelihood supplied from the emotion detection unit 113 to the short-term storage unit 105 shown in FIG. 11 described above.
  • the user image recognizing unit 104 may generate, for example, “joy”, “sadness”, “anger”, “surprise”, and “disgust” based on the facial expression of the user.
  • disgust "and” fear "are detected.
  • types of emotions to be detected are not limited to these six emotions, and if they are not any of these six emotions, they are detected as “calm / neutral”.
  • FACS Facial Action Coding System
  • This FACS is called an action unit (AU: Action Unit), (a) anatomically independent (facial muscles), (b) visually distinguishable,
  • the user image recognition unit 104 in the present embodiment uses FACS coding, which is a data conversion operation in which an image signal is input and the intensity of each AU is output, and Detects the six emotions described above characterized by AU.
  • the user image recognition unit 104 includes an image input unit 121, a face detection unit 122, an alignment unit 123, and a difference image generation unit 124. , A face image database 125, a data conversion unit 126, an HMM (Hidden Markov Model) unit 127, and a result output unit 128.
  • HMM Hidden Markov Model
  • the image input unit 122 receives the rain image signal from the CCD camera 20 shown in FIG. 4, and supplies this image signal to the face detection unit 122.
  • the face detection unit 122 converts a frame image based on the image signal supplied from the image input unit 122 into a plurality of scale images having different reduction ratios. For example, the face detection unit 122 sequentially reduces the frame image by 0.8 times in five steps (1.0 times, 0.8 times, 0.64 times, 0.51 times, 0.4 times). 1x) scale image. Then, the face detection unit 122 scans each scale image from the upper left of the image as a starting point to the lower right in order while shifting an appropriate pixel to the right or to the lower side. 0 X 20) Cut out a rectangular area of pixels and match it with the template image to determine whether it is a face image.
  • the face detection unit 12 Face and non-face discrimination by a support vector machine (SVM).
  • SVM support vector machine
  • SVM SVM
  • V. . Vapnic V. . Vapnic (1999) The Nature of Stat istical Learnin g Theory Second Edition, Springer.
  • the above-mentioned SVM is a learning machine that uses a linear discriminator (perceptron) as the discriminant function, and can be extended to a non-linear interval by using a kernel function.
  • the learning of the discriminant function is performed so as to maximize the margin of separation between classes, and the solution is obtained by solving the second-order mathematical programming, so that it is theoretically guaranteed that a global solution can be reached.
  • the details of this processing are as follows.
  • the face detection unit 122 determines whether or not face data exists in the score image as described above, and, if so, uses the score image as a face image and sends it to the alignment unit 123. Supply.
  • the alignment unit 123 performs an alignment process on the face image supplied from the face detection unit 122.
  • the position of the face needs to be determined systematically. Because of the differences, these positions also need to be normalized. Therefore, the alignment section 123 extracts the feature points such as the outer corner of the eyes, the nasal cavity, and the lip end from the obtained face image, identifies the positions of the eyes and the nose, and detects the detected eyes and the nose. Alignment processing is performed by performing rotation / expansion (morphing processing) by affine transformation so that it is at the specified position.
  • the alignment unit 123 supplies the face image after the alignment to the difference image generation unit 124.
  • the difference image generation unit 124 outputs the alignment image supplied from the alignment unit 123.
  • the difference between the face image after the printout and the expressionless (neutral) face image after the alignment stored in the face image database 125 is calculated, and a difference image is generated.
  • the difference image generation unit 124 supplies the generated difference image to the data conversion unit 126.
  • the data converter 126 converts the score image of 360 pixels into a feature vector using a Gabor filter, and further converts the obtained vector group into one feature vector. I do.
  • human S-sensory cells include cells that have selectivity for a specific direction. It consists of cells that respond to vertical lines and cells that respond to horizontal lines.
  • the Gabor filter described above is a spatial filter composed of a plurality of filters having direction selectivity.
  • the data conversion unit 126 performs vector quantization of the feature vector obtained by the Gabor filtering, and supplies the feature vector after the vector quantization to the HMM unit 127. . .
  • the HMM unit 127 uses the Hidden Markov Model to describe the “joy” and “sadness” of the feature vector after the vector quantization supplied from the data conversion unit 126 using the hidden Markov model. ) ",” Anger “,” surprise “,” disgust “and” fear “.
  • the HMM unit 127 is previously trained with a face image representing each emotion, and calculates the likelihood of each emotion for the supplied feature vector.
  • the correspondence between each emotion and AU includes, for example, the following.
  • the HMM unit 127 compares the obtained likelihood of each emotion, and supplies the type of the emotion with the highest likelihood and the likelihood to the result output unit 128 as a detection result.
  • the result output unit 128 outputs the emotion type and the likelihood supplied from the HMM unit 127 to the short-term storage unit 105 shown in FIG. 11 described above.
  • the input of the HMM unit 127 is described as using the vector obtained by Gabor filtering and quantized in the vector, but the present invention is not limited to this.
  • a report by James J. Lien et al. Japanese J. Shilen et al. (James J. Shilen et al. (1998) Automated Facial Expression Recognition Based on FACS Action Units, Proceedings of FG '98, April 14-16) As you can see, the tracking result of feature points and the motion vector (optical flow) of each part of the face may be used.
  • the robotic device 1 includes “joy”, “sadnes s”, “anger”, “surprise”, “disgust” and
  • fear j each of which is a multidimensional topological space, such as, for example, as shown in Fig. 15, pleasantness, activation, and The spatial domain in three-dimensional topological space with three axes of certainty is associated with this.
  • “pleasure” is a measure of how much the instinct of the robot device 1 is satisfied, and “arousal” is determined by the biorhythm of the living thing, a degree of awake or sleeping, and “confidence”.
  • the “degree” is a parameter that indicates the degree to which the robot apparatus 1 can reliably recognize what the robot apparatus 1 is paying attention to.
  • the emotion estimating unit 106 shown in FIG. 11 is detected by the user voice recognizing unit 103 and the NO or user image recognizing unit 104, and the type of the emotion supplied from the short-term storage unit 105 and its type. Based on the likelihood, the current emotion of the user is first mapped to a point in the phase space. Specifically, for example, if the detected emotion is “joy” and the likelihood is 0.8, the emotion estimating unit 106 determines the phase space as shown in FIG. A vector j toward the center of the spatial domain corresponding to the emotion of joy detected from the original point The likelihood is multiplied by 0.8, and the coordinates J (p, a, c) indicated by the obtained vector are provisionally set as coordinates indicating the current emotion of the user.
  • the emotion estimation unit 106 calculates the average of the two. It can be mapped into the phase space using likelihood. If the emotion detected by the user voice recognition unit 103 is different from the emotion detected by the user image recognition unit 104, the emotion estimation unit 106 determines, for example, only one of the predetermined emotions. Can be used to map in the phase space.
  • the emotion estimation unit 106 projects the coordinates in the phase space representing the current emotion of the user on a phase plane having, for example, “pleasure” and “arousal” as two axes. Coordinate the current state of the user e. Set as Similarly, the emotion estimating unit 106 projects a point on the phase space representing the current state (emotion) of the robot device 1 onto a phase plane having two axes of “pleasure” and “arousal”. and sets the thus obtained coordinates as the user of the goal state e t.
  • the action selection unit 108 is a user's current state e supplied from the emotion estimation unit 106.
  • the action * the user as an ideal target behavior, such as derived from this initial state ei to target state e t. That is, as shown in Fig. 17, the initial state ei given as coordinates on the phase plane having two axes of "pleasure” and "arousal” is given as other coordinates on the phase plane by action *.
  • Ru is converted to be the target state e t.
  • the robot apparatus 1 switches its own behavior so as to guide the user's emotional state to an emotional state similar to the current emotion.
  • step S20 the robot apparatus 1 starts executing the behavior control.
  • step S 2 2 Following the current emotion of the robot ToSo ⁇ 1 is set as base-out target state e t for guiding the user.
  • a and] 3 in the above equation are predetermined constants.
  • the other learning sample 1 ⁇ e , a ', e> that is closest in step S25 is read from the long-term storage unit 107.
  • step S27 the derived target action t is executed.
  • step S 2 8 the final state e f of the user as a result of the target behavior t you run is detected, in step S 2 9 followed, data Toripuruku et, e f> is temporarily stored.
  • step S 3 the learning sample 1 is modified, or a new data triples ⁇ et, e f> is stored in long-term memory unit 1 0 7.
  • the data triple ⁇ e *, e t> a data triple ⁇ et, e ⁇ > and the distance Dis between the data triple- ⁇ ei, *, e t> a data triple ⁇ e, a, e t ' > and Distance of Dist 2 is compared If the distance Dis is smaller than the distance Dist 2 , the following equations 8 and 8
  • steps after step S21 are repeated until the execution is ended by the external control device or the user.
  • the robot apparatus 1 employs the control method and system of the man-machine interface unit described above to reduce the tone of the voice of the user and the facial expression of the user.
  • the user's emotion can be estimated, and the behavior can be changed according to the estimation result so as to guide the user's emotional state to an emotional state similar to the current emotion of the user.
  • the present invention is not limited to only the above-described embodiment, and it is needless to say that various changes can be made without changing the gist of the present invention.
  • a target emotion et for guiding the user to the current emotion of the robot apparatus 1 is not limited to this, setting the desired emotional state as the target state e t It is possible to
  • the state of the user or the robot apparatus 1 is expressed as one point on the phase plane, but the present invention is not limited to this.
  • the state on the phase space as shown in FIG. It may be expressed as one point.
  • Industrial applicability According to the man-machine interface unit control method and system according to the present invention as described above, the initial state (emotion) before executing a certain action, and the final state (emotion) after executing the action (emotion). By collecting in advance data triples that show emotions and executed actions as learning samples, it is possible to set actions that guide the user from any current state to the desired target state.
  • control method and system of the man-machine interface unit are, for example, an autonomous robot device having at least an emotion model and capable of changing an action expressed according to the emotion.
  • the robot device can change the behavior so as to guide the user's emotional state to an emotional state similar to the current emotion of the user, for example, according to the estimation result of the user's emotion, Enhancement of entertainment is improved.

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Combustion & Propulsion (AREA)
  • Automation & Control Theory (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Transportation (AREA)
  • General Physics & Mathematics (AREA)
  • Mechanical Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)
  • User Interface Of Digital Computer (AREA)

Description

明細書 マン . マシン . ィンターフェースュニッ トの制御方法、 並びにロボッ ト装置及び その行動制御方法 技術分野 本発明は、 マン ' マシン ' インターフェースユニッ トの制御方法、 並びにロボ ット装置及びその行動制御方法に関し、 特に動作及び/又はエンターテイメント 能力を学習するステップを有するマン 'マシン 'インターフェースュニットの制 御方法、 並びにそのようなマン ' マシン ' インターフェースュニッ トの制御方法 が適用されるロボット装置及びその行動制御方法に関する。 景技術 今日では、 装置或いは機器を容易且つ信頼性よく使用可能とし、 ユーザの便宜 を図るため、 多くの装置或いは機器にマン ' マシン 'ィンターフェース技術やマ ン · マシン対話システムが採用されている。
従来、 このような装置或いは機器に組み込まれたマン ·マシン ·ィンターフェ ースュニットを制御するシステムにおいては、 ユーザの行動或いは期待に対して 最適な動作を生成するために、 共通の知識及び Z又はユーザ研究から得られた所 定のルールが使用されていた。
しかしながら、 これらの所定のルールは、 固定化されたものであり、 マン 'マ シン ·ィンターフェースュニットを制御する上述のシステムにおける動作可能性 は、 一般ルール及び/又はユーザ独立ルールと動作とを組み合わせるに留まって いた。 これは、 多くの場合、 すなわち殆どのユーザにとって、 平均的には最善の 解決法であるが、 最適な解決法とはいえなかった。 発明の開示 本発明は、 上述の実情に鑑みて提案されるものであって、 柔軟且つ信頼性よく . ユーザの動作、 期待、 或いは質問に対応することを可能とするマン ' マシン 'ィ ンターフェースュニッ トの制御方法を提供することを目的とする。
この目的は、 請求の範囲第 1項に記載するマン · マシン · ィンターフェースュ ュッ トの制御方法によって達成される。 マン ' マシン ' インターフェースュニッ トの制御方法についての好ましい実施例は、 従属項の範囲内にある。 また、 この 目的は、 請求の範囲第 1 9項に記載するマン · マシン · ィンターフェースュニッ トの制御システム、 及び請求の範囲第 2 0項に記載するコンピュータプログラム 製品によって達成される。
マン · マシン ·ィンタフェースュニットを制御する本発明の方法においては、 少なくとも 1人のユーザに関して、 ある行動を実行する前の初期状態とその行動 を実行した後の最終状態とが検出される。 また、 初期状態、 最終状態及び実行し た行動を示すデータトリプルが学習サンプルとして収集される。 この学習サンプ ルは、 実行すべき目標行動を少なく とも導出及び/又は初期設定し、 ユーザを任 意の現在状態から所望の目標状態へと導くために使用される。
したがって、 本発明の基本概念は、 少なくとも 1人のユーザについて実行され る行動に関して、 特にマン ·マシン ·ィンタフエースュニット自体或いはそれに 結合された実行ュニットによって、 ある行動を実行する前のユーザの初期状態及 びその行動を実行した後の最終状態、 又はユーザの初期状態及び/又は最終状態 に対応し、 若しくは表示するデータを導出することにある。 そして、 初期状態、 最終状態、 及び初期状態と最終状態との間に実行された行動を表すデータトリプ ルとして学習サンプルが生成される。 さらに、 この学習サンプルは収集されて、 実行すべき目標行動を少なくとも導出及び/又は初期設定するために使用される。 ユーザは、 この目標行動によつて任意の現在状態から任意の所望の目標状態へと 導かれる。
従来におけるマン ' マシン · ィンタフェースュニッ トの制御方法とは対照的に、 本発明の方法には特に柔軟性があるが、 それはこの方法が、 結果的にユーザ独立 となっている固定化された所定のルールに依存していないためである。 本発明の 方法では、 起こっている状況及びユーザとマン · マシン ·ィンタフェースュ-ッ トとの間のインタラクションから選択的 (alt ernat ivel y) 又は追加的 (addi t i o nal ly) にデータを獲得する。 つまり、 実行された行動前後のユーザの状態を測定 し、 対応するデータを得る。 したがって、 実行された行動により、 行動前のユー ザの初期状態と行動後のユーザの最終状態とが対応付けられる。
何れの場合にも異なる状態を表示するためには、 現在状態データ若しくは初期 状態データを受取り、 及び Z又は生成することが好ましい。 これらの現在状態デ ータ又は初期状態データは、 ユーザの現在状態及び Z又は初期状態にそれぞれ対 応し、 及び 又はそれらの状態を示している。
さらに、 何れの場合も、 最終状態データ又は目標状態データが受取られ、 及び ノ又は生成される。 これらの最終状態データ又は目標状態データは、 ユーザの最 終状態及び目標状態にそれぞれ対応し、 及び/又はそれらの状態を示している。 それに加えて、 行動データ及ぴ目標行動データを受取り、 及び 又は生成する こともできる。 これらの行動データ及び目標行動データは、 実行した行動及び本 発明の方法の他の好ましい実施例により導出された目標行動に対応し、 及びノ又 はそれらの行動を示している。
本発明の好ましい、 効果的な実施例によれば、 異なる状態を自然且つ標準的に 記述し、 表示することができる。 この実施例では、 現在状態、 初期状態、 最終状 態及び/又は目標状態、 そして特にそれらの表示データ及び/又は対応データを、 何れの場合にも、 埋込み位相多様体 (embedding topologi cal mani fol d) によつ て、 特に 2次元の埋込み位相多様体によって表示し、 及び/又はその埋込み位相 多様体の形でモデル化する。
選択的又は追加的に、 実行した行動、 目標行動、 及びノ又はそれらの対応デー タ及び/又は表示データは、 何れの場合にも、 埋込み位相多様体により表示し、 及び/又はその埋込み位相多様体の形でモデル化することができる。
もちろん、 この埋め込み位相多様体は、 ユーザ毎に別個の多様体として形成し、 導出し、 及び/又は使用することもできる。 選択的又は追加的に、 複数のユーザ を等価なユーザからなるいくつかのクラスに分割し、 このクラスの各々について 別個の多様体を形成し、 導出し、 及び/又は使用することもできる。 また、 選択 的に、 全てのユーザ用に共通又は全体的な多様体を導出し、 及び/又は使用する こともできる。 なお、 これは追加的に実施することもできる。
ここで、 異なる状態を記述するためにユーザのいくつかの特性を用いることが できるが、 本発明のもう 1つの効果的な実施例によれば、 上述したユーザの現在 状態、 初期状態、 最終状態、 そして目標状態として、 感情状態を使用することが 好ましい。
実行した又は実行すべき各行動は、 ユーザの少なくとも 1つの初期状態を少な く とも 1つの最終状態又は目標状態と対応付けるものとして捉えることができる。 したがって、 ある意味においては、 初期状態及び特定の行動の数対が 1つの最終 状態と対応付けられる。 また、 全ての状態及び行動を位相多様体として理解する こともできるため、 全ての学習サンプルに基づき、 トランスモーションマツピン グ Tと呼ばれるマツビングを各ユーザ別に定義することもできる。 このトランス モーショ ンマッピング Tは、 以下の式 1、
式 1.
T ; E ® A→ E
< ei . α > ζ E (g) A → ef : = Ύ ( ei , ) = Ί ( ei ) ζ E により示すことができる。 ここで、 Eは感情多様体を意味し、 ユーザ状態又はそ の状態データについての位相多様体の 1つである。 また、 Aは行動多様体を意味 し、 行動又は行動データについての位相多様体の 1つであり、 e i, e f, aは多 様体 E及び Aの各要素をそれぞれ意味する。
直積演算 E X A又はテンソル演算 E ® A の各対 < e , a〉には、 感情多様体 E の別の要素 T ( e , a ) が割当てられている。 したがって、 トランスモーション マツビング T及び行動多様体 Aにより、 Eから Eへのマツビング T aの一群が定 義される。
もちろん、 トランスモーションマッビング Tは一般的にはユーザ依存であるが、 ユーザ独立及び/又は一般的な部分或いはコンポーネントを含めることもできる。 ユーザを現在状態から所望の最終状態へと導くために特定の目標行動を選択す る方法は多種多様である。 本発明の好ましい実施例によれば、 任意のユーザの任 意の初期状態及び/又は目標状態について、 任意の現在状態、 最終状態及び実行 済みの行動を含む既にサンプリングされた学習サンプルから、 初期状態及び現在 状態及び/又は最終状態及び目標状態及び/又はそれらのデータが近隣の位相に ある行動が、 目標行動として選択される。
この措置が特に効果的であるのは、 上述した状態の少なくとも 1つ及び 又は 行動が正確に適合しない場合である。 この近傍 (v i cini ty) 又は近隣 (ne i ghbou rhood) 位相の概念に基づいて、 隣接サンプルを任意の学習サンプルに関して等価 のサンプルとして使用することができる。
この近傍及び/又は近隣を導出及び/又は記述するために、 状態及び Z又は行 動の距離測定、 計量 (metric) 、 連続性、 方向、 べク トル特性等を相互に使用す ることが特に効果的である。
任意のユーザの所望の初期状態若しくは現在状態と最終状態若しくは目標状態 とを相互に変換すること、 又は別の状態と直接対応付けることができない場合も あり得る。 したがって、 本発明の好ましい実施例によれば、 任意のユーザを目標 状態へと導き、 ユーザの所望の最終状態に最も適合するようにするために、 実行 すべき一連の行動を目標行動として実行すべきものとして、 導出又は初期設定す ることが効果的である。 その結果、 上述した一連の行動により、 感情多様体を通 る経路が特徴付けられ、 定義される。
例えば、 既に得られている学習サンプルからの任意の行動を目標行動として使 用したとしても、 ユーザを初期状態から最終状態に導こうとした際に良好な結果 を得るには不十分であるかもしれない。 したがって、 良好な結果を達成するため に、 導出された目標行動及び Z又はそのデータに修正を含めること、 及び 又は 修正を行うこともできる。
この修正は、 位相、 距離、 計量、 連続性、 方向、 ベタ トル特性等に基づき、 確 率測定によりランダムに導入することもできる。
学習サンプルは、 例えば 1日に数個というゆつく りとしたペース又は低率にし か得られないと考えられるため、 学習サンプル、 特に位相多様体を導出するため に用いた学習サンプルを一般化することが特に効果的である。 したがって、 得ら れた学習サンプルは、 位相多様体 E及び Aにおける基準点及び Z又は測定点の役 割を果たし、 その一般化は、 測定点間における捕間の役割を果たす。
一般化のステップは、 特に共通の及び Z又は全体的な位相多様体を導出するた めに、 異なるユーザからの学習サンプルを平均化及び/又は重み付けするステッ プとすることもできる。 この際、 異なるユーザは、 その典型的な状態及びノ又は 行動に基づいて、 特に感情に基づいて集団化することもできる。
追加的又は選択的に、 上述した^習サンプルの一般化ステップに、 特に射影等 により行動多様体 Aの次元を減らすステップを少なく とも含ませることもできる c これにより、 自由度が低下させられ、 いくつかのクラスの行動が識別され、 相互 に等価とされる。
さらに、 この学習サンプルの一般化ステップは、 任意の学習サンプルの近傍又 は近隣の範囲を拡大及び/又は縮小するステップを含むこともでき、 任意の学習 サンプルの内部では、 初期状態、 最終状態及び目標行動の全てのデータ トリプル 又はデータトリプレツトがこの任意の学習サンプルと等価であると分類される。 これが特に実行されるのは、 目標行動及び/又は最終状態が全ての初期状態につ いて妥当である地点までである。 追加的又は選択的に、 最終状態が無関係となり、 状態の変化の方向だけが考慮される地点まで、 この措置が実行される。
何れの場合もマン 'マシン .インタフヱ一スユニットを制御する本発明の方法 及び 又はそのステップを実行及び Z又は実現することが可能なマン · マシン · インタフェースユニッ トの制御システム、 装置、 デバイス等を提供することが、 本発明の別の実施の形態である。
それに加えて、 コンピュータ、 デジタル処理手段等により実行された際にマン ' マシン 'インタフェースュニットを制御する本発明の方法及び/又はそのステ ップを実行及び Z又は実現するのに適したコンピュータプログラム手段からなる コンピュータプログラム製品を提供することが、 本発明の別の実施の形態である。 本発明の上記形態及びその他の形態は、 以下の説明を考慮に入れることにより、 さらに明瞭になるであろう。
マン 'マシン 'ィンタフェースの実行、 及び 又はユーザを楽しませユーザに 応答するという目標は、 エンターティメントロボット等のような人工システムに よっても達成することができる。 特にこの目標は、 ユーザの感情又は感情変化の 位相マップ若しくは位相多様体を推定することにより達成することができる。 簡 単な例においては、 この位相マップ又は位相多様体は、 2次元感情平面に'より形 成することができる。 位相マップ又は位相多様体は、 可能なシステム動作の多次 元空間全体に亘つて定義される。 このようなマップ或いは多様体が与えられるこ とにより、 本発明のシステム又は方法によれば、 任意の初期感情から任意の所望 の感情へとユーザを ¾くことができる。 マップ機能は、 いくつかの発見的関係
(heur i s t i c relat ionsh ips) 、 又は現在までに公知の任意の従来技術により初期 設定することができる。 この方法及びシステムは、 使用中にユーザの感情を測定 することにより、 その性能を自動的に改善する。 これにより、 この方法及びシス テムは、 マップの粗さを改善し、 及び Z又はユーザ依存マップ若しくは多様体を 作成することができる。
公知の技術のマン · マシン ·ィンタフェースュニット又はデバイス及び特にェ ンターティメントロボットは、 ユーザ研究及び z又は共通の知識から導出される 所定のルールを使用している。 これらの所定のルールは固定化されたものであり、 例えばユーザを楽しませるという目標のために実行すべき行動のタイプと、 潜在 的にはユーザの現在の感情とを決定する際に使用される。 しかしながら、 この固 定化されたルールは、 静的なものであり、 ユーザに依存するものではない。 · この 決定過程を簡素化するために提案されている従来技術の方法の中には、 ユーザを 楽しませ、 適切な行動を行うために、 ユーザ依存戦略の学習を組込むことができ るものがある。 しかしながら、 個々の観測を任意に一般化することができ、 これ により、 システムがユーザ独立モードとユーザ依存モードとの両方の性能を漸増 的に改善することを可能にする優れたアルゴリズムは未だ提案されていない。 人間の状態、 特に人間の感情の多様性は、 位相多様体として、 特に 2次元マツ プとして示すことができる。 この 2次元マップにおいては、 2つの軸は快楽 (pi easure) 及び覚醒 (arousal) を表している。 このような平面において、 右上の領 域は、 喜び (del i ghted) 、 幸福 (bl i ssful) 、 興奮 (exc i ted) 等の感情状態を 表している。 また、 左上の領域は、 例えば、 恐怖 (terri fi ed) 、 怒り (angry) 、 嫌悪 (d i sgust ed) の感情状態を表している。 また、 右下の領域は、 例えば、 満足 ( content) 及びリラックス (relaxed) の感情を含み、 左下の領域は悲しみ (sa dness) 、 憂鬱 (depress ion) 、 退屈 (boredom) 等の感情を表している。
この多様体又は平面状で相互に近接している感情は、 類似の感情である。 感情 を感情多様体又は感情平面上の 1地点から近接した別の地点へと変える方が、 遠 く離れた地点へと変えるよりは簡単である。 感情多様体又は感情平面のこの位相 特性が本発明の根拠となっている。
適切な行動を行う、 又はユーザを楽しませるという課題における適切な行動は、 ユーザの現在の感情及び状況、 及び所望の状況又は感情の変化に加えて、 ユーザ のアイデンティティに大きく依存している。 しかしながら、 マン 'マシン ' イン タフエースユニットにおいては、 特に、 大量販売しなければならないエンターテ ィメントロボットにおいては、 ユーザのアイデンティティは事前には不明である。 したがって、 システムのエンターテイメント能力は、 必然的に一般的なユーザ独 立行動の集合に限定されることになる。 これは平均的には最善の解決法ではある が、 殆ど全ての個々のユーザにとっては次善の解決法である。 したがって、 性能 及びエンタテイメント能力は、 各オーナを最適化目標として、 エンターティメン トロボッ トの各ュニッ ト又はマン ' マシン 'インタフェースユニッ トが独立して 学習すべきである。
もしシステムがシステムによる何らかの行動前後のユーザの感情を検出するこ とができれば、 この測定結果を学習サンプルとして利用することができ、 学習サ ンプルから、 類似の状況における将来の決定を導出することができる。 しかしな がら、 学習サンプルは、 1 sに数個という低い割合でしか得られない。 これまで のところ、 学習サンプルが事前には未知の頻度で漸増的に送り込まれた場合に、 エンターティメントロボッ ト又はマン · マシン ·ィンタフェースュニッ 卜がどの ようにして個々の学習サンプルを利用することができるのかについて、 技術的に 公知の方法はない。
ここで、 サンプルの集合、 すなわち学習サンプルが与えられたと仮定し、 各サ ンプルが、 (a ) 初期ユーザ感情を示した感情多様体又は感情平面上の初期地点、 ( b ) デバイスの行動、 例えばエンタテイメントロボッ トの行動又は対話手段 ( chatter box) の対話戦略を記述した多次元べク トル、 及び (c ) デバイスの行 動が知覚された後の最終ユーザ感情を示した感情多様体又は感情平面上の最終地 点、 からなるものとする。 この場合、 各学習サンプルは、 マップ又は多様体上に 置くことができ、 感情多様体又は感情平面上の初期地点から始まって最終地点を 指し示し、 上記 (b ) に記述された行動多様体の多次元行動ベク トルの属性を有 するベク トルとして記述することができる。 各サンプルは、 相互に独立して感情 平面内に置くことができる。 あらゆるユーザは、 一般的には固有の感情マップ又 は感情多様体を有しており、 そこでは、 そのユーザの学習サンプルだけが追加さ れ、 記述され、 及び/又は一般化される。
このような感情多様体又は感情マップが存在しているか、 又は任意のユーザ用 に導出された場合、 ユーザの何らかの初期状態又は感情と、 所望の目標状態又は 感情とが与えられれば、 適切な行動を見つけることは簡単であり、 煩わしさもな レ、。 これは、 初期状態又は感情に対応する地点の少なく とも近傍又は近隣から始 まり、 各ユーザの感情多様体又は感情マップの内部の任意の目標感情又は状態に 対応する地点の近隣又は近傍への正確な方向を指し示す適切な行動べク トルを選 択することにより実現される。 次に、 ユーザの初期状態を目標状態又は最終状態 へと導くために、 明確な行動ベク トルにより記述された行動が実行され、 実施さ れる。 ここで、 古い任意の行動を繰り返すのではなく、 その古い行動を若干或い はランダムに修正することは有益であり、 一般化性能を高めることにもなる。 こ の措置は、 戦略のさらなる改善の余地をもたらす展開的方法 (evolut ionary wa y) で好結果を収めた戦略を繰返すことと等価である。
通常、 感情マップには、 学習サンプル又はサンプルベク トルが散在しているた め、 サンプルべク トルの集合を一般化することが本発明の方法及びアルゴリズム の性能レベルにとって極めて重要である。 これは、 学習サンプルが典型的には 1 日に数個という非常にゆつく りと低率でしか入ってこないにもかかわらず、 この 方法及びシステムは最初のサンプルから直ちに学習を始める必要があるためであ り、 また、 一般的且つユーザ独立である開始ルールの集合を考慮に入れることも あるためである。
この一般化は、 いくつかの技術を使用して実現することができる。 まず第 1に、 異なるユーザのサンプルべクトルの学習サンプルを 1つのユーザ独立サンプルに 加えることにより、 ユーザの感情多様体又は感情マップを簡単に平均化すること ができる。 追加的に、 ユーザのクラス別、 又は全てのユーザについての全体的若 しくは共通の感情多様体若しくはマップを導出することもできる。
第 2に、 行動次元を減らすために多次元行動べク トル又は行動データの射影を 求めることができ、 これにより、 行動多様体又は行動空間の次元の数が減らされ る。
第 3に、 サンプルべク トル又は学習サンプルが任意の初期感情に対して妥当で あると考えられる領域を、 単一の例が全ての初期感情に対して典型的であると考 えることができる地点まで広げることができる。
第 4に、 完全に無関係であると見なされ、 感情変化べク トルの方向だけが考慮 される地点まで、 目標領域を同様の方法で広げることができる。
これらの一般化は、 相互に独立して使用することもでき、 また、 組み合わせる こともできる。 特に、 入手可能なサンプルが殆どない場合には、 サンプル行動を 見つけられるまで一般化の度合いを高めることにより、 システムは、 常に適当な 行動を見つけることができる。 これにより、 システムは、 たった 1つの観測又は 学習サンプルでさえ利用することになる。 また、 感情マップに含まれる有益な学 習サンプルが次第に増加するにつれて、 一般化、 すなわち制約条件の緩和の度合 いを次第に低く し、 次の行動を演繹的に求めることを可能にすることにより、 あ らゆる追加学習サンプルによって非常に自然且つ漸増的にシステム性能が高めら れる。
この新しい方法及びアルゴリズムによれば、 最初のサンプルの観測から始めて システム性能が漸増的に改善されるともに、 感情変化の非常に精密なモデルをも 可能とされる。 同様のアルゴリズムは、 コア及び精密モデルの両方に使用するこ とができる。
本発明の更に他の目的、 本発明によって得られる具体的な利点は、 以下に説明 される実施例から一層明らかにされるであろう。 図面の簡単な説明 図 1は、 本実施の形態におけるマン · マシン ·ィンタフェースュニッ トの制御 方法及びシステムを説明するフローチヤ一トである。
図 2は、 感情多様体、 感情データ多様体、 行動多様体及び行動データ多様体間 の対応関係を説明する図である。
図 3は、 本実施の形態におけるロボッ ト装置の外観構成を示す斜視図である。 図 4は、 同ロボット装置の回路構成を示すプロック図である。
図 5は、 同ロボッ ト装置のソフトウェア構成を示すプロック図である。
図 6は、 同ロポッ 卜装置のソフトウェァ構成におけるミ ドル ' ウェア ' レイヤ の構成を示すプロック図である。
図 7は、 同ロボット装 ©のソフ トウェア構成におけるアプリケーション · レイ ャの構成を示すプロック図である。
図 8は、 同アプリケーション · レイヤの行動モデルライブラリの構成を示すプ ロック図である。
図 9は、 同ロボッ ト装置の行動決定のための情報となる有限確率ォートマトン を説明する図である。
図 1 0は、 同有限確率オートマトンの各ノードに用意された状態遷移表を示す 図である。
図 1 1は、 同ロボッ ト装置において、 マン ' マシン 'インタフェースュニッ ト の制御方法が適用された要部を説明する図である。
図 1 2は、 同ロボット装置のユーザ音声認識部の内部構成を説明する図である。 図 1 3は、 ユーザの顔の表情認識に用いられる顔の動作単位 (A U ) を説明す る図である。
図 1 4は、 同ロボット装置のユーザ画像認識部の内部構成を説明する図である。 図 1 5は、 同ロボット装置の情動を表す 3次元位相空間を説明する図である。 図 1 6は、.同 3次元位相空間中の一点に感情状態がマッピングされる一例を説 明する図である。
図 1 7は、 位相平面上の初期状態が目標状態に変換される様子を説明する図で める。
図 1 8は、 同ロボット装置の行動制御方法を説明するフローチャートである。 発明を実施するための最良の形態 以下、 本発明を適用した具体的な実施の形態について、 図面を参照しながら詳 細に説明する。 以下の実施の形態では、 先ず、 ユーザの動作、 期待、 或いは感情 等に対応してマン ' マシン 'インタフェースュニッ トを動作させる、 本発明の基 本原理となるマン · マシン ·ィンタフェースュニッ トの制御方法及びシステムに ついて説明し、 次いでこの制御方法及びシステムを、 少なくとも感情モデルを有 し、 感情に応じて表出する行動を変化させることのできる自律型のエンターティ メントロボットに適用した具体例について説明する。
( 1 ) マン · マシン · インタフェースュニッ トの制御方法
マン ·マシン ·ィンタフェースュニッ トを制御する本発明の方法及びシステム の好ましい実施の形態を図 1のフローチャートに示す。 この図 1では、 ステップ S 0〜ステップ S 1 2により実施の形態を記述している。
先ずステップ S 0において、 この方法及びシステムは、 実行開始に際して初期 化され、 次にステップ S 1において、 一般情報、 及び/又は一般的 (general) 及 び/又は包括的 (generic) 行動モデルが、 予め定義されたデータベース D Bから 読み出される。 このデータベース D Bから得られた 1次情報に基づき、 本実施例 の方法及びシステムの初期動作が構築される。
続いてステップ S 2において、 任意のユーザの初期状態 e すなわち感情が現 在状態 e。 : e i = e。として検出される。 検出された初期状態 e;は、 特定の初期 状態データ I S D (Initial Status Data) の形で内部表示される。
ステップ S 3では、 ユーザを導くべき所望の目標状態及び Z又は個々の目標状 態データ T S D (Target Status Data) が受け取られ、 獲得され、 及び Z又は生 成される。 なお、 上述したデータベース D Bから明瞭なサンプルデータを得るこ とができ、 また、 ユーザから直接得ることや外部制御ユニットから得ることもで きる。
ステップ S 4では、 ある任意のデータ トリプル < e a , e t〉に近似した適 切な学習サンプル 1 =< e , a , e >が入手可能か否かが判別される。 すな わち、 l =< e i,, a , 6 >が 1 = < 6 1 , a , e t >の状態でデータベース D B内に存在するか否かが判別される。
もし存在する場合には、 ステップ S 5において学習サンプル 1がデータベース D Bから読み出され、 その後、 ステップ S 6において、 学習サンプル 1 における 行動 aが抽出され、 導出すべき目標行動として、 すなわち t : = aとして定義さ れる。 一方、 任意のデータ トリプル < e a , e t >に近似した適切な学習サン プル 1 = < 6 , a , e 〉が、 特に本実施の形態における方法又はシステムの 実行開始時に発見できない場合には、 ステップ S 7において最も近い他の学習サ ンプル 1又は一般ルールがデータベース D Bから読み出される。
ステップ S 8では、 適切な目標行動 tが、 所与の情報から、 包括的情報を一般 化する過程から、 及び/又は最も近い学習サンプルから導出され生成される。 なお、 ステップ S 6及び/又はステップ S 8の後に、 すなわちステップ S 9の 前に、 目標行動 tを何らかの修正ルールに従って、 及び/又はランダムに修正す ることもできる。
続いてステップ S 9において、 導出された目標行動 tを設定し、 実行する。 ステップ S 1 0では、 実行した目標行動 tの結果としてのユーザの最終状態 e fが検出され、 続くステップ S 1 1において、 データトリプルく e a , e f 〉が 再び呼び出され、 新しい学習サンプル 1 として評価される。
ステップ S 1 2では、 ユーザの最終状態 e fが所望の目標状態 e tと比較される。 そして、 評価データ (比較データ) が得られ、 新しい学習サンプル < e a , e f 〉と共にデータベース D Bに記録される。 外部制御装置又はユーザが本実施の形 態の方法及びシステムの実行を終了するまで、 ステップ S 2以降のステップが繰 り返される。
ここで、 感情多様体 E M (Emotion Manifolds) 、 感情データ多様体 E D M (E mot ion Data Manifolds) 、 行動多様体 A M (Action Mani folds) 及び行動データ 多様体 A D M (Act ion Data Manifolds) 間の対応関係を概略的に図 2に示す。 図 2の上部において、 マン ' マシン ' インタフェースュニッ トを特徴付けるュ 一ザの感情多様体 E M及び行動多様体 A Mにより構成された直積演算又はテンソ ル演算 E ® A は、 一般的に任意のユーザに固有である、 いわゆるトランスモーシ ヨ ンマッピング Tにより、 感情多様体 (マップ) ΕΜと対応付けられている。 各 対く e a > S E ® A は、 トランスモーションマッピング Tにより、 e f : = T ( e i ; a) として、 ユーザの少なく とも 1つの最終状態 (感情) e E EM にマッピングされる。 ここで、 e iはユーザの任意の初期状態 (感情) であり、 a はシステムが実行することのできる行動である。 定義 T a ( e : =T ( e i, a ) により、 行動多様体 AMは、 Eから Eへの一群のマッピング T aを生成する。 射影演算子又は射影過程 Pにより、 感情多様体 E M及び行動多様態 AMの下部 又は内部表示部、 すなわち対応する感情データ多様体 (マップ) EDM及び対応 する行.動データ多様体 (マップ) ADMが得られる。 なお、 これらの多様体 (マ ップ) は、 この例においてはデカルト座標系により表示されている。
したがって、 初期状態データ I S Dは、 測定、 検出及び表示生成過程により、 すなわち射影過程 Pにより、 I S D : = P (e i) として、 生成される。 また、 追 加的に適切なトランスモーショ ンマッビング P T及び P Taが定義さ.れる。 ここで、 最終状態 e f : は、 F SD : = P ( e t) により感情データ多様体 E D Mに射影さ れる。 また、 最終状態データ F S Dは、 F SD : = P Ta ( I S D) により初期状 態データ I SDと対応付けられる。
なお、 本実施の形態の制御方法の実行効率を多ユーザ機器用に発展させるため に、 ユーザ識別過程を含めることもできる。 この場合、 ユーザ識別は、 音声認識 及び/又は聴覚感情検出システム若しくは過程に基づくものとすることができる。
(2) ロボット装置への応用
以上説明したマン ·マシン · インタフェースュニットの制御方法及びシステム は、 例えば、 少なく とも感情モデルを有し、 感情に応じて実行する行動を変化さ せることのできる自律型のエンターティメントロボッ トに適用することができる。 このエンターティメントロボット等のロボット装置に必要な機能のうち、 最も 重要且つ基本的なものの 1つとして、 人間の感情を捉えることが挙げられ (Pica rd R. (1997) Affective Computing, MIT Press. ) 、 特に人間の感情を認識する と共に自身の感情を表現することが必要となる。
ここで、 ロボット装置が例えばユーザである人間の感情に応じて行動を変化さ せることができれば、 人間との親密性を高めるために非常に有効に働く。 また、 単に社交性の向上だけではなく、 上述したマン · マシン ·ィンタフェースュニッ トの制御方法を応用し、 ロボット装置の行動によって人間の感情をロボット装置 が望む感情に導くことができれば、 ロボット装置の側からの人間とのィンタラタ シヨンの幅を広げることができる。 このような機能は、 学習機能を持つロボット 装置においては特に有効に作用する。
そこで、 以下では、 先ず、 感情モデルを有し、 感情に応じて表出させる行動を 変化させることのできる自律型のロボット装匱の構成について説明し、 次いで、 このロボット装置において、 上述したマン · マシン · インタフェースュニットの 制御方法及びシステムが適用された要部を説明する。 なお、 以下の説明では、 口 ボット装置の一例として、 4足歩行型のいわゆるぺッ ト型ロボッ トを用いて説明 するが、 ロボッ ト装置は、 感情モデルに応じて動作するものであれば適用可能で あり、 移動手段も、 4足歩行、 さらには脚式移動方式に限定されない。
( 2 — 1 ) ロボット装置の構成
図 3に示すように、 本実施の形態におけるロボット装置 1は、 「犬」 等の動物 を模した形状のいわゆるぺット型ロボットとされ、 胴体部ュニット 2の前後左右 にそれぞれ脚部ユニット 3 A , 3 B , 3 C , 3 Dが連結されると共に、 胴体部ュ ニット 2の前端部及び後端部にそれぞれ頭部ュニット 4及び尻尾部ュニット 5が 連結されて構成されている。
胴体部ユニッ ト 2には、 図 4に示すように、 C P U (Central Processing Uni t) 1 0、 D R A M (Dynami c Random Access Memory) 1 1、 フラッシュ R O M
(Read O nly Memory) 1 2、 P C (Personal Computer) カードインターフエ一 ス回路 1 3及び信号処理回路 1 4が内部バス 1 5を介して相互に接続されること により形成されたコントロール部 1 6 と、 このロボット装置 1の動力源としての バッテリ 1 7とが収納されている。 また、 胴体部ユニット 2には、 ロボット装置 1の向きや動きの加速度を検出するための角速度センサ 1 8及び加速度センサ 1 9なども収納されている。
また、 頭部ユニット 4には、 外部の状況を撮像するための C C D (Charge Cou pled Device) カメラ 2 0と、 使用者からの 「撫でる」 や 「叩く」 といった物理的 な働きかけにより受けた圧力を検出するためのタツチセンサ 2 1と、 前方に位置 する物体までの距離を測定するための距離センサ 2 2と、 外部音を集音するため のマイクロホン 2 3と、 鳴き声等の音声を出力するためのスピーカ 2 4と、 ロボ ット装置 1の 「目」 に相当する L E D (Light Emitting Diode) (図示せず) な どがそれぞれ所定位置に配置されている。
さらに、 各脚部ュニッ ト 3 A〜 3 Dの関節部分や各脚部ュニット 3 A〜 3 D及 び胴体部ュニッ ト 2の各連結部分、 頭部ュニット 4及び胴体部ュニッ ト 2の連結 部分、 並びに尻尾部ュニッ ト 5の尻尾 5 Aの連結部分などにはそれぞれ自由度数 分のァクチユエータ 2 5 i〜 2 5 n及ぴポテンショメータ 2 61〜 2 6。が配設され ている。 例えば、 ァクチユエ一タ 2 5 L〜 2 5„はサーボモータを構成として有し ている。 サーボモータの駆動により、 脚部ユニッ ト 3 A〜 3 Dが制御されて、 目 標の姿勢或いは動作に遷移する。
そして、 これら角速度センサ 1 8、 加速度センサ 1 9、 タツチセンサ 2 1、 距 離センサ 2 2、 マイクロホン 2 3、 スピー力 2 4及び各ボテンシ' aメータ 2 6 !~ 2 6 »などの各種センサ並びに L E D及び各ァクチユエータ 2 5 〜 2 5„は、 そ れぞれ対応するハブ 2 71〜 2 7„を介してコントロール部 1 6の信号処理回路 1 4と接続され、 C C Dカメラ 2 0及ぴバッテリ 1 7は、 それぞれ信号処理回路 1 4と直接接続されている。
信号処理回路 1 4は、 上述の各センサから供給されるセンサデータや画像デー タ及び音声データを順次取り込み、 これらをそれぞれ内部バス 1 5を介して D R AM 1 1内の所定位置に順次格納する。 また信号処理回路 1 4は、 これと共にバ ッテリ 1 7から供給されるバッテリ残量を表すバッテリ残量データを順次取り込 み、 これを DRAM 1 1内の所定位置に格納する。
このようにして D RAM 1 1に格納された各センサデータ、 画像データ、 音声 データ及びバッテリ残量データは、 この後 C PU 1 0がこのロボット装置 1の勤 作制御を行う際に利用される。
実際上 C PU 1 0は、 ロボット装置 1の電源が投入された初期時、 胴体部ュニ ット 2の図示しない P Cカードスロットに装填されたメモリカード 2 8又はフラ ッシュ ROM 1 2に格納された制御プログラムを P Cカードィンターフェース回 路 1 3を介して又は直接読み出し、 これを DRAM 1 1に格納する。 また、 C PU 1 0は、 この後上述のように信号処理回路 1 4より D RAM 1 1 に順次格納される各センサデータ、 画像データ、 音声データ及びバッテリ残量デ ータに基づいて自己及び周囲の状況や、 使用者からの指示及び働きかけの有無な どを判断する。
さらに、 C PU 1 0は、 この判断結果及び DRAM 1 1に格納した制御プログ ラムに基づいて続く行動を決定すると共に、 当該決定結果に基づいて必要なァク チユエータ 2 5 t〜 2 5„を駆動させることにより、 頭部ュニッ ト 4を上下左右に 振らせたり、 尻尾部ユニット 5の尻尾 5 Aを動かせたり、 各脚部ユニット 3 A〜 3 Dを駆動させて歩行させるなどの行動を行わせる。
また、 この際 C PU 1 0は、 必要に応じて音声データを生成し、 これを信号処 理回路 1 4を介して音声信号としてスピーカ 24に与えることにより当該音声信 号に基づく音声を外部に出力させたり、 上述の L EDを点灯、 消灯又は点滅させ る。
このようにしてこのロボット装置 1においては、 自己及び周囲の状況や、 使用 者からの指示及び働きかけに応じて自律的に行動し得るようになされている。
( 2 - 2) 制御プログラムのソフトウェア構成
ここで、 ロボット装置 1における上述の制御プログラムのソフトウェア構成は、 図 5に示すようになる。 この図 5において、 デバイス · ドライ ノく · レイヤ 3 0は、 この制御プログラムの最下位層に位置し、 複数のデバイス · ドライバからなるデ バイス ' ドライ ノく 'セッ ト 3 1から構成されている。 この場合、 各デバイス · ド ライバは、 CCDカメラ 20 (図 4) やタイマ等の通常のコンピュータで用いら れるハードウエアに直接アクセスすることを許されたオブジェク トであり、 対応 するハードウエアからの割り込みを受けて処理を行う。
また、 ロボティック ·サーバ .オブジェク ト 3 2は、 デバイス ' ドライバ ' レ ィャ 3 0の最下位層に位置し、 例えば上述の各種センサゃァクチユエータ 2 5 〜 2 5 n等のハードウエアにアクセスするためのィンターフェースを提供するソフト ウェア群でなるバーチャル 'ロボット 3 3と、 電源の切換えなどを管理するソフ トウエア群でなるパワーマネージャ 3 4と、 他の種々のデバイス ' ドライバを管 理するソフトウェア群でなるデバイス · ドライノく ·マネージャ 3 5と、 ロボッ ト 装置 1の機構を管理するソフトウェア群でなるデザィンド ' ロボット 3 6とから 構成されている。
マネージャ ··オブジェク ト 3 7は、 オブジェク ト ·マネージャ 3 8及びサービ ス 'マネージャ 3 9から構成されている。 ォブジェク ト ·マネージャ 3 8は、 口 ボティック ·サーバ ·ォブジェク ト 3 2、 ミ ドル . ウェア ' レイヤ 4 0、 及びァ プリケーシヨン . レイヤ 4 1に含まれる各ソフトゥヱァ群の起動や終了を管理す るソフトウェア辟であり、 サービス 'マネージャ 3 9は、 メモリカード 2 8 (図 4 ) に格納されたコネクションファイルに記述されている各オブジェク ト間の接 続情報に基づいて各ォブジェク トの接続を管理するソフトウェア群である。
ミ ドル ' ウェア . レイヤ 4 0は、 口ボテイツク .サーバ ·オブジェク ト 3 2の 上位層に位置し、 画像処理や音声処理などのこのロボット装置 1の基本的な機能 を提供するソフトウェア群から構成されている。 また、 アプリケーショ ン ' レイ ャ 4 1は、 ミ ドル ' ウェア ' レイヤ 4 0の上位層に位置し、 当該ミ ドル ' ウェア - レイヤ 4 0を構成する各ソフトウェア群によって処理された処理結果に基づい てロボット装置 1の行動を決定するためのソフトウェア群から構成されている。 なお、 ミ ドル · ウェア ' レイヤ 4 0及びアプリケーション ' レイヤ 4 1の具体 なソフ トウェア構成をそれぞれ図 6に示す。
ミ ドル . ウェア · レイヤ 4 0は、 図 6に示すように、 騷音検出用、 温度検出用、 明るさ検出用、 音階認識用、 距離検出用、 姿勢検出用、 タツチセンサ用、 動き検 出用及び色認識用の各信号処理モジュール 5 0〜 5 8並びに入力セマンティクス コンバータモジュール 5 9などを有する認識系 6 0と、 出力セマンティクスコン バータモジュール 6 8並びに姿勢管理用、 トラッキング用、 モーショ ン再生用、 歩行用、 転倒復帰用、 L E D点灯用及び音再生用の各信号処理モジュール 6 1〜 6 7などを有する出力系 6 9とから構成されている。
認識系 6 0の各信号処理モジュール 5 0〜 5 8は、 口ボティック ·サーバ ·ォ ブジェク ト 3 2のバーチャル ' ロボット 3 3により D R A M 1 1 (図 4 ) 力 ら読 み出される各センサデータや画像データ及び音声データのうちの対応するデータ を取り込み、 当該データに基づいて所定の処理を施して、 処理結果を入力セマン ティクスコンバータモジュール 5 9に与える。 ここで、 例えば、 バーチヤノレ · 口 ボット 3 3は、 所定の通信規約によって、 信号の授受或いは変換をする部分とし て構成されている。
入力セマンティクスコンバータモジュール 5 9は、 これら各信号処理モジユー ル 5 0〜 5 8から与えられる処理結果に基づいて、 「うるさい」 、 「暑い」 、 「明るい」 、 「ボールを検出した」 、 「転倒を検出した」 、 「撫でられた」 、 「叩かれた」 、 「ドミソの音階が問こえた」 、 「動く物体を検出した」 又は 「障 害物を検出した」 などの自己及び周囲の状況や、 使用者からの指令及び働きかけ を認識し、 認識結果をアプリケーショ ン ' レイヤ 4 1 (図 4) に出力する。
アプリケーション · レイヤ 4 1は、 図 7に示すように、 行動モデルライプラリ 7 0、 行動切換モジュール 7 1、 学習モジュール 7 2、 感情モデル 7 3及び本能 モデル 7 4の 5つのモジユーノレから構成されている。
行動モデルライブラリ 70には、 図 8に示すように、 「バッテリ残量が少なく なった場合」 、 「転倒復帰する」 、 「障害物を回避する場合」 、 「感情を表現す る場合」 、 「ボールを検出した場合」 などの予め選択されたいくつかの条件項目 にそれぞれ対応させて、 それぞれ独立した行動モデル 7 0 i〜 7 0„が設けられて いる。
そして、 これら行動モデル 7 0 〜 7 0„は、 それぞれ入力セマンティクスコン バータモジュール 5 9から認識結果が与えられたときや、 最後の認識結果が与え られてから一定時間が経過したときなどに、 必要に応じて後述のように感情モデ ル 7 3に保持されている対応する情動のパラメータ値や、 本能モデル 7 4に保持 されている対応する欲求のパラメータ値を参照しながら続く行動をそれぞれ決定 し、 決定結果を行動切換モジュール 7 1に出力する。
なお、 この実施の形態の場合、 各行動モデル 7 0 〜 7 0 nは、 次の行動を決定 する手法として、 図 9に示すような 1つのノード (状態) NODE。〜NOD En から他のどのノード NODE。〜 NOD Enに遷移するかを各ノード NO D E。〜N OD E„に間を接続するアーク AR Ci ARCnに対してそれぞれ設定された遷移 確率 Pi Pnに基づいて確率的に決定する有限碓率ォ一トマトンと呼ばれるアル ゴリズムを用いる。
具体的に、 各行動モデル 70 i〜 70 nは、 それぞれ自己の行動モデル 70 i〜 7 0 nを形成するノード1^00£。〜 00 £„にそれぞれ対応させて、 これらノード NODE。〜NODEnごとに図 1 0に示すような状態遷移表 8 0を有している。 この状態遷移表 8 0では、 そのノード NODE。〜NOD E„において遷移条件 とする入力イベント (認識結果) 力 S 「入力イベント名」 の列に優先順に列記され、 その遷移条件についてのさらなる条件が 「データ名」 及び 「データ範囲」 の列に おける対応する行に記述されている。
したがって、 図 1 0の状態遷移表 8 0で表されるノード NO D E!。。では、 「ボ ールを検出 (BAL L) 」 という認識結果が与えられた場合に、 当該認識結果と 共に与えられるそのボールの 「大きさ (S I Z E) 」 が 「0から 1000」 の範囲であ ることや、 「障害物を検出 (OB S TAC LE) 」 という認識結果が与えられた 場合に、 当該認識結果と共に与えられるその障害物までの 「距離 (D I S TAN C E) 」 が 「0から 100」 の範囲であることが他のノードに遷移するための条件と なっている。
また、 このノード NOD E i。。では、 認識結果の入力がない場合においても、 行 動モデル 7 (^〜ァ 0„が周期的に参照する感情モデル 7 3及び本能モデル 74に それぞれ保持された各情動及び各欲求のパラメータ値のうち、 感情モデル 7 3に 保持された 「喜び (J OY) 」 、 「驚き (SUR P R I S E) 」 若しくは 「悲し み (SUDNE S S) 」 のいずれかのパラメータ値が 「50から 100」 の範囲である ときには他のノードに遷移することができるようになつている。
また、 状態遷移表 8 0では、 「他のノードへの遷移確率」 の欄における 「遷移 先ノード J の行にそのノード NOD E。〜 NOD Enから遷移できるノード名が列 記されていると共に、 「入力イベント名」 、 「データ値」 及び 「データの範囲」 の列に記述された全ての条件が揃ったときに遷移できる他の各ノード NOD E。〜 NO DEnへの遷移確率が 「他のノードへの遷移確率」 の欄内の対応する箇所にそ れぞれ記述され、 そのノード NOD E。〜 NO DEnに遷移する際に出力すべき行 動が 「他のノードへの遷移確率」 の欄における 「出力行動」 の行に記述されてい る。 なお、 「他のノードへの遷移確率」 の欄における各行の確率の和は 1 0 0 [%] となっている。
したがって、 図 1 0の状態遷移表 8 0で表されるノード NODE 。。では、 例え ば 「ボールを検出 (BAL L) 」 し、 そのボールの 「S I Z E (大きさ) 」
「0から 1000」 の範囲であるという認識結果が与えられた場合には、 「30 [%] 」 の確率で 「ノード NOD E 12。 (node 120) 」 に遷移でき、 そのとき 「 AC T I O 1 J の行動が出力されることとなる。
各行動モデル 7 0 〜 7 0 nは、 それぞれこのような状態遷移表 8 0として記述 されたノード N〇 D E。〜 NOD E„がいくつも繋がるようにして構成されており . 入力セマンティクスコンバータモジュール 5 9から認識結果が与えられたときな どに、 対応するノード NODE。〜 NODE„の状態遷移表を利用して確率的に次 の行動を決定し、 決定結果を行動切換モジュール 7 1に出力するようになされて いる。
図 7に示す行動切換モジュール 7 1は、 行動モデルライプラリ 70の各行動モ デル 7 0 t〜 7 0„からそれぞれ出力される行動のうち、 予め定められた優先順位 の高い行動モデル 7 0 i〜 7 0。から出力された行動を選択し、 当該行動を実行す べき旨のコマンド (以下、 これを行動コマンドという。 ) をミ ドル ' ウェア ' レ ィャ 4 0の出力セマンティクスコンバータモジユーノレ 6 8に送出する。 なお、 こ の実施の形態においては、 図 8において下側に表記された行動モデル 7 0^ 7 0 ■>ほど優先順位が高く設定されている。
また、 行動切換モジュール 7 1は、 行動完了後に出力セマンティクスコンバー タモジュール 6 8から与えられる行動完了情報に基づいて、 その行動が完了した ことを学習モジュール 7 2、 感情モデル 7 3及び本能モデル 74に通知する。
一方、 学習モジュール 7 2は、 入力セマンティクスコンバータモジュール 5 9 から与えられる認識結果のうち、 「叩かれた」 や 「撫でられた」 など、 使用者か らの働きかけとして受けた教示の認識結果を入力する。
そして、 学習モジュール 7 2は、 この認識結果及び行動切換モジュール 7 1か らの通知に基づいて、 「叩かれた (叱られた) 」 ときにはその行動の発現確率を 低下させ、 「撫でられた (誉められた) 」 ときにはその行動の発現確率を上昇さ せるように、 行動モデルライブラリ 70における対応する行動モデル 7 (^〜ァ 0 nの対応する遷移確率を変更する。
他方、 感情モデル 7 3は、 「喜び (joy) 」 、 「悲しみ (sadness) 」 、 「怒り (anger) 」 、 「驚き (surpri se) J 、 「嫌悪 (di sgust) 」 及び 「恐れ (fea r) 」 の合計 6つの情動について、 各情動ごとにその情動の強さを表すパラメータ を保持している。 そして、 感情モデル 7 3は、 これら各情動のパラメータ値を、 それぞれ入力セマンティタスコンバータモジュール 5 9から与えられる 「叩かれ た」 及び 「撫でられた」 などの特定の認識結果と、 経過時間及び行動切換モジュ ール 7 1からの通知などに基づいて周期的に更新する。
具体的には、 感情モデル 7 3は、 入力セマンティクスコンバータモジュール 5 9から与えられる認識結果と、 そのときのロボッ ト装置 1の行動と、 前回更新し てからの経過時間などに基づいて所定の演算式により算出されるそのときのその 情動の変動量を Δ Ε [ t ] 、 現在のその情動のパラメータ値を E [ t ] 、 その情 動の感度を表す係数を k eとして、 以下の式 2、
式 2
E[/+l] = E[/] + X Λ E[†] によって次の周期におけるその情動のパラメータ値 Ε [ t + 1 ] を算出し、 これ を現在のその情動のパラメータ値 E [ t ] と置き換えるようにしてその情動のパ ラメータ値を更新する。 また、 感情モデル 7 3は、 これと同様にして全ての情動 のパラメータ値を更新する。
なお、 各認識結果や出力セマンティクスコンバータモジュール 6 8からの通知 が各情動のパラメータ値の変動量 Δ Ε [ t ] にどの程度の影響を与えるかは予め 決められており、 例えば 「叩かれた」 といった認識結果は 「怒り」 の情動のパラ メータ値の変動量 Δ Ε [ t ] に大きな影響を与え、 「撫でられた」 といった認識 結果は 「喜び」 の情動のパラメータ値の変動量 Δ Ε [ t ] に大きな影響を与える ようになっている。
ここで、 出力セマンティクスコンバータモジュー^ ^ 6 8からの通知とは、 いわ ゆる行動のフィードバック情報 (行動完了情報) であり、 行動の出現結果の情報 であり、 感情モデル 7 3は、 このような情報によっても感情を変化させる。 これ は、 例えば、 「吠える」 といった行動により怒りの感情レベルが下がるといった ようなことである。 なお、 出力セマンティクスコンバータモジュール 6 8からの 通知は、 上述した学習モジュール 7 2にも入力されており、 学習モジュール 7 2 は、 その通知に基づいて行動モデル 7 0 〜 7 0 nの対応する遷移確率を変更する。 なお、 行動結果のフィードバックは、 行動切換モジュール 7 1の出力 (感情が 付加された行動) によりなされるものであってもよい。
—方、 本能モデル 7 4は、 「運動欲 (exerc i se) 」 、 「愛情欲 (affecti on) 」 、 「食欲 (appet i te) J 及び 「好奇心 (curios i ty) 」 の互いに独立した 4つの欲求 について、 これら欲求ごとにその欲求の強さを表すパラメータを保持している。 そして、 本能モデル 7 4は、 これらの欲求のパラメ一タ値を、 それぞれ入力セマ ンテイクスコンバータモジュール 5 9から与えられる認識結果や、 経過時間及び 行動切換モジュール 7 1からの通知などに基づいて周期的に更新する。
具体的には、 本能モデル 7 4は、 「運動欲」 、 「愛情欲」 及び 「好奇心」 につ いては、 認識結果、 経過時間及び出力セマンティクスコンバータモジュール 6 8 からの通知などに基づいて所定の演算式により算出されるそのときのその欲求の 変動量を Δ Ι [ k ] 、 現在のその欲求のパラメータ値を I [ k ] 、 その欲求の感 度を表す係数 k iとして、 所定周期で以下の式 3、
式 3
I[/f+l] = I [ん] + ki X Δ I [ん] を用いて次の周期におけるその欲求のパラメ—タ値 I [ k + 1 ] を算出し、 この 演算結果を現在のその欲求のパラメータ値 I [ k ] と置き換えるようにしてその 欲求のパラメータ値を更新する。 また、 本能モデル 7 4は、 これと同様にして 「食欲」 を除く各欲求のパラメータ値を更新する。
なお、 認識結果及び出力セマンティクスコンバータモジュール 6 8からの通知 などが各欲求のパラメータ値の変動量△ I [ k ] にどの程度の影響を与えるかは 予め決められており、 例えば出力セマンティクスコンバータモジュール 6 8から の通知は、 「疲れ」 のパラメータ値の変動量△ I [ k ] に大きな影響を与えるよ うになっている。
なお、 本実施の形態においては、 各情動及び各欲求 (本能) のパラメータ値が それぞれ 0から 1 0 0までの範囲で変動するように規制されており、 また係数 k k の値も各情動及び各欲求ごとに個別に設定されている。
—方、 ミ ドル' ウェア ' レイヤ 4 0の出力セマンティクスコンバータモジユー ル 6 8は、 図 6に示すように、 上述のようにしてアプリケーション ' レイヤ 4 1 の行動切換モジュール 7 1から与えられる 「前進」 、 「喜ぶ」 、 「鳴く」 又は
「トラッキング (ボールを追いかける) j といった抽象的な行動コマンドを出力 系 6 9の対応する信号処理モジュール 6 1 〜 6 7に与える。
そしてこれら信号処理モジュール 6 1 〜 6 7は、 行動コマンドが与えられると 当該行動コマンドに基づいて、 その行動を行うために対応するァクチユエータ 2 S L S S- (図 4 ) に与えるべきサーボ指令値や、 スピーカ 2 4 (図 4 ) から出 力する音の音声データ及び又は 「目」 の L E Dに与える駆動データを生成し、 こ れらのデータをロボティック ·サーバ ·ォブジェク ト 3 2のバーチヤノレ · ロボッ ト 3 3及び信号処理回路 1 4 (図 4 ) を順次介して対応するァクチユエータ 2 5 L〜 2 5 n又はスピーカ 2 4又は L E Dに順次送出する。
このようにしてロボット装置 1においては、 制御プログラムに基づいて、 自己 (内部) 及び周囲 (外部) の状況や、 使用者からの指示及び働きかけに応じた自 律的な行動を行うことができるようになされている。
( 2 - 3 ) ロボット装置における適用部分
上述のロボット装置 1において、 上述したマン ' マシン 'インタフェースュニ ッ トの制御方法及びシステムが適用された要部を説明する。
ここで、 言葉によるものを除けば、 人間は主として 2つの方法で感情を表現す ることができる。 すなわち、 顔の表情の変化 (Ekman,P. (1982) Emotions in th e human face, Cambridge University Press, し ambridge) と、 尸のイノ ^ネ1 -""、ノ ョンの変ィ匕 (Banse,R. and Sherer, K. R. , (1996) Acoustic Profiles in Vocal Emotion Expression, Journal of Personality and Social Psychology, 70(3) : 614-636) とである。
そこで、 本実施の形態におけるロボット装置 1は、 ユーザについて得られた画 像信号及び/又は音声信号によりユーザの感情を推定し、 この推定結果に応じて 行動を変化させるものとする。
具体的にロボット装置 1は、 図 1 1に示すように、 入力部 1 0 1と、 内部状態 モデル 1 0 2と、 ユーザ音声認識部 1 0 3と、 ユーザ画像認識部 1 0 4と、 短期 記憶部 (STM : Short Term Memory) 1 0 5と、 感情推定部 1 0 6と、 長期記憶部 (LTM : Long Term Memory) 1 0 7と、 行動選択部 1 0 8とを備えている。
入力部 1 0 1は、 例えば図 4に示した C C Dカメラ 2 0からの画像信号や、 マ イク口ホン 2 3からの音声信号 (音響信号) の他、 タツチセンサ 2 1等の各種セ ンサからのセンサ情報を入力する。
内部状態モデル 1 0 2は、 図 7に示した感情モデル 7 3及び本能モデル 7 4に 対応し、 「喜び (joy) 」 、 「悲しみ (sadness) 」 、 「怒り (anger) 」 、 「驚き ( surpri se) 」 、 「嫌悪 (disgust) 」 及び 「恐れ (fear) 」 の何れかを表す情動 パラメータと、 「運動欲 (exerc i se) 」 、 「愛情欲 (affect i on) 」 、 「食欲 (a ppet ite) 」 及び 「好奇心 ( curios ity) 」 の何れ力 ¾r表す欲永ノ フメータと 感 情推定部 1 0 6に供給する。
ユーザ音声認識部 1 0 3は、 入力部 1 0 1からユーザが発した声に基づく音声 データが供給されると、 この音声の強さ及び基本周波数 (ピッチ) に基づいて、 後述するようにして感情を検出し、 検出された情動の種類とその尤度とを短期記 億部 1 0 5に供給する。
ユーザ画像認識部 1 0 4は、 入力部 1 0 1からユーザの画像信号が供給される と、 この画像から後述するようにして顔領域を抽出し、 抽出された顔画像の表情 からユーザの感情を検出し、 検出された情動の種類とその尤度とを短期記憶部 1
0 5に供給する。
短期記憶部 1 0 5は、 ロボット装置 1の短期記憶を司る部分であり、 ユーザ音 声認識部 1 0 3及び Z又はユーザ画像認識部 1 0 4から供給された情動の種類と その尤度とを一時的に保持し、 これを感情推定部 1 0 6に供給する。 ここで、 ュ 一ザ音声認識部 1 0 3とュ一ザ画像認識部 1 0 4との双方から情動の種類とその 尤度が供給されるとは限らず、 一方のみから供給された場合には、 その供給され た情動の種類及び尤度を一時的に保持する。 例えば、 ユーザがロボット装置 1の 背後から声をかけたような場合、 ロボット装置 1は、 ユーザの顔の表情を認識す ることができないため、 短期記憶部 1 0 5には、 ユーザの声から検出した情動の 種類及びその尤度のみがユーザ音声認識部 1 0 3から供給される。 感情推定部 1 0 6は、 ユーザ音声認識部 1 0 3及び/又はユーザ画像認識部 1 0 4で検出され、 短期記憶部 1 0 5から供給された情動の種類及びその尤度に基 づいて、 上述した感情多様体におけるユーザの現在状態 e。を求め、 このデータを 行動選択部 1 0 8に供給する。 また、 感情推定部 1 0 6は、 内部状態モデル 1 0 2から供給されたロボッ ト装置 1の情動パラメータ及び本能パラメータに基づい て、 上述した感情多様体におけるロボット装置 1の現在状態を求め、 このデータ を行動選択部 1 0 8に供給する。
長期記憶部 1 0 7は、 ロボット装置 1の長期記憶を司る部分であり、 予め学習 された複数のデータトリプル < e i , a , e f 〉が上述した学習サンプル 1 として 記憶されている。
行動選択部 1 0 8は、 図 7に示した行動モデルライブラリ 7 0及び行動切換モ ジュール 7 1に対応する。 この行動選択部 1 0 8は、 感情推定部 1 0 6から供給 されたユーザの現在状態 e。を初期状態 e iとし、 この初期状態 e iと所望の目標状 態 e ,とに基づいて、 データ トリプル < e *, e t >に近似する学習サンプル 1 e ι ' , a , e >を長期記憶部 1 0 7から読み出す。 そして、 行動選択部 1 0 8は、 学習サンプル 1における行動 aを目標行動 t として、 すなわち t : = a として設定し、 この目標行動 tを行動モデル 7 (^〜ァ 0 nから選択して出力する。 なお、 本実施の形態では、 この目標状態 e tとして、 感情推定部 1 0 6から供給さ れたロボット装置 1の現在状態を用いるものとする。 これにより、 ロボット装置 1は、 ユーザの感情状態を自身の現在の情動と近似する感情状態に導くように、 自身の行動を切り換えることができるようになる。
このように、 ロボット装置 1は、 ユーザの声の調子やユーザの顔の表情からュ
—ザの感情を推定し、 この推定結果に応じて、 ユーザの感情状態を自身の現在の 情動と近似する感情状態に導くように、 行動を変化させることができる。
以下、 上述したユーザ音声認識部 1 0 3及びユーザ画像認識部 1 0 4における 感情認識処理とその感情に基づく行動選択処理とについて詳細に説明する。
( 2 - 3 - 1 ) 音声に基づく感情認識
ユーザ音声認識部 1 0 3は、 ユーザが発した音声の強さ及び基本周波数 (ピッ チ) に基づいて、 例 は 「喜び ( jov/pleasurej 」 、 「悲しみ ( sorrow/sadness /grief) 」 、 「怒り (angry) 」 及び 「平静 (calm/neutral) 」 の合計 4つの情動 を検出する。 なお、 検出する情動の種類がこの 4つに限定されるものではないこ とは勿論である。 ここで、 入力音声を各感情に分類するアルゴリズムとしては、 例 ば Pi erre - yves Oudeyerによる報告 (Pierre-yves Oudeyer (2001) Algorith m and Features, Proceedings of the Humanoi ds Conference) iこめるよ つ ίこ、 各 , 種考えられるが、 以下では一例として、 ナイーブ 'ベイズ ' クラス分類アルゴリ ズム (Naive Bayes classi f icat ion algorithm) を用いるものとする。
具体的にユーザ音声認識部 1 0 3は、 図 1 2に示すように、 音声入力部 1 1 1 と、 特徴量抽出部 1 1 2と、 感情検出部 1 1 3と、 分類部 (class ifi er) 1 1 4 と、 感情音声データベース 1 1 5と、 結果出力部 1 1 6とを有している。 ここで、 分類部 1 1 4は、 上述した 4つの情動にそれぞれ対応する喜び分類器 (class if i er) 1 1 4 悲しみ分類器 1 1 4 2、 怒り分類器 1 1 4 3及び平静分類器 1 1 4 を有している。 .
音声入力部 1 1 1は、 図 4に示したマイクロホン 2 3からの音声信号 (音響信 号) のうちユーザの発した声が A Z D変換されたデジタル音声信号を入力する。 音声入力部 1 1 1は、 このデジタル音声信号を特徴量抽出部 1 1 2に供給する。 特微量抽出部 1 1 2は、 音声入力部 1 1 1から供給されたデジタル音声信号か ら、 声の強さ (intens ity) 及ぴ声の高さ (pi tch) を特徴量として抽出する。 こ こで、 声の強さは信号のパワーとして与えられ、 声の高さは信号の基本周波数と して与えられる。 なお、 この基本周波数を求める手法としては種々提案されてお り、 例えば音声波形の自己相関関数を用いる手法や、 スペク トルを用いる手法な どがある。
特徴量抽出部 1 1 2は、 デジタル音声信号に対して微小時間間隔毎に、 例えば 1 0 m s毎に声の強さ及び髙さを抽出する。 この際、 声の強さは、 ローパス · フ ィルタ及びハイパス · フィルタを通した信号からそれぞれ求められる。 この結果、 声の強さと声の高さに関する 3次元べク トルの系列が 1つのデジタル音声信号に 対して得られる。 そして、 特徴量抽出部 1 1 2は、 この 3次元べク トル系列に対 して、 各次元毎に、 平均値、 最大値、 最小値、 最大値と最小値との差、 分散、 中 央値を求める。 この結果、 3 X 6 = 1 8個の特徴量が得られ、 特徴量抽出部 1 1 2は、 この 1 8次元べク トルを感情検出部 1 1 3に供給する。
感情検出部 1 1 3は、 特徴量抽出部 1 1 2から供給された 1 8次元べク トノレに ついて、 ナイーブ 'ベイズ ' クラス分類アルゴリズムに従い、 分類部 1 1 4の各 分類器 (classifier) 1 1 A i l 1 44を用いて、 上述した 「喜び (joy/pleasu re) 」 、 I悲しみ (sorrow/sadness/grief) 」 、 ι恋り (angry) 」 及び 「平 (calm/neutral) 」 の何れかに分類する。
このナイーブ 'ベイズ . クラス分類アルゴリズムについて簡単に説明する。 n 次元の入力ベク トル (a_l, a— 2, ..., a_n) に対してクラス c一 jの生起確率 P (c— j | a— l,a_2, ... , a_n)を最大化する c— jを求めるという問題は、 ベイズ (Bayes) の定理 より、 以下の式 4、
式 4
? (a I, a 2, ... , a n \ c j) P(c f) を最大化する c„jを求めるという問題に定式化される, で、 各次元の独立性を 仮定すると、 この問題は、 以下の式 5、
式 5
Figure imgf000030_0001
を最大化するクラス c_jを求める問題に帰着される。
そして、 P(a_i |c—j)を例えば正規分布で与えられる確率密度関数を用いてモデ ル化することにより、 入力ベク トル (a_l,a_2,...,a_n) に対して、 クラス c— jの 生起確率が求められる。
すなわち、 上述した 1 8次元べク トルの各次元について各情動に対応する確率 密度関数を用いて尤度を計算することにより、 各情動に対応する 1 8次元べク ト ルの尤度が計算される。
なお、 この確率密度関数は、 各情動に対応する音声データが多数記憶された感 情音声データベース 1 1 5を用いて推定することができる。 例えば、 ある感情に 対応する音声データが 1 0 0 0発話分ある場合、 それぞれの音声データについて の特徴量 (上述の 1 8次元べク トル) を抽出し、 その特徴量べク トルの各次元に 対応したデータから平均 μと分散 σとを求めることで、 以下の式 6、
式 6 = ^i- exp{- _^Ji¾
2π σ ζ2
で示される確率密度関数が推定される。
感情検出部 1 1 3は、 特徴量抽出部 1 1 2から供給された 1 8次元べク トルに ついて、 喜び分類器 (classifier) 1 1 4 悲しみ分類器 1 1 42、 怒り分類器 1 1 43及び平静分類器 1 1 44における確率密度関数から各情動の尤度を求める。 そして、 感情検出部 1 1 3は、 この尤度を比較し、 最も尤度の高い情動の種類と その尤度とを、 検出結果として結果出力部 1 1 6に供給する。
結果出力部 1 1 6は、 感情検出部 1 1 3から供給された情動の種類とその尤度 とを、 上述の図 1 1に示した短期記憶部 1 0 5に出力する。
( 2— 3— 2) 顔の表情に基づく感情認識
ユーザ画像認識部 1 04は、 ユーザの顔画像の表情に基づいて、 例えば 「喜び (joy) 」 、 「悲しみ (sadness) 」 、 「怒り (anger) 」 、 「驚き (surprise) 」 . 「嫌悪 (disgust) 」 及び 「恐れ (fear) 」 の合計 6つの情動を検出する。 なお、 検出する情動の種類がこの 6つに限定されるものではないことは勿論であり、 こ の 6つの情動の何れでもない場合には、 「平静 (calm/neutral) 」 として検出さ れる。
ここで、 顔の表情を記述するために、 本実施の形態では、 Ekman及び Friesenに よって提案された F AC S (Facial Action Coding System) と呼ばれる表情記述 方法を用いる。 この F AC Sとは、 表情をアクションユニット (AU:Action Uni t) と呼ばれる、 (a) 解剖学的に独立し (表情筋) 、 (b) 視覚的に識別可能な、
( c ) 表情動作の最小単位、 に従って分類し、 この AUの強度の組み合わせによ つて、 人間の表情を定量的に記述するものである。 但し、 F AC Sは本来、 心理 学の分野で表情を記述し分析することを目的に提案されたものであり、 図 1 3に 抜粋を示すように、 各 AUの定義自体には定性的な表現が用いられている。 上述した 6つの情動のそれぞれが生起したときに表出する表情を基本 6表情と いい、 Ekman及び Friesenによって、 この基本 6表情と A Uとの関連性が明らかに されている。 なお、 この関連性は、 基本的に文化 ·性別 ·年齢等の個人差に影響 されないものとされている。 すなわち、 人間の表情を A Uによって表現 (認識) できれば、 これを上述した 6つの情動にマッビングすることができる。
そこで、 本実施の形態におけるユーザ画像認識部 1 0 4は、 画像信号を入力と して各 A Uの強度を出力とするデータ変換操作である F A C S コーディングを利 用し、 入力された画像信号から各 A Uによって特徴付けられた上述の 6つの情動 を検出する。
具体的にユーザ画像認識部 1 0 4は、 図 1 4に示すように、 画像入力部 1 2 1 と、 顔検出部 1 2 2と、 アラインメント部 1 2 3と、 差分画像生成部 1 2 4と、 顔画像データベース 1 2 5と、 データ変換部 1 2 6と、 H MM (Hidden Markov Model) 部 1 2 7と、 結果出力部 1 2 8とを有している。
画像入力部 1 2 1は、 図 4に示した C C Dカメラ 2 0からの雨像信号を入力し、 この画像信号を顔検出部 1 2 2に供給する。
顔検出部 1 2 2は、 先ず画像入力部 1 2 1から供給された画像信号に基づくフ レーム画像を縮小率が異なる複数のスケール画像に変換する。 例えば、 顔検出部 1 2 2は、 フレーム画像を 0 . 8倍ずつ順次縮小して 5段階 ( 1 . 0倍、 0 . 8 倍、 0 . 6 4倍、 0 . 5 1倍、 0 . 4 1倍) のスケール画像に変換する。 そして、 顔検出部 1 2 2は、 各スケール画像について、 画像左上を起点として順に右下ま で、 適当な画素分を右側又は下側にずらしながらスキャンするようにして、 4 0 0 ( = 2 0 X 2 0 ) 画素の矩形領域を切り出し、 テンプレート画像とのマツチン グをとって、 顔画像か否かを判断する。 但し、 この時点で顔画像であると判断さ れた矩形領域 (以下、 スコア画像という。 ) には、 実際には顔画像以外の判断誤 りの画像が多数含まれるため、 顔検出部 1 2 2は、 サポートベクターマシン (S V M) により、 顔、 非顔の識別を行う。
このような技術としては、 B. Sholkophらの報告 (B. Sholkoph, C. Burges, A. Sm ola (1999) Advance in Kernel Methods Support Vector Learning, The MIT Pr ess) や V. Vapnicの報告 (V. Vapnic (1999) The Nature of Stat istical Learnin g Theory Second Edit ion, Springer) に開示されている技術が挙げられる。 上述の S V Mは、 識別関数に線形識別器 (パーセプトロン) を用いた学習機械 であり、 カーネル関数を使うことで非線形区間に拡張することができる。 また、 識別関数の学習では、 クラス間分離のマージンを最大にとるように行われ、 その 解は 2次数理計画法を解くことで得られるため、 グローバル解に到達できること を理論的に保証できる。 この処理の詳細は次の通りである。
先ず、 上述したスコア画像から顔以外の背景部分を除くため、 画像の 4隅を切 り取ったマスクを用いて、 4 0 0 ( = 2 0 X 2 0 ) 画素あるスコア画像から 3 6 0画素分を抽出する。 次に、 照明による撮像対象物の輝度が変化することを前提 として、 照明による輝度の勾配を補正して、 ヒストグラム平滑化或いはコントラ ス トノーマライゼーシヨンを施す。 続いて、 顔検出に利用する識別関数の学習を 行う。 学習用のデータとして最初に顔データ、 非顔データそれぞれ所定の枚数を 用いて、 暫定的な識別関数を得る。 それから、 暫定的に得られた識別関数を様々 なデータベース上の画像に試して顔の検出を行い、 その結果、 検出に成功したも のを顔データ、 失敗したものを非顔データとして学習データに追加し、 さらに学 習をし直す。
顔検出部 1 2 2は、 以上のようにしてスコア画像内に顏データが存在するか否 かを判断し、 存在する場合には、 そのスコア画像を顔画像として、 ァラインメン ト部 1 2 3に供給する。
アラインメント部 1 2 3は、 顔検出部 1 2 2から供給された顔画像について、 ァラインメント処理を行う。 つまり、 後述する差分画像生成部 1 2 4で 2枚の顔 画像の差分を正しく得るためには顔の位置を制度よく求める必要があり、 また、 顔の中の眼、 鼻の位置は人によって異なるため、 これらの位置を正規化する必要 もある。 そこで、 ァラインメント部 1 2 3は、 得られた顔画像に対して、 目尻、 鼻腔、 唇端などの特徴点を抽出して眼と鼻の位置同定を行い、 検出された眼と鼻 が定められた位置になるようにァフィン変換で回転 ·伸縮 (モーフィング処理) を行うことにより、 アラインメント処理を行う。 アラインメント部 1 2 3は、 こ のァラインメント後の顔画像を差分画像生成部 1 2 4に供給する。
差分画像生成部 1 2 4は、 ァラインメント部 1 2 3から供給されたァラインメ ント後の顔画像と、 顔画像データベース 1 2 5に記憶されているァラインメ ント 後の無表情 (ニュートラル) 顔画像との差分を計算し、 差分画像を生成する。 差 分画像生成部 1 2 4は、 生成した差分画像をデータ変換部 1 2 6に供給する。 データ変換部 1 2 6は、 ガボア (Gabor) · フィルタを用いて 3 6 0画素分のス コア画像をべク トル変換し、 得られたべク トル群をさらに 1本の特徴べク トルに 変換する。
ここで、 人間の S覚細胞には、 ある特定の方位に対して選択性を持つ細胞が存 在することが既に判っている。 これは、 垂直の線に対して反応する細胞と、 水平 の線に対して反応する細胞で構成される。 上述のガボァ · フィルタは、 これと同 様に、 方位選択性を持つ複数のフィルタで構成される空間フィルタである。
なお、 低周波でのフィルタリングでは、 フィルタリング後のイメージ全てをべ ク トルとして保特しておくのは冗長であるため、 ダウンサンプリングして、 べク トルの次元を落とすようにしてもよい。 この場合、 ダウンサンプリングされた複 数のべク トル群が並べられて、 1本の特徴べク トルが生成される。
そして、 データ変換部 1 2 6は、 ガボァ · フィルタリ ングによって得られた特 徴べク トルをべク トル量子化し、 べク トル量子化後の特徴べク トルを HMM部 1 2 7に供給する。 .
HMM部 1 2 7は、 データ変換部 1 2 6から供給されたべク トル量子化後の特 徴べク トルについて、 隠れマルコフモデルを用いて、 上述した 「喜び (joy) 」 、 「悲しみ (sadness) 」 、 「怒り (anger) 」 、 「驚き (surprise) 」 、 「嫌悪 (disgust) 」 及び 「恐れ (fear) 」 の何れかに分類する。 ここで、 HMM部 1 2 7は、 予め各情動を表す顔画像でトレーニングされており、 供給された特徴べク トルについて、 各情動の尤度を求める。 なお、 各情動と AUとの対応付けとして は、 例えば以下のようなものが挙げられる。
「喜び (joy) 」 AU 6 + 1 2
「悲しみ (sadness) 」 · ' 111及び リ 1 + 4
「怒り (anger) 」 ' · · · AU 4
「驚き (surprise) 」 · · AU 1 + 2
「嫌悪 (disgust) 」 · · ' AU 2 + 4 「恐れ (fear) 」 . · · ' AU 1 + 2 + 4
HMM部1 2 7は、 得られた各情動の尤度を比較し、 最も尤度の高い情動の種 類とその尤度とを、 検出結果として結果出力部 1 2 8に供給する。
結果出力部 1 2 8は、 HMM部 1 2 7から供給された情動の種類とその尤度と を、 上述の図 1 1に示した短期記憶部 1 0 5に出力する。
なお、 上述した例では、 HMM部 1 2 7の入力として、 ガボア · フィルタリン グによって得られ、 ベタ トル量子化された特徴べク トルを用いるものとして説明 したが、 これに限定されるものではなく、 例えば James J. Lienらの報告 (James J. し len et al. (1998) Automated Facial Expression Recognition Based on FACS Action Units, Proceedings of FG' 98, April 14一 16) ίこ開示されて!/ヽるよ うに、 特徴点のトラッキング結果や、 顔面各部位の動きべク トル (optical flo w) を用いるようにしても構わない。
( 2 - 3 - 3) 感情に基づく行動選択
上述したように、 ロボット装置 1は、 「喜び (joy) 」 、 「悲しみ (sadnes s) 」 、 「怒り (anger) 」 、 「驚き (surprise) 」 、 「嫌悪 (disgust) 」 及び
「恐れ (fear) j という合計 6つの情動を有するが、 これらの各情動は、 複数次 元の位相空間、 例えば図 1 5に示すように、 快度 (pleasantness) 、 覚醒度 (ac tivation) 及び確信度 (certainty) を 3軸とする 3次元位相空間中の空間領域'こ 対応付けられる。
ここで、 「快度」 は、 ロボット装置 1の本能がどれだけ満たされているかの度 合い、 「覚醒度」 は、 生物のバイオリズムによって決定される、 起きているか寝 ているかの度合い、 「確信度」 は、 現在ロボット装置 1が注目しているものを確 信をもつて認識できる度合いをそれぞれ示すパラメータである。
図 1 1に示した感情推定部 1 0 6は、 ユーザ音声認識部 1 0 3及びノ又はユー ザ画像認識部 1 04で検出され、 短期記憶部 1 0 5から供給された情動の種類及 びその尤度に基づいて、 ユーザの現在感情を、 先ず位相空間中の一点にマツピン グする。 具体的には、 例えば検出された情動が 「喜び (joy) 」 であり、 その尤度 が 0. 8である場合、 感情推定部 1 0 6は、 図 1 6に示すように、 位相空間の原 点から検出された喜びの情動に対応する空間領域の中心へと向かうベタ トル j に 尤度 0 . 8を乗算し、 得られたべク トルによって示される座標 J (p, a, c) を暫定 的にユーザの現在感情を示す座標とする。
なお、 ユーザ音声認識部 1 0 3で検出された情動の尤度とユーザ画像認識部 1 0 4で検出された情動の尤度とが異なる場合、 感情推定部 1 0 6は、 例えば両者 の平均尤度を用いて位相空間中にマッピングすることができる。 また、 ユーザ音 声認識部 1 0 3で検出された情動とユーザ画像認識部 1 0 4で検出された情動と が異なる場合、 感情推定部 1 0 6は、 例えば予め定めた一方の情動のみを用いて 位相空間中にマッビングすることができる。
そして、 感情推定部 1 0 6は、 ユーザの現在感情を表す位相空間中の座標を、 例えば 「快度」 及び 「覚醒度」 を 2軸とする位相平面上に投影し、 これにより得 られた座標をユーザの現在状態 e。として設定する。 同様に、 感情推定部 1 0 6は- ロボッ ト装置 1の現在状態 (感情) を表す位相空間上の点を、 「快度」 及び 「覚 醒度」 を 2軸とする位相平面上に投影し、 これにより得られた座標をユーザの目 標状態 e tとして設定する。
行動選択部 1 0 8は、 感情推定部 1 0 6から供給されたユーザの現在状態 e。を 初期状態 e iとし、 ユーザをこの初期状態 e iから目標状態 e tに導くような理想的 な目標行動として行動 *を仮定する。 すなわち、 図 1 7に示すように、 「快度」 及び 「覚醒度」 を 2軸とする位相平面上の座標として与えられる初期状態 e iは、 行動 *によって、 位相平面上の他の座標として与えられる目標状態 e tに変換され る。 そして、 行動選択部 1 0 8は、 データトリプル < e * , e t >に近似する 学習サンプル 1 = < e , a , e 〉を長期記憶部 1 0 7から読み出す。 行動選 択部 1 0 8は、 学習サンプル 1 における行動 aを目標行動 tとして、 すなわち t : = aとして設定し、 この目標行動 tを行動モデル 7 0 i〜 7 0 nから選択して出 力する。
以上のようにして、 ロボット装置 1は、 ユーザの感情状態を自身の現在の情動 と近似する感情状態に導くように、 自身の行動を切り換える。
以下、 上述したロボット装置 1の行動制御方法について、 図 1 8のフローチヤ 一トを用いて説明する。
先ずステップ S 2 0において、 ロボット装置 1は、 行動制御の実行開始に際し て初期化され、 次にステップ S 2 1において、 初期状態 すなわちユーザの現 在の感情が現在状態 e。 : e i = e。として検出される。
続いてステップ S 2 2では、 ロボッ ト装匱 1の現在の感情を、 ユーザを導くベ き目標状態 e tとして設定する。
ステップ S 2 3では、 長期記憶部 1 0 7に記憶されている学習サンプル 1 =< e , a , 6 >の中に、 く e i, *, e t >に近似したものがあるか否かが判別 される。 具体的には、 以下の式 7、
式 7
Oist ― comp (<ei, *, e†>, < ei a, eV>^
= a|| ei - ei, || + β|| et - et, ||
で表される距離 Distと閾値 Thとを比較し、 距離 Distが閾値 Thよりも小さいか否か が判別される。 ここで、 上式において a、 ]3は、 所定の定数である。
もし距離 Distが閾値 Thよりも小さい場合には、 く e , a , e t'〉と < e i, *, e t >とが近似していると して、 ステップ S 24において学習サンプル 1 が長期記 億部 1 0 7から読み出され、 導出すべき行動が目標行動 t : = a として設定され る。 一方、 距離 Distが閾値 Th以上である場合には、 ステップ S 2 5において最も 近い他の学習サンプル 1 =< ea', e 〉が長期記憶部 1 0 7から読み出さ れる。 ステップ S 2 6では、 導出すべき行動が目標行動 t : = a 'として設定され る。
続いてステップ S 2 7において、 導出された目標行動 tが実行される。
ステップ S 2 8では、 実行した目標行動 tの結果と してのユーザの最終状態 e fが検出され、 続くステップ S 2 9において、 データ トリプルく e t , e f 〉が 一時的に記憶される。
ステップ S 3 0では、 学習サンプル 1 が修正され、 又は新たなデータ トリプル < e t , e f >が長期記憶部 1 0 7に記憶される。 例えば、 データ トリプル < e * , e t>とデータ トリプル < e t , e ί〉との距離 Dis と、 データ トリ プル < e i, *, e t >とデータ トリプル < e , a , e t' >との距離 Dist2とが比 較され、 距離 Dis が距離 Dist 2よりも小さければ、 以下の式 8、 式 8
ei " = ei ' + ic · ei
et " = ei ' + k · et
によって定義されるデータ トリプルく e , a , e ' >によって、 学習サンプル 1中のデータ トリプルく e , a , e t '〉が置き換えられて修正される。 ここで、 上式において kは、 I k I < 1を満たす所定の定数である。 一方、 距離 Di st 2が距 離 Dis 以上であれば、 データトリプル < e t , e f〉が学習サンプル 1に追加 され、 長期記憶部 1 0 7に記憶される。
そして、 外部制御装置又はユーザによって実行終了されるまで、 ステップ S 2 1以降のステップが繰り返される。
以上のように、 本実施の形態におけるロボット装置 1は、 上述したマン .マシ ン ' インタフェースュニットの制御方法及びシステムを適用することにより、 ュ 一ザの声の調子やユーザの顔の表情からユーザの感情を推定し、 この推定結果に 応じて、 ユーザの感情状態を自身の現在の情動と近似する感情状態に導くように 行動を変化させることができる。
なお、 本発明は、 上述した実施の形態のみに限定されるものではなく、 本発明 の要旨を変更しない範囲において種々の変更が可能であることは勿論である。 例えば、 上述した実施の形態では、 ロボット装置 1の現在感情をユーザを導く ための目標感情 e tとして説明したが、 これに限定されるものではなく、 所望の感 情状態を目標状態 e tとして設定することが可能である。
また、 上述した実施の形態では、 ユーザ或いはロボット装置 1の状態を位相平 面上の一点として表現したが、 これに限定されるものではなく、 例えば図 1 5に 示したような位相空間上の一点として表現するようにしても構わない。 産業上の利用可能性 上述したような本発明に係るマン · マシン ·ィンタフェースュニッ トの制御方 法及びシステムによれば、 ある行動を実行する前の初期状態 (感情) 、 その行動 を実行した後の最終状態 (感情) 、 及び実行した行動を示すデータ トリプルを学 習サンプルと して予め収集しておく ことにより、 ユーザを任意の現在状態から所 望の目標状態へと導く ような行動が設定可能となる。 また、 このマン · マシン ' インタフェースユニッ トの制御方法及ぴシステムを、 例えば、 少なく とも感情モ デルを有し、 感情に応じて表出する行動を変化させることのできる自律型のロボ ッ ト装置に適用することにより、 ロボッ ト装置は、 例えばユーザの感情の推定結 果に応じて、 ユーザの感情状態を自身の現在の情動と近似する感情状態に導く よ うに行動を変化させることができ、 エンターティメント性が向上する。

Claims

請求の範囲
1. マン ' マシン ' インタフェースユニットを制御する方法において、
少なく とも 1人のユーザに関して、 実行した行動 (a) の前の初期状態 (e i) 及び当該行動後の最終状態 (e f) を検出し、
上記初期状態 (e i) 、 上記最終状態 (e f) 及び上記実行した行動 (a) を表 すデータ トリプルを学習サンプル ( 1 ) として収集し、
上記学習サンプル ( 1 ) 、 実行すべき目標行動を少なくとも導出及び Z又は 初期設定することによりユーザを任意の現在状態 (e j から任意の所望の目標状 態 (e t) へと導くために使用されること
を特徴とする前記方法。
2. 請求の範囲第 1項記載の方法であって、
いずれの場合も、 上記ユーザの上記現在状態 (e。) 及び上記初期状態 (e i) にそれぞれ対応し、 及び/又はそれらの状態を表示する現在状態データ若しくは 初期状態データ (C S D、 I S D) が受け取られ、 及び/又は生成されることを 特徴とする前記方法。
3. 請求の範囲第 1項又は第 2項記載の方法であって、
いずれの場合も、 上記ユーザの上記最終状態 (e f) 及び上記目標状態 (e t) にそれぞれ対応し、 及び/又はそれらの状態を表示する最終状態データ若しくは 目標状態データ (F SD、 T SD) が受け取られ、 及び 又は生成さ.れることを 特徴とする前記方法。
4. 請求の範囲第 1項乃至第 3項のいずれか 1項記載の方法であって、
上記実行した行動 (a ) 及び上記導出された目標行動 ( t ) にそれぞれ対応し、 及びノ又はそれらの行動を表示する行動デ一タ (AD) 及び目標行動データ (T AD) が受け取られ、 及び/又は生成されることを特徴とする前記方法。
5. 請求の範囲第 1項乃至第 4項のいずれか 1項記載の方法であって、
上記現在状態、 上記初期状態、 上記最終状態及びノ又は上記目標状態 (e。、 e i、 e f、 e t) 、 並びにその表示データ及び/又は対応データ (C SD、 I S D、 F S D、 T S D) がいずれの場合も特に 2次元である埋込み位相多様体 (EM、 DM) により表示され、 及び/又はその埋込み位相多様体の形でモデル化される ことを特徴とする前記方法。
6. 請求の範囲第 5項記載の方法であって、
別個の多様体が個別のユーザ及び/又はユーザのクラス用に導出及び/又は使 用され、 及び Z又は、
全てのユーザ用に共通の又は全体的な多様体が導出及び Z又は使用されること を特徴とする前記方法。
7. 請求の範囲第 1項乃至第 6項のいずれか 1項記載の方法であって、
上記実行した行動 (a ) 、 上記導出された目標行動 ( t ) 及び/又は上記表示 データ及び/又は対応データ (AD、 TAD) がいずれの場合も特に 2次元であ る埋込み位相多様体 (AM、 ADM) により表示され、 及びノ又はその埋込み位 相多様体の形でモデル化されることを特徴とする前記方法。
8. 請求の範囲第 1項乃至第 7項のいずれか 1項記載の方法であって、
上記現在状態、 上記初期状態、 上記最終状態及び Z又は上記目標状態 (e。、 e i、 e e t) として感情状態が使用されることを特徴とする前記方法。
9. 請求の範囲第 1項乃至第 8項のいずれか 1項記載の方法であって、
各ユーザについて、 学習サンプル ( 1 ) の集合 (L) に基づき、 トランスモー シ 3ンマッビング (T)
T : E Θ A→ E
く eに a > E (g) A → ef: = Ί (ei , a ) = Ία ( ei ) ζ Ε
が導出され、
Εが状態又はその状態データについての位相多様体 (EM、 EDM) の 1つで ある感情多様体を意味し、 Aが行動又は行動データについての位相多様体 (AM、 ADM) の 1つである行動多様体を意味し、 e i, e £, aが感情多様体 E及び行 動多様体 Aの各要素をそれぞれ意味すること
を特徴とする前記方法。
1 0. 請求の範囲第 1項乃至第 9項のいずれか 1項記載の方法であって、 任意のュ一ザの任意の所望の初期状態及び/又は目標状態 (e e t) につい て、 任意の現在状態 (e。) 、 最終状態 (e f) 及び実行済みの行動 (a ) を含む 既にサンプリングされた学習サンプルから、 初期状態及び現在状態 (e i、 e c) 及び/又は最終状態及び目標状態 (e i、 e t) 及び Z又はそれらのデータ ( I S D; C S D、 F S D、 T S D) が近傍の位相にある行動 (a ) 、 目標行動 ( t ) として選択されることを特徴とする前記方法。
1 1. 請求の範囲第 1 0項記載の方法であって、
上記近傍を導出及びノ又は記述するために、 上記状態 (e " e。、 e f、 e t) 及び/又は行動 (a、 t ) の距離測定、 計量、 連続性、 方向及び/又はべク トル 特性が使用されることを特徴とする前記方法。
1 2. 請求の範囲第 1項乃至第 1 1項のいずれか 1項記載の方法であって、 任意のユーザを目標状態 (e t) へと導き、 上記ユーザにとっての任意の所望の 最終状態 (e f) に最も適合するようにするために、 実行すべき一連の行動 (a ) が上記目標行動 ( t ) として実行すべきものとして導出又は初期設定されること を特徴とする前記方法。
1 3. 請求の範囲第 1項乃至第 1 2項のいずれか 1項記載の方法であって、 導出された目標行動 ( t ) 及び/又はそのデータ (TAD) に修正が含められ、 及び/又は修正が行われることを特徴とする前記方法。
1 4. 請求の範囲第 1 3項記載の方法であって、
上記修正が、 位相、 距離、 計量、 連続性、 方向及び/又はべク トル特性に基づ き、 確率測定によりランダムに導入されることを特徴とする前記方法。
1 5. 請求の範囲第 1項乃至第 1 4項のいずれか 1項記載の方法であって、 得られた学習サンプル ( 1 ) が、 特に上記位相多様体 (EM、 EDM, AM、 ADM) を導出するために生成されることを特徴とする前記方法。
1 6. 請求の範囲第 1 5項記載の方法であって、
特に共通の及び/又は全体的な位相多様体を導出するために、 上記学習サンプ ル ( 1 ) を一般化するステップが、 少なく とも、 異なるユーザからの学習サンプ ル ( 1 ) を平均化及び/又は加重するステップからなり、 上記異なるユーザが、 その典型的な状態及びノ又は行動に応じて、 特に感情に基づき集団化されること を特徴とする前記方法。
1 7. 請求の範囲第 1 5項又は第 1 6項記載の方法であって、
上記学習サンプル ( 1 ) を一般化するステップが、 少なくとも、 特に射影によ り行動多様体 (AM、 ADM) の次元を減らすステップからなることを特徴とす る前記方法。
1 8. 詰求の範囲第 1 5項乃至第 1 7項のいずれか 1項記載の方法であって、 上記学習サンプル ( 1 ) を一般化するステップが、 少なくとも、 任意の学習サ ンプル ( 1 ) の近傍の範囲を拡大及び/又は縮小するステップからなり、 特に、 最終状態 (e f) 及び/又は目標行動 ( t) が全ての初期状態 ( e i) について有 効である地点まで、 及び Z又は最終状態 (e ,) が無関係となり、 状態の変化の方 向だけが考慮される地点まで、 上記任意の学習サンプル ( 1 ) の内部において、 初期状態 (e i) 、 最終状態 (e f) 及び目標行動 ( t) の全てのトリプルが上記 任意の学習サンプル ( 1 ) と等価であると分類されることを特徴とする前記方法。
1 9. 請求の範囲第 1項乃至第 1 8項のいずれか 1項記載のマン ·マシン · ィン タフエースュニットの制御方法及び/又はそのステップを実行及び Z又は実現す ることが可能なマン · マシン · ィンタフェースュニッ トの制御システム。
20. コンピュータ又はデジタル信号処理手段により実行された際に請求の範囲 第 1項乃至第 1 8項のいずれか 1項記載のマン ' マシン ' インタフェースュニッ トの制御方法及ぴノ又はそのステップを実行及び/又は実現するのに適したコン ピュータプログラム手段からなるコンピュータプログラム製品。
2 1. 内部及び外部の状況に応じて行動するロボット装置であって、
上記ロボット装置のユーザの状態を検出する状態検出手段と、
上記ユーザの所望の目標状態を設定する目標状態設定手段と、
上記状態検出手段によって検出された上記ユーザの状態を、 上記目標状態に導 くために実行すべき行動を決定する行動決定手段と、
上記決定された行動を実行する制御手段と
を備えることを特徴とするロボット装置。
2 2. 請求の範囲第 21項記載のロボット装置であって、 さらに学習手段を備え、
上記状態検出手段によって検出された上記ユーザの状態を、 上記目標状態に導 くために実行すべき行動は、 上記学習手段によって更新されること
を特徴とするロボッ ト装置。
2 3 . 請求の範囲第 2 2項記載のロボット装置であって、
上記学習手段は、 上記ユーザに関して、 実行した行動の前の初期状態、 当該行 動後の最終状態及び当該実行した行動を表すデータトリプルを学習サンプルとし て収集し、
上記行動決定手段は、 上記学習サンプルに基づいて上記実行すべき行動を決定 すること
を特徴とするロボット装置。
2 4 . 請求の範囲第 2 1項記載のロボット装置であって、
上記ユーザの状態及び上記目標状態は、 上記ユーザの感情状態であることを特 徴とするロボット装置。
2 5 . 請求の範囲第 2 4項記載のロボット装置であって、
上記目標状態設定手段は、 上記目標状態として、 上記ロボッ ト装置の感情状態 を用いることを特徴とするロボット装置。
2 6 . 請求の範囲第 2 4項記載のロボット装置であって、
さらに音声認識手段及び画像認識手段を備え、
上記状態検出手段は、 上記ユーザの音声及び顔画像から上記ユーザの上記ユー ザの状態として感情状態を検出すること
を特徴とするロボット装置。
2 7 . 請求の範囲第 2 4項記載のロボット装置であって、
上記感情状態は、 複数次元からなる位相空間中の座標として表現でき、 上記ユーザの状態及び上記目標状態は、 上記位相空間中の座標として与えられ ること
を特徴とするロボット装置。
2 8 . 請求の範囲第 2 4項記載のロボット装置であって、
上記感情状態は、 複数次元からなる位相空間中の座標として表現でき、 上記ユーザの状態及び上記目標状態は、 上記位相空間中の座標を上記複数次元 のうちの 2次元からなる位相平面に投影した座標として与えられること
を特徴とするロボッ ト装置。
2 9 . 内部及び外部の状況に応じて自律的に行動するロボット装置の行動制御方 法であって、
上記ロボット装置のユーザの状態を検出する状態検出工程と、
上記ユーザの所望の目標状態を設定する目標状態設定工程と、
上記状態検出ェ極にて検出された上記ユーザの状態を、 上記目標状態に導くた めに実行すべき行動を決定する行動決定工程と、
当該決定された行動を実行する制御工程と
を有することを特徴とする前記方法。
3 0 . 請求の範囲第 2 9項記載の方法であって、
さらに学習工程を有し、
上記状態検出工程にて検出された上記ユーザの状態を、 上記目標状態に導くた めに実行すべき行動は、 上記学習工程にて更新されることを特徴とする前記方法。
3 1 . 請求の範囲第 3 0項記載の方法であって、
上記学習工程では、 上記ユーザに関して、 実行した行動の前の初期状態、 当該 行動後の最終状態及び当該実行した行動を表すデータ トリプルが学習サンプルと して収集され、
上記行動決定工程では、 上記学習サンプルに基づいて上記実行すべき行動が決 定されること
を特徴とする前記方法。
3 2 . 請求の範囲第 2 9項記載の方法であって、
上記ユーザの状態及び上記目標状態は、 上記ユーザの感情状態であることを特 徴とする前記方法。
3 3 . 請求の範囲第 3 2項記載の方法であって、
上記目標状態設定工程では、 上記目標状態として、 上記ロボット装置の感情状 態が用いられることを特徴とする前記方法。
3 4 . 請求の範囲第 3 2項記載の方法であって、 さらに音声認識工程及び画像認識工程を有し、
上記状態検出工程では、 上記ユーザの音声及び顔画像から上記ユーザの状態と して感情状態が検出されること
を特徴とする前記方法。
3 5 . 請求の範囲第 3 2項記載の方法であって、
上記感情状態は、 複数次元からなる位相空間中の座標として表現でき、 上記ユーザの状態及び上記目標状態は、 上記位相空間中の座標として与えられ ること
を特徴とする前記方法。
3 6 . 請求の範囲第 3 2項記載の方法であって、
上記感情状態は、 複数次元からなる位相空間中の座標として表現でき、 上記ユーザの状態及び上記目標状態は、 上記位相空間中の座標を上記複数次元 のうちの 2次元からなる位相平面に投影した座標として与えられること
を特徴とする前記方法。
PCT/JP2002/005441 2001-06-01 2002-06-03 Man-machine interface unit control method, robot apparatus, and its action control method WO2002099545A1 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2003502598A JPWO2002099545A1 (ja) 2001-06-01 2002-06-03 マン・マシン・インターフェースユニットの制御方法、並びにロボット装置及びその行動制御方法
EP02730881A EP1406135B8 (en) 2001-06-01 2002-06-03 Man-machine interface unit control method; robot apparatus; and its action control method
US10/343,525 US6862497B2 (en) 2001-06-01 2002-06-03 Man-machine interface unit control method, robot apparatus, and its action control method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP01113422A EP1262844A1 (en) 2001-06-01 2001-06-01 Method for controlling a man-machine-interface unit
EP01113422.8 2001-06-01

Publications (1)

Publication Number Publication Date
WO2002099545A1 true WO2002099545A1 (en) 2002-12-12

Family

ID=8177622

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2002/005441 WO2002099545A1 (en) 2001-06-01 2002-06-03 Man-machine interface unit control method, robot apparatus, and its action control method

Country Status (4)

Country Link
US (1) US6862497B2 (ja)
EP (2) EP1262844A1 (ja)
JP (1) JPWO2002099545A1 (ja)
WO (1) WO2002099545A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006030529A1 (ja) * 2004-09-17 2006-03-23 National Institute Of Advanced Industrial Science And Technology 擬似感情形成手段を備えた模擬生物装置
JP2009500755A (ja) * 2005-07-01 2009-01-08 マイクロソフト コーポレーション 文書視覚構造の文法的な解析
US7689322B2 (en) 2004-06-07 2010-03-30 Sony Corporation Robot apparatus and method of controlling the motion thereof
US8306929B2 (en) 2009-12-02 2012-11-06 Phison Electronics Corp. Emotion engine, emotion engine system and electronic device control method
US8315454B2 (en) 2004-09-14 2012-11-20 Sony Corporation Robot apparatus and method of controlling the behavior thereof
JP2014126946A (ja) * 2012-12-25 2014-07-07 Korea Inst Of Industrial Technology 人工情緒発生装置及び方法

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7089218B1 (en) * 2004-01-06 2006-08-08 Neuric Technologies, Llc Method for inclusion of psychological temperament in an electronic emulation of the human brain
US7925492B2 (en) 2004-01-06 2011-04-12 Neuric Technologies, L.L.C. Method for determining relationships through use of an ordered list between processing nodes in an emulated human brain
US20070156625A1 (en) * 2004-01-06 2007-07-05 Neuric Technologies, Llc Method for movie animation
JP2004001162A (ja) * 2002-03-28 2004-01-08 Fuji Photo Film Co Ltd ペットロボット充電システム、受取装置、ロボット、及びロボットシステム
US7170252B2 (en) * 2003-07-23 2007-01-30 Renesas Technology Corporation Location aware automata
JP2005293052A (ja) * 2004-03-31 2005-10-20 Honda Motor Co Ltd 顧客応対ロボット
US8473449B2 (en) * 2005-01-06 2013-06-25 Neuric Technologies, Llc Process of dialogue and discussion
US7725418B2 (en) * 2005-01-28 2010-05-25 Honda Motor Co., Ltd. Responding to situations using multidimensional semantic net and Bayes inference
JP4663484B2 (ja) * 2005-04-25 2011-04-06 株式会社日立製作所 システムセキュリティ設計・評価支援ツール、システムセキュリティ設計支援ツール、システムセキュリティ設計・評価支援プログラム、およびシステムセキュリティ設計支援プログラム
KR101248353B1 (ko) * 2005-06-09 2013-04-02 가부시키가이샤 에이.지.아이 피치 주파수를 검출하는 음성 해석 장치, 음성 해석 방법,및 음성 해석 프로그램
US7370022B2 (en) * 2005-07-08 2008-05-06 Honda Motor Co. Building plans for household tasks from distributed knowledge
US8019713B2 (en) * 2005-07-08 2011-09-13 Honda Motor Co., Ltd. Commonsense reasoning about task instructions
EP1924941A2 (en) * 2005-09-16 2008-05-28 Imotions-Emotion Technology APS System and method for determining human emotion by analyzing eye properties
US7603330B2 (en) 2006-02-01 2009-10-13 Honda Motor Co., Ltd. Meta learning for question classification
US8200354B2 (en) * 2006-04-21 2012-06-12 The Boeing Company Assembly task verification system and method
US20070288898A1 (en) * 2006-06-09 2007-12-13 Sony Ericsson Mobile Communications Ab Methods, electronic devices, and computer program products for setting a feature of an electronic device based on at least one user characteristic
KR100850352B1 (ko) * 2006-09-26 2008-08-04 한국전자통신연구원 상태 정보를 이용하여 감성을 표현하기 위한 지능형 로봇의감성 표현 장치 및 그 방법
US20080119959A1 (en) * 2006-11-21 2008-05-22 Park Cheonshu Expression of emotions in robot
JP5109098B2 (ja) * 2007-06-14 2012-12-26 本田技研工業株式会社 運動制御システム、運動制御方法および運動制御プログラム
US8213706B2 (en) * 2008-04-22 2012-07-03 Honeywell International Inc. Method and system for real-time visual odometry
US20100010370A1 (en) 2008-07-09 2010-01-14 De Lemos Jakob System and method for calibrating and normalizing eye data in emotional testing
WO2010018459A2 (en) 2008-08-15 2010-02-18 Imotions - Emotion Technology A/S System and method for identifying the existence and position of text in visual media content and for determining a subject's interactions with the text
US8798374B2 (en) * 2008-08-26 2014-08-05 The Regents Of The University Of California Automated facial action coding system
TW201019242A (en) * 2008-11-11 2010-05-16 Ind Tech Res Inst Personality-sensitive emotion representation system and method thereof
WO2010100567A2 (en) 2009-03-06 2010-09-10 Imotions- Emotion Technology A/S System and method for determining emotional response to olfactory stimuli
CN101618280B (zh) * 2009-06-30 2011-03-23 哈尔滨工业大学 具有人机交互功能的仿人头像机器人装置及行为控制方法
US8793119B2 (en) * 2009-07-13 2014-07-29 At&T Intellectual Property I, L.P. System and method for generating manually designed and automatically optimized spoken dialog systems
KR100968944B1 (ko) * 2009-12-14 2010-07-14 (주) 아이알로봇 로봇 동기화 장치 및 그 방법
KR101678018B1 (ko) * 2010-01-22 2016-11-22 삼성전자주식회사 감성 모델 장치 및 감성 모델 장치의 행동 결정 방법
US11484685B2 (en) 2010-06-07 2022-11-01 Affectiva, Inc. Robotic control using profiles
US20180144649A1 (en) * 2010-06-07 2018-05-24 Affectiva, Inc. Smart toy interaction using image analysis
US10897650B2 (en) * 2010-06-07 2021-01-19 Affectiva, Inc. Vehicle content recommendation using cognitive states
FR2962048A1 (fr) * 2010-07-02 2012-01-06 Aldebaran Robotics S A Robot humanoide joueur, methode et systeme d'utilisation dudit robot
US8782175B2 (en) * 2011-09-27 2014-07-15 Adobe Systems Incorporated Beacon updating for video analytics
US8955004B2 (en) 2011-09-27 2015-02-10 Adobe Systems Incorporated Random generation of beacons for video analytics
US9002768B2 (en) * 2012-05-12 2015-04-07 Mikhail Fedorov Human-computer interface system
NO336991B1 (no) * 2014-01-10 2015-12-14 Vibsim Fremgangsmåte og innretning for vibrasjonsanalyse
US9679380B2 (en) * 2014-01-30 2017-06-13 Futurewei Technologies, Inc. Emotion modification for image and video content
EP2933067B1 (en) * 2014-04-17 2019-09-18 Softbank Robotics Europe Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method
US9409294B1 (en) 2015-03-05 2016-08-09 Toyota Motor Engineering & Manufacturing North America, Inc. Hierarchical geometric plan composition (HGPC) framework for robot task planning
FR3041326B1 (fr) * 2015-09-18 2019-05-10 Safran Aircraft Engines Systeme et procede d'aide a la decision pour la maintenance d'une machine avec apprentissage d'un modele de decision supervise par avis d'experts
JP6701483B2 (ja) * 2015-11-10 2020-05-27 株式会社国際電気通信基礎技術研究所 アンドロイドロボットの制御システム、装置、プログラムおよび方法
CN107103269A (zh) * 2016-02-23 2017-08-29 芋头科技(杭州)有限公司 一种表情反馈方法及智能机器人
CN107293292A (zh) * 2016-03-31 2017-10-24 深圳光启合众科技有限公司 基于云端的设备及其操作方法
US11000953B2 (en) * 2016-08-17 2021-05-11 Locus Robotics Corp. Robot gamification for improvement of operator performance
WO2019100319A1 (en) * 2017-11-24 2019-05-31 Microsoft Technology Licensing, Llc Providing a response in a session
US11597085B2 (en) 2018-09-13 2023-03-07 The Charles Stark Draper Laboratory, Inc. Locating and attaching interchangeable tools in-situ
EP3864575A4 (en) 2018-10-09 2021-12-01 Magic Leap, Inc. VIRTUAL AND AUGMENTED REALITY SYSTEMS AND PROCESSES
KR102228866B1 (ko) * 2018-10-18 2021-03-17 엘지전자 주식회사 로봇 및 그의 제어 방법
CN109961054A (zh) * 2019-03-29 2019-07-02 山东大学 一种基于感兴趣区域特征点运动的焦虑、抑郁、愤怒表情识别方法
CN112947069B (zh) * 2021-01-28 2022-10-28 内蒙古大学 一种移动两轮机器人的控制方法
CN114842399B (zh) * 2022-05-23 2023-07-25 马上消费金融股份有限公司 视频检测方法、视频检测模型的训练方法及装置
CN116352727B (zh) * 2023-06-01 2023-10-24 安徽淘云科技股份有限公司 一种仿生机器人的控制方法及相关设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0367528A2 (en) 1988-10-31 1990-05-09 Texas Instruments Incorporated Hierarchical control system for automatically guided vehicles
JPH05162569A (ja) * 1991-12-12 1993-06-29 Mazda Motor Corp 学習制御自動車
US5486998A (en) 1993-06-14 1996-01-23 Amax Coal West, Inc. Process stabilizing process controller
JPH11259129A (ja) * 1998-03-09 1999-09-24 Yamaha Motor Co Ltd 自律移動体の制御方法
JP2000181896A (ja) * 1998-12-11 2000-06-30 Atr Media Integration & Communications Res Lab 学習型相互作用装置
JP2001038658A (ja) * 1999-08-04 2001-02-13 Yamaha Motor Co Ltd ロボットにおける触覚表現システム
JP2001100888A (ja) * 1999-09-30 2001-04-13 Sony Corp 情動入力装置及び方法、情動駆動型の情報処理システム、ならびに、プログラム記録媒体

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE463338B (sv) * 1989-06-14 1990-11-05 Ludwik Liszka Saett att oevervaka och/eller diagnosticera aktuella drifttillstaand hos komplicerade maskiner
US5378155A (en) * 1992-07-21 1995-01-03 Teledyne, Inc. Combat training system and method including jamming
US5228854A (en) * 1992-07-21 1993-07-20 Teledyne, Inc. Combat training system and method
CA2081519C (en) * 1992-10-27 2000-09-05 The University Of Toronto Parametric control device
SE9304246L (sv) * 1993-12-22 1995-06-23 Asea Brown Boveri Förfarande vid övervakning av multivariata processer
EP1035953B1 (de) * 1997-12-06 2003-08-06 Elan Schaltelemente GmbH &amp; Co. KG Überwachungs- und steuergerät sowie verfahren zur überwachung einer technischen anlage mit erhöhten sicherheitsanforderungen, insbesondere eines handhabungsgerätes
JP3765356B2 (ja) * 1997-12-22 2006-04-12 ソニー株式会社 ロボツト装置
US6199030B1 (en) * 1998-06-19 2001-03-06 Microsoft Corporation Heightened realism for computer-controlled units in real-time activity simulation
US6763325B1 (en) * 1998-06-19 2004-07-13 Microsoft Corporation Heightened realism for computer-controlled units in real-time activity simulation
US5960381A (en) * 1998-07-07 1999-09-28 Johnson Controls Technology Company Starfield display of control system diagnostic information
JP3544477B2 (ja) * 1998-10-02 2004-07-21 本田技研工業株式会社 内燃機関の制御装置
EP1112822A4 (en) * 1999-05-10 2005-07-20 Sony Corp ROBOTS AND CONTROL PROCESSES THEREOF
JP2000038658A (ja) 1999-07-30 2000-02-08 Sumitomo Heavy Ind Ltd テフロン薄膜作製装置
JP2001191276A (ja) * 1999-10-29 2001-07-17 Sony Corp ロボットシステム、ロボット装置及びその外装

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0367528A2 (en) 1988-10-31 1990-05-09 Texas Instruments Incorporated Hierarchical control system for automatically guided vehicles
JPH05162569A (ja) * 1991-12-12 1993-06-29 Mazda Motor Corp 学習制御自動車
US5486998A (en) 1993-06-14 1996-01-23 Amax Coal West, Inc. Process stabilizing process controller
JPH11259129A (ja) * 1998-03-09 1999-09-24 Yamaha Motor Co Ltd 自律移動体の制御方法
JP2000181896A (ja) * 1998-12-11 2000-06-30 Atr Media Integration & Communications Res Lab 学習型相互作用装置
JP2001038658A (ja) * 1999-08-04 2001-02-13 Yamaha Motor Co Ltd ロボットにおける触覚表現システム
JP2001100888A (ja) * 1999-09-30 2001-04-13 Sony Corp 情動入力装置及び方法、情動駆動型の情報処理システム、ならびに、プログラム記録媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1406135A4

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7689322B2 (en) 2004-06-07 2010-03-30 Sony Corporation Robot apparatus and method of controlling the motion thereof
US8315454B2 (en) 2004-09-14 2012-11-20 Sony Corporation Robot apparatus and method of controlling the behavior thereof
WO2006030529A1 (ja) * 2004-09-17 2006-03-23 National Institute Of Advanced Industrial Science And Technology 擬似感情形成手段を備えた模擬生物装置
JP2009500755A (ja) * 2005-07-01 2009-01-08 マイクロソフト コーポレーション 文書視覚構造の文法的な解析
US8249344B2 (en) 2005-07-01 2012-08-21 Microsoft Corporation Grammatical parsing of document visual structures
US8306929B2 (en) 2009-12-02 2012-11-06 Phison Electronics Corp. Emotion engine, emotion engine system and electronic device control method
JP2014126946A (ja) * 2012-12-25 2014-07-07 Korea Inst Of Industrial Technology 人工情緒発生装置及び方法

Also Published As

Publication number Publication date
US20040039483A1 (en) 2004-02-26
EP1406135A4 (en) 2009-05-27
EP1406135B1 (en) 2012-08-15
EP1406135A1 (en) 2004-04-07
EP1262844A1 (en) 2002-12-04
US6862497B2 (en) 2005-03-01
EP1406135B8 (en) 2012-10-17
JPWO2002099545A1 (ja) 2004-09-16

Similar Documents

Publication Publication Date Title
WO2002099545A1 (en) Man-machine interface unit control method, robot apparatus, and its action control method
US11937929B2 (en) Systems and methods for using mobile and wearable video capture and feedback plat-forms for therapy of mental disorders
JP6816925B2 (ja) 育児ロボットのデータ処理方法及び装置
JP4590717B2 (ja) 顔識別装置及び顔識別方法
WO2017215297A1 (zh) 云端互动系统及其多感知型智能机器人和感知互动方法
KR100864339B1 (ko) 로봇 장치 및 로봇 장치의 행동 제어 방법
US8675981B2 (en) Multi-modal gender recognition including depth data
US11501794B1 (en) Multimodal sentiment detection
Feng et al. Learn2smile: Learning non-verbal interaction through observation
Szwoch et al. Emotion recognition for affect aware video games
KR20150057424A (ko) 증강현실 아바타 상호작용 방법 및 시스템
JP7205148B2 (ja) ロボット、制御方法、及び、プログラム
CN114995657B (zh) 一种智能机器人的多模态融合自然交互方法、系统及介质
JPWO2018168369A1 (ja) 機械学習装置および機械学習プログラム
US11780098B2 (en) Robot, robot control method, and recording medium
CN115757706A (zh) 使用图像数据的活动讲话者检测
JP2002219677A (ja) ロボット装置及びロボット装置の行動制御方法
Rett et al. Bayesian reasoning for Laban Movement Analysis used in human-machine interaction
Reale et al. Art critic: Multisignal vision and speech interaction system in a gaming context
JP4774825B2 (ja) 演技評価装置及び方法
Tilmanne et al. Continuous control of style and style transitions through linear interpolation in hidden markov model based walk synthesis
US12011828B2 (en) Method for controlling a plurality of robot effectors
KR102576788B1 (ko) 로봇 인터랙션 행위 생성 장치 및 방법
Somashekarappa et al. Neural network implementation of gaze-target prediction for human-robot interaction
Attamimi et al. The study of attention estimation for child-robot interaction scenarios

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): JP US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR

WWE Wipo information: entry into national phase

Ref document number: 2002730881

Country of ref document: EP

ENP Entry into the national phase

Ref country code: JP

Ref document number: 2003 502598

Kind code of ref document: A

Format of ref document f/p: F

WWE Wipo information: entry into national phase

Ref document number: 2003502598

Country of ref document: JP

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 10343525

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 2002730881

Country of ref document: EP