WO2019198310A1 - 情報処理装置及び情報処理方法、並びにロボット装置 - Google Patents
情報処理装置及び情報処理方法、並びにロボット装置 Download PDFInfo
- Publication number
- WO2019198310A1 WO2019198310A1 PCT/JP2019/003534 JP2019003534W WO2019198310A1 WO 2019198310 A1 WO2019198310 A1 WO 2019198310A1 JP 2019003534 W JP2019003534 W JP 2019003534W WO 2019198310 A1 WO2019198310 A1 WO 2019198310A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- trigger
- unit
- robot
- determination unit
- interactive device
- Prior art date
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 70
- 238000003672 processing method Methods 0.000 title claims abstract description 8
- 230000014509 gene expression Effects 0.000 claims abstract description 132
- 238000001514 detection method Methods 0.000 claims abstract description 28
- 230000002452 interceptive effect Effects 0.000 claims description 83
- 230000033001 locomotion Effects 0.000 claims description 21
- 230000003993 interaction Effects 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 7
- 238000013459 approach Methods 0.000 claims description 5
- 238000000034 method Methods 0.000 abstract description 16
- 230000008569 process Effects 0.000 abstract description 6
- 230000009471 action Effects 0.000 description 157
- 230000006399 behavior Effects 0.000 description 112
- 230000007246 mechanism Effects 0.000 description 72
- 235000015243 ice cream Nutrition 0.000 description 34
- 238000004891 communication Methods 0.000 description 24
- 238000005516 engineering process Methods 0.000 description 24
- 238000012545 processing Methods 0.000 description 24
- 230000008451 emotion Effects 0.000 description 20
- 230000006870 function Effects 0.000 description 20
- 238000006243 chemical reaction Methods 0.000 description 17
- 210000003128 head Anatomy 0.000 description 17
- 230000007704 transition Effects 0.000 description 15
- 210000002414 leg Anatomy 0.000 description 13
- 230000008859 change Effects 0.000 description 12
- 230000015572 biosynthetic process Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 10
- 238000003786 synthesis reaction Methods 0.000 description 10
- 230000001133 acceleration Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 7
- 210000003414 extremity Anatomy 0.000 description 7
- 239000003795 chemical substances by application Substances 0.000 description 6
- 210000005069 ears Anatomy 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 6
- 210000000689 upper leg Anatomy 0.000 description 4
- 210000002683 foot Anatomy 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 210000004394 hip joint Anatomy 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 210000000629 knee joint Anatomy 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 235000011888 snacks Nutrition 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 210000001364 upper extremity Anatomy 0.000 description 2
- 206010002953 Aphonia Diseases 0.000 description 1
- 241000287181 Sturnus vulgaris Species 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000036528 appetite Effects 0.000 description 1
- 235000019789 appetite Nutrition 0.000 description 1
- 210000000544 articulatio talocruralis Anatomy 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 235000009508 confectionery Nutrition 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000000796 flavoring agent Substances 0.000 description 1
- 235000019634 flavors Nutrition 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000001976 improved effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000005923 long-lasting effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 235000019615 sensations Nutrition 0.000 description 1
- 235000011496 sports drink Nutrition 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000003319 supportive effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0242—Determining effectiveness of advertisements
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1664—Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J11/00—Manipulators not otherwise provided for
- B25J11/0005—Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J13/00—Controls for manipulators
- B25J13/003—Controls for manipulators by means of an audio-responsive input
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J13/00—Controls for manipulators
- B25J13/08—Controls for manipulators by means of sensing devices, e.g. viewing or touching devices
- B25J13/088—Controls for manipulators by means of sensing devices, e.g. viewing or touching devices with position, velocity or acceleration sensors
- B25J13/089—Determining the position of the robot with reference to its environment
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09F—DISPLAYING; ADVERTISING; SIGNS; LABELS OR NAME-PLATES; SEALS
- G09F19/00—Advertising or display means not otherwise provided for
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09F—DISPLAYING; ADVERTISING; SIGNS; LABELS OR NAME-PLATES; SEALS
- G09F19/00—Advertising or display means not otherwise provided for
- G09F19/02—Advertising or display means not otherwise provided for incorporating moving display members
- G09F19/08—Dolls, faces, or other representations of living forms with moving parts
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09F—DISPLAYING; ADVERTISING; SIGNS; LABELS OR NAME-PLATES; SEALS
- G09F25/00—Audible advertising
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09F—DISPLAYING; ADVERTISING; SIGNS; LABELS OR NAME-PLATES; SEALS
- G09F27/00—Combined visual and audible advertising or displaying, e.g. for public address
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Definitions
- the technology disclosed in the present specification relates to an information processing apparatus, an information processing method, and a robot apparatus that execute processing for causing a dialogue apparatus to perform a predetermined action.
- Dialogue devices that interact with users have become popular in general households.
- the information provided to the user by this type of interactive device during a conversation may include advertisement information from a company that has a sponsor contract with the manufacturer of the device.
- advertisement information from a company that has a sponsor contract with the manufacturer of the device.
- a promotional phrase is inserted without a context during a voice conversation with the user, or if a promotional video is forcibly played before the user wants to watch the content, the user may feel disgusted.
- advertising is counterproductive.
- a robot control device that selects advertisement information based on user information such as preferences, or controls the timing of presenting advertisement information to the user based on the recognition result of input speech from the user such as “boring” (For example, refer to Patent Document 1).
- a robot that is driven and controlled by this type of robot control device presents advertisement information that matches the user's preference to the user at an unobtrusive timing, and therefore can be expected to improve the user's preference for the advertisement.
- the user is allowed to present an advertisement, such as saying that it is “boring”, there is a concern that the robot cannot present an advertisement and a sufficient advertising effect cannot be obtained.
- it is necessary for the robot control apparatus to accumulate user information in order to determine the user's preference, but effective advertisements can be presented until sufficient user information is accumulated. It may be difficult.
- the conventional advertising methods use image information such as still images and moving images and audio information such as announcements.
- the device that performs the advertisement is not always equipped with a device such as a display for image output and a speaker for speaking. That is, it is assumed that the advertisement is desired to be performed using a device that cannot perform the advertisement using the language information or the image information.
- An object of the technology disclosed in the present specification is to provide an information processing apparatus, an information processing method, and a robot apparatus that execute processing for causing an interaction device to activate an action that leads to advertisement.
- a determination unit that determines that a trigger that should trigger an expression operation that leads to an advertisement is generated by the dialog device;
- the determination unit detects a trigger based on a recognition result of a detection signal of a sensor that detects a surrounding state of the interactive device, and determines an interest level indicated by the trigger. And the said determination part determines the display operation
- the determination unit determines a trigger based on a recognition result of at least one or both of voice information and image information around the interactive device. That is, the determination unit detects that a predetermined keyword has been uttered based on the voice recognition result as a trigger, or the determination unit determines that a predetermined target has appeared based on the image recognition result. Detect as a trigger.
- the determining unit determines the operation of the interactive device including the movement of the interactive device. For example, the determination unit determines an expression operation including the movement of the interactive device according to the direction or distance of the trigger.
- the second aspect of the technology disclosed in this specification is: A determination step of determining that the interactive device has generated a trigger to activate an expression operation that leads to an advertisement; A determination step for determining an expression operation of the interactive device based on the determined trigger; Is an information processing method.
- the third aspect of the technology disclosed in this specification is: A sensor, A drive unit or an output unit; A recognition unit for recognizing a surrounding state based on a detection result of the sensor; Based on the state recognized by the recognition unit, a determination unit that determines the expression operation using the drive unit or the output unit that leads to advertising, Is a robot apparatus.
- an information processing apparatus an information processing method, and a robot apparatus that execute processing for causing a dialog device to activate an action that leads to advertisement.
- FIG. 1 is a diagram illustrating an external configuration example of the robot 1.
- FIG. 2 is a diagram illustrating an internal configuration example of the electric system of the robot 1.
- FIG. 3 is a diagram illustrating a functional configuration example of the main control unit 61.
- FIG. 4 is a diagram illustrating a functional configuration example 1 of the behavior determination mechanism unit 103.
- FIG. 5 is a diagram illustrating a functional configuration example 2 of the behavior determination mechanism unit 103.
- FIG. 6 is a diagram illustrating a functional configuration example 3 of the behavior determination mechanism unit 103.
- FIG. 7 is a diagram illustrating a functional configuration example 4 of the behavior determination mechanism unit 103.
- FIG. 8 is a flowchart showing a processing procedure for performing trigger determination with priority on audio data and image data.
- FIG. 9 is a diagram illustrating a functional configuration example 5 of the behavior determination mechanism unit 103.
- FIG. 1 shows an example of an external configuration of a mobile robot 1 that performs legged walking with four limbs as an example of an interactive device that interacts with a user.
- the robot 1 is an articulated robot having the shape and structure of an animal having four limbs, but is designed to imitate the shape and structure of a dog, which is a typical example of a pet animal.
- the robot 1 can perform various types of expression operations that combine any one of limb movements, sounds, and images, or two or more modals, in accordance with a dialogue with the user.
- FIG. 1 shows roll, pitch, and yaw axes on the robot coordinate system.
- the robot 1 includes a torso unit 2, a head unit 3, a tail 4, and limbs, that is, leg units 6A, 6B, 6C, and 6D.
- the head unit 3 is disposed near the front upper end of the body unit 2 via a neck joint 7 having degrees of freedom in the axial directions of roll, pitch and yaw.
- the head unit 3 includes a camera (stereo camera) corresponding to the “eyes” of the dog, a microphone corresponding to the “ears”, a speaker corresponding to the “mouth”, a touch sensor corresponding to tactile sensation, and the like. It is installed. In addition to these, a sensor constituting the senses of the living body may be included.
- the tail 4 is disposed in the vicinity of the rear upper end of the body unit 2 via a tail joint 8 having a degree of freedom of roll and pitch axis.
- the tail 4 may be curved or swingable.
- the leg units 6A and 6B constitute the left and right front legs, and the leg units 6C and 6D constitute the left and right rear legs.
- Each leg unit 6A, 6B, 6C, 6D is composed of a combination of a thigh unit 9, a shin unit 10, and a foot 13, and is attached to the front, rear, left and right corners of the bottom surface of the body unit 2. ing.
- the thigh unit 9 is connected to each predetermined part of the body unit 2 by a hip joint 11 having degrees of freedom of each axis of roll, pitch, and yaw.
- the thigh unit 9 and the shin unit 10 are connected by a knee joint 12 having a degree of freedom of a roll and a pitch axis.
- the shin unit 10 and the foot 13 are connected by an ankle joint having degrees of freedom of roll and pitch axes.
- the joint degree of freedom of the robot 1 is actually provided by driving an actuator (not shown) such as a motor arranged for each axis.
- an actuator such as a motor arranged for each axis.
- the number of joint degrees of freedom possessed by the robot 1 is arbitrary, and is not limited to the above-described degree of freedom configuration.
- the robot 1 may further include a degree of freedom of joint for shaking the left and right ears.
- an audio output speaker is disposed near the “mouth” of the head unit 3
- a stereo camera is disposed near the left and right “eyes”
- an audio input is disposed near at least one “ear” of the left and right.
- Microphones are arranged.
- FIG. 1 illustrates a quadruped walking robot
- an interactive device that realizes the technique for maintaining mind in this specification is a mobile robot that performs legged walking such as two legs, four legs, and six legs. It may be a robot that employs another moving mechanism such as a crawl type, or a stationary robot that does not move.
- FIG. 2 shows an internal configuration example of the electric system of the robot 1.
- cameras 81 ⁇ / b> L and 81 ⁇ / b> R that function as left and right “eyes” of the robot 1, a microphone 82 that functions as an “ear”, a touch sensor 51, and the like are arranged at predetermined positions.
- a camera constituted by an image sensor such as a CMOS (Complementary Metal Oxide Semiconductor) or a CCD (Charge Coupled Device) is used.
- CMOS Complementary Metal Oxide Semiconductor
- CCD Charge Coupled Device
- the external sensor unit 71 may further include other sensors.
- the external sensor unit 71 may include a sensor capable of measuring or estimating the direction and distance of a predetermined target, such as a LIDAR (Laser Imaging Detection and Ranging) sensor, a TOF (Time OF Flight) sensor, or a laser range sensor.
- the external sensor unit 71 may include a GPS (Global Positioning System) sensor, an infrared sensor, a temperature sensor, a humidity sensor, an illuminance sensor, and the like.
- a speaker 72, a display unit 55, and the like are disposed at predetermined positions as output units.
- the speaker 72 outputs sound and functions as a “mouth”.
- the display unit 55 displays the state of the robot 1 and the response to the user.
- the robot 1 may output information related to advertisement using the speaker 72 or the display unit 55.
- control unit 52 a main control unit 61, a battery 74, an internal sensor unit 73 including a battery sensor 91 and an acceleration sensor 92, an external memory 75, and a communication unit 76 are disposed.
- the control unit 52 is installed, for example, in the body unit 2 of the robot 1.
- the cameras 81 ⁇ / b> L and 81 ⁇ / b> R of the external sensor unit 71 image surrounding circumstances and send the obtained image signal S ⁇ b> 1 ⁇ / b> A to the main control unit 61.
- the microphone 82 collects voice input from the user and sends the obtained voice signal S1B to the main control unit 61.
- the input voice given from the user to the robot 1 includes various command voices (voice commands) such as “walk”, “throw away” or “lift the right hand”, an activation word, and the like.
- voice commands voice commands
- FIG. 2 only one microphone 82 is shown, but two or more microphones may be provided as in the left and right ears.
- the touch sensor 51 of the external sensor unit 71 is disposed, for example, at the top of the head unit 3 and detects the pressure received by the physical action such as “blow” or “slap” from the user.
- the detection result is sent to the main control unit 61 as a pressure detection signal S1C.
- the battery sensor 91 of the internal sensor unit 73 detects the remaining amount of energy of the battery 74 at predetermined intervals, and sends the detection result to the main control unit 61 as a remaining battery level detection signal S2A.
- the acceleration sensor 92 detects the acceleration in the three-axis directions (x-axis, y-axis, and z-axis) for each movement of the robot 1 and uses the detection result as an acceleration detection signal S2B.
- the acceleration sensor 92 may be, for example, an IMU (Internal Measurement Unit) equipped with a three-axis gyro and a three-direction acceleration sensor.
- the external memory 75 stores programs, data, control parameters, and the like, and supplies the programs and data to the memory 61A built in the main control unit 61 as necessary.
- the external memory 75 receives data from the memory 61A and stores it.
- the external memory 75 is configured as a cartridge type memory card such as an SD card, for example, and may be detachable from the main body of the robot 1 (or the control unit 52).
- the communication unit 76 performs data communication with the outside based on a communication method such as Wi-Fi (registered trademark) or LTE (Long Term Evolution). For example, a program such as an application executed by the main control unit 61 and data necessary for executing the program can be acquired from the outside via the communication unit 76. In addition, information necessary for the robot 1 to perform an expression operation that leads to advertisement can be set and changed in the robot 1 from the external device via the communication unit 76. However, details of the display operation that leads to the advertisement will be described later.
- a communication method such as Wi-Fi (registered trademark) or LTE (Long Term Evolution).
- a program such as an application executed by the main control unit 61 and data necessary for executing the program can be acquired from the outside via the communication unit 76.
- information necessary for the robot 1 to perform an expression operation that leads to advertisement can be set and changed in the robot 1 from the external device via the communication unit 76. However, details of the display operation that leads to the advertisement will be described later.
- the main control unit 61 has a built-in memory 61A.
- the memory 61A stores programs and data, and the main control unit 61 performs various processes by executing the programs stored in the memory 61A. That is, the main control unit 61 supplies the image signal S1A, the audio signal S1B, and the pressure detection signal S1C (hereinafter collectively referred to as the images 81L and 81R, the microphone 82, and the touch sensor 51 of the external sensor unit 71, respectively.
- External sensor signal S1, battery remaining amount detection signal S2A and acceleration detection signal S2B (hereinafter collectively referred to as internal sensor signal S2) supplied from battery sensor 91 and acceleration sensor of internal sensor unit 73, respectively.
- the main control unit 61 recognizes the image signal S1A and recognizes the audio signal S1B, and performs a target and keyword detection process that triggers an expression operation that leads to an advertisement (described later).
- the main control unit 61 determines the situation around and inside the robot 1, the command from the user, the determination result of the presence / absence of the action from the user, the control program stored in advance in the internal memory 61 ⁇ / b> A, or at that time Based on various control parameters stored in the loaded external memory 75, the behavior of the robot 1 and the expression operation to be activated for the user are determined, and a control command based on the determination result is generated, It is sent to each sub-control unit 63A, 63B,.
- the sub control units 63A, 63B,... Operate each unit such as the body unit 2, the head unit 3, the leg units 6A, 6B, 6C, and 6D based on the control command supplied from the main control unit 61.
- the driving of an actuator (not shown) to be controlled is controlled.
- the robot 1 swings the head unit 3 up and down, left and right, raises the arm units 6A and 6B of the front legs, and alternately turns the front and rear leg units 6A, 6B, 6C, and 6D.
- the robot 1 swings the head unit 3 up and down, left and right, raises the arm units 6A and 6B of the front legs, and alternately turns the front and rear leg units 6A, 6B, 6C, and 6D.
- the main control unit 61 outputs a sound based on the sound signal S3 to the outside by giving a predetermined sound signal S3 to the speaker 72 as necessary, and when the sound is detected, for example, the display signal S4. Based on the above, a response to the user such as “Dare” is displayed on the display unit 55. Further, the main control unit 61 outputs a drive signal to an LED (not shown) provided at a predetermined position of the head unit 3 and causes the LED to blink, thereby causing the main control unit 61 to function as the display unit 55. Good. This LED functions as an “eye” in appearance.
- FIG. 3 shows a functional configuration example of the main control unit 61 of FIG. Note that the functional configuration shown in FIG. 3 is realized by the main control unit 61 executing a control program stored in the memory 61A.
- the main control unit 61 includes a state recognition information processing unit 101, a model storage unit 102, an action determination mechanism unit 103, a posture transition mechanism unit 104, and a speech synthesis unit 105.
- the state recognition information processing unit 101 recognizes a specific external state.
- the model storage unit 102 stores a model such as the emotion, instinct, or growth state of the robot 1 that is updated based on the recognition result of the state recognition information processing unit 101.
- the behavior determination mechanism unit 103 determines the behavior of the robot 1 based on the recognition result of the state recognition information processing unit 101 and the like.
- the posture transition mechanism unit 104 causes the robot 1 to actually cause an action such as an expression operation to the user based on the determination result of the action determination mechanism unit 103.
- the voice synthesizer 105 generates a synthesized sound that is output from the speaker 72 as a voice.
- the main control unit 61 may further include a functional configuration other than those indicated by reference numerals 101 to 105. Hereinafter, each part will be described in detail.
- Audio signals, image signals, and pressure detection signals are always input to the state recognition information processing unit 101 from the microphone 82, the cameras 81L and 81R, and the touch sensor 51 while the robot 1 is powered on. The Then, the state recognition information processing unit 101 performs a specific external state or a specific action from the user based on the sound signal, the image signal, or the pressure detection signal given from the microphone 82, the cameras 81L and 81R, or the touch sensor 51. Recognizing an instruction from the user, state recognition information representing the recognition result is constantly output to the model storage unit 102 and the action determination mechanism unit 103.
- the state recognition information processing unit 101 includes a voice recognition unit 101A, a pressure processing unit 101C, and an image recognition unit 101D.
- the voice recognition unit 101A detects the presence or absence of voice in the voice signal S1B given from the microphone 82, and outputs the fact that the voice has been detected to the action determination mechanism unit 103 when the voice is detected.
- the voice recognition unit 101A includes a control unit 101a that comprehensively controls information input / output and voice recognition processing of an input voice signal. Further, the voice recognition unit 101A may further include a speaker identification unit 101b that performs speaker identification on the input voice signal.
- the voice recognition unit 101A performs voice recognition, and uses, for example, a command such as “play”, “stop”, “raise the right hand”, and other voice recognition results as state recognition information, and the model storage unit 102 and the action Notify the decision mechanism unit 103.
- the speech recognition unit 101A performs speaker identification on the speech to be recognized by the speaker identification unit 101b, and notifies the model storage unit 102 and the action determination mechanism unit 103 of the result as state recognition information. .
- only one microphone 82 is provided. However, when voice can be input from two or more microphones installed in different places, the voice recognition unit 101A You may make it recognize further the position and direction of a sound source.
- the pressure processing unit 101C processes the pressure detection signal S1C given from the touch sensor 51. Then, as a result of the processing, for example, when the pressure processing unit 101C detects a pressure that is equal to or higher than a predetermined threshold value and for a short time, the pressure processing unit 101C recognizes that the pressure processing unit 101C has been struck and is below the predetermined threshold value. When a long-time pressure is detected, it is recognized as “boiled (praised)”. The pressure processing unit 101C notifies the recognition result to the model storage unit 102 and the action determination mechanism unit 103 as state recognition information.
- the image recognition unit 101D performs image recognition processing using the image signal S1A given from the cameras 81L and 81R.
- the image recognition unit 101D detects, for example, “a red round object” or “a plane perpendicular to the ground and higher than a predetermined height” as a result of the processing, “there is a ball”, “ An image recognition result such as “there is a wall” or a human face is detected is notified to the voice recognition unit 101A, the model storage unit 102, and the action determination mechanism unit 103 as state recognition information.
- the image recognition unit 101D may have a user identification function by face recognition or the like.
- the model storage unit 102 stores and manages models such as an emotion model, an instinct model, and a growth model that express the emotion, instinct, and growth state of the robot 1.
- the emotion model includes, for example, emotional states (degrees) such as “joyfulness”, “sadness”, “anger”, “fun”, and each state has a predetermined range (for example, ⁇ 1. 0 to 1.0, etc.).
- the model storage unit 102 stores a value representing the state of each emotion and changes the value based on the state recognition information from the state recognition information processing unit 101 or the passage of time.
- the instinct model is composed of states (degrees) of desire by instinct such as “appetite”, “sleep desire”, “exercise desire”, and each state is represented by a value in a predetermined range.
- the model storage unit 102 stores a value representing the state of each desire, and changes the value based on the state recognition information from the state recognition information processing unit 101 or the passage of time.
- the growth model is composed of growth states (degrees) such as “childhood”, “adolescence”, “mature age”, “old age”, and each state is represented by a predetermined range of values.
- the model storage unit 102 stores a value representing each growth state, and changes the value based on the state recognition information from the state recognition information processing unit 101 or the passage of time.
- the model storage unit 102 sends the emotion, instinct, and growth states represented by the values of the emotion model, instinct model, and growth model as described above to the behavior determination mechanism unit 103 as state information.
- the model storage unit 102 receives the current or past behavior of the robot 1 from the behavior determination mechanism unit 103, specifically, for example, “ Behavior information indicating the content of an action such as “walked for a long time” is supplied. Therefore, even if the same state recognition information is given from the state recognition information processing unit 101, the model storage unit 102 generates different state information according to the behavior of the robot 1 indicated by the behavior information.
- the behavior information that the user is greeted and the state recognition information that the head is stroked are the model storage unit.
- the value of the emotion model representing “joyfulness” is increased.
- the robot 1 is stroked while performing some kind of work, behavior information indicating that the work is being performed and state recognition information indicating that the head has been stroked are given to the model storage unit 102. In this case, the value of the emotion model representing “joyfulness” is not changed in the model storage unit 102.
- the model storage unit 102 sets the value of the emotion model while referring to not only the state recognition information but also the behavior information indicating the current or past behavior of the robot 1. This causes an unnatural emotional change that increases the value of the emotion model that expresses “joyfulness” when, for example, the user is stroking his / her head while performing some task. You can avoid that.
- the model storage unit 102 can have the above emotion model individually for each user based on the user identification result provided by the voice recognition unit 101A or the image recognition unit 101D. For this reason, the same robot 1 is different from the “joyful” behavior executed for the first user and the “happy” behavior executed for the second user. Therefore, the model storage unit 102 can generate various behaviors according to individual users by sending state information corresponding to the user identification result to the behavior determination mechanism unit 103. Similarly, the robot 1 may perform the display operation that leads to the advertisement for each user.
- model storage unit 102 increases and decreases the values of the instinct model and the growth model based on both the state recognition information and the behavior information, as in the emotion model.
- model storage unit 102 is configured to increase or decrease the values of the emotion model, instinct model, and growth model based on the values of other models.
- the behavior determination mechanism unit 103 determines the next behavior of the robot 1 based on the state recognition information output from the state recognition information processing unit 101, the state information output from the model storage unit 102, the passage of time, and the like.
- the content of the determined action does not require voice recognition processing or image recognition processing such as “dancing”
- the content of the action is used as behavior command information, and the posture transition mechanism To the unit 104.
- the behavior determination mechanism unit 103 manages a finite automaton in which behaviors that the robot 1 can take correspond to states as behavior models that regulate the behavior of the robot 1. Then, the behavior determination mechanism unit 103 uses the state recognition information from the state recognition information processing unit 101 as the state in the finite automaton as the behavior model, the value of the emotion model, instinct model, or growth model in the model storage unit 102, Transition is performed based on the passage of time or the like, and an action corresponding to the state after the transition is determined as an action to be taken next.
- the action determination mechanism unit 103 when the action determination mechanism unit 103 detects that a predetermined trigger has occurred, it changes the state. That is, the behavior determination mechanism unit 103 is supplied from the model storage unit 102 when, for example, the time during which the behavior corresponding to the current state is executed reaches a predetermined time or when specific state recognition information is received. The state is changed when the emotion, instinct, and growth state values indicated by the state information are below or above a predetermined threshold.
- the behavior determination mechanism unit 103 is based not only on the state recognition information from the state recognition information processing unit 101 but also on the emotion model, instinct model, growth model value, etc. in the model storage unit 102. , Transition the state in the behavior model. Therefore, even if the same state recognition information is input to the action determination mechanism unit 103, depending on the value of the emotion model, instinct model, and growth model (state information), the state transition determined by the action determination mechanism unit 103 The destination is different.
- the behavior determination mechanism unit 103 generates behavior command information for causing the robot 1 to speak in addition to the behavior command information for operating the head and limbs of the robot 1.
- Action command information for causing the robot 1 to speak is supplied to the speech synthesizer 105.
- the action command information supplied to the speech synthesizer 105 includes text data corresponding to the synthesized sound generated by the speech synthesizer 105.
- the voice synthesis unit 105 when receiving the action command information from the action determination mechanism unit 103, the voice synthesis unit 105 generates a synthesized sound based on the text data included in the action command information, and supplies the synthesized sound to the speaker 72 for output.
- the action determination mechanism unit 103 causes the display unit 55 to display a text as a prompt corresponding to the utterance or when the utterance is not made, instead of the utterance. For example, when a voice is detected and turned around, a text such as “who?” Or “What?” Can be displayed as a prompt on the display unit 55 or can be generated from the speaker 72.
- the action determination mechanism unit 103 inputs an image recognition result and a voice recognition result from the state recognition information processing unit 101, and sets a target or keyword serving as a trigger for invoking a display operation that leads to an advertisement. Processing such as determination and determination of an expression operation based on the determination result is performed, but details will be described later.
- a part or all of the functional configuration indicated by reference numerals 101 to 105 is realized outside the robot 1 (including the cloud) instead of inside the main control unit 61. It is also possible to do.
- a sensor signal of the camera 81L / R, the microphone 82, or the like is transmitted to the cloud by the communication unit 76, and part or all of the processing such as the above recognition processing and action determination is executed on the cloud side, and the processing result in the cloud Is received by the communication unit 76 and output or joint drive is performed on the robot 1.
- the robot 1 performs various expression operations by interacting with the user as an interactive device, or by using movements of the head and limbs.
- the robot 1 also presents advertisement information to a user who is in conversation or is in the vicinity.
- the advertisement information includes, for example, advertisement information from a company that has a sponsor contract with the manufacturer of the robot 1.
- the application for performing the advertisement information presentation process and the content of the advertisement information may be stored in advance in an internal memory such as the memory 61A, or may be supplied from the outside at any time using the exchangeable external memory 75. Good.
- the latest application or advertisement content may be downloaded via the communication unit 76 from a contracted company site via a wide area network such as the Internet.
- the robot 1 performs an advertisement operation for advertisement without any interaction with the user or openly or suddenly, the user is likely to feel disgust, and the advertisement is reversed. There is a problem of becoming effective.
- a technique for presenting advertisements that match the user's interests and interests has been proposed, but it is necessary to accumulate user information in order to properly determine user preferences, until sufficient user information is accumulated. During this period, it may be difficult to present effective advertisements.
- the robot 1 shows a specific response to the product or service that is the target of advertisement within the range of the display action that is normally output, it will lead to advertising and will not be pushed naturally. It is hard to be disgusted.
- the expression operation of the robot leading to the advertisement is the detection result of the robot 1 leading to the advertisement based on the detection result by the external sensor unit 71 or the result of recognizing a specific external state such as voice or image in the state recognition information processing unit 101. Trigger based on.
- the robot 1 uses the keyword. You can list the movements in the direction you heard.
- the keyword referred to here may be, for example, the name of a company contracted with a sponsor, a specific product name provided by the company, a catch phrase, a melody, or the like.
- the model storage unit 102 adds the value of the emotion model “joyful” or “fun” based on the number of times such keywords have been listened to (or voice-recognized). It is also possible to realize an expression operation that the mood of the robot 1 improves after listening many times.
- the robot 1 when the robot 1 recognizes an object as a target or an object associated with the target in an environment where the robot 1 is with the user, the robot 1 rushes to the target. For example, you can go (proactively approach), do not try to leave the place, look like someone who looks like the target, and look very happy when you are given the target.
- the target mentioned here may be, for example, a product provided by a sponsored company, a product poster or signboard, a product logo, a product, or a commercial CM video.
- the model storage unit 102 adds the value of the emotion model “joyfulness” or “fun” based on the number of times such a target is found (or image-recognized), so that the target is determined. It is also possible to realize an expression operation that the mood of the robot 1 improves when viewed many times.
- the dog-shaped robot 1 advertises an ice cream shop that has a sponsor contract using the usual expression operation.
- the robot 1 recognizes an image of a newspaper advertisement that the user is reading and finds an ice cream store logo
- the robot 1 stares at the logo.
- the user can rush to the TV screen.
- the user wants to enter the shop or rushes to the shop and does not want to leave.
- B-2 Setting method of advertisement information Information related to keywords and targets for causing the robot 1 to perform an expression operation that leads to advertisement is stored in advance (for example, before the robot 1 is shipped), for example, in the internal memory unit 61A of the main control unit 61. It may be set, or may be updated online from a predetermined server site or the like via the communication unit 76. In the latter case, it is not necessary for the robot 1 to continuously advertise a specific product or service, and it is possible to switch to advertising a new product or service. The period for advertising one product or service is expected to be relatively long, such as several weeks to several months.
- the robot 1 sets a new noun such as a brand name or brand logo such as a brand name or ice cream flavor name (product name) as a keyword or target. Because it reacts sensitively to targets and targets, it will lead to dissemination of brands and new products. Or, if you want to spread the habit of eating ice cream in the first place, avoid proper nouns such as product names and images unique to specific products, and avoid common nouns such as “ice cream” and “snack” A general ice cream image or the like may be set as a keyword or target.
- the effect of the advertisement can be improved or adapted to the user by changing the target or keyword.
- the advertisement can be performed so as to match the user's profile information such as the user's age, sex, hobbies, and occupation.
- the designer of the robot 1 or an advertiser such as a sponsored company may determine the keyword and target that the robot 1 will react to based on its own advertising policy.
- the advertiser may determine a specific expression operation that the robot 1 is activated in response to a keyword or a target based on its own advertising policy.
- Advertisers such as companies that have sponsored contracts communicate information related to advertisements such as keywords and targets that lead to advertisements, and an expression operation that the robot 1 activates in response to the keywords and targets from an external device. The setting and the setting change of the robot 1 can be made through this.
- a plurality of keywords and targets to be reacted by the robot 1 are set, and an interest level is assigned to each keyword or target. Then, when the robot 1 recognizes a keyword or a target by voice or image recognition processing, the robot 1 activates an expression operation that leads to an advertisement according to the corresponding interest level.
- ⁇ define five levels of interest and assign an interest level to each keyword or target that leads to advertising.
- the lowest level 1 is assigned to a general noun word such as “ice cream” or a general ice cream image
- an intermediate level 3 is assigned to a word or image reminiscent of an advertiser's brand or product.
- the highest level 5 is assigned to a proper noun word such as an advertiser's brand name or product name, or an image of an advertiser's store or a specific product.
- an advertiser such as a company with a sponsor contract can define an event such as a keyword or a target that triggers an expression operation that leads to an advertisement, and can set an interest level for each trigger.
- the correspondence between the trigger and the interest level may be set in advance in the robot 1, or an advertiser or the like may set or change the setting in the robot 1 through the communication unit 76.
- an expression operation that the robot 1 activates is also defined.
- the tail 4 is swung, and at the intermediate level 3, the body unit 2 is turned back (in the direction of the sound source from which the keyword is issued or the direction of the discovered target) and the tail 4 is swung.
- the highest level 5 while swaying the tail 4, it rushes (in the direction of the sound source from which the keyword is emitted or the direction of the discovered target).
- Table 1 shows an example of a correspondence relationship between an interest level and an expression operation that leads to an advertisement. All of the display operations listed in Table 1 are within the range of operations that the robot 1 normally outputs, and it is possible to realize an advertisement that does not make the user feel disgust and does not feel the pressing force. I want you to understand that.
- the designer of the robot 1 can define the correspondence between the level of interest as shown in Table 1 above and the expression operation of the robot 1. Then, the robot 1 is shipped after such data of the facing relationship is set in advance in advance.
- an advertiser or the like may be able to change the correspondence between the interest level set in the robot 1 and the expression operation via the communication unit 76.
- the behavior determination mechanism unit 103 determines whether an external state such as an image or sound recognized by the state recognition information processing unit 101 serves as a trigger for the robot 1 to activate an expression operation that leads to an advertisement. For example, it is determined whether or not text data recognized by the voice recognition unit 101A corresponds to a trigger keyword, and the interest level is determined. Further, the behavior determination mechanism unit 103 determines whether or not the object whose image has been recognized by the image recognition unit 101D corresponds to a trigger target, and calculates its interest level. And the action determination mechanism part 103 determines the action of the robot 1 for invoking the corresponding expression operation based on the interest level of the recognized trigger.
- FIG. 4 shows an example of a functional configuration of the behavior determination mechanism unit 103 for the robot 1 to activate an expression operation that leads to an advertisement based on the voice recognition result.
- the illustrated action determination mechanism unit 103 includes a trigger determination unit 401, a trigger / interest level correspondence table 402, an action determination unit 403, and an interest level / behavior correspondence table 404, and is based on a voice recognition result by the voice recognition unit 101A. Then, the action of the robot 1 for invoking the expression operation that leads to the advertisement is output.
- the trigger determination unit 401 extracts keywords that lead to advertisement based on the voice recognition result.
- the trigger / interest level correspondence table 402 shows a correspondence relationship between keywords serving as triggers for invoking a display operation that leads to advertisements and the interest levels assigned to the keywords.
- keywords serving as triggers for invoking a display operation that leads to advertisements and the interest levels assigned to the keywords.
- an advertiser such as a company with a sponsor contract selects a keyword that leads to an advertisement, assigns an interest level to each keyword, and sets it in the trigger / interest level correspondence table 402.
- the trigger / interest level correspondence table 402 in the action determination mechanism unit 103 can be set from the outside via the communication unit 76, or the setting content can be changed. Table 2 below shows an example of the trigger / interest level correspondence table 402.
- the trigger determination unit 401 sequentially inputs the text data recognized by the speech recognition unit 101A, whether or not the text data matches any of the action triggers listed in the trigger / interest level correspondence table 402. Check. When the text data matches any action trigger, the trigger determination unit 401 obtains the interest level assigned to the action trigger from the corresponding entry in the trigger / interest level correspondence table 402, and It outputs to the action determination part 403 of a back
- the interest level / behavior correspondence table 404 shows a correspondence relationship between the interest level and the expression operation that leads to the advertisement.
- the robot 1 in which the interest level / action correspondence table 404 defined by the designer of the robot 1 is set in advance is shipped.
- an advertiser or the like may be able to change the setting content of the interest level / behavior correspondence table 404 via the communication unit 76.
- Table 3 below shows an example of the interest level / behavior correspondence table 404. All of the action contents listed in Table 3 are within the range of the display operation that the robot 1 normally outputs, and it is difficult for the user to feel disliked and realizes an advertisement that does not make the user feel the pressure. Please understand that you can.
- the behavior determination unit 403 When the action determination unit 403 refers to the interest level / behavior correspondence table 404 and identifies an expression operation corresponding to the interest level of the trigger determined by the trigger determination unit 401, the behavior determination unit 403 activates the expression operation. 1 action is determined and output to the posture transition mechanism unit 104, the voice synthesis unit 105, and the like.
- the behavior determination mechanism unit 103 has the same functional configuration even when the robot 1 activates an expression operation that leads to advertisement based on the image recognition result instead of the voice recognition result. Detailed description is omitted.
- the robot 1 matches the interest level 2 when a CM of an ice cream store is heard while watching a TV program in the living room with the user, for example. Therefore, actions such as raising the ears a little and shaking the tail 4 vigorously are activated. If a user who sees such behavior of the robot 1 pays attention to an ice cream store CM on the television, it leads to an advertisement of the ice cream store.
- a multidimensional scale such as “long-lasting degree of interest” or “excited degree” is used instead of the one-dimensional interest level consisting of a plurality of stages.
- FIG. 5 shows an example of a functional configuration of the behavior determination mechanism unit 103 for the robot 1 to activate an expression operation that leads to an advertisement based on the image recognition result and the voice recognition result.
- the illustrated action determination mechanism unit 103 includes a trigger determination unit 501, a trigger / interest level correspondence table 502, an action determination unit 503, and an interest level / behavior correspondence table 504, and the voice recognition result and image by the voice recognition unit 101A. Based on the image recognition result by the recognition unit 101D, the action of the robot 1 for invoking the expression operation that leads to the advertisement is output.
- the trigger determination unit 501 extracts a keyword that leads to the advertisement based on the voice recognition result, and extracts a target that leads to the advertisement based on the image recognition result.
- a trigger / interest level correspondence table 502 shows a correspondence relationship between a combination of a keyword and a target that triggers an expression operation that leads to an advertisement, and an interest level assigned to each combination of the keyword and the target.
- an advertiser such as a company with a sponsor contract selects a combination of keywords and targets that leads to advertisements, assigns an interest level to each combination of keywords and targets, and sets it in the trigger / interest level correspondence table 502.
- the trigger / interest level correspondence table 502 in the action determination mechanism unit 103 can be set from the outside via the communication unit 76, or the setting content can be changed. Table 4 below shows an example of the trigger / interest level correspondence table 502.
- the trigger determination unit 501 sequentially inputs the text data recognized by the voice recognition unit 101A and the target recognized by the image recognition unit 101D, the combination of the text data and the target is displayed in the trigger / interest level correspondence table 502. Check if it matches any of the action triggers listed. When the combination of the text data and the target matches any action trigger, the trigger determination unit 501 determines the interest level assigned to the action trigger from the corresponding entry in the trigger / interest level correspondence table 502. Acquired and output to the action determination unit 503 in the subsequent stage. When a plurality of action triggers match the input text data and target, the trigger determination unit 501 employs the one with the highest interest level.
- the interest level / behavior correspondence table 504 shows a correspondence relationship between the interest level and the expression operation that leads to the advertisement.
- the robot 1 in which the interest level / action correspondence table 504 defined by the designer of the robot 1 is set in advance is shipped.
- an advertiser or the like may be able to change the setting content of the interest level / behavior correspondence table 504 via the communication unit 76.
- the same interest level / behavior correspondence table 504 as in Table 3 above may be used.
- the action determining unit 503 refers to the interest level / behavior correspondence table 504 and specifies an expression operation corresponding to the interest level of the trigger determined by the trigger determination unit 501, a robot for invoking the expression operation 1 action is determined and output to the posture transition mechanism unit 104, the voice synthesis unit 105, and the like.
- the robot 1 matches the interest level 1 when a CM of an ice cream store is heard while watching a TV program in the living room with the user, for example. So, raise the ear a little, image recognition of the advertisement of the newspaper that the user is reading, find the logo of the ice cream shop, it matches the level of interest 2, so raise the ear a little and shake the tail 4 slowly To do. If a user who sees such behavior of the robot 1 pays attention to an ice cream store CM on TV or pays attention to an advertisement column of a newspaper that is being read, it leads to an advertisement of the ice cream store. .
- two types of modals used for input to the action determination mechanism unit 103 are audio data and image data, but three or more types of modals including the other are used.
- the expression operation of the robot 1 may be determined.
- Configuration example 3 The action determination mechanism unit 103 shown in FIGS. 4 and 5 activates actions that can be expressed on the spot without moving the robot 1 such as the movement of the tail 4 and the ear.
- a moving means or a self-propelled function
- an operation including the movement of the main body of the robot 1 can be activated as an expression operation that leads to advertisement.
- target direction and distance information can be extracted based on the image recognition result by the image recognition unit 101D.
- the direction and distance of the sound source can be estimated based on the sound data of a plurality of channels.
- the robot 1 may be provided with a sensor capable of measuring or estimating the direction and distance, such as a LIDAR, TOF sensor, or laser range sensor, so as to estimate the direction or distance to the target or keyword sound source.
- a sensor capable of measuring or estimating the direction and distance such as a LIDAR, TOF sensor, or laser range sensor, so as to estimate the direction or distance to the target or keyword sound source.
- FIG. 6 shows an example of the functional configuration of the behavior determination mechanism unit 103 for the robot 1 to activate the display operation that leads to the advertisement using the direction and distance to the sound source of the target or keyword. .
- the illustrated action determination mechanism unit 103 includes a trigger determination unit 601, a trigger / interest level correspondence table 602, an action determination unit 603, an interest level / action correspondence table 604, and a direction / distance estimation unit 605. Then, the behavior determination mechanism unit 103 uses the keyword sound source or target direction and distance estimated by the direction / distance estimation unit 605 to perform the behavior of the robot 1 for invoking the expression operation that leads to the advertisement. Output.
- the trigger determination unit 601 extracts a keyword that leads to the advertisement based on the voice recognition result, and extracts a target that leads to the advertisement based on the image recognition result.
- a trigger / interest level correspondence table 602 shows a correspondence relationship between a combination of a keyword and a target that triggers an expression operation that leads to an advertisement, and an interest level assigned to each combination of the keyword and the target.
- an advertiser such as a company with a sponsor contract selects a combination of a keyword and a target that leads to an advertisement, assigns an interest level to each combination of the keyword and the target, and sets them in the trigger / interest level correspondence table 602. .
- the trigger / interest level correspondence table 602 in the action determination mechanism unit 103 can be set or the setting content can be changed from the outside via the communication unit 76. Table 5 below shows an example of the trigger / interest level correspondence table 602.
- the trigger determination unit 601 sequentially inputs the text data recognized by the speech recognition unit 101A and the target recognized by the image recognition unit 101D, the combination of the text data and the target is entered in the trigger / interest level correspondence table 602. Check if it matches any of the action triggers listed. When the combination of the text data and the target matches any action trigger, the trigger determination unit 601 determines the interest level assigned to the action trigger from the corresponding entry in the trigger / interest level correspondence table 602. Acquired and output to the subsequent action determination unit 603. When a plurality of action triggers match the input text data and target, the trigger determination unit 601 employs the one with the highest interest level.
- the direction / distance estimator 605 receives the same multi-channel audio data as input to the speech recognizer 101A, and estimates the direction and distance of the keyword sound source.
- the sound source of the keyword mentioned here is a speaker such as a user who interacts with the robot 1, but it may be a device such as a television that plays CM videos of advertisers such as companies sponsored by a contract.
- a functional part that estimates the direction and distance of the sound source may be arranged in the previous stage of the speech recognition unit 101A or in the speech recognition unit 101A.
- the direction / distance estimation unit 605 receives the image recognition result obtained by the image recognition unit 101D recognizing the image of the stereo camera, and estimates the direction and distance of the target.
- the target referred to here is, for example, an object such as a product provided from a sponsored company, a product poster or signboard, a product logo, a television receiver that plays a product or a commercial CM video.
- the functional part that estimates the direction and distance of the target included in the image data may be arranged after the image recognition unit 101D or in the image recognition unit 101D.
- the direction / distance estimator 606 may estimate the direction and distance of the target using only one of the audio data and the image data, or the direction of the target using both the audio data and the image data at the same time. Or the distance may be estimated.
- the direction / distance estimation unit 605 may be configured using a LIDAR, a TOF sensor, a laser range sensor, or the like that the robot 1 equips as the external sensor unit 71 instead of a plurality of microphones or stereo cameras.
- the interest level / behavior correspondence table 604 shows a correspondence relationship between the distance from the robot 1 to the sound source or target of the keyword and the display operation that leads to the advertisement for each interest level.
- the robot 1 in which the interest level / action correspondence table 604 defined by the designer of the robot 1 is set in advance is shipped.
- an advertiser or the like may change the setting content of the interest level / behavior correspondence table 604 via the communication unit 76.
- Table 6 below shows an example of the interest level / behavior correspondence table 604. All of the action contents listed in Table 6 are within the range of the expression operation that the robot 1 normally outputs, and it is difficult for the user to feel disgust and to realize the advertisement that does not make the user feel the pressure. Please understand that you can.
- the action determining unit 603 refers to the interest level / behavior correspondence table 604, the interest level of the trigger determined by the trigger determining unit 601, the distance to the object or the speaker estimated by the direction / distance estimating unit 605,
- the behavior of the robot 1 for invoking the expression operation is determined and output to the posture transition mechanism unit 104, the speech synthesis unit 105, and the like.
- the robot 1 is able to listen to a commercial of an ice cream store while viewing a TV program that is 4 meters ahead and displayed on the TV screen.
- a commercial of an ice cream store When you find the logo of the ice cream store, it matches interest level 5 and the distance from the sound source and screen of the TV that triggered it is 2 meters or more, so raise your ears a little and shake your tail 4 violently.
- the interest level / behavior correspondence table 604 shown in Table 6 uses information on the direction / distance of the trigger, while the trigger / interest level correspondence table 602 shown in Table 5 shows information on the direction / distance of the trigger. Although not used, a trigger / interest level correspondence table using direction / distance information as an action trigger may be used.
- Configuration example 4 When the robot 1 further has a function of acquiring the current position information of the main body such as GPS, in addition to the voice-recognized keyword and the image-recognized target, the current position is further used for advertising.
- the connected expression operation can be activated. For example, it is possible to assign an interest level according to the distance from the current position of the robot 1 to the destination, or to cause the robot 1 to perform an expression operation according to the distance to the destination.
- the destination mentioned here is specifically a store operated by an advertiser such as a sponsored company.
- an advertiser such as a sponsored company obtained from map information or the like.
- an interest level can be assigned according to the distance to the nearest store. For example, an area within a predetermined distance to the nearest store is expected to be more effective in advertising than if you just heard that the keyword was spoken or just looked at the target image. A high interest level may be assigned.
- FIG. 7 shows a functional configuration example of the action determination mechanism unit 103 for the robot 1 to use the information on the current position to activate the display operation that leads to the advertisement.
- the illustrated action determination mechanism unit 103 includes a trigger determination unit 701, a trigger / interest level correspondence table 702, an action determination unit 703, an interest level / action correspondence table 704, a direction / distance estimation unit 705, and position information acquisition.
- the behavior determination mechanism unit 103 displays a table that leads to the advertisement based on the distance from the current position of the robot 1 acquired by the position information acquisition unit 706 to the nearest store read from the store position information storage unit 707.
- the action of the robot 1 for invoking the outgoing action is output. Further, the behavior determination mechanism unit 103 determines the expression operation that the robot 1 activates in consideration of the direction and distance of the keyword sound source or target estimated by the direction / distance estimation unit 705.
- the position information acquisition unit 706 acquires information on the current position of the robot 1 based on a detection signal of a position sensor such as a GPS sensor included in the external sensor unit 71, for example.
- a position sensor such as a GPS sensor included in the external sensor unit 71
- the position information acquisition unit 706 is not a position sensor, but a SLAM (Simultaneous Localization and Mapping) or Wi-Fi (registered trademark) that performs self-position estimation using a laser range scanner, camera, encoder, microphone array, or the like.
- information on the current position of the robot 1 may be acquired using an alternative technology such as PlaceEngine that estimates the position using a received radio wave from a radio base station.
- the trigger / interest level correspondence table 702 shows a correspondence relationship between a keyword and target combination that triggers an expression operation that leads to an advertisement, and an interest level assigned to the current position of the robot 1.
- an advertiser such as a company with a sponsor contract selects a combination of keywords and targets that leads to advertisements, assigns an interest level to each combination of keywords and targets, and sets it in the trigger / interest level correspondence table 702. .
- the trigger / interest level correspondence table 702 in the action determination mechanism unit 103 can be set or the setting content can be changed from the outside via the communication unit 76.
- Table 7 below shows an example of the trigger / interest level correspondence table 702.
- a high interest level is assigned when the current position of the robot 1 is within a predetermined distance from the nearest store operated by an advertiser such as a company with a sponsor contract.
- the store location information storage unit 707 stores location information of each store operated by an advertiser such as a company that has a sponsor contract.
- the trigger determination unit 701 sequentially inputs the text data recognized by the speech recognition unit 101A and the target recognized by the image recognition unit 101D, the combination of the text data and the target is entered in the trigger / interest level correspondence table 702. Check if it matches any of the action triggers listed. In addition, the trigger determination unit 701 reads out the location information of the nearest store from the current location of the robot 1 acquired by the location information acquisition unit 706 from the store location information storage unit 707 and moves from the current location of the robot 1 to the nearest store. Is listed in the trigger / interest level correspondence table 702 as a behavior trigger.
- the trigger determination unit 701 When the combination of the text data and the target matches one of the action triggers, or when the distance from the current position of the robot 1 to the nearest store is the action trigger, the trigger determination unit 701 The interest level assigned to the action activation trigger is acquired from the corresponding entry in the trigger / interest level correspondence table 702, and is output to the action determination unit 703 at the subsequent stage. When a plurality of action triggers match the input text data and target, the trigger determination unit 701 employs the one with the highest interest level.
- the direction / distance estimator 705 inputs voice data of a plurality of channels that is the same as that input to the speech recognizer 101A, and estimates the direction and distance of the sound source of the keyword (same as above). In addition, the direction / distance estimation unit 705 inputs an image recognition result obtained by the image recognition unit 101D recognizing the image of the stereo camera, and estimates the direction and distance of the target (same as above).
- the interest level / behavior correspondence table 704 shows a correspondence relationship between the distance from the current position of the robot 1 to the nearest store and the display operation that leads to the advertisement for each interest level.
- the robot 1 in which the interest level / action correspondence table 704 defined by the designer of the robot 1 is set in advance is shipped.
- an advertiser or the like may be able to change the setting content of the interest level / behavior correspondence table 704 via the communication unit 76.
- Table 8 below shows an example of the interest level / behavior correspondence table 704.
- different expression operations are defined according to the distance from the current position of the robot 1 to the nearest store. From 5 to 200 meters to the nearest store, an expression behavior is defined that starts walking in the direction of the store (that is, trying to approach further), and from 2 to 5 meters to the nearest store from an area within a radius of 5 meters of the store
- Express action is defined that does not leave for a while (ie, does not leave the spot), and jumps to the nearest store within 2 meters (ie, indicates that it is quite excited) Behavior is defined.
- An expression operation such as approaching the store or not going away from the store is an opportunity for the user to visit the store. All of the action contents listed in Table 8 are within the range of the display action that the robot 1 normally outputs, and it is difficult for the user to feel disliked and realizes an advertisement that does not make the user feel the pressure. Please understand that you can.
- the action determining unit 703 refers to the interest level / behavior correspondence table 704, and the interest level of the trigger determined by the trigger determining unit 701 and the current position of the robot 1 acquired by the position information acquiring unit 706 to the nearest store.
- the action of the robot 1 for invoking the expression operation is determined and output to the posture transition mechanism unit 104, the speech synthesis unit 105, and the like.
- the trigger determination unit 701 determines the interest level “6” and outputs it to the action determination unit 703.
- the action determination unit 703 acquires the location information of the nearest store from the store location information storage unit 707 because the interest level is 6 and the distance to the nearest store is 5 to 200 meters. Trigger actions such as starting to walk in the direction of the store. Further, when the robot reaches an area within a radius of 5 meters of the nearest store, the robot 1 does not try to leave the area for a while. The user follows the robot 1 that has begun to walk autonomously and is guided to the nearest store, which leads to advertising in the ice cream store.
- the highest interest level is assigned to the trigger whose distance from the current position of the robot 1 to the nearest store is within 200 meters.
- the expression operation is determined in preference to the voice data and image data (in other words, the keyword sound source and target information) input to the robot 1.
- the trigger / interest level correspondence table is individually defined by the voice data and image data input to the robot 1 and the current position of the robot 1, and the trigger determination unit 701 gives priority to the voice data and the image data. It is also possible to perform trigger determination (or conversely, trigger determination is performed with priority given to the current position of the robot 1).
- Table 9 below shows an example of a trigger / interest level correspondence table using voice data and image data input to the robot 1 as action triggers.
- Table 10 below shows an example of a trigger / interest level correspondence table in which the current position of the robot 1 is the action trigger.
- the trigger / interest level correspondence table is individually defined as an action trigger that prioritizes the voice data and the image data over the current position of the robot 1 as described above.
- Table 11 it is necessary to define expression operations corresponding to all interest levels S1 to S5 and L1 to L3 determined in each trigger / interest level correspondence table. All of the action contents listed in Table 11 are within the range of the expression operation that the robot 1 normally outputs, and it is difficult for the user to feel disgust and realizes the advertisement that does not make the user feel the push. Please understand that you can.
- the trigger determination unit 701 uses the trigger / interest level correspondence table individually defined by the voice data and image data input to the robot 1 and the current position of the robot 1.
- An example of a processing procedure for performing the trigger determination with priority given to is shown in the form of a flowchart.
- the trigger determination unit 701 is a trigger that uses voice data and image data shown in Table 9 as action triggers. With reference to the interest level correspondence table, the action trigger is detected (step S801).
- the trigger determination unit 701 When the trigger determination unit 701 detects the action trigger from at least one of the voice recognition result and the image recognition result (Yes in step S801), the trigger determination unit 701 displays the interest level corresponding to the voice recognition result and the image recognition result.
- the trigger / interest level correspondence table shown in FIG. 9 is read and output (step S802).
- the trigger determination unit 701 if the trigger determination unit 701 cannot detect the action trigger from either the voice recognition result or the image recognition result (No in step S801), the trigger determination unit 701 subsequently determines the action of the current position of the robot 1 shown in FIG.
- the action trigger is detected with reference to the trigger / interest level correspondence table as the trigger (step S803).
- the trigger determination unit 701 detects the action trigger from the current position of the robot 1 (Yes in step S803), the trigger / interest level corresponding to the current position of the robot 1 is shown in Table 10. The data is read from the correspondence table and output (step S804).
- the trigger determination unit 701 outputs a result that the trigger is not detected. (Step S805), and this process is terminated.
- the behavior determination unit 703 refers to the interest level / behavior correspondence table as shown in Table 11 and the interest level of the trigger determined by the trigger determination unit 701 or the robot acquired by the position information acquisition unit 706.
- the expression operation corresponding to the distance from the current position of 1 to the nearest store is specified, the action of the robot 1 for invoking the expression operation is determined, and the posture transition mechanism unit 104, the voice synthesis unit 105, etc. Output to.
- the trigger determination unit 701 uses the trigger / interest level correspondence table shown in Table 9 and Table 10, and the action determination unit 703 performs the trigger determination by giving priority to audio data and image data according to the processing procedure shown in FIG.
- a trigger based on voice data and image data such as a keyword such as “snack”, “sweets”, or “ice cream” or a target such as a logo of an ice cream store
- the robot 1 Regardless of the distance from the current position to the nearest store, the expression operation of the robot 1 according to the determined interest level is activated.
- the expression operation of the robot 1 according to the interest level determined based on the distance from the current position of the robot 1 to the nearest store is activated. Is done.
- the robot 1 is activated based on a trigger detected based on a voice recognition result or an image recognition result, regardless of who the robot 1 is talking to.
- the displaying operation is the same.
- the effect of the obtained advertisement is different for each user (or for each user profile). For example, there are users who prefer a vigorous expression operation, and there are users who prefer an expression operation that is suppressed to some extent.
- the information on the user with whom the robot 1 is interacting is further used to activate the display operation that leads to the advertisement. Also good.
- FIG. 9 shows an example of a functional configuration of the behavior determination mechanism unit 103 for the robot 1 to activate an expression operation that leads to an advertisement using information on a user who is interacting with the robot 1.
- the illustrated action determination mechanism unit 103 includes a trigger determination unit 901, a trigger / interest level correspondence table 902, an action determination unit 903, an interest level / action correspondence table 904, a user information acquisition unit 905, and a user information storage unit. 906 is provided. Then, the behavior determination mechanism unit 103 uses the user profile acquired by the user information acquisition unit 905 and the user's past information stored in the user information storage unit 906 to activate a display operation that leads to advertisement. The action of the robot 1 for performing is output.
- the trigger determination unit 901 extracts a keyword that leads to the advertisement based on the voice recognition result, and extracts a target that leads to the advertisement based on the image recognition result.
- a trigger / interest level correspondence table 902 shows a correspondence relationship between a combination of a keyword and a target that triggers an expression operation that leads to an advertisement, and an interest level assigned to each combination of the keyword and the target.
- an advertiser such as a company with a sponsor contract selects a combination of a keyword and a target that leads to an advertisement, assigns an interest level to each combination of the keyword and the target, and sets them in the trigger / interest level correspondence table 902. .
- the trigger / interest level correspondence table 902 in the action determination mechanism unit 103 can be set from the outside via the communication unit 76, or the setting content can be changed.
- the trigger / interest level correspondence table 902 may be the same as Table 5 described above.
- the trigger determination unit 901 sequentially inputs the text data recognized by the speech recognition unit 101A and the target recognized by the image recognition unit 101D, the combination of the text data and the target is entered in the trigger / interest level correspondence table 902. Check if it matches any of the action triggers listed. When the combination of the text data and the target matches one of the action triggers, the trigger determination unit 901 selects the interest level assigned to the action trigger from the corresponding entry in the trigger / interest level correspondence table 902. Acquired and output to the action determination unit 903 in the subsequent stage. When a plurality of action triggers match the input text data and target, the trigger determination unit 901 adopts the one with the highest interest level.
- the user information acquisition unit 905 acquires information on the user identified by the voice recognition unit 101A or the image recognition unit 101D based on the voice recognition result or the image recognition result by the user identification function. For example, based on the voice recognition result and the image recognition result, in addition to personal identification, profile information such as the user's age and sex is also acquired. Of course, the user information acquisition unit 905 may acquire user information using a user identification function other than voice recognition and image recognition. Then, the user information acquisition unit 905 allocates a user ID for each user and outputs the user profile information to the user information storage unit 906.
- the user information storage unit 906 stores the profile information for each user acquired by the user information acquisition unit 905 in association with the user ID. Information about the user's reaction can be acquired based on the image recognition result and the voice recognition result when the robot 1 activates the expression operation.
- Table 12 below shows an example of profile information for each user stored in the user information storage unit 906. In the example shown in Table 12, only two types of parameters such as “age” and “gender” are used as user profile information, but other parameters such as “birthplace” and “profession” and three or more types of parameters are used. May be used.
- the interest level / behavior correspondence table 904 shows a correspondence relationship between the user profile and the expression operation that leads to the advertisement of the robot 1 for each interest level.
- the robot 1 in which the interest level / action correspondence table 904 defined by the designer of the robot 1 is set in advance is shipped.
- an advertiser or the like may change the setting content of the interest level / behavior correspondence table 604 via the communication unit 76.
- Table 13 below shows an example of the interest level / behavior correspondence table 904.
- the expression operation of the robot 1 according to the user's age is defined as the user profile. That is, at an interest level of 4 or higher, different expression behaviors are defined for users whose ages are 20s or younger and 30s or older.
- a parameter of profile information other than “age” such as “gender”
- All of the action contents listed in Table 13 are within the range of the display action that the robot 1 normally outputs, and it is difficult for the user to feel disgust and realizes the advertisement that does not make the user feel the pressure. Please understand that you can.
- the behavior determination unit 903 obtains the profile information of the user with whom the robot 1 is interacting from the user information storage unit 906, and then refers to the interest level / behavior correspondence table 904 to determine the trigger determined by the trigger determination unit 601.
- the action of the robot 1 for invoking the expression level is determined and output to the posture transition mechanism unit 104, the voice synthesis unit 105, and the like. To do.
- an advertiser an ice cream store
- a teenage woman speaks to robot 1 while showing an advertisement printed with the brand logo of the ice cream store, saying “XX ice cream looks delicious!”.
- the trigger determination unit 901 determines the interest level “5” from Table 5 above, and the user information acquisition unit 905 outputs “1” as the user ID of the speaker from the user recognition result.
- the user information storage unit 906 outputs profile information including that the age of the user with the user ID “1” is a teenager to the behavior determination unit 903.
- the action determination unit 903 Based on the information that the interest level of the determined trigger is “5” and that the age of the user during the conversation is a teenager, the action determination unit 903 refers to Table 13 above and listens slightly. The robot 1 is selected to move up and jump three times on the spot while shaking the tail 4 violently. By using the user identification function in this way, it is possible to change the behavior of the robot 1 according to the user's profile, and it is possible to cause the robot 1 to act with a high advertising effect for each user.
- a trigger / interest level correspondence table 902 shows a correspondence relationship between a combination of a keyword and a target that triggers an expression operation that leads to an advertisement, and an interest level assigned to each combination of the keyword and the target. .
- the trigger / interest level correspondence table 902 may be the same as Table 5 described above.
- the trigger determination unit 901 sequentially inputs the text data recognized by the speech recognition unit 101A and the target recognized by the image recognition unit 101D, the combination of the text data and the target is entered in the trigger / interest level correspondence table 902. Check if it matches any of the action triggers listed. When the combination of the text data and the target matches one of the action triggers, the trigger determination unit 901 selects the interest level assigned to the action trigger from the corresponding entry in the trigger / interest level correspondence table 902. Acquired and output to the action determination unit 903 in the subsequent stage.
- the user information acquisition unit 905 acquires the user information and profile information identified by the voice recognition unit 101A and the image recognition unit 101D based on the voice recognition result or the image recognition result by the user identification function. Then, the user information acquisition unit 905 allocates a user ID for each user and outputs the user profile information to the user information storage unit 906 (same as above).
- the user information storage unit 906 stores the profile information for each user acquired by the user information acquisition unit 905 in association with the user ID. Further, the user's reaction when the robot 1 activates the expression operation determined by the action determination unit 903 is also stored in association with the user ID as past information of the user. Information about the user's reaction can be acquired based on the image recognition result and the voice recognition result when the robot 1 activates the expression operation. Table 14 below shows an example of past information for each user stored in the user information storage unit 906. In the example shown in Table 14, the user's reaction to each of the expressing motions activated by the robot 1 is evaluated in two stages: “Positive (positive, favorable, supportive)” and “Negative (negative)”. However, you may make it evaluate in three steps or more. Or you may make it evaluate a user's reaction in another form, such as whether the user purchased or used the goods and service which advertised.
- the interest level / behavior correspondence table 904 shows the correspondence between the user's past information and the expression operation that leads to the advertisement of the robot 1 for each interest level.
- the robot 1 in which the interest level / action correspondence table 904 defined by the designer of the robot 1 is set in advance is shipped.
- an advertiser or the like may change the setting content of the interest level / behavior correspondence table 604 via the communication unit 76.
- Table 15 below shows an example of the interest level / behavior correspondence table 904.
- the expression operation of the robot 1 is defined for each interest level, and whether or not it is activated according to the user's past reaction to the expression operation is controlled. That is, the expression operation in which the user's past reaction is positive is repeatedly activated, but the expression operation in which the user's past reaction is negative is suppressed. Of course, the expression operation in which the user's past reaction was positive may be increased, or the expression operation in which the user's past reaction was negative may be replaced with another expression operation. All of the action contents listed in Table 15 are within the range of the expression operation that the robot 1 normally outputs, and it is difficult for the user to feel disgust and to realize the advertisement that does not make the user feel the pressure. Please understand that you can.
- the action determination unit 903 obtains the past information of the user with whom the robot 1 is interacting from the user information storage unit 906, and then refers to the interest level / behavior correspondence table 904 to determine the trigger determined by the trigger determination unit 601.
- the expression level corresponding to the interest level of the user and the user's past information are specified, the behavior of the robot 1 for invoking the expression action is determined, and the posture transition mechanism unit 104, the voice synthesis unit 105, etc. Output to.
- the user information accumulating unit 906 accumulates the user's reaction when the robot 1 activates an expression operation that leads to advertisement in the past.
- the user's reaction here is a “Positive” reaction such as laughing or uttering a word that triggers many times, and an utterance that causes the robot 1 to cease to express itself, such as making a grumpy face or “Stop” “Negative” reactions such as
- the user information acquisition unit 905 acquires user information indicating whether the user reaction is “Positive” or “Negative” based on the voice recognition result by the voice recognition unit 101A and the image recognition result by the image recognition unit 101D. Then, it is stored in the user information storage unit 906. And the action determination part 903 uses the information of the past reaction accumulate
- the trigger determination unit 901 refers to Table 5 above to indicate the level of interest. Is determined to be “4”. Also, the user information acquisition unit 905 specifies that the user ID is “0” based on the user identification result based on voice recognition or image recognition, and outputs it to the user information storage unit 906. Then, when the behavior determination unit 903 obtains information from the user information storage unit 906 that the past reaction of the user with the user ID “0” was “Negative”, the interest level / behavior shown in Table 15 above is obtained.
- the robot 1 does not activate the display operation that leads to the advertisement. In this way, when the user shows discomfort, it is possible to reduce the frequency of invoking the display operation that leads to the advertisement, and the advertisement can be prevented from having an adverse effect.
- the dog-type robot 1 is taken as an example of the dialog device that activates the display operation that leads to the advertisement.
- the dialog device is not limited to the robot.
- the technology disclosed in this specification can be applied to various types of information devices that have interactive functions with users, such as car navigation systems installed in passenger cars and map applications installed in multifunctional information terminals such as smartphones. . For example, if you propose multiple routes with the same arrival time when searching for a route and include navigation that passes in front of the advertiser's store in that route, users will not feel disgusted and will be very natural. Advertising can be realized.
- the trigger that activates the display operation that leads to the advertisement is mainly detected from the audio data or the image data.
- the trigger may be detected using various information other than the sound and the image indicating the interest level, and the interest level may be assigned to the trigger including the sound and the image.
- the user's clothes For example, for advertising using the user's behavior (including behavior history), the user's clothes, the user's location information, the time zone, the interactive device or the user's surrounding environment (temperature, humidity, weather, smell, noise, etc.) You may make it determine the trigger which activates the connected expression operation. It is not necessary for the interactive device such as the robot 1 to directly sense this type of information, and information used for determining a trigger from this type of device by pairing with a device that the user carries or wears such as a smartphone or wearable device. May be obtained.
- the dialogue apparatus may use information obtained from the paired device for advertisement targeting. Thereby, it becomes possible to perform advertisement effectively according to a user's age group and lifestyle. For example, sports drinks can be advertised to users who often jog.
- the dialogue apparatus may actively try to detect the trigger instead of waiting for the expression operation to be performed until a predetermined trigger is detected. For example, in the case of an interactive device equipped with moving means such as the legged robot 1 shown in FIG. 1, it waits for a CM image to act as a trigger when approaching a TV with a power supply, or is placed on the floor. You may search for targeted advertisements from a newspaper.
- the embodiment has been described in which the interactive device activates the expression operation that leads to the advertisement.
- the present invention can be applied to the operation of the expression operation for purposes other than the advertisement.
- the technology disclosed in this specification can also be used for user behavior modification such as improvement of lifestyle habits.
- Interactive devices are happy to respond to the word “walking”, are always fuzzing when it is time to go for a walk, and stabilize when users pick up their outerwear to take a walk.
- the trigger which consists of a target and a target is determined, and the expression operation
- one dialogue device one robot or the like
- an expression operation linked to the purpose is activated.
- the information is transferred to another robot together with its own position.
- the other robot moves to the position of the transmission source robot and appropriately activates the expression operation.
- interactive devices such as robots and voice agents can be linked so as to activate an expression operation connected to one purpose.
- the embodiment has been described in which the interaction operation is triggered by the detection of the predetermined keyword or target by the interactive device.
- the existing keyword or target is An application example is also conceivable in which an action corresponding to a change is activated in detection information, such as invoking an expression operation that leads to a predetermined purpose with a sudden disappearance as a trigger.
- detection information such as invoking an expression operation that leads to a predetermined purpose with a sudden disappearance as a trigger.
- Robot 1 activates an action that expresses sadness. Let Then, the user notices the importance of the ice cream store and leads to the advertisement of the ice cream store.
- the interactive device such as the robot 1 detects a plurality of action triggers at the same time
- the one with the highest interest level is adopted.
- any one of the action triggers detected at the same time is randomly adopted, another action (for example, the robot 1 hangs up) without adopting any action trigger, or
- An action trigger that has not been detected in the past may be employed to preferentially activate an expression operation that has not been used before.
- Advertisement can be implemented within the range of the display operation. For example, it can be expressed by using visual information such as images displayed on a display or facial expressions of eyes and faces, which are expressed using information of sounds other than languages such as speaking, barking, and singing.
- an interactive device such as a robot or a voice agent reacts to a product or service to be advertised within the range of a normal output operation. Advertise in the form of showing. Therefore, the advertisement operation for advertisement can realize the advertisement without feeling the push without interfering with the interaction between the user and the dialogue apparatus.
- a dog-shaped robot 1 when a dog-shaped robot 1 advertises, it is happy to listen to a specific keyword. When a target is found while acting with a user, it does not readily approach that target. , Such as, to trigger advertising. Such an expression operation has an aspect that leads to advertisement, but imitates the actual behavior of a dog. Therefore, the user is interpreted as the personality of the robot 1 that operates autonomously, rather than feeling that the advertisement is pressed. Moreover, compared with the method of presenting advertisement information suddenly during the interaction with the user, the robot 1 can realize advertisement without being disgusted by the user.
- the interactive device since the interactive device performs advertisement within the range of the display operation that is normally output, in other words, it is necessary to present an advertisement that matches the user's interest and interest. There is no. Therefore, even in the situation where sufficient user information cannot be accumulated, or even for advertisements with contents slightly deviating from the user's interest, advertisements can be promoted.
- the embodiment in which the technology disclosed in the present specification is applied to a legged robot has been mainly described.
- the gist of the technology disclosed in the present specification is not limited thereto.
- the technology disclosed in this specification is similarly applied to various types of interactive devices such as mobile robots other than legs, non-mobile interactive robots, voice agents, etc., and it is natural and less disgusting to the user.
- the effect of advertising can be obtained by the method.
- the modality used for the implementation of advertisement is not particularly limited.
- information regarding advertisement may be inserted during voice interaction, or information regarding advertisement may be output using a paired information terminal such as a smartphone.
- a paired information terminal such as a smartphone.
- robots that cannot take language interaction, they can use gestures and means of transportation to speak out advertisement-related behaviors, or use a paired information terminal such as a smartphone to provide information about advertisements. Or may be output.
- a determination unit that determines that a trigger that causes the interactive device to activate an expression operation that leads to an advertisement has occurred;
- a determination unit that determines an expression operation of the interactive device based on the determined trigger;
- An information processing apparatus comprising: (2) The determination unit determines an interest level indicated by the trigger, The determination unit determines the operation of the interactive device according to the level of interest; The information processing apparatus according to (1) above.
- the determination unit detects a trigger based on a recognition result of a detection signal of a sensor that detects a surrounding state of the interactive device.
- the information processing apparatus according to any one of (1) or (2) above.
- the determination unit determines a trigger based on a recognition result of at least one or both of voice information and image information around the interactive device.
- the information processing apparatus according to any one of (1) to (3) above.
- the determination unit detects, as a trigger, that a predetermined keyword is uttered based on the voice recognition result.
- the determination unit detects that a predetermined target appears based on the image recognition result as a trigger.
- the dialogue device has a self-propelled function, The determining unit determines the operation of the interactive device including movement of the interactive device;
- the information processing apparatus according to any one of (1) to (6) above.
- the dialogue device has a self-propelled function, An estimation unit for estimating the direction or distance of the trigger detected by the determination unit; The determination unit determines an expression operation including movement of the interactive device according to a direction or distance of a trigger.
- the information processing apparatus according to any one of (1) to (7).
- the determination unit determines an interest level indicated by the trigger, The determination unit determines an expression operation including an operation in which the interactive device approaches a trigger when the interest level is high.
- the information processing apparatus according to (8) above.
- It further includes a position information acquisition unit that acquires position information of the interactive device, The determination unit determines a trigger in consideration of the current position of the interactive device, or the determination unit determines an expression operation of the interactive device in consideration of the current position of the interactive device.
- the information processing apparatus determines a trigger based on a distance from the current position of the interactive device to a predetermined destination, or the determination unit determines a distance from the current position of the interactive device to a predetermined destination. Determining the display operation of the interactive device based on The information processing apparatus according to any one of (1) to (10) above.
- the dialogue device has a self-propelled function, The determining unit determines an expression operation including movement of the interactive device within a predetermined distance from the current position of the interactive device to the destination.
- the information processing apparatus according to (11) above.
- the determination unit determines an interest level indicated by the trigger, The determination unit determines an expression operation including presence / absence of movement of the interactive device according to a distance from a current position of the interactive device to a predetermined destination when the interest level is high.
- the information processing apparatus according to any one of (11) or (12) above.
- the determination unit determines a trigger by using a recognition result of a detection signal of a sensor that detects a surrounding state of the interactive device in preference to the position information acquired by the position information acquisition unit.
- the information processing apparatus according to any one of (10) to (13).
- the recognition unit further recognizes a user information acquisition unit that acquires information of a user who interacts with the dialogue apparatus, The determination unit determines the display operation of the interactive device using the user information, The information processing apparatus according to any one of (1) to (14). (16) The determination unit determines the display operation of the interactive device using the profile information of the user. The information processing apparatus according to (15) above. (17) The determination unit determines the current display operation of the dialog device based on the user's response to the display operation that the dialog device has been activated in the past. The information processing apparatus according to any one of (15) or (16) above. (18) The interactive apparatus is further provided. The information processing apparatus according to (1) above.
- An information processing method comprising: (20) a sensor; A drive unit or an output unit; A recognition unit for recognizing a surrounding state based on a detection result of the sensor; Based on the state recognized by the recognition unit, a determination unit that determines the expression operation using the drive unit or the output unit that leads to advertising,
- a robot apparatus comprising:
- Voice recognition unit 101a ... Control unit, 101b ... Speaker Identification unit 101C ... Pressure processing unit, 101D ... Image recognition unit, 102 ... Model storage unit 103 ... Action decision mechanism unit, 104 ... Posture transition mechanism unit 105 ... Speech synthesis unit 401 ... Trigger Determination unit 402 ... Trigger / interest level correspondence table 403 ... Behavior determination unit 404 ... Interest level / behavior correspondence table 501 ... Trigger determination unit 502: Trigger / interest level correspondence table 503 ... Behavior determination unit 504 ... Interest level / Action correspondence table 601 ... Trigger determination unit, 602 ... Trigger / interest level correspondence table 603 ... Action determination unit, 604 ... Interest level / behavior correspondence table 605 ...
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Mechanical Engineering (AREA)
- Robotics (AREA)
- Human Computer Interaction (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Marketing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Manipulator (AREA)
- Toys (AREA)
Abstract
対話装置に広告宣伝に繋がる行動を発動させるための処理を実行する情報処理装置及び情報処理方法、並びにロボット装置を提供する。 情報処理装置は、対話装置が広告宣伝に繋がる表出動作を発動すべきトリガが発生したことを判定する判定部と、判定した前記トリガに基づいて、前記対話装置の表出動作を決定する決定部を具備する。前記判定部は、前記対話装置の周囲の状態を検出するセンサの検出信号の認識結果に基づいてトリガを検出して、そのトリガが示す興味レベルを判定する。そして、前記決定部は、興味レベルに応じた前記対話装置の、広告宣伝に繋がる表出動作を決定する。
Description
本明細書で開示する技術は、対話装置に所定の行動を発動させるための処理を実行する情報処理装置及び情報処理方法、並びにロボット装置に関する。
ロボットや音声エージェントを始め、ユーザと対話する対話装置が一般家庭にも普及してきている。この種の対話装置が対話中などにユーザに提供する情報に、当該装置の製造元とスポンサー契約を結んでいる企業などからの広告情報も含まれることがある。ここで、ユーザと音声対話中に脈絡もなく宣伝文句が挿入されたり、ユーザが視聴したいコンテンツを観る前に強制的に宣伝動画が再生されたりすると、ユーザが嫌悪感を抱いてしまう可能性が高く、広告宣伝が逆効果になってしまう、という問題がある。
例えば、嗜好などのユーザ情報に基づいて広告情報を選択したり、「退屈だ」などのユーザからの入力音声の認識結果に基づいてユーザに広告情報を提示するタイミングを制御したりするロボット制御装置について提案がなされている(例えば、特許文献1を参照のこと)。この種のロボット制御装置により駆動制御されるロボットは、ユーザの嗜好に合った広告情報を、邪魔にならないタイミングでユーザに提示するので、広告に対するユーザの好感度が向上することを期待できる。しかしながら、ユーザが「退屈だ」と言うなど広告の提示を許可しない限り、ロボットは広告を提示することができず、十分な広告宣伝の効果が得られないことが懸念される。付言すれば、当該ロボット制御装置がユーザの嗜好を判断するためにユーザ情報を蓄積していく必要があるが、十分なユーザ情報を蓄積するまでの間は、効果的な広告を提示することが難しいという可能性もある。
また、従来の広告宣伝方法の多くは、静止画や動画などの画像情報と、アナウンスなどの音声情報を用いている。さまざまな装置を用いて広告宣伝を実現しようとした場合、広告宣伝を行う装置が必ずしも画像出力のためのディスプレイや発話するためのスピーカなどのデバイスを装備しているとは限らなくなる。すなわち、言語情報や画像情報を用いた広告宣伝を行うことができない装置を用いて広告宣伝を行いたいことが想定される。
本明細書で開示する技術の目的は、対話装置に広告宣伝に繋がる行動を発動させるための処理を実行する情報処理装置及び情報処理方法、並びにロボット装置を提供することにある。
本明細書で開示する技術は、上記課題を参酌してなされたものであり、その第1の側面は、
対話装置が広告宣伝に繋がる表出動作を発動すべきトリガが発生したことを判定する判定部と、
判定した前記トリガに基づいて、前記対話装置の表出動作を決定する決定部と、
を具備する情報処理装置である。
対話装置が広告宣伝に繋がる表出動作を発動すべきトリガが発生したことを判定する判定部と、
判定した前記トリガに基づいて、前記対話装置の表出動作を決定する決定部と、
を具備する情報処理装置である。
前記判定部は、前記対話装置の周囲の状態を検出するセンサの検出信号の認識結果に基づいてトリガを検出して、そのトリガが示す興味レベルを判定する。そして、前記決定部は、興味レベルに応じた前記対話装置の、広告宣伝に繋がる表出動作を決定する。
前記判定部は、前記対話装置の周囲の音声情報又は画像情報の少なくとも一方又は両方の認識結果に基づいてトリガを判定する。すなわち、前記判定部は、前記音声認識結果に基づいて所定のキーワードが発話されたことをトリガとして検出し、又は、前記判定部は、前記画像認識結果に基づいて所定のターゲットが出現したことをトリガとして検出する。
また、前記対話装置は自走機能を備える場合には、前記決定部は、前記対話装置の移動を含めた前記対話装置の表出動作を決定する。例えば、前記決定部は、トリガの方向又は距離に応じて、前記対話装置の移動を含めた表出動作を決定する。
また、本明細書で開示する技術の第2の側面は、
対話装置が広告宣伝に繋がる表出動作を発動すべきトリガを発生したことを判定する判定ステップと、
判定した前記トリガに基づいて、前記対話装置の表出動作を決定する決定ステップと、
を有する情報処理方法である。
対話装置が広告宣伝に繋がる表出動作を発動すべきトリガを発生したことを判定する判定ステップと、
判定した前記トリガに基づいて、前記対話装置の表出動作を決定する決定ステップと、
を有する情報処理方法である。
また、本明細書で開示する技術の第3の側面は、
センサと、
駆動部又は出力部と、
前記センサの検出結果に基づいて周囲の状態を認識する認識部と、
前記認識部が認識した状態に基づいて、広告宣伝に繋がる前記駆動部又は出力部を用いた表出動作を決定する決定部と、
を具備するロボット装置である。
センサと、
駆動部又は出力部と、
前記センサの検出結果に基づいて周囲の状態を認識する認識部と、
前記認識部が認識した状態に基づいて、広告宣伝に繋がる前記駆動部又は出力部を用いた表出動作を決定する決定部と、
を具備するロボット装置である。
本明細書で開示する技術によれば、対話装置に広告宣伝に繋がる行動を発動させるための処理を実行する情報処理装置及び情報処理方法、並びにロボット装置を提供することができる。
なお、本明細書に記載された効果は、あくまでも例示であり、本発明の効果はこれに限定されるものではない。また、本発明が、上記の効果以外に、さらに付加的な効果を奏する場合もある。
本明細書で開示する技術のさらに他の目的、特徴や利点は、後述する実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。
以下、図面を参照しながら本明細書で開示する技術の実施形態について詳細に説明する。
A.システム構成
図1には、ユーザと対話する対話装置の一例として、四肢による脚式歩行を行う移動式のロボット1の外観構成例を示している。図示の通り、ロボット1は、四肢を有する動物の形状や構造を有した多関節型のロボットであるが、愛玩動物の代表例である犬の形状及び構造を模してデザインされている。また、ロボット1は、ユーザとの対話に応じて、四肢の動作、音声、画像のうちいずれか1つ又は2以上のモーダルを組み合わせた各種の表出動作を行うことができる。また、図1には、ロボット座標系上のロール、ピッチ、及びヨーの各軸を示している。
図1には、ユーザと対話する対話装置の一例として、四肢による脚式歩行を行う移動式のロボット1の外観構成例を示している。図示の通り、ロボット1は、四肢を有する動物の形状や構造を有した多関節型のロボットであるが、愛玩動物の代表例である犬の形状及び構造を模してデザインされている。また、ロボット1は、ユーザとの対話に応じて、四肢の動作、音声、画像のうちいずれか1つ又は2以上のモーダルを組み合わせた各種の表出動作を行うことができる。また、図1には、ロボット座標系上のロール、ピッチ、及びヨーの各軸を示している。
ロボット1は、胴体部ユニット2と、頭部ユニット3と、尻尾4と、四肢すなわち脚部ユニット6A、6B、6C、6Dで構成される。
頭部ユニット3は、ロール、ピッチ及びヨーの各軸方向の自由度を持つ首関節7を介して、胴体部ユニット2の前上端付近に配設されている。また、頭部ユニット3には、イヌの「目」に相当するカメラ(ステレオカメラ)と、「耳」に相当するマイクロホンと、「口」に相当するスピーカと、触感に相当するタッチセンサなどが搭載されている。これら以外にも、生体の五感を構成するセンサを含んでいても構わない。
尻尾4は、ロール及びピッチ軸の自由度を持つ尻尾関節8を介して、胴体部ユニット2の後上端付近に配設されている。尻尾4は、湾曲若しくは揺動自在であってもよい。
脚部ユニット6A及び6Bは左右の前脚を構成し、脚部ユニット6C及び6Dは左右の後脚を構成する。各脚部ユニット6A、6B、6C、6Dはそれぞれ、大腿部ユニット9と脛部ユニット10と足部13の組み合わせで構成され、胴体部ユニット2の底面の前後左右の各隅部に取り付けられている。大腿部ユニット9は、ロール、ピッチ、ヨーの各軸の自由度を持つ股関節11によって、胴体部ユニット2の各々の所定部位に連結されている。また、大腿部ユニット9と脛部ユニット10とは、ロール及びピッチ軸の自由度を持つ膝関節12によって連結されている。また、脛部ユニット10と足部13は、ロール及びピッチ軸の自由度を持つ足首関節によって連結されている。
ロボット1の関節自由度は、実際には軸毎に配設されたモータなどのアクチュエータ(図示しない)の駆動によって提供される。但し、ロボット1が持つ関節自由度の個数は任意であり、上述した自由度構成に限定されるものではない。上記では説明を省略したが、ロボット1は左右の耳を振るための関節自由度をさらに備えていてもよい。
また、頭部ユニット3の「口」付近には音声出力用のスピーカが配置され、左右の「目」付近にはステレオカメラが配置され、左右の少なくとも一方の「耳」付近には音声入力用のマイクロホンが配置される。
なお、図1には4足歩行のロボットを例示したが、本明細書で気維持する技術を実現する対話装置は、2足、4足、6足などの脚式歩行を行う移動ロボットの他、クロール式など他の移動メカニズムを採用するロボット、あるいは移動しない設置型のロボットであってもよい。
図2には、ロボット1の電気系統の内部構成例を示している。
頭部ユニット3には、外部センサ部71として、ロボット1の左右の「目」として機能するカメラ81L及び81R、「耳」として機能するマイクロホン82、並びにタッチセンサ51などがそれぞれ所定位置に配設されている。カメラ81L及び81Rには、例えばCMOS(Complementary Metal Oxide Semiconductor)やCCD(Charge Coupled Device)などの撮像素子で構成されるカメラが用いられる。
なお、図示を省略するが、外部センサ部71は、その他のセンサをさらに含んでいてもよい。例えば、外部センサ部71は、LIDAR(Laser Imaging Detection and Ranging)、TOF(Time OF Flight)センサ、レーザーレンジセンサといった所定のターゲットの方向並びに距離を測定又は推定可能なセンサを備えていてもよい。また、外部センサ部71は、GPS(Global Positioning System)センサや、赤外線センサ、温度センサ、湿度センサ、照度センサなどを含んでいてもよい。
また、頭部ユニット3には、出力部としてスピーカ72や表示部55などが、それぞれ所定位置に配設されている。スピーカ72は、音声を出力して、「口」として機能する。また、表示部55には、ロボット1の状態や、ユーザに対する応答を表示する。なお、ロボット1は、スピーカ72や表示部55を用いて、広告宣伝に関連する情報を出力するようにしてもよい。
制御ユニット52内には、メイン制御部61と、バッテリ74と、バッテリセンサ91及び加速度センサ92などからなる内部センサ部73と、外部メモリ75と、通信部76が配設されている。制御ユニット52は、例えばロボット1の胴体部ユニット2内に設置される。
外部センサ部71のカメラ81L及び81Rは、周囲の状況を撮像し、得られた画像信号S1Aを、メイン制御部61に送出する。マイクロホン82は、ユーザから音声入力を集音し、得られた音声信号S1Bを、メイン制御部61にそれぞれ送出する。ユーザからロボット1に与えられる入力音声には、「歩け」、「とまれ」又は「右手を挙げろ」などの各種命令音声(音声コマンド)や起動ワードなども含まれる。なお、図2では1個のマイクロホン82しか描いていないが、左右の耳のように、2個以上のマイクロホンを備えていてもよい。
また、外部センサ部の71のタッチセンサ51は、例えば頭部ユニット3の上部に配設されており、ユーザからの「撫でる」や「叩く」といった物理的な働きかけにより受けた圧力を検出して、その検出結果を、圧力検出信号S1Cとしてメイン制御部61に送出する。
内部センサ部73のバッテリセンサ91は、所定の周期毎にバッテリ74のエネルギ残量を検出して、検出結果をバッテリ残量検出信号S2Aとして、メイン制御部61に送出する。
加速度センサ92は、ロボット1の移動について、所定の周期毎に3軸方向(x軸、y軸及びz軸)の加速度を検出して、その検出結果を、加速度検出信号S2Bとして、メイン制御部61に送出する。加速度センサ92は、例えば、3軸のジャイロ及び3方向の加速度センサなどを搭載したIMU(Inertial Measurement Unit)であってもよい。
外部メモリ75は、プログラムやデータ、及び制御パラメータなどを記憶しており、そのプログラムやデータを必要に応じてメイン制御部61に内蔵されるメモリ61Aに供給する。また、外部メモリ75は、データなどをメモリ61Aから受け取り、記憶する。なお、外部メモリ75は、例えばSDカードのようなカートリッジ式のメモリカードとして構成され、ロボット1本体(若しくは、制御ユニット52)から着脱可能であってもよい。
通信部76は、例えばWi-Fi(登録商標)やLTE(Long Term Evolution)などの通信方式に基づいて外部とデータ通信を行う。例えば、メイン制御部61で実行するアプリケーションなどのプログラムや、プログラムの実行に必要となるデータを、通信部76を介して外部から取得することができる。また、ロボット1が広告宣伝に繋がる表出動作を実施するために必要な情報を、外部装置から通信部76を介して、ロボット1に設定及び設定変更することができる。但し、広告宣伝に繋がる表出動作の詳細については、後述に譲る。
メイン制御部61は、メモリ61Aを内蔵している。メモリ61Aは、プログラムやデータを記憶しており、メイン制御部61は、メモリ61Aに記憶されたプログラムを実行することで、各種の処理を行う。すなわち、メイン制御部61は、外部センサ部71のカメラ81L及び81R、マイクロホン82、及びタッチセンサ51からそれぞれ供給される、画像信号S1A、音声信号S1B、及び圧力検出信号S1C(以下、これらをまとめて外部センサ信号S1と称する)と、内部センサ部73のバッテリセンサ91及び加速度センサなどからそれぞれ供給される、バッテリ残量検出信号S2A及び加速度検出信号S2B(以下、これらをまとめて内部センサ信号S2と称する)に基づいて、ロボット1の周囲及び内部の状況や、ユーザからの指令、又はユーザからの働きかけの有無などを判断する。また、メイン制御部61は、画像信号S1Aを画像認識するとともに音声信号S1Bを音声認識して、広告宣伝に繋がる表出動作を発動させるトリガとなるターゲットやキーワードの検出処理を行う(後述)。
そして、メイン制御部61は、ロボット1の周囲及び内部の状況や、ユーザからの指令、又はユーザからの働きかけの有無の判断結果と、内部メモリ61Aにあらかじめ格納されている制御プログラム、あるいはそのとき装填されている外部メモリ75に格納されている各種制御パラメータなどに基づいて、ロボット1の行動やユーザに対して発動する表出動作を決定し、その決定結果に基づく制御コマンドを生成して、各サブ制御部63A、63B、…に送出する。サブ制御部63A、63B、…は、メイン制御部61から供給された制御コマンドに基づいて、胴体部ユニット2、頭部ユニット3、脚部ユニット6A、6B、6C、6Dなどの各ユニットを動作させるアクチュエータ(図示しない)の駆動を制御する。これにより、ロボット1は、例えば、頭部ユニット3を上下左右に揺動かさせたり、前脚の腕部ユニット6A及び6Bを上に挙げたり、前後の脚部ユニット6A、6B、6C、6Dを交互に駆動させて、歩行するなどの行動を行う。
また、メイン制御部61は、必要に応じて、所定の音声信号S3をスピーカ72に与えることにより、音声信号S3に基づく音声を外部に出力させるとともに、例えば音声を検出したときに、表示信号S4に基づいて「だーれ」などのユーザへの応答を表示部55に表示する。さらに、メイン制御部61は、頭部ユニット3の所定位置に設けられた、図示しないLEDに対して駆動信号を出力して、LEDを点滅させることにより、表示部55として機能させるようにしてもよい。このLEDは、外見上の「目」として機能する。
図3には、図2のメイン制御部61の機能的構成例を示している。なお、図3に示す機能的構成は、メイン制御部61が、メモリ61Aに記憶された制御プログラムを実行することで実現されるようになっている。
メイン制御部61は、状態認識情報処理部101と、モデル記憶部102と、行動決定機構部103と、姿勢遷移機構部104と、音声合成部105を備えている。状態認識情報処理部101は、特定の外部状態を認識する。モデル記憶部102は、状態認識情報処理部101の認識結果などに基づいて更新される、ロボット1の感情、本能、あるいは、成長の状態などのモデルを記憶する。行動決定機構部103は、状態認識情報処理部101の認識結果などに基づいて、ロボット1の行動を決定する。姿勢遷移機構部104は、行動決定機構部103の決定結果に基づいて、ユーザに対する表出動作などの行動をロボット1に実際に起こさせる。音声合成部105は、スピーカ72から音声出力する合成音を生成する。なお、メイン制御部61は、参照番号101~105で示した以外の機能的構成をさらに備えていてもよい。以下、各部について詳細に説明する。
状態認識情報処理部101には、マイクロホン82や、カメラ81L及び81R、タッチセンサ51の各々から、音声信号、画像信号、圧力検出信号が、ロボット1の電源が投入されている間、常時入力される。そして、状態認識情報処理部101は、マイクロホン82や、カメラ81L及び81R、タッチセンサ51から与えられる音声信号、画像信号、圧力検出信号に基づいて、特定の外部状態や、ユーザからの特定の働きかけ、ユーザからの指示などを認識して、その認識結果を表す状態認識情報を、モデル記憶部102及び行動決定機構部103に常時出力する。
状態認識情報処理部101は、音声認識部101A、圧力処理部101C、及び画像認識部101Dを有している。
音声認識部101Aは、マイクロホン82から与えられる音声信号S1Bについて音声の有無を検出して、音声が検出されたとき音声を検出したことを行動決定機構部103に出力する。音声認識部101Aは、情報の入出力と、入力された音声信号の音声認識処理を統括的に制御する制御部101aを備えている。また、音声認識部101Aは、入力された音声信号に対して話者識別を行う話者識別部101bをさらに備えていてもよい。
音声認識部101Aは、音声認識を行い、例えば、「あそぼう」、「止まれ」、「右手を挙げろ」などの指令や、その他の音声認識結果を、状態認識情報として、モデル記憶部102及び行動決定機構部103に通知する。また、音声認識部101Aは、話者識別部101bにより音声認識対象となる音声に対して話者識別を行い、その結果を状態認識情報として、モデル記憶部102及び行動決定機構部103に通知する。なお、図1~図3に示す例では1個のマイクロホン82しか装備していないが、異なる場所に設置された2以上のマイクロホンから音声を入力することができる場合には、音声認識部101Aは音源の位置や方向をさらに認識するようにしてもよい。
圧力処理部101Cは、タッチセンサ51から与えられる圧力検出信号S1Cを処理する。そして、圧力処理部101Cは、その処理の結果、例えば、所定の閾値以上で、且つ短時間の圧力を検出したときには、「叩かれた(しかられた)」と認識し、所定の閾値未満で、且つ長時間の圧力を検出したときには、「撫でられた(ほめられた)」と認識する。そして、圧力処理部101Cは、その認識結果を、状態認識情報として、モデル記憶部102及び行動決定機構部103に通知する。
画像認識部101Dは、カメラ81L及び81Rから与えられる画像信号S1Aを用いて、画像認識処理を行う。そして、画像認識部101Dは、その処理の結果、例えば、「赤い丸いもの」や、「地面に対して垂直なかつ所定高さ以上の平面」などを検出したときには、「ボールがある」や、「壁がある」、又は、人間の顔を検出したなどの画像認識結果を、状態認識情報として、音声認識部101A、モデル記憶部102及び行動決定機構部103に通知する。また、画像認識部101Dは、顔認識などによりユーザ識別機能を備えていてもよい。
モデル記憶部102は、ロボット1の感情、本能、成長の状態を表現する感情モデル、本能モデル、成長モデルなどのモデルをそれぞれ記憶、管理している。
ここで、感情モデルは、例えば、「うれしさ」、「悲しさ」、「怒り」、「楽しさ」などの感情の状態(度合い)からなり、各状態は所定の範囲(例えば、-1.0乃至1.0など)の値によってそれぞれ表される。モデル記憶部102は、各感情の状態を表す値を記憶するとともに、状態認識情報処理部101からの状態認識情報や時間経過などに基づいて、その値を変化させる。
また、本能モデルは、例えば、「食欲」、「睡眠欲」、「運動欲」などの本能による欲求の状態(度合い)からなり、各状態は所定の範囲の値によってそれぞれ表される。モデル記憶部102は、各欲求の状態を表す値を記憶するとともに、状態認識情報処理部101からの状態認識情報や時間経過などに基づいて、その値を変化させる。
また、成長モデルは、例えば、「幼年期」、「青年期」、「熟年期」、「老年期」などの成長の状態(度合い)からなり、各状態は所定の範囲の値によってそれぞれ表される。モデル記憶部102は、各成長の状態を表す値を記憶するとともに、状態認識情報処理部101からの状態認識情報や時間経過などに基づいて、その値を変化させる。
モデル記憶部102は、上述のようにして感情モデル、本能モデル、成長モデルの値で表される感情、本能、成長の状態を、状態情報として、行動決定機構部103に送出する。
なお、モデル記憶部102には、状態認識情報処理部101から状態認識情報が供給される他に、行動決定機構部103から、ロボット1の現在又は過去の行動、具体的には、例えば、「長時間歩いた」などの行動の内容を示す行動情報が供給されるようになっている。したがって、モデル記憶部102は、状態認識情報処理部101から同一の状態認識情報が与えられても、行動情報が示すロボット1の行動に応じて、異なる状態情報を生成するようになっている。
すなわち、例えば、ロボット1が、ユーザに挨拶をし、ユーザに頭を撫でられた場合には、ユーザに挨拶をしたという行動情報と、頭を撫でられたという状態認識情報とが、モデル記憶部102に与えられ、この場合、モデル記憶部102では、「うれしさ」を表す感情モデルの値が増加される。一方、ロボット1が、何らかの仕事を実行中に頭を撫でられた場合には、仕事を実行中であるという行動情報と、頭を撫でられたという状態認識情報とが、モデル記憶部102に与えられ、この場合、モデル記憶部102では、「うれしさ」を表す感情モデルの値は変化されない。
このように、モデル記憶部102は、状態認識情報だけでなく、現在又は過去のロボット1の行動を示す行動情報も参照しながら、感情モデルの値を設定する。これにより、例えば、何らかのタスクを実行中に、ユーザが、いたずらするつもりで頭を撫でたときに、「うれしさ」を表す感情モデルの値を増加させるような、不自然な感情の変化が生じることを回避することができる。
また、モデル記憶部102は、音声認識部101A又は画像認識部101Dより提供されるユーザ識別結果に基づいて、上記の感情モデルをユーザ毎に個別に持つことができる。このため、同じロボット1が、第1のユーザに対して実行して「うれしい」行動と、第2のユーザに対して実行して「うれしい」行動が異なる。したがって、モデル記憶部102が、ユーザ識別結果に該当する状態情報を行動決定機構部103に送出することにより、ユーザ個人に応じた多様な行動を生成することができる。同様に、ロボット1は、広告宣伝に繋がる表出動作を、ユーザ毎に異ならせて実施するようにしてもよい。
なお、モデル記憶部102は、本能モデル及び成長モデルについても、感情モデルにおける場合と同様に、状態認識情報及び行動情報の両方に基づいて、その値を増減させるようになっている。また、モデル記憶部102は、感情モデル、本能モデル、成長モデルそれぞれの値を、他のモデルの値にも基づいて増減させるようになっている。
行動決定機構部103は、状態認識情報処理部101から出力される状態認識情報や、モデル記憶部102から出力される状態情報、時間経過などに基づいて、ロボット1の次の行動を決定する。ここで、決定された行動の内容が、例えば、「ダンスをする」というような、音声認識処理や画像認識処理を必要としない場合には、その行動の内容を行動指令情報として、姿勢遷移機構部104に送出する。
行動決定機構部103は、ロボット1の行動を規定する行動モデルとして、ロボット1がとり得る行動をステートに対応させた有限オートマトンを管理している。そして、行動決定機構部103は、この行動モデルとしての有限オートマトンにおけるステートを、状態認識情報処理部101からの状態認識情報や、モデル記憶部102における感情モデル、本能モデル、又は成長モデルの値、時間経過などに基づいて遷移させ、遷移後のステートに対応する行動を、次にとるべき行動として決定する。
ここで、行動決定機構部103は、所定のトリガがあったことを検出すると、ステートを遷移させる。すなわち、行動決定機構部103は、例えば、現在のステートに対応する行動を実行している時間が所定時間に達したときや、特定の状態認識情報を受信したとき、モデル記憶部102から供給される状態情報が示す感情や、本能、成長の状態の値が所定の閾値以下又は以上になったときなどに、ステートを遷移させる。
また、行動決定機構部103は、上述したように、状態認識情報処理部101からの状態認識情報だけでなく、モデル記憶部102における感情モデルや、本能モデル、成長モデルの値などにも基づいて、行動モデルにおけるステートを遷移させる。このことから、行動決定機構部103に同一の状態認識情報が入力されても、感情モデルや、本能モデル、成長モデルの値(状態情報)によっては、行動決定機構部103が決定するステートの遷移先は異なるものとなる。
また、行動決定機構部103は、ロボット1の頭部や四肢などを動作させる行動指令情報の他に、ロボット1に発話を行わせる行動指令情報も生成する。ロボット1に発話を行わせる行動指令情報は、音声合成部105に供給されるようになっている。音声合成部105に供給される行動指令情報には、音声合成部105に生成させる合成音に対応するテキストデータなどが含まれる。そして、音声合成部105は、行動決定機構部103から行動指令情報を受信すると、その行動指令情報に含まれるテキストデータに基づき、合成音を生成し、スピーカ72に供給して出力させる。
また、行動決定機構部103は、発話に対応する、又は、発話をしない場合に発話の代わりとなる言葉を、表示部55にプロンプトとしてテキスト表示させる。例えば、音声を検出して振り向いたときに、「誰?」とか「なぁに?」といったテキストを表示部55にプロンプトとして表示したり、又は、スピーカ72より発生したりすることができる。
また、本実施形態では、行動決定機構部103は、状態認識情報処理部101から画像認識結果及び音声認識結果を入力して、広告宣伝に繋がる表出動作を発動させるトリガとなるターゲットやキーワードの判定と、判定結果に基づく表出動作の決定など処理を行うが、詳細については後述に譲る。
なお、参照番号101乃至105で示した機能的構成(図3中、点線で囲んだ部分)の一部又は全部を、メイン制御部61内ではなく、ロボット1の外部(クラウドを含む)で実現することも可能である。例えば、カメラ81L/Rやマイクロホン82などのセンサ信号を通信部76によりクラウドに送信し、クラウド側で上記の認識処理や行動決定などの処理の一部又は全部を実行し、クラウドでの処理結果を通信部76で受信して、ロボット1上で出力又は関節駆動を実施する。
B.ロボットによる広告宣伝
本実施形態に係るロボット1は、対話装置としてユーザと対話したり、頭部や四肢の動作を交えたりして、さまざまな表出動作を行う。また、ロボット1は、対話中若しくは近傍にいるユーザに対して、広告情報の提示も行う。広告情報には、例えばロボット1の製造元とスポンサー契約を結んでいる企業などからの広告情報も含まれる。広告情報の提示処理を行うアプリケーションや広告情報のコンテンツは、メモリ61Aなどの内部メモリにあらかじめ格納されていてもよいし、交換可能な外部メモリ75を利用して外部から随時供給できるようにしてもよい。あるいは、インターネットなどの広域ネットワークを介して、契約企業のサイトから最新のアプリケーションや広告コンテンツを、通信部76を介してダウンロードするようにしてもよい。
本実施形態に係るロボット1は、対話装置としてユーザと対話したり、頭部や四肢の動作を交えたりして、さまざまな表出動作を行う。また、ロボット1は、対話中若しくは近傍にいるユーザに対して、広告情報の提示も行う。広告情報には、例えばロボット1の製造元とスポンサー契約を結んでいる企業などからの広告情報も含まれる。広告情報の提示処理を行うアプリケーションや広告情報のコンテンツは、メモリ61Aなどの内部メモリにあらかじめ格納されていてもよいし、交換可能な外部メモリ75を利用して外部から随時供給できるようにしてもよい。あるいは、インターネットなどの広域ネットワークを介して、契約企業のサイトから最新のアプリケーションや広告コンテンツを、通信部76を介してダウンロードするようにしてもよい。
ここで、ロボット1が、ユーザとの対話と脈絡もなく、あるいは露骨又は唐突に広告宣伝のための表出動作を実施すると、ユーザが嫌悪感を抱いてしまう可能性が高く、広告宣伝が逆効果になってしまうという問題がある。
ユーザの興味や関心に合わせた広告を提示する技術が提案されているが、ユーザの嗜好を適切に判断するためにはユーザ情報を蓄積していく必要があり、十分なユーザ情報を蓄積するまでの間は、効果的な広告を提示することが難しいという可能性がある。
そこで、本明細書では、ロボット1が普段から出力している表出動作を利用して広告宣伝を行うことで、自然で押し付けがましくない、したがってユーザに嫌悪感を抱かれ難い広告宣伝を実現する技術について、以下で提案する。なお、ロボット1ではなく音声エージェントなど他のタイプの対話装置においても、普段から出力している表出動作を利用することで、同様に、ユーザに嫌悪感を抱かれ難い広告宣伝を実現することができる。
ロボット1が普段から出力している表出動作の範囲内で、広告の対象となる商品やサービスに対して特有の反応を示すと、広告宣伝に繋がり、且つ、自然で押し付けがましくないので、ユーザに嫌悪感を抱かれ難い。
B-1.広告宣伝に繋がるロボットの表出動作
広告宣伝に繋がるロボット1の表出動作は、外部センサ部71による検出結果、若しくは状態認識情報処理部101において音声や画像といった特定の外部状態を認識した結果に基づいて発動する。
広告宣伝に繋がるロボット1の表出動作は、外部センサ部71による検出結果、若しくは状態認識情報処理部101において音声や画像といった特定の外部状態を認識した結果に基づいて発動する。
例えば、音声認識結果から発動される表出動作として、対話中のユーザの発話、あるいはテレビCMやその他の周囲音から、キーワードとなる特定の単語又はフレーズを認識した場合に、ロボット1はそのキーワードが聴こえた方向を向く、近づく動作を挙げることができる。ここで言うキーワードは、例えば、スポンサー契約した企業名や、その企業が提供する特定の商品名、キャッチフレーズ、メロディーなどでもよい。また、モデル記憶部102が、このようなキーワードを聴いた(若しくは、音声認識した)回数に基づいて、感情モデル「うれしさ」又は「楽しさ」の値を加算していくことで、キーワードを何度も聴くとロボット1の機嫌が良くなるという表出動作を実現することもできる。
また、画像認識結果から発動される表出動作として、ロボット1がユーザと一緒にいる環境下で、ターゲットとなる物体やターゲットを連想させる物体を認識した場合に、ロボット1はそのターゲットに駆け寄っていく(積極的に近づく)、その場所から離れようとしない、ターゲットなる物を持っている人を見ると羨ましそうな表情をする、ターゲットが与えられるととても喜ぶ、といった動作を挙げることができる。ここで言うターゲットは、例えば、スポンサー契約した企業から提供される商品や、商品のポスターや看板、商品のロゴ、商品又は企業のCM映像などでもよい。また、モデル記憶部102が、このようなターゲットを発見した(若しくは、画像認識した)回数に基づいて、感情モデル「うれしさ」又は「楽しさ」の値を加算していくことで、ターゲットを何度も見るとロボット1の機嫌が良くなるという表出動作を実現することもできる。
ここで、犬型のロボット1が、普段の表出動作を利用して、スポンサー契約したアイスクリーム店の広告宣伝を行う具体例について紹介しておく。ロボット1は、ユーザが読んでいる新聞の広告を画像認識して、アイスクリーム店のロゴを見つけると、そちらを凝視する。また、ユーザと一緒にリビングでテレビ番組を視聴中に、アイスクリーム店のCMが流れると、テレビ画面に駆け寄っていく、といった動作を挙げることができる。さらに、ユーザと一緒に散歩している最中に、アイスクリーム店を見つけると、店内に入りたがろうとしたり、店の前に駆け寄って、そこから離れたがらなかったりする。
B-2.広告情報の設定方法
広告宣伝に繋がる表出動作をロボット1に発動させるキーワードやターゲットに関する情報は、事前に(例えば、ロボット1を出荷する前に)、例えばメイン制御部61の内部メモリ部61Aに設定しておいてもよいし、通信部76を介して所定のサーバサイトなどからオンラインアップデートできるようにしてよい。後者の場合、ロボット1が特定の商品やサービスを永久に広告宣伝し続ける必要はなく、新規の商品やサービスの広告宣伝に切り替えることができる。1つの商品やサービスを広告宣伝する期間は、数週間~数カ月といった比較的長い期間が想定される。
広告宣伝に繋がる表出動作をロボット1に発動させるキーワードやターゲットに関する情報は、事前に(例えば、ロボット1を出荷する前に)、例えばメイン制御部61の内部メモリ部61Aに設定しておいてもよいし、通信部76を介して所定のサーバサイトなどからオンラインアップデートできるようにしてよい。後者の場合、ロボット1が特定の商品やサービスを永久に広告宣伝し続ける必要はなく、新規の商品やサービスの広告宣伝に切り替えることができる。1つの商品やサービスを広告宣伝する期間は、数週間~数カ月といった比較的長い期間が想定される。
また、ロボット1に広告宣伝に繋がる表出動作を発動させるためのターゲットやキーワードを制御することも可能である。前述した、アイスクリーム店の広告宣伝を行う例では、ブランド名やアイスクリームのフレーバー名(商品名)などの固有名詞やブランドロゴをキーワードやターゲットに設定することで、ロボット1は新しく設定したキーワードやターゲットに対して敏感に反応するようになるので、ブランドや新商品を周知化することに繋がる。あるいは、そもそもアイスクリームを食べる習慣を世に広めたいような場合には、商品名などの固有名詞や特定の商品に固有の画像などは避けて、「アイスクリーム」や「おやつ」といった一般的な名詞や一般的なアイスクリームの画像などをキーワードやターゲットに設定すればよい。
同じ商品やサービスを広告宣伝する場合であっても、ターゲットやキーワードを変えることによって、広告宣伝の効果を向上させたり、ユーザに適合させたりすることができる。例えば、ユーザの年齢や性別、趣味、職業といったユーザのプロファイル情報に適合するように広告宣伝を行うようにすることもできる。
ロボット1の設計者や、スポンサー契約した企業などの広告主は、自らの広告ポリシーに基づいて、ロボット1が反応するキーワードやターゲットを決定すればよい。また、ロボット1がキーワードやターゲットに反応して発動する具体的な表出動作についても、広告主が、自らの広告ポリシーなどに基づいて決定するようにしてもよい。スポンサー契約した企業などの広告主は、広告宣伝に繋がるキーワードやターゲット、並びに、ロボット1がキーワードやターゲットに反応して発動する表出動作といった、広告宣伝に関する情報を、外部装置から通信部76を介して、ロボット1に設定及び設定変更することができる。
例えば、ロボット1が反応すべきキーワードやターゲットを複数設定するとともに、各キーワード又はターゲットに対してそれぞれ興味レベルを割り振る。そして、ロボット1は、音声や画像の認識処理によりキーワード又はターゲットを認識したときに、該当する興味レベルに応じて、広告宣伝に繋がる表出動作を発動する。
具体的には、5段階の興味レベルを定義し、広告宣伝に繋がる各キーワードやターゲットに対して興味レベルを割り振る。例えば、「アイスクリーム」といった一般名詞の単語や一般的なアイスクリームの画像に最も低いレベル1を割り振り、広告主のブランドや商品を連想させる単語や画像に中間のレベル3を割り振る。また、広告主のブランド名や商品名といった固有名詞の単語や、広告主の店舗や具体的な商品の画像に、最も高いレベル5を割り振る。例えばスポンサー契約した企業などの広告主が、広告宣伝に繋がる表出動作を発動するトリガとなるキーワードやターゲットといった事象を定義するとともに、各トリガに対して興味レベルを設定することができる。トリガと興味レベルの対応関係は、ロボット1内にあらかじめ設定されていてもよいし、広告主などが通信部76を介してロボット1に設定したり設定変更したりしてもよい。
また、興味レベル毎に、ロボット1が発動する表出動作も定義する。例えば、最も低いレベル1では尻尾4を振り、中間のレベル3では胴体部ユニット2を(キーワードが発された音源の方向、若しくは発見したターゲットの方向に)振り返らせて尻尾4を振る。また、最も高いレベル5では、尻尾4を振りながら、(キーワードが発された音源の方向、若しくは発見したターゲットの方向に)駆け寄っていく。以下の表1には、興味レベルと、広告宣伝に繋がる表出動作との対応関係の一例を示している。表1内に挙げられる表出動作はいずれも、ロボット1が普段から出力している動作の範囲内であり、ユーザに嫌悪感を抱かれ難く、押しつけがましさを感じさせない広告宣伝を実現できる、という点を理解されたい。
上記の表1に示すような興味レベルとロボット1の表出動作との対応関係を、例えばロボット1の設計者が定義することができる。そして、このような対向関係のデータをあらかじめ内部に設定してから、ロボット1を出荷する。もちろん、広告主などが通信部76を介して、ロボット1内に設定されている興味レベルと表出動作の対応関係を変更できるようにしてもよい。
行動決定機構部103は、状態認識情報処理部101により認識された画像や音声などの外部状態が、広告宣伝に繋がる表出動作をロボット1が発動するためのトリガになるかどうかを判定する。例えば、音声認識部101Aにより音声認識されたテキストデータがトリガとなるキーワードに該当するかどうかを判定するとともに、その興味レベルを割り出す。また、行動決定機構部103は、画像認識部101Dにより画像認識されたオブジェクトがトリガとなるターゲットに該当するかどうかを判定するとともに、その興味レベルを割り出す。そして、行動決定機構部103は、認識されたトリガが持つ興味レベルに基づいて、対応する表出動作を発動するためのロボット1の行動を決定する。
B-3.構成例1
図4には、ロボット1が音声認識結果に基づいて広告宣伝に繋がる表出動作を発動するための、行動決定機構部103の機能的構成例を示している。
図4には、ロボット1が音声認識結果に基づいて広告宣伝に繋がる表出動作を発動するための、行動決定機構部103の機能的構成例を示している。
図示の行動決定機構部103は、トリガ判定部401と、トリガ・興味レベル対応表402と、行動決定部403と、興味レベル・行動対応表404を備え、音声認識部101Aによる音声認識結果に基づいて、広告宣伝に繋がる表出動作を発動するためのロボット1の行動を出力する。
トリガ判定部401は、音声認識結果に基づいて広告宣伝に繋がるキーワードを抽出する。トリガ・興味レベル対応表402は、広告宣伝に繋がる表出動作を発動するトリガとなるキーワードと、各キーワードに割り振られた興味レベルの対応関係を示している。例えばスポンサー契約した企業などの広告主は、広告宣伝に繋がるキーワードを選定するとともに、各キーワードに興味レベルを割り振って、トリガ・興味レベル対応表402に設定する。例えば通信部76を介して外部から行動決定機構部103内のトリガ・興味レベル対応表402を設定したり、設定内容を変更したりすることができる。以下の表2には、トリガ・興味レベル対応表402の一例を示している。
トリガ判定部401は、音声認識部101Aにより音声認識されたテキストデータを遂次入力すると、そのテキストデータがトリガ・興味レベル対応表402にリストアップされている行動発動トリガのいずれかと一致するかどうかをチェックする。そして、テキストデータがいずれかの行動発動トリガと一致するときには、トリガ判定部401は、トリガ・興味レベル対応表402の該当するエントリから、その行動発動トリガに割り振られた興味レベルを取得して、後段の行動決定部403に出力する。なお、入力されたテキストデータに対して複数の行動発動トリガが一致する場合には、トリガ判定部401は、興味レベルが最も高いものを採用する。
興味レベル・行動対応表404は、興味レベルと、広告宣伝に繋がる表出動作との対応関係を示している。例えばロボット1の設計者が定義した興味レベル・行動対応表404をあらかじめ設定したロボット1が出荷される。もちろん、広告主などが通信部76を介して、興味レベル・行動対応表404の設定内容を変更できるようにしてもよい。以下の表3には、興味レベル・行動対応表404の一例を示している。表3内に挙げられる行動内容はいずれも、ロボット1が普段から出力している表出動作の範囲内であり、ユーザに嫌悪感を抱かれ難く、押しつけがましさを感じさせない広告宣伝を実現できる、という点を理解されたい。
行動決定部403は、興味レベル・行動対応表404を参照して、トリガ判定部401が判定したトリガが持つ興味レベルに対応する表出動作を特定すると、その表出動作を発動するためのロボット1の行動を決定して、姿勢遷移機構部104や音声合成部105などに出力する。
なお、ロボット1が、音声認識結果に代えて画像認識結果に基づいて広告宣伝に繋がる表出動作を発動する場合も、行動決定機構部103は同様の機能的構成となるので、本明細書では詳細な説明を省略する。
図4に示した行動決定機構部103の構成例によれば、ロボット1は、例えば、ユーザと一緒にリビングでテレビ番組を視聴中に、アイスクリーム店のCMが聴こえると、興味レベル2に合致することから、耳を少し上げるとともに尻尾4を激しく振る、といった行動を発動する。ロボット1のこのような行動を見たユーザが、テレビで流れているアイスクリーム店のCMに注目すると、アイスクリーム店の広告宣伝に繋がる。
なお、トリガ・興味レベル対応表402や興味レベル・行動対応表404では、複数段階からなる1次元的な興味レベルに代えて、例えば「興味の長続き度合い」や「興奮度」といった多次元の尺度でユーザの興味の度合いを示して、各興味の度合いに対応する表出動作を定義した対応表を用意することで、ロボット1に表現豊かな表出動作を発動させることが可能である。また、興味レベルを介さず、「行動発動トリガ」と「表出動作(行動)」とを直接対応付けた対応表を用いて行動を決定するようにすることもできる。
B-4.構成例2
図5には、ロボット1が画像認識結果及び音声認識結果に基づいて広告宣伝に繋がる表出動作を発動するための、行動決定機構部103の機能的構成例を示している。
図5には、ロボット1が画像認識結果及び音声認識結果に基づいて広告宣伝に繋がる表出動作を発動するための、行動決定機構部103の機能的構成例を示している。
図示の行動決定機構部103は、トリガ判定部501と、トリガ・興味レベル対応表502と、行動決定部503と、興味レベル・行動対応表504を備え、音声認識部101Aによる音声認識結果及び画像認識部101Dによる画像認識結果に基づいて、広告宣伝に繋がる表出動作を発動するためのロボット1の行動を出力する。
トリガ判定部501は、音声認識結果に基づいて広告宣伝に繋がるキーワードを抽出するとともに、画像認識結果に基づいて広告宣伝に繋がるターゲットを抽出する。トリガ・興味レベル対応表502は、広告宣伝に繋がる表出動作を発動するトリガとなるキーワード及びターゲットの組み合わせと、キーワード及びターゲットの各組み合わせに対して割り振られた興味レベルの対応関係を示している。例えばスポンサー契約した企業などの広告主は、広告宣伝に繋がるキーワード及びターゲットの組み合わせを選定するとともに、キーワード及びターゲットの各組み合わせに対して興味レベルを割り振って、トリガ・興味レベル対応表502に設定する。例えば通信部76を介して外部から行動決定機構部103内のトリガ・興味レベル対応表502を設定したり、設定内容を変更したりすることができる。以下の表4には、トリガ・興味レベル対応表502の一例を示している。
トリガ判定部501は、音声認識部101Aにより音声認識されたテキストデータ並びに画像認識部101Dにより画像認識されたターゲットを遂次入力すると、そのテキストデータとターゲットの組み合わせがトリガ・興味レベル対応表502にリストアップされている行動発動トリガのいずれかと一致するかどうかをチェックする。そして、テキストデータとターゲットの組み合わせがいずれかの行動発動トリガと一致するときには、トリガ判定部501は、トリガ・興味レベル対応表502の該当するエントリから、その行動発動トリガに割り振られた興味レベルを取得して、後段の行動決定部503に出力する。なお、入力されたテキストデータ及びターゲットに対して複数の行動発動トリガが一致する場合には、トリガ判定部501は、興味レベルが最も高いものを採用する。
興味レベル・行動対応表504は、興味レベルと、広告宣伝に繋がる表出動作との対応関係を示している。例えばロボット1の設計者が定義した興味レベル・行動対応表504をあらかじめ設定したロボット1が出荷される。もちろん、広告主などが通信部76を介して、興味レベル・行動対応表504の設定内容を変更できるようにしてもよい。例えば上記の表3と同じ興味レベル・行動対応表504であってもよい。
行動決定部503は、興味レベル・行動対応表504を参照して、トリガ判定部501が判定したトリガが持つ興味レベルに対応する表出動作を特定すると、その表出動作を発動するためのロボット1の行動を決定して、姿勢遷移機構部104や音声合成部105などに出力する。
図5に示した行動決定機構部103の構成例によれば、ロボット1は、例えば、ユーザと一緒にリビングでテレビ番組を視聴中にアイスクリーム店のCMが聴こえると、興味レベル1に合致するので耳を少し上げ、ユーザが読んでいる新聞の広告を画像認識してアイスクリーム店のロゴを見つけると、興味レベル2に合致するので耳を少し上げるとともに尻尾4をゆっくり振る、といった行動を発動する。ロボット1のこのような行動を見たユーザが、テレビで流れているアイスクリーム店のCMに注目したり、いま読んでいる新聞の広告欄を注視したりすると、アイスクリーム店の広告宣伝に繋がる。
なお、図5に示した構成例では、行動決定機構部103への入力に使用されるモーダルは音声データと画像データの2種類であれが、それ以外を含む3種類以上のモーダルを利用して、ロボット1の表出動作を決定するようにしてもよい。
B-5.構成例3
図4及び図5に示した行動決定機構部103はいずれも、尻尾4や耳の動作など、ロボット1が移動せずにその場で表出できる動作を発動させている。脚などの移動手段(若しくは、自走機能)を備えたロボット1の場合、さらにロボット1本体の移動を含めた動作を、広告宣伝に繋がる表出動作として発動することが可能である。
図4及び図5に示した行動決定機構部103はいずれも、尻尾4や耳の動作など、ロボット1が移動せずにその場で表出できる動作を発動させている。脚などの移動手段(若しくは、自走機能)を備えたロボット1の場合、さらにロボット1本体の移動を含めた動作を、広告宣伝に繋がる表出動作として発動することが可能である。
図2~図3に示したように、ステレオカメラを装備するロボット1の場合、画像認識部101Dによる画像認識結果に基づいて、ターゲットの方向や距離情報を抽出することができる。また、ロボット1がマイクロホン82を複数個装備している場合には、複数チャネルの音声データに基づいて、音源の方向や距離を推定することができる。さらに、ロボット1がLIDARやTOFセンサ、レーザーレンジセンサなどの方向並びに距離を測定又は推定可能なセンサを備えて、ターゲットやキーワードの音源までの方向や距離を推定するようにしてもよい。そして、このような場合、ロボット1の自走機能を活用して、ターゲットやキーワードの音源までの方向や距離に応じた表出動作を発動して、広告宣伝に繋げることが可能である。
図6には、ロボット1が、ターゲットやキーワードの音源までの方向や距離を利用して広告宣伝に繋がる表出動作を発動するための、行動決定機構部103の機能的構成例を示している。
図示の行動決定機構部103は、トリガ判定部601と、トリガ・興味レベル対応表602と、行動決定部603と、興味レベル・行動対応表604と、方向・距離推定部605を備えている。そして、行動決定機構部103は、方向・距離推定部605で推定されるキーワードの音源又はターゲットの方向や距離を利用して、広告宣伝に繋がる表出動作を発動するためのロボット1の行動を出力する。
トリガ判定部601は、音声認識結果に基づいて広告宣伝に繋がるキーワードを抽出するとともに、画像認識結果に基づいて広告宣伝に繋がるターゲットを抽出する。トリガ・興味レベル対応表602は、広告宣伝に繋がる表出動作を発動するトリガとなるキーワード及びターゲットの組み合わせと、キーワード及びターゲットの各組み合わせに対して割り振られた興味レベルの対応関係を示している。例えばスポンサー契約した企業などの広告主は、広告宣伝に繋がるキーワード及びターゲットの組み合わせを選定するとともに、キーワード及びターゲットの各組み合わせに対して興味レベルを割り振って、トリガ・興味レベル対応表602に設定する。例えば通信部76を介して外部から行動決定機構部103内のトリガ・興味レベル対応表602を設定したり、設定内容を変更したりすることができる。以下の表5には、トリガ・興味レベル対応表602の一例を示している。
トリガ判定部601は、音声認識部101Aにより音声認識されたテキストデータ並びに画像認識部101Dにより画像認識されたターゲットを遂次入力すると、そのテキストデータとターゲットの組み合わせがトリガ・興味レベル対応表602にリストアップされている行動発動トリガのいずれかと一致するかどうかをチェックする。そして、テキストデータとターゲットの組み合わせがいずれかの行動発動トリガと一致するときには、トリガ判定部601は、トリガ・興味レベル対応表602の該当するエントリから、その行動発動トリガに割り振られた興味レベルを取得して、後段の行動決定部603に出力する。なお、入力されたテキストデータ及びターゲットに対して複数の行動発動トリガが一致する場合には、トリガ判定部601は、興味レベル最も高いものを採用する。
方向・距離推定部605は、音声認識部101Aに入力されるものと同じ、複数チャネルの音声データを入力して、キーワードの音源の方向や距離を推定する。ここで言うキーワードの音源は、ロボット1と対話するユーザなどの発話者であるが、スポンサー契約した企業などの広告主のCM映像を流すテレビなどの機器の場合もある。なお、方向・距離推定部605のうち、音源の方向や距離を推定する機能部分は、音声認識部101Aの前段、又は音声認識部101A内に配置されてもよい。
また、方向・距離推定部605は、画像認識部101Dがステレオカメラの画像を認識した画像認識結果を入力して、ターゲットの方向や距離を推定する。ここで言うターゲットは、例えば、スポンサー契約した企業から提供される商品や、商品のポスターや看板、商品のロゴ、商品又は企業のCM映像を流すテレビ受像機などの対象物である。なお、方向・距離推定部605のうち、画像データに含まれるターゲットの方向や距離を推定する機能部分は、画像認識部101Dの後段、又は画像認識部101D内に配置されてもよい。
但し、方向・距離推定部606は、音声データ又は画像データのいずれか一方のみを用いてターゲットの方向や距離を推定してもよいし、音声データ及び画像データの両方を同時に用いてターゲットの方向や距離を推定してもよい。
なお、方向・距離推定部605は、複数個のマイクロホンやステレオカメラではなく、ロボット1が外部センサ部71として装備するLIDARやTOFセンサ、レーザーレンジセンサなどを用いて構成することもできる。
興味レベル・行動対応表604は、興味レベル毎の、ロボット1からキーワードの音源又はターゲットまでの距離と広告宣伝に繋がる表出動作との対応関係を示している。例えばロボット1の設計者が定義した興味レベル・行動対応表604をあらかじめ設定したロボット1が出荷される。もちろん、広告主などが通信部76を介して、興味レベル・行動対応表604の設定内容を変更できるようにしてもよい。以下の表6には、興味レベル・行動対応表604の一例を示している。表6内に挙げられる行動内容はいずれも、ロボット1が普段から出力している表出動作の範囲内であり、ユーザに嫌悪感を抱かれ難く、押しつけがましさを感じさせない広告宣伝を実現できる、という点を理解されたい。
行動決定部603は、興味レベル・行動対応表604を参照して、トリガ判定部601が判定したトリガが持つ興味レベルと、方向・距離推定部605が推定した対象物又は発話者までの距離や方向に対応する表出動作を特定すると、その表出動作を発動するためのロボット1の行動を決定して、姿勢遷移機構部104や音声合成部105などに出力する。
図6に示した行動決定機構部103の構成例によれば、ロボット1は、例えば、4メートル先にあるテレビ番組を視聴中にアイスクリーム店のCMが聴こえるとともにそのテレビの画面に表示されたアイスクリーム店のロゴを見つけると、興味レベル5に合致し、且つ、トリガとなったテレビの音源及び画面からの距離が2メートル以上であるので、耳を少し上げて尻尾4を激しく振るとともにそのテレビ受像機に向かって走っていく、といった行動を発動する。ロボット1のこのような行動を見たユーザが、テレビで流れているアイスクリーム店のCM映像に注目すると、アイスクリーム店の広告宣伝に繋がる。
なお、表6に示した興味レベル・行動対応表604はトリガの方向・距離の情報を使用している一方、表5に示したトリガ・興味レベル対応表602はトリガの方向・距離の情報を使用していないが、方向・距離情報を行動発動トリガとしたトリガ・興味レベル対応表を用いてもよい。
B-6.構成例4
ロボット1が、GPSなど本体の現在位置情報を取得する機能をさらに備えている場合には、音声認識されたキーワードや画像認識されたターゲットに加えて、現在位置をさらに利用して、広告宣伝に繋がる表出動作を発動することができる。例えば、ロボット1の現在位置から目的地までの距離に応じて興味レベルを割り当てたり、目的地までの距離に応じた表出動作をロボット1に発動させたりすることが可能である。
ロボット1が、GPSなど本体の現在位置情報を取得する機能をさらに備えている場合には、音声認識されたキーワードや画像認識されたターゲットに加えて、現在位置をさらに利用して、広告宣伝に繋がる表出動作を発動することができる。例えば、ロボット1の現在位置から目的地までの距離に応じて興味レベルを割り当てたり、目的地までの距離に応じた表出動作をロボット1に発動させたりすることが可能である。
ここで言う目的地は、具体的には、スポンサー契約した企業などの広告主が営業する店舗である。ロボット1の現在位置を、地図情報などから得られるスポンサー契約した企業などの広告主が営業する店舗の位置と比較して、最寄りの店舗までの距離に応じて興味レベルを割り当てることができる。例えば最寄りの店舗までの所定距離以内のエリアは、単にキーワードが発話されたことを聴いた、あるいはターゲットの画像を見ただけの場合よりも広告宣伝の効果が高いことが想定されるので、より高い興味レベルを割り当てるようにしてもよい。
図7には、ロボット1が、現在位置の情報をさらに利用して広告宣伝に繋がる表出動作を発動するための、行動決定機構部103の機能的構成例を示している。
図示の行動決定機構部103は、トリガ判定部701と、トリガ・興味レベル対応表702と、行動決定部703と、興味レベル・行動対応表704と、方向・距離推定部705と、位置情報取得部706と、店舗位置情報記憶部707を備えている。そして、行動決定機構部103は、位置情報取得部706が取得したロボット1の現在位置から、店舗位置情報記憶部707から読み出された最寄りの店舗までの距離に基づいて、広告宣伝に繋がる表出動作を発動するためのロボット1の行動を出力する。また、行動決定機構部103は、方向・距離推定部705で推定されるキーワードの音源又はターゲットの方向や距離も考慮して、ロボット1が発動する表出動作を決定する。
位置情報取得部706は、例えば外部センサ部71に含まれるGPSセンサなどの位置センサの検出信号に基づいて、ロボット1の現在位置の情報を取得する。但し、位置情報取得部706は、位置センサではなく、レーザーレンジスキャナーやカメラ、エンコーダ、マイクロフォンアレイなどを利用して自己位置推定を行うSLAM(Simultaneous Localization and Mapping)や、Wi-Fi(登録商標)などの無線基地局からの受信電波を利用して位置を推定するPlaceEngineなどの代替技術を利用して、ロボット1の現在位置の情報を取得するようにしてもよい。
トリガ・興味レベル対応表702は、広告宣伝に繋がる表出動作を発動するトリガとなるキーワード及びターゲットの組み合わせ、及びロボット1の現在位置に対して割り振られた興味レベルの対応関係を示している。例えばスポンサー契約した企業などの広告主は、広告宣伝に繋がるキーワード及びターゲットの組み合わせを選定するとともに、キーワード及びターゲットの各組み合わせに対して興味レベルを割り振って、トリガ・興味レベル対応表702に設定する。例えば通信部76を介して外部から行動決定機構部103内のトリガ・興味レベル対応表702を設定したり、設定内容を変更したりすることができる。
以下の表7には、トリガ・興味レベル対応表702の一例を示している。表7に示す例では、ロボット1の現在位置がスポンサー契約した企業などの広告主が営業する最寄りの店舗から所定の距離以内のときに、高い興味レベルが割り振られている。
店舗位置情報記憶部707は、スポンサー契約した企業などの広告主が営業する各店舗の位置情報を記憶している。
トリガ判定部701は、音声認識部101Aにより音声認識されたテキストデータ並びに画像認識部101Dにより画像認識されたターゲットを遂次入力すると、そのテキストデータとターゲットの組み合わせがトリガ・興味レベル対応表702にリストアップされている行動発動トリガのいずれかと一致するかどうかをチェックする。また、トリガ判定部701は、位置情報取得部706が取得したロボット1の現在位置から最寄りとなる店舗の位置情報を店舗位置情報記憶部707から読み出して、ロボット1の現在位置から最寄りの店舗までの距離が、行動発動トリガとしてトリガ・興味レベル対応表702にリストアップされているかどうかをチェックする。そして、テキストデータとターゲットの組み合わせがいずれかの行動発動トリガと一致する場合、又は、ロボット1の現在位置から最寄りの店舗までの距離が行動発動トリガとなる場合には、トリガ判定部701は、トリガ・興味レベル対応表702の該当するエントリから、その行動発動トリガに割り振られた興味レベルを取得して、後段の行動決定部703に出力する。なお、入力されたテキストデータ及びターゲットに対して複数の行動発動トリガが一致する場合には、トリガ判定部701は、興味レベル最も高いものを採用する。
方向・距離推定部705は、音声認識部101Aに入力されるものと同じ、複数チャネルの音声データを入力して、キーワードの音源の方向や距離を推定する(同上)。また、方向・距離推定部705は、画像認識部101Dがステレオカメラの画像を認識した画像認識結果を入力して、ターゲットの方向や距離を推定する(同上)。
興味レベル・行動対応表704は、興味レベル毎の、ロボット1の現在位置から最寄りの店舗までの距離と広告宣伝に繋がる表出動作との対応関係を示している。例えばロボット1の設計者が定義した興味レベル・行動対応表704をあらかじめ設定したロボット1が出荷される。もちろん、広告主などが通信部76を介して、興味レベル・行動対応表704の設定内容を変更できるようにしてもよい。
以下の表8には、興味レベル・行動対応表704の一例を示している。表8に示す例では、最も高い興味レベルでは、ロボット1の現在位置から最寄りの店舗まで距離に応じて、異なる表出動作が定義されている。最寄りの店舗まで5~200メートルではその店舗の方向に歩き始める(すなわち、さらに近づこうとする)表出動作が定義され、最寄りの店舗まで2~5メートルではその店舗の半径5メートル以内のエリアからしばらく出ようとしない(すなわち、その場から離れようとしない)表出動作が定義され、最寄りの店舗まで2メートル以内ではその場でジャンプする(すなわち、かなり興奮していることを示す)表出動作が定義されている。店舗に近づく、店舗から離れようとしないといった表出動作は、ユーザに店舗に足を運んでもらうきっかけにもなる。表8内に挙げられる行動内容はいずれも、ロボット1が普段から出力している表出動作の範囲内であり、ユーザに嫌悪感を抱かれ難く、押しつけがましさを感じさせない広告宣伝を実現できる、という点を理解されたい。
行動決定部703は、興味レベル・行動対応表704を参照して、トリガ判定部701が判定したトリガが持つ興味レベルと、位置情報取得部706が取得したロボット1の現在位置から最寄りの店舗までの距離に対応する表出動作を特定すると、その表出動作を発動するためのロボット1の行動を決定して、姿勢遷移機構部104や音声合成部105などに出力する。
例えば、ロボット1の現在位置から最寄りのアイスクリーム店までの距離が150メートルであれば、トリガ判定部701は興味レベル「6」と判定して、行動決定部703に出力する。行動決定部703は、興味レベルが6であることと、最寄りの店舗までの距離が5~200メートルであることから、店舗位置情報記憶部707から最寄りの店舗の位置情報を取得して、その店舗の方向に歩き始める、といった行動を発動させる。さらに最寄りの店舗の半径5メートル以内のエリアに到達すると、ロボット1はしばらくそのエリアから出ようとしない。ユーザは、自律的に歩き始めたロボット1の後を追いかけて、最寄りの店舗に誘導されるので、アイスクリーム店の広告宣伝に繋がる。
上記の表7に示したトリガ・興味レベル対応表では、ロボット1の現在位置から最寄りの店舗までの距離が200メートル以内というトリガに対して最も高い興味レベルが割り当てられているので、位置情報をロボット1に入力される音声データと画像データ(言い換えれば、キーワードの音源とターゲットの情報)よりも優先して表出動作を決定することになる。これに対し、ロボット1に入力される音声データと画像データと、ロボット1の現在位置とで個別にトリガ・興味レベル対応表を定義して、トリガ判定部701が音声データと画像データを優先してトリガ判定を行う(あるいは、逆にロボット1の現在位置を優先してトリガ判定を行う)ようにすることもできる。
以下の表9には、ロボット1に入力される音声データと画像データを行動発動トリガとするトリガ・興味レベル対応表の一例を示している。また、以下の表10には、ロボット1の現在位置を行動発動トリガとするトリガ・興味レベル対応表の一例を示している。
また、上記のように音声データ及び画像データをロボット1の現在位置よりも優先する行動発動トリガとして個別にトリガ・興味レベル対応表を定義する場合には、興味レベル・行動対応表も、以下の表11に示すように、各々のトリガ・興味レベル対応表で判定されるすべての興味レベルS1~S5及びL1~L3に対応する表出動作を定義するものである必要がある。表11内に挙げられる行動内容はいずれも、ロボット1が普段から出力している表出動作の範囲内であり、ユーザに嫌悪感を抱かれ難く、押しつけがましさを感じさせない広告宣伝を実現できる、という点を理解されたい。
図8には、トリガ判定部701が、ロボット1に入力される音声データと画像データと、ロボット1の現在位置とで個別に定義したトリガ・興味レベル対応表を用いて、音声データと画像データを優先してトリガ判定を行うための処理手順の一例をフローチャートの形式で示している。
トリガ判定部701は、音声認識部101Aにより音声認識されたテキストデータ並びに画像認識部101Dにより画像認識されたターゲットを入力すると、表9に示す、音声データと画像データを行動発動トリガとするトリガ・興味レベル対応表を参照して、行動発動トリガの検出を試みる(ステップS801)。
そして、トリガ判定部701は、音声認識結果又は画像認識結果の少なくとも一方から行動発動トリガを検出できた場合には(ステップS801のYes)、音声認識結果と画像認識結果に該当する興味レベルを表9に示すトリガ・興味レベル対応表から読み出して、出力する(ステップS802)。
一方、トリガ判定部701は、音声認識結果又は画像認識結果のいずれからも行動発動トリガを検出できない場合には(ステップS801のNo)、続いて、図10に示す、ロボット1の現在位置を行動発動トリガとするトリガ・興味レベル対応表を参照して、行動発動トリガの検出を試みる(ステップS803)。
そして、トリガ判定部701は、ロボット1の現在位置から行動発動トリガを検出できた場合には(ステップS803のYes)、ロボット1の現在位置に該当する興味レベルを表10に示すトリガ・興味レベル対応表から読み出して、出力する(ステップS804)。
また、トリガ判定部701は、音声認識結果及び画像認識結果、並びにロボット1の現在位置のいずれからも行動発動トリガを検出できない場合には(ステップS803のNo)、トリガを検出しないという結果を出力して(ステップS805)、本処理を終了する。
その後、行動決定部703は、表11に示したような興味レベル・行動対応表を参照して、トリガ判定部701が判定したトリガが持つ興味レベル、又は、位置情報取得部706が取得したロボット1の現在位置から最寄りの店舗までの距離に対応する表出動作を特定すると、その表出動作を発動するためのロボット1の行動を決定して、姿勢遷移機構部104や音声合成部105などに出力する。
トリガ判定部701が表9及び表10に示したトリガ・興味レベル対応表を使用し、行動決定部703が図8に示した処理手順に従い、音声データと画像データを優先してトリガ判定を行う場合には、「おやつ」、「スイーツ」、「アイスクリーム」といったトリガとなるキーワードや、アイスクリーム店のロゴなどのターゲットなど、音声データと画像データに基づくトリガが入力されると、ロボット1の現在位置から最寄りの店舗までの距離に関係なく、判定された興味レベルに応じたロボット1の表出動作が発動される。また、入力された音声データと画像データからトリガが検出されない場合には、ロボット1の現在位置から最寄りの店舗までの距離に基づいて判定された興味レベルに応じたロボット1の表出動作が発動される。
B-7.構成例5
上述した構成例1~4はいずれも、ロボット1が対話している相手が誰であるかに拘わらず、音声認識結果や画像認識結果などに基づいて検出されたトリガに基づいてロボット1が発動する表出動作は同じである。ところが、ロボット1が同じ行動をとっても、得られる広告宣伝の効果はユーザ毎(若しくは、ユーザのプロファイル毎)に異なることも想定される。例えば、激しい表出動作が好ましいユーザもいれば、ある程度抑制した表出動作が好ましいユーザもいる。
上述した構成例1~4はいずれも、ロボット1が対話している相手が誰であるかに拘わらず、音声認識結果や画像認識結果などに基づいて検出されたトリガに基づいてロボット1が発動する表出動作は同じである。ところが、ロボット1が同じ行動をとっても、得られる広告宣伝の効果はユーザ毎(若しくは、ユーザのプロファイル毎)に異なることも想定される。例えば、激しい表出動作が好ましいユーザもいれば、ある程度抑制した表出動作が好ましいユーザもいる。
そこで、音声認識部101Aや画像認識部101Dが備えるユーザ識別機能を活用して、ロボット1が対話しているユーザの情報をさらに利用して、広告宣伝に繋がる表出動作を発動するようにしてもよい。
図9には、ロボット1が、自分と対話しているユーザの情報を利用して広告宣伝に繋がる表出動作を発動するための、行動決定機構部103の機能的構成例を示している。
図示の行動決定機構部103は、トリガ判定部901と、トリガ・興味レベル対応表902と、行動決定部903と、興味レベル・行動対応表904と、ユーザ情報取得部905と、ユーザ情報蓄積部906を備えている。そして、行動決定機構部103は、ユーザ情報取得部905で取得したユーザのプロファイルや、ユーザ情報蓄積部906で蓄積されるユーザの過去の情報を利用して、広告宣伝に繋がる表出動作を発動するためのロボット1の行動を出力する。
まず、ユーザのプロファイル情報を利用して広告宣伝に繋がる表出動作を発動する際の、行動決定機構部103の動作例について説明する。
トリガ判定部901は、音声認識結果に基づいて広告宣伝に繋がるキーワードを抽出するとともに、画像認識結果に基づいて広告宣伝に繋がるターゲットを抽出する。トリガ・興味レベル対応表902は、広告宣伝に繋がる表出動作を発動するトリガとなるキーワード及びターゲットの組み合わせと、キーワード及びターゲットの各組み合わせに対して割り振られた興味レベルの対応関係を示している。例えばスポンサー契約した企業などの広告主は、広告宣伝に繋がるキーワード及びターゲットの組み合わせを選定するとともに、キーワード及びターゲットの各組み合わせに対して興味レベルを割り振って、トリガ・興味レベル対応表902に設定する。例えば通信部76を介して外部から行動決定機構部103内のトリガ・興味レベル対応表902を設定したり、設定内容を変更したりすることができる。トリガ・興味レベル対応表902は、上記の表5と同じであってもよい。
トリガ判定部901は、音声認識部101Aにより音声認識されたテキストデータ並びに画像認識部101Dにより画像認識されたターゲットを遂次入力すると、そのテキストデータとターゲットの組み合わせがトリガ・興味レベル対応表902にリストアップされている行動発動トリガのいずれかと一致するかどうかをチェックする。そして、テキストデータとターゲットの組み合わせがいずれかの行動発動トリガと一致するときには、トリガ判定部901は、トリガ・興味レベル対応表902の該当するエントリから、その行動発動トリガに割り振られた興味レベルを取得して、後段の行動決定部903に出力する。なお、入力されたテキストデータ及びターゲットに対して複数の行動発動トリガが一致する場合には、トリガ判定部901は、興味レベル最も高いものを採用する。
ユーザ情報取得部905は、音声認識部101Aや画像認識部101Dが、ユーザ識別機能によって音声認識結果又は画像認識結果に基づいて識別したユーザの情報を取得する。例えば、音声認識結果や画像認識結果に基づいて、個人識別する以外に、ユーザの年齢や性別などのプロファイル情報も併せて取得する。もちろん、ユーザ情報取得部905は、音声認識や画像認識以外のユーザ識別機能を用いてユーザの情報を取得するようにしてもよい。そして、ユーザ情報取得部905は、ユーザ毎にユーザIDを割り振って、ユーザのプロファイル情報をユーザ情報蓄積部906に出力する。
ユーザ情報蓄積部906は、ユーザ情報取得部905によって取得したユーザ毎のプロファイル情報を、ユーザIDと対応付けて蓄積する。なお、ユーザの反応に関する情報は、ロボット1が表出動作を発動したときの画像認識結果や音声認識結果に基づいて取得することができる。以下の表12には、ユーザ情報蓄積部906が蓄積するユーザ毎のプロファイル情報の一例を示している。表12に示す例では、ユーザのプロファイル情報として「年齢」及び「性別」という2種類のパラメータのみを使用するが、「出身地」や「職業」など、他のパラメータや3種類以上のパラメータを使用してもよい。
興味レベル・行動対応表904は、興味レベル毎の、ユーザのプロファイルとロボット1の広告宣伝に繋がる表出動作との対応関係を示している。例えばロボット1の設計者が定義した興味レベル・行動対応表904をあらかじめ設定したロボット1が出荷される。もちろん、広告主などが通信部76を介して、興味レベル・行動対応表604の設定内容を変更できるようにしてもよい。
以下の表13には、興味レベル・行動対応表904の一例を示している。表13では、ユーザのプロファイルとして、ユーザの年齢に応じたロボット1の表出動作を定義している。すなわち、興味レベル4以上では、ユーザの年齢が20代以下と30代以上とで異なる表出動作を定義している。もちろん、「性別」など、「年齢」以外のプロファイル情報のパラメータを使用して、同じ興味レベルに対してパラメータ値毎に異なる表出動作を定義することもできる。表13内に挙げられる行動内容はいずれも、ロボット1が普段から出力している表出動作の範囲内であり、ユーザに嫌悪感を抱かれ難く、押しつけがましさを感じさせない広告宣伝を実現できる、という点を理解されたい。
行動決定部903は、ロボット1が対話しているユーザのプロファイル情報をユーザ情報蓄積部906から取得してから、興味レベル・行動対応表904を参照して、トリガ判定部601が判定したトリガが持つ興味レベル、及びユーザのプロファイル情報に対応する表出動作を特定すると、その表出動作を発動するためのロボット1の行動を決定して、姿勢遷移機構部104や音声合成部105などに出力する。
例えば、広告主であるアイスクリーム店が10~20代に向けて強く広告を打ち出したいとする。そして、10代の女性がそのアイスクリーム店のブランドロゴが印字された広告をロボット1に見せながら「○○アイスクリーム、おいしそうだね!」と発話したとする。このとき、トリガ判定部901は、上記の表5から興味レベル「5」を判定するとともに、ユーザ情報取得部905はユーザ認識結果から発話者のユーザIDとして「1」を出力する。ユーザ情報蓄積部906は、ユーザIDが「1」のユーザの年齢が10代であることを含むプロファイル情報を行動決定部903に出力する。行動決定部903は、判定されたトリガの興味レベルが「5」であったことと、対話中のユーザの年齢が10代であるという情報から、上記の表13を参照して、耳を少し上げ、尻尾4を激しく振りながらその場で3回ジャンプするというロボット1の表出動作を選択する。このようにユーザ識別機能を利用することで、ユーザのプロファイルに応じてロボット1の行動を変化させることが可能となり、ユーザ毎に広告宣伝の効果が高い行動をロボット1に発動させることができる。
続いて、ユーザの過去の情報を利用して広告宣伝に繋がる表出動作を発動する際の、行動決定機構部103の動作例について説明する。
トリガ・興味レベル対応表902は、広告宣伝に繋がる表出動作を発動するトリガとなるキーワード及びターゲットの組み合わせと、キーワード及びターゲットの各組み合わせに対して割り振られた興味レベルの対応関係を示している。トリガ・興味レベル対応表902は、上記の表5と同じであってもよい。
トリガ判定部901は、音声認識部101Aにより音声認識されたテキストデータ並びに画像認識部101Dにより画像認識されたターゲットを遂次入力すると、そのテキストデータとターゲットの組み合わせがトリガ・興味レベル対応表902にリストアップされている行動発動トリガのいずれかと一致するかどうかをチェックする。そして、テキストデータとターゲットの組み合わせがいずれかの行動発動トリガと一致するときには、トリガ判定部901は、トリガ・興味レベル対応表902の該当するエントリから、その行動発動トリガに割り振られた興味レベルを取得して、後段の行動決定部903に出力する。
ユーザ情報取得部905は、音声認識部101Aや画像認識部101Dが、ユーザ識別機能によって音声認識結果又は画像認識結果に基づいて識別したユーザの情報並びにプロファイル情報を取得する。そして、ユーザ情報取得部905は、ユーザ毎にユーザIDを割り振って、ユーザのプロファイル情報をユーザ情報蓄積部906に出力する(同上)。
ユーザ情報蓄積部906は、ユーザ情報取得部905によって取得したユーザ毎のプロファイル情報を、ユーザIDと対応付けて蓄積する。また、行動決定部903により決定した表出動作をロボット1が発動したときのユーザの反応なども、そのユーザの過去の情報として、ユーザIDと対応付けて併せて蓄積する。なお、ユーザの反応に関する情報は、ロボット1が表出動作を発動したときの画像認識結果や音声認識結果に基づいて取得することができる。以下の表14には、ユーザ情報蓄積部906が蓄積するユーザ毎の過去の情報の一例を示している。表14に示す例では、ロボット1が発動した各表出動作に対するユーザの反応を「Positive(肯定的、好意的、賛同的)」と「Negative(否定的)」の2段階で評価しているが、3段階以上で評価するようにしてもよい。あるいは、ユーザが広告宣伝した商品やサービスを購入又は利用したかなど、他の形式でユーザの反応を評価するようにしてもよい。
興味レベル・行動対応表904は、興味レベル毎の、ユーザの過去の情報とロボット1の広告宣伝に繋がる表出動作との対応関係を示している。例えばロボット1の設計者が定義した興味レベル・行動対応表904をあらかじめ設定したロボット1が出荷される。もちろん、広告主などが通信部76を介して、興味レベル・行動対応表604の設定内容を変更できるようにしてもよい。
以下の表15には、興味レベル・行動対応表904の一例を示している。表15では、興味レベル毎にロボット1の表出動作を定義するとともに、表出動作に対するユーザの過去の反応に応じて発動するかどうかを制御するようにしている。すなわち、ユーザの過去の反応がPositiveであった表出動作は繰り返し発動されるが、ユーザの過去の反応がNegativeであった表出動作は発動が抑制される。もちろん、ユーザの過去の反応がPositiveであった表出動作を増長したり、ユーザの過去の反応がNegativeであった表出動作を他の表出動作に置き換えたりするようにしてもよい。表15内に挙げられる行動内容はいずれも、ロボット1が普段から出力している表出動作の範囲内であり、ユーザに嫌悪感を抱かれ難く、押しつけがましさを感じさせない広告宣伝を実現できる、という点を理解されたい。
行動決定部903は、ロボット1が対話しているユーザの過去の情報をユーザ情報蓄積部906から取得してから、興味レベル・行動対応表904を参照して、トリガ判定部601が判定したトリガが持つ興味レベル、及びユーザの過去の情報に対応する表出動作を特定すると、その表出動作を発動するためのロボット1の行動を決定して、姿勢遷移機構部104や音声合成部105などに出力する。
ユーザ情報蓄積部906は、ロボット1が過去に広告宣伝に繋がる表出動作を発動したときのユーザの反応を蓄積しておく。ここで言うユーザの反応は、笑っていたり何度もトリガとなる単語を発話するといった「Positive」な反応と、不機嫌な顔をしたり、「やめろ」などロボット1に表出動作をやめさせる発話をするといった「Negative」な反応を挙げることができる。ユーザ情報取得部905は、音声認識部101Aによる音声認識結果や、画像認識部101Dによる画像認識結果に基づいて、ユーザの反応が「Positive」又は「Negative」のいずれであったかを示すユーザ情報を取得して、ユーザ情報蓄積部906に蓄積しておく。そして、行動決定部903は、ユーザ毎に蓄積された過去の反応の情報を、ロボット1に広告宣伝に繋がる表出動作を発動させる頻度に利用する。
例えば、40代の男性ユーザがアイスクリーム店のブランドロゴが印字された広告を手に持っているのをロボット1が検出した場合、トリガ判定部901は、上記の表5を参照して興味レベルが「4」であると判定する。また、ユーザ情報取得部905は、音声認識又は画像認識に基づくユーザ識別結果により、ユーザIDが「0」であることを特定して、ユーザ情報蓄積部906に出力する。そして、行動決定部903は、ユーザIDが「0」のユーザの過去の反応が「Negative」であったという情報をユーザ情報蓄積部906から取得すると、上記の表15に示した興味レベル・行動対応表を参照して、ロボット1が広告宣伝に繋がる表出動作を発動しないことを決定する。このようにして、ユーザが不快感を示す場合には、広告宣伝に繋がる表出動作を発動する頻度を下げることが可能であり、広告宣伝が逆効果になることを回避することができる。
C.応用例
上記では、広告宣伝に繋がる表出動作を発動する対話装置として、犬型のロボット1を例に挙げたが、対話装置はロボットに限定されない。乗用車に搭載するカーナビや、スマートフォンのような多機能情報端末に搭載する地図アプリを始め、ユーザとの対話機能を持つさまざまなタイプの情報機器に本明細書で開示する技術を適用することができる。例えば、ルート検索時に到達時間が同じルートを複数提案し、その中に広告主の店舗の前を通過するようなナビゲーションを含めるようにすれば、ユーザに嫌悪感を抱かれることなく、ごく自然に広告宣伝を実現することができる。
上記では、広告宣伝に繋がる表出動作を発動する対話装置として、犬型のロボット1を例に挙げたが、対話装置はロボットに限定されない。乗用車に搭載するカーナビや、スマートフォンのような多機能情報端末に搭載する地図アプリを始め、ユーザとの対話機能を持つさまざまなタイプの情報機器に本明細書で開示する技術を適用することができる。例えば、ルート検索時に到達時間が同じルートを複数提案し、その中に広告主の店舗の前を通過するようなナビゲーションを含めるようにすれば、ユーザに嫌悪感を抱かれることなく、ごく自然に広告宣伝を実現することができる。
また、図4~図7、及び図9に示した構成例では、広告宣伝に繋がる表出動作を発動するトリガを主に音声データや画像データから検出していたが、対話装置又はユーザの状態を示す音声及び画像以外のさまざまな情報を使ってトリガを検出してもよく、また、音声及び画像以外からなるトリガに対して興味レベルを割り振るようにしてもよい。
例えば、ユーザの行動(行動履歴を含む)、ユーザの服装、ユーザの位置情報、時間帯、対話装置又はユーザの周囲環境(温度、湿度、天候、匂い、騒音など)を使って、広告宣伝に繋がる表出動作を発動するトリガを判定するようにしてもよい。ロボット1などの対話装置がこの種の情報を直接センシングする必要はなく、スマートフォンやウェアラブルデバイスなどユーザが携行し又は着用する機器とペアリングして、この種の機器からトリガの判定に使用する情報を取得するようにしてもよい。
また、対話装置は、ペアリングした機器から得られた情報を広告ターゲティングに利用してもよい。これにより、ユーザの年齢層や生活習慣に合わせて効果的に広告宣伝を行うことが可能となる。例えば、よくジョギングするユーザにスポーツドリンクを宣伝することができる。
また、対話装置は、所定のトリガが検出されるまで表出動作の発動を待機するのではなく、積極的にトリガの検出を試みるようにしてもよい。例えば、図1に示した脚式のロボット1のように移動手段を装備する対話装置の場合、電源が付いているテレビに近づいてトリガとなるCM映像が流れるのを待ったり、床に置いてある新聞からターゲットとなる広告を探したりしてもよい。
また、上記では、対話装置が広告宣伝に繋がる表出動作を発動するという実施形態について説明してきたが、広告宣伝以外を目的とする表出動作の発動に応用することもできる。例えば、本明細書で開示する技術を、生活習慣の改善など、ユーザの行動変容にも利用することができる。対話装置は、「散歩」という言葉に反応して喜ぶ、いつも散歩に行く時間になるとそわそわしだす、ユーザが散歩のときに着る上着を手に取ると喜ぶといった、生活習慣の改善を想起させるキーワードやターゲットからなるトリガを判定して、生活習慣の改善のための行動をユーザに促すような表出動作を発動する。
また、上記では、1台の対話装置(1台のロボットなど)が単独で所定の目的に繋がる表出動作を発動する実施形態について説明してきたが、複数台の対話装置が連携して1つの目的に繋がる表出動作を発動するという応用例も考えられる。例えば、あるロボットがトリガとなるキーワードやターゲットを検出すると、その情報を自己位置とともに他のロボットに転送する。他のロボットは、受信したトリガの情報が自分のトリガにも一致すると判定したときには、送信元のロボットの位置へ移動して、適宜表出動作を発動させる。また、同じロボット同士だけでなく、ロボットと音声エージェントなど異種の対話装置間で連携して、1つの目的に繋がる表出動作を発動するようにすることもできる。
また、上記では、対話装置が所定のキーワードやターゲットを検出したことをトリガとして所定の目的に繋がる表出動作を発動する実施形態について説明してきたが、逆に、存在していたキーワードやターゲットが突然消失したことをトリガとして所定の目的に繋がる表出動作を発動するといった、検出情報に変化に応じた行動を発動させるという応用例も考えられる。例えば、テレビで流れていたアイスクリーム店のCM映像が終わって(あるいは、テレビの電源がオフになって)、アイスクリーム店のブランドロゴが見えなくなると、ロボット1が悲しみを表現する行動を発動させる。すると、ユーザはアイスクリーム店の重要性に気づき、アイスクリーム店の広告宣伝に繋がる。
また、上記では、ロボット1などの対話装置が、複数の行動発動トリガを同時に検出したときには、興味レベルが最も高いものを採用することを述べた。その変形例として、同時に検出した行動発動トリガのうちいずれか1つをランダムに採用する、いずれの行動発動トリガも採用せずに他の行動(例えば、ロボット1がうろたえる)を発動する、あるいは、過去に検出しなかった行動発動トリガを採用して今までに使わなかった表出動作を優先的に発動させるようにしてもよい。
また、上記では、ロボット1の四肢を用いた移動や、耳や首の駆動を利用した表出動作を例に挙げたが、対話装置が装備し又は利用可能な出力機能を用いて、普段の表出動作の範囲内で広告宣伝を実施することができる。例えば、発話する、吠える、鳴くといった言語以外の音の情報を用いて表出する、ディスプレイに表示する画像や目や顔の表情といった視覚情報を用いて表出することもできる。
D.まとめ
本明細書で開示する技術によれば、ロボットや音声エージェントなどの対話装置は、普段から出力している表出動作の範囲内で、広告宣伝の対象となる商品やサービスに対して反応を示すという形態で広告宣伝を行う。したがって、広告宣伝のための表出動作は、ユーザと対話装置間のインタラクションを邪魔することなく、押しつけがましさを感じない広告宣伝を実現することができる。
本明細書で開示する技術によれば、ロボットや音声エージェントなどの対話装置は、普段から出力している表出動作の範囲内で、広告宣伝の対象となる商品やサービスに対して反応を示すという形態で広告宣伝を行う。したがって、広告宣伝のための表出動作は、ユーザと対話装置間のインタラクションを邪魔することなく、押しつけがましさを感じない広告宣伝を実現することができる。
例えば、犬型のロボット1が広告宣伝を行う場合、特定のキーワードを聴くと喜ぶ、ユーザと一緒に行動している際にターゲットを見つけるとそのターゲットに積極的に近づいていきなかなか離れようとしない、といった表出動作を発動して、広告宣伝に繋げる。このような表出動作は、広告宣伝に繋がるという側面を持つが、実際の犬の行動を模したものである。したがって、ユーザは、広告宣伝を押し付けられていると感じるよりも、むしろ、自律動作するロボット1の個性であると解釈される。また、ユーザとのインタラクション中に突然広告情報を提示する手法と比べて、ロボット1は、ユーザに嫌悪感を抱かれることなく、ごく自然に広告宣伝を実現することができる。
ロボットや音声エージェントなど、本明細書で開示する技術を適用した対話装置がユーザとのインタラクションを重ねる度に、ユーザが広告対象に触れる頻度が高まっていくので、大きな広告宣伝効果を期待することができる。
本明細書で開示する技術によれば、対話装置は普段から出力している表出動作の範囲内で広告宣伝を行うことから、言い換えれば、ユーザの興味や関心に合わせた広告を提示する必要がない。したがって、十分なユーザ情報を蓄積できていない状況下や、ユーザの興味からやや外れた内容の広告であっても、広告宣伝が可能である。
以上、特定の実施形態を参照しながら、本明細書で開示する技術について詳細に説明してきた。しかしながら、本明細書で開示する技術の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。
本明細書では、本明細書で開示する技術を脚式ロボットに適用した実施形態を中心に説明してきたが、本明細書で開示する技術の要旨はこれに限定されるものではない。脚式以外の移動ロボット、移動型でない対話ロボット、音声エージェントなどさまざまなタイプの対話装置に対して、同様に本明細書で開示する技術を適用して、自然でユーザに嫌悪感を抱かれ難い方法により、広告宣伝の効果を得ることができる。
本明細書で開示する技術は、広告宣伝の実施に利用するモダリティは特に限定されない。例えばディスプレイを搭載しない対話装置の場合には音声インタラクション中に広告宣伝に関する情報を挿入してもよいし、スマートフォンなどペアリングされた情報端末を利用して広告宣伝に関する情報を出力するようにしてもよい。また、言語によるインタラクションを採ることができないロボットの場合には、ジェスチャや移動手段を利用して広告宣伝に関する行動を発言したり、スマートフォンなどペアリングされた情報端末を利用して広告宣伝に関する情報を出力したりするようにしてもよい。
要するに、例示という形態により本明細書で開示する技術について説明してきたが、本明細書の記載内容を限定的に解釈するべきではない。本明細書で開示する技術の要旨を判断するためには、特許請求の範囲を参酌すべきである。
なお、本明細書の開示の技術は、以下のような構成をとることも可能である。
(1)対話装置が広告宣伝に繋がる表出動作を発動すべきトリガが発生したことを判定する判定部と、
判定した前記トリガに基づいて、前記対話装置の表出動作を決定する決定部と、
を具備する情報処理装置。
(2)前記判定部は、トリガが示す興味レベルを判定し、
前記決定部は、興味レベルに応じた前記対話装置の表出動作を決定する、
上記(1)に記載の情報処理装置。
(3)前記判定部は、前記対話装置の周囲の状態を検出するセンサの検出信号の認識結果に基づいて、トリガを検出する、
上記(1)又は(2)のいずれかに記載の情報処理装置。
(4)前記判定部は、前記対話装置の周囲の音声情報又は画像情報の少なくとも一方又は両方の認識結果に基づいてトリガを判定する、
上記(1)乃至(3)のいずれかに記載の情報処理装置。
(5)前記判定部は、前記音声認識結果に基づいて所定のキーワードが発話されたことをトリガとして検出する、
上記(4)に記載の情報処理装置。
(6)前記判定部は、前記画像認識結果に基づいて所定のターゲットが出現したことをトリガとして検出する、
上記(4)又は(5)のいずれかに記載の情報処理装置。
(7)前記対話装置は自走機能を備え、
前記決定部は、前記対話装置の移動を含めた前記対話装置の表出動作を決定する、
上記(1)乃至(6)のいずれかに記載の情報処理装置。
(8)前記対話装置は自走機能を備え、
前記判定部が検出したトリガの方向又は距離を推定する推定部をさらに備え、
前記決定部は、トリガの方向又は距離に応じて、前記対話装置の移動を含めた表出動作を決定する、
上記(1)乃至(7)のいずれかに記載の情報処理装置。
(9)前記判定部は、トリガが示す興味レベルを判定し、
前記決定部は、興味レベルが高いときには前記対話装置がトリガに近づく動作を含む表出動作を決定する、
上記(8)に記載の情報処理装置。
(10)前記対話装置の位置情報を取得する位置情報取得部をさらに備え、
前記判定部は前記対話装置の現在位置を考慮してトリガを判定し、又は、前記決定部は前記対話装置の現在位置を考慮して前記対話装置の表出動作を決定する、
上記(1)乃至(9)のいずれかに記載の情報処理装置。
(11)前記判定部は前記対話装置の現在位置から所定の目的地までの距離に基づいてトリガを判定し、又は、前記決定部は前記対話装置の現在位置から所定の目的地までの距離に基づいて前記対話装置の表出動作を決定する、
上記(1)乃至(10)のいずれかに記載の情報処理装置。
(12)前記対話装置は自走機能を備え、
前記決定部は、前記対話装置の現在位置から前記目的地まで所定の距離以内では、前記対話装置の移動を含めた表出動作を決定する、
上記(11)に記載の情報処理装置。
(13)前記判定部は、トリガが示す興味レベルを判定し、
前記決定部は、興味レベルが高いときには、前記対話装置の現在位置から所定の目的地までの距離に応じて前記対話装置の移動の有無を含む表出動作を決定する、
上記(11)又は(12)のいずれかに記載の情報処理装置。
(14)前記判定部は、前記対話装置の周囲の状態を検出するセンサの検出信号の認識結果を前記位置情報取得部が取得した位置情報よりも優先して用いて、トリガを判定する、
上記(10)乃至(13)のいずれかに記載の情報処理装置。
(15)前記認識部は、前記対話装置と対話するユーザの情報を取得するユーザ情報取得部をさらに認識し、
前記決定部は、前記ユーザの情報を利用して前記対話装置の表出動作を決定する、
上記(1)乃至(14)のいずれかに記載の情報処理装置。
(16)前記決定部は、前記ユーザのプロファイル情報を利用して前記対話装置の表出動作を決定する、
上記(15)に記載の情報処理装置。
(17)前記決定部は、前記対話装置が過去に発動した表出動作に対する前記ユーザの反応に基づいて、今回の前記対話装置の表出動作を決定する、
上記(15)又は(16)のいずれかに記載の情報処理装置。
(18)前記対話装置をさらに備える、
上記(1)に記載の情報処理装置。
(19)対話装置が広告宣伝に繋がる表出動作を発動すべきトリガを発生したことを判定する判定ステップと、
判定した前記トリガに基づいて、前記対話装置の表出動作を決定する決定ステップと、
を有する情報処理方法。
(20)センサと、
駆動部又は出力部と、
前記センサの検出結果に基づいて周囲の状態を認識する認識部と、
前記認識部が認識した状態に基づいて、広告宣伝に繋がる前記駆動部又は出力部を用いた表出動作を決定する決定部と、
を具備するロボット装置。
(1)対話装置が広告宣伝に繋がる表出動作を発動すべきトリガが発生したことを判定する判定部と、
判定した前記トリガに基づいて、前記対話装置の表出動作を決定する決定部と、
を具備する情報処理装置。
(2)前記判定部は、トリガが示す興味レベルを判定し、
前記決定部は、興味レベルに応じた前記対話装置の表出動作を決定する、
上記(1)に記載の情報処理装置。
(3)前記判定部は、前記対話装置の周囲の状態を検出するセンサの検出信号の認識結果に基づいて、トリガを検出する、
上記(1)又は(2)のいずれかに記載の情報処理装置。
(4)前記判定部は、前記対話装置の周囲の音声情報又は画像情報の少なくとも一方又は両方の認識結果に基づいてトリガを判定する、
上記(1)乃至(3)のいずれかに記載の情報処理装置。
(5)前記判定部は、前記音声認識結果に基づいて所定のキーワードが発話されたことをトリガとして検出する、
上記(4)に記載の情報処理装置。
(6)前記判定部は、前記画像認識結果に基づいて所定のターゲットが出現したことをトリガとして検出する、
上記(4)又は(5)のいずれかに記載の情報処理装置。
(7)前記対話装置は自走機能を備え、
前記決定部は、前記対話装置の移動を含めた前記対話装置の表出動作を決定する、
上記(1)乃至(6)のいずれかに記載の情報処理装置。
(8)前記対話装置は自走機能を備え、
前記判定部が検出したトリガの方向又は距離を推定する推定部をさらに備え、
前記決定部は、トリガの方向又は距離に応じて、前記対話装置の移動を含めた表出動作を決定する、
上記(1)乃至(7)のいずれかに記載の情報処理装置。
(9)前記判定部は、トリガが示す興味レベルを判定し、
前記決定部は、興味レベルが高いときには前記対話装置がトリガに近づく動作を含む表出動作を決定する、
上記(8)に記載の情報処理装置。
(10)前記対話装置の位置情報を取得する位置情報取得部をさらに備え、
前記判定部は前記対話装置の現在位置を考慮してトリガを判定し、又は、前記決定部は前記対話装置の現在位置を考慮して前記対話装置の表出動作を決定する、
上記(1)乃至(9)のいずれかに記載の情報処理装置。
(11)前記判定部は前記対話装置の現在位置から所定の目的地までの距離に基づいてトリガを判定し、又は、前記決定部は前記対話装置の現在位置から所定の目的地までの距離に基づいて前記対話装置の表出動作を決定する、
上記(1)乃至(10)のいずれかに記載の情報処理装置。
(12)前記対話装置は自走機能を備え、
前記決定部は、前記対話装置の現在位置から前記目的地まで所定の距離以内では、前記対話装置の移動を含めた表出動作を決定する、
上記(11)に記載の情報処理装置。
(13)前記判定部は、トリガが示す興味レベルを判定し、
前記決定部は、興味レベルが高いときには、前記対話装置の現在位置から所定の目的地までの距離に応じて前記対話装置の移動の有無を含む表出動作を決定する、
上記(11)又は(12)のいずれかに記載の情報処理装置。
(14)前記判定部は、前記対話装置の周囲の状態を検出するセンサの検出信号の認識結果を前記位置情報取得部が取得した位置情報よりも優先して用いて、トリガを判定する、
上記(10)乃至(13)のいずれかに記載の情報処理装置。
(15)前記認識部は、前記対話装置と対話するユーザの情報を取得するユーザ情報取得部をさらに認識し、
前記決定部は、前記ユーザの情報を利用して前記対話装置の表出動作を決定する、
上記(1)乃至(14)のいずれかに記載の情報処理装置。
(16)前記決定部は、前記ユーザのプロファイル情報を利用して前記対話装置の表出動作を決定する、
上記(15)に記載の情報処理装置。
(17)前記決定部は、前記対話装置が過去に発動した表出動作に対する前記ユーザの反応に基づいて、今回の前記対話装置の表出動作を決定する、
上記(15)又は(16)のいずれかに記載の情報処理装置。
(18)前記対話装置をさらに備える、
上記(1)に記載の情報処理装置。
(19)対話装置が広告宣伝に繋がる表出動作を発動すべきトリガを発生したことを判定する判定ステップと、
判定した前記トリガに基づいて、前記対話装置の表出動作を決定する決定ステップと、
を有する情報処理方法。
(20)センサと、
駆動部又は出力部と、
前記センサの検出結果に基づいて周囲の状態を認識する認識部と、
前記認識部が認識した状態に基づいて、広告宣伝に繋がる前記駆動部又は出力部を用いた表出動作を決定する決定部と、
を具備するロボット装置。
1…ロボット、2…胴体部ユニット、3…頭部ユニット、4…尻尾
6…脚部ユニット、7…首関節、8…尻尾関節、9…大腿部ユニット
10…脛部ユニット、11…股関節、12…膝関節、13…足部
51…タッチセンサ、55…表示部、61…メイン制御部
63…サブ制御部、71…外部センサ部、72…スピーカ
73…内部センサ部、74…バッテリ、75…外部メモリ部
76…通信部、81L/R…カメラ、82…マイクロホン
91…バッテリセンサ、92…加速度センサ
101…状態認識情報処理部、101A…音声認識部
101a…制御部、101b…話者識別部
101C…圧力処理部、101D…画像認識部、102…モデル記憶部
103…行動決定機構部、104…姿勢遷移機構部
105…音声合成部
401…トリガ判定部、402…トリガ・興味レベル対応表
403…行動決定部、404…興味レベル・行動対応表
501…トリガ判定部、502…トリガ・興味レベル対応表
503…行動決定部、504…興味レベル・行動対応表
601…トリガ判定部、602…トリガ・興味レベル対応表
603…行動決定部、604…興味レベル・行動対応表
605…方向・距離推定部
701…トリガ判定部、702…トリガ・興味レベル対応表
703…行動決定部、704…興味レベル・行動対応表
705…方向・距離推定部、706…位置情報取得部
707…店舗位置情報記憶部
901…トリガ判定部、902…トリガ・興味レベル対応表
903…行動決定部、904…興味レベル・行動対応表
905…ユーザ情報取得部、906…ユーザ情報蓄積部
6…脚部ユニット、7…首関節、8…尻尾関節、9…大腿部ユニット
10…脛部ユニット、11…股関節、12…膝関節、13…足部
51…タッチセンサ、55…表示部、61…メイン制御部
63…サブ制御部、71…外部センサ部、72…スピーカ
73…内部センサ部、74…バッテリ、75…外部メモリ部
76…通信部、81L/R…カメラ、82…マイクロホン
91…バッテリセンサ、92…加速度センサ
101…状態認識情報処理部、101A…音声認識部
101a…制御部、101b…話者識別部
101C…圧力処理部、101D…画像認識部、102…モデル記憶部
103…行動決定機構部、104…姿勢遷移機構部
105…音声合成部
401…トリガ判定部、402…トリガ・興味レベル対応表
403…行動決定部、404…興味レベル・行動対応表
501…トリガ判定部、502…トリガ・興味レベル対応表
503…行動決定部、504…興味レベル・行動対応表
601…トリガ判定部、602…トリガ・興味レベル対応表
603…行動決定部、604…興味レベル・行動対応表
605…方向・距離推定部
701…トリガ判定部、702…トリガ・興味レベル対応表
703…行動決定部、704…興味レベル・行動対応表
705…方向・距離推定部、706…位置情報取得部
707…店舗位置情報記憶部
901…トリガ判定部、902…トリガ・興味レベル対応表
903…行動決定部、904…興味レベル・行動対応表
905…ユーザ情報取得部、906…ユーザ情報蓄積部
Claims (20)
- 対話装置が広告宣伝に繋がる表出動作を発動すべきトリガが発生したことを判定する判定部と、
判定した前記トリガに基づいて、前記対話装置の表出動作を決定する決定部と、
を具備する情報処理装置。 - 前記判定部は、トリガが示す興味レベルを判定し、
前記決定部は、興味レベルに応じた前記対話装置の表出動作を決定する、
請求項1に記載の情報処理装置。 - 前記判定部は、前記対話装置の周囲の状態を検出するセンサの検出信号の認識結果に基づいて、トリガを検出する、
請求項1に記載の情報処理装置。 - 前記判定部は、前記対話装置の周囲の音声情報又は画像情報の少なくとも一方又は両方の認識結果に基づいてトリガを判定する、
請求項1に記載の情報処理装置。 - 前記判定部は、前記音声認識結果に基づいて所定のキーワードが発話されたことをトリガとして検出する、
請求項4に記載の情報処理装置。 - 前記判定部は、前記画像認識結果に基づいて所定のターゲットが出現したことをトリガとして検出する、
請求項4に記載の情報処理装置。 - 前記対話装置は自走機能を備え、
前記決定部は、前記対話装置の移動を含めた前記対話装置の表出動作を決定する、
請求項1に記載の情報処理装置。 - 前記対話装置は自走機能を備え、
前記判定部が検出したトリガの方向又は距離を推定する推定部をさらに備え、
前記決定部は、トリガの方向又は距離に応じて、前記対話装置の移動を含めた表出動作を決定する、
請求項1に記載の情報処理装置。 - 前記判定部は、トリガが示す興味レベルを判定し、
前記決定部は、興味レベルが高いときには前記対話装置がトリガに近づく動作を含む表出動作を決定する、
請求項8に記載の情報処理装置。 - 前記対話装置の位置情報を取得する位置情報取得部をさらに備え、
前記判定部は前記対話装置の現在位置を考慮してトリガを判定し、又は、前記決定部は前記対話装置の現在位置を考慮して前記対話装置の表出動作を決定する、
請求項1に記載の情報処理装置。 - 前記判定部は前記対話装置の現在位置から所定の目的地までの距離に基づいてトリガを判定し、又は、前記決定部は前記対話装置の現在位置から所定の目的地までの距離に基づいて前記対話装置の表出動作を決定する、
請求項1に記載の情報処理装置。 - 前記対話装置は自走機能を備え、
前記決定部は、前記対話装置の現在位置から前記目的地まで所定の距離以内では、前記対話装置の移動を含めた表出動作を決定する、
請求項11に記載の情報処理装置。 - 前記判定部は、トリガが示す興味レベルを判定し、
前記決定部は、興味レベルが高いときには、前記対話装置の現在位置から所定の目的地までの距離に応じて前記対話装置の移動の有無を含む表出動作を決定する、
請求項11に記載の情報処理装置。 - 前記判定部は、前記対話装置の周囲の状態を検出するセンサの検出信号の認識結果を前記位置情報取得部が取得した位置情報よりも優先して用いて、トリガを判定する、
請求項10に記載の情報処理装置。 - 前記認識部は、前記対話装置と対話するユーザの情報を取得するユーザ情報取得部をさらに認識し、
前記決定部は、前記ユーザの情報を利用して前記対話装置の表出動作を決定する、
請求項1に記載の情報処理装置。 - 前記決定部は、前記ユーザのプロファイル情報を利用して前記対話装置の表出動作を決定する、
請求項15に記載の情報処理装置。 - 前記決定部は、前記対話装置が過去に発動した表出動作に対する前記ユーザの反応に基づいて、今回の前記対話装置の表出動作を決定する、
請求項15に記載の情報処理装置。 - 前記対話装置をさらに備える、
請求項1に記載の情報処理装置。 - 対話装置が広告宣伝に繋がる表出動作を発動すべきトリガを発生したことを判定する判定ステップと、
判定した前記トリガに基づいて、前記対話装置の表出動作を決定する決定ステップと、
を有する情報処理方法。 - センサと、
駆動部又は出力部と、
前記センサの検出結果に基づいて周囲の状態を認識する認識部と、
前記認識部が認識した状態に基づいて、広告宣伝に繋がる前記駆動部又は出力部を用いた表出動作を決定する決定部と、
を具備するロボット装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/044,966 US20210023704A1 (en) | 2018-04-10 | 2019-01-31 | Information processing apparatus, information processing method, and robot apparatus |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018-075768 | 2018-04-10 | ||
JP2018075768 | 2018-04-10 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2019198310A1 true WO2019198310A1 (ja) | 2019-10-17 |
Family
ID=68163134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2019/003534 WO2019198310A1 (ja) | 2018-04-10 | 2019-01-31 | 情報処理装置及び情報処理方法、並びにロボット装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20210023704A1 (ja) |
WO (1) | WO2019198310A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2022124226A1 (ja) * | 2020-12-10 | 2022-06-16 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7439826B2 (ja) * | 2019-04-16 | 2024-02-28 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、及びプログラム |
KR102295836B1 (ko) * | 2020-11-20 | 2021-08-31 | 오로라월드 주식회사 | 성장형 스마트 토이 장치 및 스마트 토이 시스템 |
US20220402123A1 (en) * | 2021-06-21 | 2022-12-22 | X Development Llc | State estimation for a robot execution system |
CN115312054B (zh) * | 2022-08-05 | 2024-06-07 | 山东大学 | 一种基于语音交互的四足机器人运动控制方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3065782U (ja) * | 1999-07-14 | 2000-02-08 | 株式会社山曜 | 自立型広告装置 |
JP2004302328A (ja) * | 2003-04-01 | 2004-10-28 | Sony Corp | ロボット制御装置および方法、記録媒体、並びにプログラム |
JP2015066621A (ja) * | 2013-09-27 | 2015-04-13 | 株式会社国際電気通信基礎技術研究所 | ロボット制御システム、ロボット、出力制御プログラムおよび出力制御方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101946274B (zh) * | 2008-12-16 | 2013-08-28 | 松下电器产业株式会社 | 信息显示装置以及信息显示方法 |
JP2011224737A (ja) * | 2010-04-21 | 2011-11-10 | Toyota Motor Corp | 案内ロボット、案内方法、及び案内制御用プログラム |
KR101257896B1 (ko) * | 2011-05-25 | 2013-04-24 | (주) 퓨처로봇 | 스마트 서비스 로봇 운영 시스템 및 방법 |
US9796093B2 (en) * | 2014-10-24 | 2017-10-24 | Fellow, Inc. | Customer service robot and related systems and methods |
JP6617013B2 (ja) * | 2015-11-26 | 2019-12-04 | ロボットスタート株式会社 | ロボット広告システム、ロボット、ロボット広告方法及びプログラム |
CN105701447B (zh) * | 2015-12-30 | 2018-12-28 | 上海智臻智能网络科技股份有限公司 | 迎宾机器人 |
-
2019
- 2019-01-31 US US17/044,966 patent/US20210023704A1/en active Pending
- 2019-01-31 WO PCT/JP2019/003534 patent/WO2019198310A1/ja active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3065782U (ja) * | 1999-07-14 | 2000-02-08 | 株式会社山曜 | 自立型広告装置 |
JP2004302328A (ja) * | 2003-04-01 | 2004-10-28 | Sony Corp | ロボット制御装置および方法、記録媒体、並びにプログラム |
JP2015066621A (ja) * | 2013-09-27 | 2015-04-13 | 株式会社国際電気通信基礎技術研究所 | ロボット制御システム、ロボット、出力制御プログラムおよび出力制御方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2022124226A1 (ja) * | 2020-12-10 | 2022-06-16 | ||
WO2022124226A1 (ja) * | 2020-12-10 | 2022-06-16 | パナソニックIpマネジメント株式会社 | ロボットの制御方法、ロボット、及び、プログラム |
JP7178579B2 (ja) | 2020-12-10 | 2022-11-28 | パナソニックIpマネジメント株式会社 | ロボットの制御方法、ロボット、及び、プログラム |
US11942216B2 (en) | 2020-12-10 | 2024-03-26 | Panasonic Intellectual Property Management Co., Ltd. | Method for controlling robot, robot, and non-transitory computer-readable recording medium storing program |
US12119111B2 (en) | 2020-12-10 | 2024-10-15 | Panasonic Intellectual Property Management Co., Ltd. | Method for controlling robot, robot, and non-transitory computer-readable recording medium storing program |
Also Published As
Publication number | Publication date |
---|---|
US20210023704A1 (en) | 2021-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019198310A1 (ja) | 情報処理装置及び情報処理方法、並びにロボット装置 | |
JP7531241B2 (ja) | 情報提供システム、端末装置、及びサーバ | |
CN111201539B (zh) | 用于确定用户行为的匹配场景的方法、介质和计算机系统 | |
US11024294B2 (en) | System and method for dialogue management | |
AU2014236686B2 (en) | Apparatus and methods for providing a persistent companion device | |
US11504856B2 (en) | System and method for selective animatronic peripheral response for human machine dialogue | |
US20190206402A1 (en) | System and Method for Artificial Intelligence Driven Automated Companion | |
US11003860B2 (en) | System and method for learning preferences in dialogue personalization | |
US10994421B2 (en) | System and method for dynamic robot profile configurations based on user interactions | |
US20190248004A1 (en) | System and method for dynamic robot configuration for enhanced digital experiences | |
US11675360B2 (en) | Information processing apparatus, information processing method, and program | |
US11331807B2 (en) | System and method for dynamic program configuration | |
JP4534427B2 (ja) | ロボット制御装置および方法、記録媒体、並びにプログラム | |
US20210103281A1 (en) | Information processor, information processing method, and program | |
JP7439826B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
WO2021117441A1 (ja) | 情報処理装置、その制御方法及びプログラム | |
JP7273566B2 (ja) | ロボット、ロボットの制御方法及びプログラム | |
US20190193279A1 (en) | Robot, robot control system, robot control method, and non-transitory storage medium | |
JP7326707B2 (ja) | ロボット、ロボットの制御方法及びプログラム | |
JP7156300B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
WO2020004213A1 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
WO2020213244A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP7090116B2 (ja) | プログラム、記録媒体、拡張現実感提示装置及び拡張現実感提示方法 | |
WO2024219293A1 (ja) | 行動制御システム | |
WO2023037608A1 (ja) | 自律移動体、情報処理方法、及び、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19784913 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 19784913 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: JP |