WO2020031367A1 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
WO2020031367A1
WO2020031367A1 PCT/JP2018/030036 JP2018030036W WO2020031367A1 WO 2020031367 A1 WO2020031367 A1 WO 2020031367A1 JP 2018030036 W JP2018030036 W JP 2018030036W WO 2020031367 A1 WO2020031367 A1 WO 2020031367A1
Authority
WO
WIPO (PCT)
Prior art keywords
information processing
user
trigger
behavior
candidate
Prior art date
Application number
PCT/JP2018/030036
Other languages
English (en)
French (fr)
Inventor
長坂 英夫
高橋 慧
惇一 清水
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to JP2020535461A priority Critical patent/JPWO2020031367A1/ja
Priority to US17/265,213 priority patent/US11940896B2/en
Priority to PCT/JP2018/030036 priority patent/WO2020031367A1/ja
Priority to EP18929569.4A priority patent/EP3835923A4/en
Publication of WO2020031367A1 publication Critical patent/WO2020031367A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3438Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment monitoring of user actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Definitions

  • the present disclosure relates to an information processing device, an information processing method, and a program.
  • Patent Literature 1 discloses a technology that facilitates a gesture operation by indicating to a user the amount of change in posture related to a gesture used for an operation.
  • the present disclosure proposes a new and improved information processing apparatus, information processing method, and program that can efficiently prevent erroneous firing of processing of the apparatus due to the characteristics of the user's behavior.
  • a notification that informs the user of information on candidate behaviors that are estimated to be suitable as a trigger for performing a predetermined process.
  • Control unit wherein the notification control unit further informs the user of an inquiry as to whether or not to apply the execution of the candidate wording estimated from the action log as the trigger, and the candidate wording is
  • An information processing apparatus is provided which is estimated based on the number of times of the behavior extracted from the action log.
  • the processor among a plurality of behaviors that can be extracted from the behavior log of the user, information on candidate behaviors that are estimated to be suitable as a trigger related to the execution of the predetermined processing, the user, Notifying, and inquiring whether or not to apply the execution of the candidate behavior estimated from the action log as the trigger, further causing the user to be notified, wherein the candidate behavior is the An information processing method is provided which is estimated based on the number of times of the behavior extracted from the action log.
  • the computer among a plurality of behaviors that can be extracted from the user's action log, information on candidate behaviors that are estimated to be suitable as a trigger related to the execution of a predetermined process, to the user
  • a notification control unit for causing the notification, the notification control unit, the execution of the candidate behavior estimated from the action log, an inquiry as to whether to apply as the trigger, the user, further notify the user
  • the A program is provided for causing the candidate behavior to function as an information processing device, which is estimated based on the number of times of the behavior extracted from the behavior log.
  • FIG. 11 is a diagram for describing an example of a device operation by a gesture.
  • FIG. 10 is a diagram for describing an example of an operation of the device by a start gesture. It is a figure for explaining an outline of notice control concerning this embodiment. It is a figure showing the basic structure of information processing terminal 10 concerning this embodiment. A state in which the information processing terminal 10 having an open earhole outputs sound waves to the user's ear is shown.
  • FIG. 1 is a block diagram illustrating a configuration example of an information processing system according to an embodiment.
  • FIG. 3 is a block diagram illustrating a functional configuration example of the information processing terminal 10 according to the embodiment.
  • FIG. 2 is a block diagram illustrating a functional configuration example of an information processing server 20 according to the embodiment.
  • FIG. 9 is a diagram illustrating an example of a case where an inquiry is made as to which one of a plurality of processes the candidate behavior according to the present embodiment is to be assigned to;
  • FIG. 11 is a diagram illustrating an example of a case where a change in the size of a gesture applied by an application unit 250 is notified as a trigger according to the embodiment.
  • FIG. 8 is a diagram illustrating an example of a case where a notification of a change in the number of gestures applied by an application unit 250 is issued as a trigger according to the embodiment.
  • FIG. 13 is a diagram illustrating an example of a case where information regarding a gesture applied by an application unit 250 is notified as a trigger related to execution of a process according to a situation of a user according to the present embodiment. It is a figure for explaining an example of a notice concerning this embodiment.
  • 9 is a flowchart illustrating an example of a flow of estimating and applying a candidate behavior suitable as a trigger according to the embodiment. It is a flow chart which shows an example of the flow of control in gesture processing concerning this embodiment.
  • FIG. 2 is a block diagram illustrating a hardware configuration example of an information processing server 20 according to an embodiment of the present disclosure.
  • a predetermined gesture such as nodding and swinging
  • a startup word “Wake up word).
  • a wearable device includes, for example, a head-mounted display that is mounted on a user's head and provides visual information and audio information.
  • a terminal having no display device such as a hearable device worn on a user's ear
  • the user can operate the device by, for example, utterance, device operation (button press, touch operation, or the like) or gesture.
  • FIG. 1 is a diagram for explaining an example of a device operation by a gesture.
  • FIG. 1 shows a user U wearing the information processing terminal 10 and performing a gesture.
  • the user U can cause the information processing terminal 10 to execute a predetermined process corresponding to each gesture by performing a gesture.
  • the predetermined process refers to execution of a function provided in the information processing terminal 10, for example, "music playback", "skip to next song", "call", and the like.
  • the information processing terminal 10 executes a music reproduction process or a stop process.
  • the information processing terminal 10 executes a skip process from the currently playing music to the next music.
  • the information processing terminal 10 executes a process of returning to the previous song from the currently playing music.
  • FIG. 2 is a diagram for explaining an example of the operation of the device by the activation gesture.
  • FIG. 2 shows a user U who wears the information processing terminal 10 and executes a startup gesture.
  • the activation gesture is a gesture applied as an activation trigger for starting an interaction with the agent function via the information processing terminal 10.
  • the user U performs an operation of shaking his head as an example of the activation gesture.
  • the agent function is activated, and the interaction between the user U and the agent function is started.
  • the information processing terminal 10 executes a system utterance SO1 for notifying the user U that the interaction has started.
  • various gestures are assigned as triggers for executing respective processes.
  • the processing of the apparatus may be erroneously fired (erroneously generated).
  • erroneous firing means that event processing not intended by the user occurs.
  • the information processing apparatus according to an embodiment of the present disclosure, among a plurality of behaviors extracted from the behavior log of the user, a candidate behavior that is estimated to be suitable as a trigger related to execution of a predetermined process. It has a function to notify the user of such information. Further, the information processing apparatus according to the present embodiment further notifies the user of an inquiry as to whether or not to apply the execution of the candidate behavior estimated from the behavior log as the trigger, and
  • One of the features is that it is estimated based on the number of times of a predetermined word and phrase recognized from the log.
  • FIG. 3 is a diagram for explaining an outline of the notification control according to the present embodiment.
  • the upper part of FIG. 3 shows the action log storage unit 230 that stores the action log of the user U, and the recognition result R that indicates the number of predetermined words and actions extracted from the action log.
  • the predetermined behavior is a predetermined behavior, and means a practical behavior as a trigger related to execution of processing.
  • the action log may be, for example, an action log in which the action history of the user U for one day is accumulated.
  • the information processing server 20 estimates a candidate behavior that is suitable as a trigger related to the execution of the process, based on a plurality of behaviors extracted from the behavior log of the user U. Specifically, the information processing server 20 estimates the candidate behavior based on a predetermined action and the number of utterances included in the recognition result R extracted from the action log.
  • the “nodding” operation is recognized five times, the “shaking” operation is performed once, and the “shaking the head” operation is recognized four times. You can see that.
  • the information processing server 20 estimates that the “shaking his head” operation, which is the operation with the least number of extractions among the three types of operations, is suitable as a trigger related to the execution of the process. Good.
  • the operation with the least number of extractions is suitable as the trigger, the possibility that the operation is recognized at a timing not intended by the user and erroneous firing of the processing of the device occurs is minimized.
  • the information processing terminal 10 inquires, based on the recognition result R, whether or not to apply the candidate wording estimated by the information processing server 20 to be suitable as a trigger for execution of the process as the trigger. Can be notified to the user U.
  • the information processing terminal 10 is executing the system utterance SO2 for notifying an inquiry as to whether or not to apply the “shake your head” gesture as the activation gesture.
  • the information processing terminal 10 and the information processing server 20 based on the characteristics of the user's behavior, information on the candidate behavior that is suitable as a trigger for performing the process is provided to the user. Can be notified. According to such a function, in a scene where the user does not intend to execute the process, it is possible to efficiently prevent the process from being executed, that is, the occurrence of a misfire. Also, by notifying each user of his / her own behavior habit and applying the candidate behavior as a trigger, it becomes possible for the user to grasp that the possibility of erroneous firing is reduced in the future.
  • the information processing terminal 10 may notify the user U of information on the candidate behavior when the above-mentioned candidate behavior is applied as a trigger related to the execution of the process.
  • the information processing terminal 10 according to the present embodiment notifies the user U of information related to the “shaking his head” operation estimated by the estimating unit 240 to be suitable as the activation gesture, and executes the information. May be prompted.
  • the information processing terminal 10 according to the present embodiment is an information processing device that notifies a user based on control by the information processing server 20.
  • FIG. 4 is a diagram illustrating a basic structure of the information processing terminal 10 according to the present embodiment.
  • FIG. 4 shows an example of a basic structure when the information processing terminal 10 according to the present embodiment is a hearable device.
  • the information processing terminal 10 includes a sound generator 610 that generates sound, a sound guide 620 that takes in sound emitted from the sound generator 610 from one end 621, and a sound guide 620.
  • a holding section 630 for holding near the end 622 is provided.
  • the sound guide 620 is made of, for example, a hollow tube having an inner diameter of 1 to 5 mm, and both ends may be open ends.
  • One end 621 of the sound guide 620 is a sound input hole for a sound generated from the sound generator 610, and the other end 622 functions as a sound output hole. Therefore, by attaching one end 621 to sound generation unit 610, sound conduction unit 620 is in a one-side open state.
  • the holding portion 630 engages with the vicinity of the entrance of the ear canal (for example, a bead notch) so that the sound output hole of the other end 622 of the sound guiding portion 620 faces the back side of the ear canal. Is supported near the other end 622.
  • the outer diameter of at least the vicinity of the other end 622 of the sound guide 620 is formed to be much smaller than the inner diameter of the ear hole. Therefore, even when the other end 622 of the sound guide section 620 is held near the entrance of the external auditory meatus by the holding section 630, the ear hole of the user is not closed. That is, the ear hole is open.
  • the information processing terminal 10 is different from a general earphone, and can be said to be an “open-ear type”.
  • the holding section 630 also has an opening 631 that opens the ear canal entrance (ear hole) to the outside even when the sound guide section 620 is held.
  • the holding portion 630 is a ring-shaped structure, and is connected to the vicinity of the other end 622 of the sound conducting portion 620 on a part of the inside, so that the other portions of the ring-shaped structure are The openings 631 are all provided.
  • the holding portion 630 is not limited to the ring-shaped structure, and may have any shape that can support the other end 622 of the sound conducting portion 620 as long as the holding portion 630 has a hollow structure.
  • the tubular sound guide 620 When the sound emitted from the sound generator 610 is taken into the tube from one end 621 of the tube, the tubular sound guide 620 propagates air vibration, and is transmitted from the other end 622 held near the ear canal entrance by the holder 630 to the ear canal. Release to the eardrum.
  • the holding portion 630 that holds the vicinity of the other end 622 of the sound guide portion 620 includes the opening 631 that opens the entrance (ear hole) of the ear canal to the outside. Therefore, even when the information processing terminal 10 is worn, the ear hole of the user is not closed. The user can sufficiently listen to the ambient sound via the opening 631 while wearing the information processing terminal 10 and listening to the sound output from the sound generator 610.
  • the information processing terminal 10 has the ear holes opened, the sound generated from the sound generator 610 (reproduced sound) can be prevented from leaking to the outside. This is because the other end 622 of the sound guide section 620 is attached so as to face in the vicinity of the entrance of the ear canal and radiates the air vibration of the generated sound near the eardrum, so that sufficient sound quality can be obtained even if the output is reduced. Because it can be obtained.
  • FIG. 5 shows a state where the information processing terminal 10 of the open-ear type outputs sound waves to the user's ear. As shown in FIG. 5, air vibration is emitted from the other end 622 of the sound guide 620 toward the inside of the ear canal.
  • the ear canal 700 is a hole that starts at the ear canal entrance 701 and ends inside the eardrum 702 and is typically approximately 25-30 millimeters in length.
  • the ear canal 700 is a cylindrical closed space.
  • the air vibration radiated from the other end 622 of the sound guide 620 toward the depth of the ear canal 700 propagates to the eardrum 702 with directivity as indicated by reference numeral 711. Further, since the sound pressure of the air vibration increases in the external auditory canal 700, the sensitivity (gain) particularly in the low range is improved.
  • the outside of the ear canal 700 that is, the outside world is an open space. For this reason, the air vibration radiated from the other end 622 of the sound guide section 620 to the outside of the ear canal 700 has no directivity in the outside world and rapidly attenuates as indicated by reference numeral 712.
  • the tubular sound-guiding part 620 has a bent shape in the middle part that is folded back from the back side to the front side of the pinna.
  • the bent portion is a pinch portion 623 having an opening / closing structure, which can pinch the ear lobe by generating a pinch force.
  • the sound guide 620 further includes a deformable portion 624 between the other end 622 disposed near the entrance of the ear canal and the pinch portion 623 that bends.
  • the deforming portion 624 has a function of deforming when an excessive external force acts, so that the other end 622 of the sound conducting portion 620 does not enter the inner ear canal more than necessary.
  • the information processing terminal 10 may be various devices that notify a user of information on candidate behavior.
  • FIG. 6 is a block diagram illustrating a configuration example of the information processing system according to the present embodiment.
  • the information processing system includes an information processing terminal 10 and an information processing server 20.
  • the above-described components are connected via a network 30 so that information can be communicated with each other.
  • the information processing terminal 10 based on control by the information processing server 20, notifies a user of information on candidate behaviors estimated to be suitable as a trigger for execution of a process. It is.
  • the information processing terminal 10 according to the present embodiment may be, for example, a hearable device as described with reference to FIGS. 4 and 5.
  • the information processing terminal 10 according to the present embodiment is not limited to the example.
  • the information processing terminal 10 according to the present embodiment may be, for example, a wearable device such as a head-mounted display, or a stationary or autonomous mobile dedicated device.
  • the information processing terminal 10 according to the present embodiment may be various devices that execute processing based on a gesture or utterance of a user.
  • the information processing terminal 10 has a function of collecting sensor information relating to the user's behavior and the surrounding environment using various sensors, for example, an acceleration sensor.
  • the sensor information collected by the information processing terminal 10 is accumulated in the information processing server 20, and is used for estimating a candidate behavior that is suitable as a trigger for performing the process.
  • the information processing server 20 recognizes a predetermined behavior from the sensor information and accumulates the behavior as a user action log. In addition, the information processing server 20 according to the present embodiment estimates candidate behaviors that are suitable as a trigger related to execution of a process based on the number of predetermined behaviors stored in the action log, and stores information related to the candidate behaviors. To the user. At this time, one of the characteristics is that the information processing server 20 according to the present embodiment notifies the user of an inquiry as to whether or not to apply the execution of the candidate behavior estimated from the action log as a trigger. . Details of the functions of the information processing server 20 according to the present embodiment will be separately described later.
  • the network 30 has a function of connecting each component included in the information processing system.
  • the network 30 may include a public network such as the Internet, a telephone network, or a satellite communication network, various LANs (Local Area Network) including Ethernet (registered trademark), a WAN (Wide Area Network), and the like.
  • the network 30 may include a dedicated line network such as an IP-VPN (Internet Protocol-Virtual Private Network).
  • the network 30 may include a wireless communication network such as Wi-Fi (registered trademark) and Bluetooth (registered trademark).
  • the configuration example of the information processing system according to the present embodiment has been described above. Note that the system configuration described with reference to FIG. 6 is merely an example, and the configuration of the information processing system according to the present embodiment is not limited to this example.
  • the functions of the information processing terminal 10 and the information processing server 20 according to the present embodiment may be realized by a single device.
  • the configuration of the information processing system according to the present embodiment can be flexibly modified according to specifications and operations.
  • FIG. 7 is a block diagram illustrating a functional configuration example of the information processing terminal 10 according to the present embodiment.
  • the information processing terminal 10 according to the present embodiment includes a server communication unit 110, a display unit 120, an audio output unit 130, an imaging unit 140, an audio input unit 150, a sensor unit 160, and a control unit 180. .
  • the server communication unit 110 has a function of performing information communication with the information processing server 20 via the network 30. Specifically, the server communication unit 110 transmits the sound information collected by the voice input unit 150 and the sensor information collected by the sensor unit 160 to the information processing server 20. In addition, the server communication unit 110 receives, from the information processing server 20, information on the candidate behavior estimated by the estimating unit 240, which will be described later, if the information is suitable as a trigger for executing the process.
  • the display unit 120 has a function of outputting visual information such as an image and text under the control of the control unit 180.
  • the display unit 120 according to the embodiment includes a display device that presents visual information and the like. Examples of the display device include a liquid crystal display (LCD) device, an OLED (Organic Light Emitting Diode) device, and a touch panel.
  • the display unit 120 according to the present embodiment does not necessarily have to be provided in the information processing terminal 10.
  • the information processing terminal 10 may use a smartphone as the display unit 120 via the network 30.
  • the voice output unit 130 according to the present embodiment has a function of outputting various sounds including voice utterance.
  • the audio output unit 130 according to the present embodiment can also be said to be a notification unit that notifies the user of information related to the candidate behavior based on the control of the information processing server 20.
  • the audio output unit 130 according to the present embodiment includes an audio output device such as a speaker or an amplifier.
  • the imaging unit 140 has a function of capturing moving images of the user and the surrounding environment.
  • the image information captured by the image capturing unit 140 is used by the information processing server 20 for recognition of a user's action, state, and surrounding environment.
  • the imaging unit 140 according to the present embodiment includes an imaging device that can capture an image.
  • the above-mentioned images include still images in addition to moving images.
  • the voice input unit 150 has a function of collecting speech information such as a user's utterance and ambient sounds generated around the information processing terminal 10.
  • the sound information collected by the voice input unit 150 is used for voice recognition by the information processing server 20, recognition of the surrounding environment, and the like.
  • the voice input unit 150 according to the present embodiment includes a microphone for collecting sound information.
  • the sensor unit 160 has a function of collecting sensor information relating to the behavior of the user and the surrounding environment using various sensors.
  • a recognition unit 220 described below recognizes a predetermined operation based on the sensor information collected by the sensor unit 160.
  • the sensor unit 160 includes an acceleration sensor, a gyro sensor, a geomagnetic sensor, a vibration sensor, a GNSS (Global Navigation Satellite System) signal receiving device, and the like.
  • Control unit 180 The control unit 180 according to the present embodiment has a function of controlling each component included in the information processing terminal 10.
  • the control unit 180 controls, for example, starting and stopping of each component.
  • the control unit 180 inputs a control signal generated by the information processing server 20 received by the server communication unit 110 to the display unit 120 and the audio output unit 130.
  • the control unit 180 according to the present embodiment may have a function equivalent to a notification control unit 260 of the information processing server 20 described below.
  • the functional configuration example of the information processing terminal 10 according to the present embodiment has been described.
  • the configuration described above with reference to FIG. 7 is merely an example, and the functional configuration of the information processing terminal 10 according to the present embodiment is not limited to the example.
  • the control unit 180 according to the present embodiment may have the same function as the notification control unit 260 of the information processing server 20.
  • the functional configuration of the information processing terminal 10 according to the present embodiment can be flexibly modified according to specifications and operations.
  • FIG. 8 is a block diagram illustrating a functional configuration example of the information processing server 20 according to the present embodiment.
  • the information processing server 20 according to the present embodiment includes a communication unit 210, a recognition unit 220, an action log accumulation unit 230, an estimation unit 240, an application unit 250, a notification control unit 260, and a process control unit 270. Prepare.
  • the communication unit 210 has a function of performing information communication with the information processing terminal 10 via the network 30.
  • the communication unit 210 receives the sensor information and the sound information from the information processing terminal 10, and outputs the information on the candidate behavior that the estimating unit 240 described later estimates to be suitable as a trigger for performing the process.
  • the recognition unit 220 has a function of recognizing a user's behavior based on sensor information collected by the information processing terminal 10, that is, a gesture recognition function and a voice recognition function.
  • the recognition unit 220 recognizes a predetermined behavior from the sensor information and the sound information received from the communication unit 210, and transmits information related to the behavior to the action log storage unit 230.
  • the recognizing unit 220 is capable of recognizing various behaviors and surrounding environments based on the collected acceleration information, angular velocity information, voice, image, and the like.
  • the action log accumulating unit 230 accumulates an action log regarding the user's behavior recognized by the recognizing unit 220. Further, the action log storage unit 230 according to the present embodiment stores the operation history of the user on the information processing terminal 10 (especially, the gesture recognized by the recognition unit 220 and the operation history corresponding to the gesture). The action log and the operation history are used by the estimation unit 240 for estimating the candidate behavior.
  • the estimating unit 240 extracts a plurality of predetermined actions from the user's action log stored in the action log storage unit 230, and executes processing based on the number of times of the plurality of predetermined actions. Estimate candidate behaviors that are suitable as triggers.
  • the estimating unit 240 according to the present embodiment may, for example, among the plurality of predetermined words and phrases, estimate the word and phrase that the recognition unit 220 has recognized the least number of times as a candidate word and phrase suitable as the trigger.
  • the estimation unit 240 may estimate the candidate behavior in accordance with the type and characteristics of the process. Specifically, the estimation unit 240 may estimate a gesture having a different possibility of erroneous firing according to the importance of the processing. More specifically, the estimating unit 240 may preferentially estimate a gesture with a lower possibility of misfiring as a candidate behavior as a trigger related to a process frequently used by the user U among a plurality of processes. Good.
  • the application unit 250 has a function of applying the candidate behavior estimated by the estimation unit 240 as a trigger for performing the process.
  • the application unit 250 according to the present embodiment applies, for example, a gesture of waving the head estimated by the estimation unit 240 to be suitable as a trigger of the music reproduction process, as a trigger of the music reproduction process based on the user's approval.
  • the notification control unit 260 has a function of notifying a user of information on candidate behaviors estimated by the estimation unit 240 to be suitable as a trigger for execution of a process. According to the above-described function of the notification control unit 260 according to the present embodiment, it is possible to notify the user of information related to a behavior that is estimated to have a lower possibility of misfire of the process.
  • the behavior that can be extracted includes the behavior whose extraction number is zero.
  • the information on the behavior applied by the application unit 250 as the trigger for the execution of the process may include the type, the size, the speed, the number of times, and the gesture holding time.
  • the magnitude of the behavior refers to, for example, the amount of change in the posture of the user U when performing a gesture.
  • the number of times of speech refers to, for example, the number of times a gesture is repeatedly executed.
  • the magnitude of the behavior applied by the application unit 250 as a trigger is a threshold value that the recognition unit 220 recognizes that the user U has executed the trigger, for example, a threshold value of a change amount of the posture of the user U when performing a gesture, Say.
  • the information on the candidate behavior refers to information on the behavior estimated by the estimation unit 240 as the candidate behavior.
  • the notification control unit 260 may, for example, notify the user U of a difference between the speed of the speech recognized by the recognition unit 220 and the speed of the speech applied by the application unit 250 as a trigger.
  • the information on the behavior applied by the application unit 250 as the trigger for the execution of the process may include the type, the size, the speed, the number of times, and the gesture holding time.
  • the notification control unit 260 may notify the user U of a difference between the speed of the speech recognized by the recognition unit 220 and the speed of the speech applied by the application unit 250 as a trigger, for example.
  • the notification control unit 260 may notify the user of an inquiry as to whether or not to apply the execution of the candidate behavior as a trigger related to the execution of the process. According to such a function, each user can operate the apparatus by using a language with a low possibility of erroneous firing of the process.
  • the process control unit 270 causes the information processing terminal 10 to execute a process corresponding to the user's behavior recognized by the recognition unit 220 based on the user's behavior.
  • the example of the functional configuration of the information processing server 20 according to the embodiment has been described above.
  • the functional configuration described above with reference to FIG. 8 is merely an example, and the functional configuration of the information processing server 20 according to the present embodiment is not limited to the example.
  • the information processing server 20 does not necessarily need to include all of the configurations illustrated in FIG.
  • the recognition unit 220, the action log accumulation unit 230, the estimation unit 240, the application unit 250, and the processing control unit 270 can be provided in another device different from the information processing server 20.
  • the functional configuration of the information processing server 20 according to the present embodiment can be flexibly modified according to specifications and operations.
  • FIG. 9 is a diagram illustrating an example where a plurality of gestures are estimated to be suitable as a trigger according to the present embodiment.
  • FIG. 9 shows a user U wearing the information processing terminal 10 and having the display unit 120.
  • the notification control unit 260 inquires which of the plurality of candidate behaviors estimated by the estimation unit 240 to be suitable as a trigger for execution of the process is to be applied as a trigger. Can be notified to the user U via the display unit 120 realized by the information processing terminal 10 or the smartphone.
  • the notification control unit 260 causes the sound output unit 130 to output a type of a plurality of estimated candidate words and sounds that inquire about which candidate words to apply. Further, the notification control section 260 according to the present embodiment may cause the display section 120 to display information on the candidate behavior.
  • the notification control unit 260 causes the audio output unit 130 to output a system utterance SO3 prompting selection of a candidate behavior to be applied as a trigger.
  • the notification control unit 260 displays information related to the gestures “nodding”, “shaking his head”, and “shaking his head” as an example of the system utterance SO3, for example, character information or an illustration of the gesture to the display unit 120. Is displayed.
  • the user can select a candidate behavior to be applied as a trigger related to the execution of the process, according to each situation and taste.
  • the estimation unit 240 may estimate that the plurality of extracted words and phrases are suitable as a trigger for executing the process.
  • FIG. 10 is a diagram illustrating an example of a case where an inquiry is made as to which of a plurality of processes the candidate behavior according to the present embodiment is assigned to.
  • FIG. 10 shows a user U wearing the information processing terminal 10 and having the display unit 120.
  • the notification control unit 260 converts the candidate behavior estimated by the estimating unit 240 to be suitable as a trigger related to execution of a process, as a trigger related to execution of any of the plurality of processes.
  • the user U can be notified of an inquiry as to whether or not to apply the information via the information processing terminal 10 or the display unit 120.
  • the notification control unit 260 causes the sound output unit 130 to output a sound for notifying information such as the type of the candidate speech and the name of the process. In addition, the notification control unit 260 causes the sound output unit 130 to output a sound inquiring about which process to apply the candidate behavior as a trigger. In addition, the notification control unit 260 may notify the display by displaying the above information on the display unit 120.
  • the notification control unit 260 causes the information processing terminal 10 to execute a system utterance SO4 for urging the user to apply the candidate behavior as a trigger of any processing.
  • the notification control unit 260 causes the display unit 120 to display the character information and illustration of the “nodding” gesture, the name of the process, “music playback”, “music stop”, and “skip to the next song”. .
  • the user can select the process of applying the candidate behavior as a trigger according to each situation or taste.
  • the size of the wording may be changed.
  • the above-described operation history may include information on whether or not the operation corresponding to the gesture is misfire, and based on the misfire information, the application unit 250 applies the trigger as a trigger related to the execution of the process.
  • the size of the speech may be changed.
  • the misfire information is acquired by, for example, extracting the operation history of the operation of canceling the process by the user after the execution of the behavior from the action log.
  • FIG. 11 is a diagram illustrating an example of a case in which a change in the size of a gesture applied by the application unit 250 is notified as a trigger according to the present embodiment.
  • FIG. 11 shows a user U wearing the information processing terminal 10 and having the display unit 120.
  • the notification control unit 260 when the estimating unit 240 estimates the misfire of the process due to the speech, asks the user whether to change the magnitude of the speech related to the trigger. U can be notified via the information processing terminal 10 and the display unit 120.
  • the notification control unit 260 transmits, to the audio output unit 130, information relating to the behavior applied by the application unit 250 as a trigger related to the execution of the process and a voice inquiring whether to change the magnitude of the behavior. Output.
  • the notification control unit 260 may notify the display unit 120 by displaying the type and size of the behavior applied as the trigger.
  • the notification control unit 260 causes the information processing terminal 10 to execute a system utterance SO5 for notifying an inquiry about whether to change the size.
  • the notification control unit 260 determines the information about the gesture applied by the application unit 250 as the trigger, for example, the currently applied size and the recommended size of the “nodding” gesture applied by the application unit 250 as the trigger. Is displayed on the display unit 120.
  • the notification control unit 260 even when each user does not change the type of the trigger applied as the trigger, it is possible to prevent the misfire of the process. According to this function, each user can change the feeling of operation when changing the size of the wording to be applied as a trigger, as compared to when changing the type, the operation feeling does not change significantly. And it is possible to operate the apparatus.
  • FIG. 12 is a diagram illustrating an example of a case where a notification of a change in the number of gestures applied by the application unit 250 is issued as a trigger according to the present embodiment.
  • FIG. 12 shows a user U wearing the information processing terminal 10 and having the display unit 120.
  • the notification control unit 260 changes the number of times of the speech related to the trigger when the estimation unit 240 estimates the misfire of the speech applied by the application unit 250 as the trigger related to the process.
  • the user U can be notified of the inquiry about whether or not to do so via the information processing terminal 10 or the display unit 120.
  • the notification control unit 260 outputs, as a trigger, information related to the behavior applied by the application unit 250, for example, the type and number of gestures, and a voice that inquires whether to change the number of times of the voice, outputs a voice. Output to the unit 130.
  • the notification control unit 260 may notify the display unit 120 by displaying information related to the behavior applied as the trigger, for example, the type and the number of gestures.
  • the notification control unit 260 causes the information processing terminal 10 to execute a system utterance SO6 for notifying an inquiry as to whether or not to change the number of times.
  • the notification control unit 260 displays information on the gesture applied by the application unit 250 as a trigger, for example, the number of times that the application is currently applied and the number of times of recommendation regarding the “nodding” gesture applied by the application unit 250 as a trigger. It is displayed on the unit 120.
  • each user can prevent erroneous firing of the process even when the user does not change the type of behavior applied as a trigger. According to such a function, when each user changes the number of times of the said behavior, the operation feeling does not greatly change as compared with the case where the type is changed. The operation can be performed.
  • FIG. 13 is a diagram illustrating an example of a case in which information on a combination of behaviors applied as a trigger according to the present embodiment is notified.
  • a user U wearing the information processing terminal 10 and having the display unit 120 is shown.
  • the lower part of FIG. 13 shows a user U performing a gesture of waving his / her head.
  • the notification control unit 260 notifies information on the first behavior among the combinations of the behaviors applied by the application unit 250 as a trigger related to the execution of the process.
  • the first behavior refers to the behavior applied by the application unit 250 to be executed first in the combination of the behaviors. This will be specifically described below.
  • the notification control unit 260 according to the present embodiment causes the sound output unit 130 to output a sound for notifying the guidance of the type related to the first behavior.
  • the notification control unit 260 according to the present embodiment may notify the display by displaying the type of the first behavior or the illustration corresponding to the type on the display unit 120.
  • the notification control unit 260 includes a system utterance SO7 for notifying the user U of information related to the “shake his / her head” operation to be performed first by the user U. Is executed by the information processing terminal 10.
  • the notification control unit 260 causes the display unit 120 to display information related to the “shaking the head” operation, for example, the type and illustration of the operation.
  • the notification control unit 260 notifies information on the second behavior among the combinations of the behaviors applied by the application unit 250 as the trigger related to the execution of the local process.
  • the second behavior is a behavior applied by the application unit 250 to be executed second among the combinations of the behaviors. This will be specifically described below.
  • the recognition unit 220 recognizes the first behavior
  • the notification control unit 260 according to the present embodiment causes the voice output unit 130 to output a voice for notifying the type guidance related to the second behavior.
  • the notification control unit 260 according to the present embodiment may notify the display unit 120 by displaying information related to the second behavior, for example, the type or illustration of the gesture.
  • the notification control unit 260 when the recognition unit 220 recognizes the “shake his / her head” gesture, the notification control unit 260 according to the present embodiment transmits information on the gesture that the user U should perform second.
  • the information processing terminal 10 executes the system utterance SO8 for notifying the user U.
  • the notification control unit 260 causes the display unit 120 to display information related to the gesture of “nodding”, for example, the type and illustration of the gesture.
  • the user can grasp information on the next behavior to be executed among the combinations of the behaviors applied as the trigger. According to such a function, the user can easily learn the operation of the device by the combination of the words and actions.
  • FIG. 14 is a diagram illustrating an example of a case in which information about a gesture applied by the application unit 250 is notified as a trigger related to execution of a process according to the situation of the user according to the present embodiment.
  • FIG. 14 shows a user U wearing the information processing terminal 10 and running.
  • the notification control unit 260 according to the present embodiment in accordance with a predetermined situation of the user U recognized by the recognition unit 220 according to the present embodiment, the notification control unit 260 according to the present embodiment performs processing in the situation.
  • the user U can be notified via the information processing terminal 10 of information on candidate behaviors estimated to be suitable as such a trigger.
  • the notification control section 260 causes the voice output section 130 to output a voice for notifying the guidance of the information related to the candidate behavior.
  • the estimation unit 240 has estimated that erroneous firing increases when only the “nodding” gesture is used as the activation gesture. Therefore, the information processing terminal 10 notifies the user U that the combination of the “shake head” gesture and the “nodding” gesture estimated by the estimating unit 240 to be suitable as the activation gesture is applied as the activation gesture. ing.
  • the notification control unit 260 sends an inquiry as to whether or not to apply the execution of the candidate behavior estimated from the action log as a trigger related to the execution of the process according to the predetermined situation of the user U. May be notified to the user U.
  • the user can change the behavior applied as a trigger related to the execution of the process according to a predetermined situation. According to such a function, it is possible to more effectively prevent misfire of the process in each situation.
  • FIG. 15 is a diagram for describing an example of a notification according to the present embodiment.
  • FIG. 15 shows a user U wearing the information processing terminal 10.
  • the information processing terminal 10 can notify the user U of an inquiry as to whether or not to apply the utterance of the phrase estimated by the estimating unit 240 as being suitable as a trigger for performing the process as the trigger. it can.
  • the notification control unit 260 causes the voice output unit 130 to output information relating to the utterance of the phrase and a voice for notifying a message as to whether or not to apply the utterance of the phrase.
  • the notification control unit 260 may cause the display unit 120 to display information related to the utterance of the phrase.
  • the notification control unit 260 notifies an inquiry as to whether or not to speak the “next song” as a trigger of a skip process related to music playback.
  • System utterance SO10 is executed by the information processing terminal 10.
  • the information processing terminal 10 and the information processing server 20 based on the characteristics of the user's behavior, information on the candidate behavior that is suitable as a trigger for performing the process is provided to the user. Can be notified.
  • the process is executed, that is, it is possible to efficiently prevent the occurrence of a misfire, and each user has a habit of own action. , It is possible to make the user aware that the possibility of misfiring will decrease in the future.
  • FIG. 16 is a flowchart illustrating an example of a flow of estimating and applying a candidate behavior suitable as a trigger according to the present embodiment.
  • the estimating unit 240 of the information processing server 20 extracts information relating to a predetermined behavior as a recognition result R from the action log stored in the action log storage unit 230 (S1001).
  • the estimating unit 240 determines whether or not there is a predetermined behavior in which the number of times the recognition unit 220 has recognized the predetermined behavior is equal to or less than the predetermined number (S1002). ).
  • a predetermined behavior in which the number of times recognized by the recognition unit 220 is equal to or less than the predetermined number (S1002: YES) a candidate behavior suitable for the predetermined behavior as a trigger for performing the process is estimated (S1003). ).
  • the estimating unit 240 determines the candidate behavior having the smallest number of times recognized by the recognition unit 220 as the trigger behavior. (S1003).
  • the estimation unit 240 determines the number of times of the predetermined wording recognized by the recognition unit 220 and the predetermined number of times. It is determined whether or not the number of times the recognition unit 220 has recognized the predetermined number of times is less than or equal to the predetermined number of times based on the combination of words and actions (S1004).
  • the recognizing unit 220 when the number of times of recognition by the recognizing unit 220 is equal to or less than the predetermined number and there is a predetermined combination of words and phrases (S1004: YES), the combination of the predetermined words and phrases is estimated as a candidate word and phrase suitable as a trigger. (S1006).
  • the estimating unit 240 sets the number of times that the recognition unit 220 has recognized, among the plurality of combinations of the predetermined words and phrases, The smallest combination of the predetermined behavior may be estimated as a candidate behavior (S1006).
  • the estimation unit 240 determines that the predetermined number of words is suitable as the trigger. It is determined that there is no combination of the behavior and the predetermined behavior (S1005), and the information processing server 20 ends the operation. At this time, the estimating unit 240 may estimate that a device operation, for example, a button press or a touch operation is suitable as the trigger (S1005).
  • step S1003 or step S1006 the notification control unit 260 inquires of the user whether or not to apply the predetermined utterance or a combination of the predetermined utterances estimated by the estimating unit 240 as a trigger for performing the process. Notification is made (S1007).
  • the information processing server 20 receives a response to the inquiry from the user via the information processing terminal 10 (S1008).
  • the information processing server 20 determines the content of the response received from the user (S1009).
  • the application unit 250 applies the candidate behavior estimated in step S1003 or S1006 as a trigger related to the execution of the process (S1010), The information processing server 20 ends the operation.
  • the content of the response is a request not applying the candidate wording as a trigger (S1009: NO)
  • the information processing server 20 ends the operation.
  • FIG. 17 is a flowchart illustrating an example of the flow of control in the gesture processing according to the present embodiment.
  • the recognition unit 220 receives the sensor information collected by the sensor unit 160 via the communication unit 210, and recognizes a predetermined behavior (S1101).
  • the recognition unit 220 determines whether or not the predetermined behavior recognized in step S1101 is a gesture (S1102). If the predetermined behavior is a gesture (S1102: YES), it is determined whether or not the gesture is a gesture applied by the application unit 250 as a trigger related to execution of the process (S1103). Here, if the predetermined behavior is not a gesture (S1102: NO), the information processing server 20 returns to step S1101.
  • the process control unit 270 controls execution of a process corresponding to the gesture, and the information processing server 20 performs an operation. finish.
  • the recognized gesture is not the gesture applied by the application unit 250 as a trigger (S1103: NO)
  • the information processing server 20 returns to step S1101.
  • FIG. 18 is a block diagram illustrating a hardware configuration example of the information processing server 20 according to an embodiment of the present disclosure.
  • the information processing server 20 includes, for example, a processor 871, a ROM 872, a RAM 873, a host bus 874, a bridge 875, an external bus 876, an interface 877, an input device 878, and an output device 879.
  • a storage 880, a drive 881, a connection port 882, and a communication device 883 Note that the hardware configuration shown here is an example, and some of the components may be omitted. Further, components other than the components shown here may be further included.
  • the processor 871 functions as, for example, an arithmetic processing device or a control device, and controls the entire operation of each component or a part thereof based on various programs recorded in the ROM 872, the RAM 873, the storage 880, or the removable recording medium 901. .
  • the ROM 872 is a means for storing a program read by the processor 871, data used for calculation, and the like.
  • the RAM 873 temporarily or permanently stores, for example, a program read by the processor 871 and various parameters that appropriately change when the program is executed.
  • the processor 871, the ROM 872, and the RAM 873 are mutually connected, for example, via a host bus 874 capable of high-speed data transmission.
  • the host bus 874 is connected to, for example, an external bus 876 having a relatively low data transmission speed via a bridge 875.
  • the external bus 876 is connected to various components via an interface 877.
  • Input device 8708 As the input device 878, for example, a mouse, a keyboard, a touch panel, a button, a switch, a lever, and the like are used. Further, as the input device 878, a remote controller (hereinafter, remote controller) capable of transmitting a control signal using infrared rays or other radio waves may be used. Further, the input device 878 includes a voice input device such as a microphone.
  • the output device 879 transmits acquired information to the user, such as a display device such as a CRT (Cathode Ray Tube), an LCD or an organic EL, an audio output device such as a speaker or a headphone, a printer, a mobile phone, or a facsimile. It is a device that can visually or audibly notify the user.
  • the output device 879 according to the present disclosure includes various vibration devices capable of outputting a tactile stimulus.
  • the storage 880 is a device for storing various data.
  • a magnetic storage device such as a hard disk drive (HDD), a semiconductor storage device, an optical storage device, a magneto-optical storage device, or the like is used.
  • the drive 881 is, for example, a device that reads information recorded on a removable recording medium 901 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, or writes information on the removable recording medium 901.
  • a removable recording medium 901 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory
  • the removable recording medium 901 is, for example, a DVD medium, a Blu-ray (registered trademark) medium, an HD DVD medium, various semiconductor storage media, and the like.
  • the removable recording medium 901 may be, for example, an IC card on which a non-contact type IC chip is mounted, or an electronic device.
  • connection port 882 is, for example, a port for connecting an external connection device 902 such as a USB (Universal Serial Bus) port, an IEEE1394 port, a SCSI (Small Computer System Interface), an RS-232C port, or an optical audio terminal. is there.
  • an external connection device 902 such as a USB (Universal Serial Bus) port, an IEEE1394 port, a SCSI (Small Computer System Interface), an RS-232C port, or an optical audio terminal. is there.
  • the external connection device 902 is, for example, a printer, a portable music player, a digital camera, a digital video camera, or an IC recorder.
  • the communication device 883 is a communication device for connecting to a network.
  • the information processing terminal 10 and the information processing server 20 provide the user with information on the behavior that is estimated to be less likely to cause misfire of the process for each user. It has a function to notify
  • the information processing terminal 10 and the information processing server 20 are characterized in that the user is notified of an inquiry as to whether or not to apply the behavior as a trigger for executing the process. According to such a configuration, it is possible to efficiently prevent erroneous firing of the processing of the device due to the characteristics of the user's behavior.
  • each step related to the processing of the information processing server 20 in the present specification does not necessarily need to be processed in a time series in the order described in the flowchart.
  • each step related to the processing of the information processing server 20 may be processed in an order different from the order described in the flowchart, or may be processed in parallel.
  • a notification control unit that notifies the user of information on candidate behaviors estimated to be suitable as a trigger for performing a predetermined process, With The notification control unit, the execution of the candidate behavior estimated from the action log, an inquiry as to whether to apply as the trigger, further notify the user,
  • the candidate behavior is estimated based on the number of times of the behavior extracted from the behavior log, Information processing device.
  • the candidate wording is the predetermined wording whose number of times of extraction is smaller than a predetermined number of times among a plurality of the predetermined wordings extracted from the action log, The information processing device according to (1).
  • the trigger includes an activation trigger that initiates an interaction between the user and an agent function.
  • the information processing device according to (1) or (2).
  • the notification control unit the candidate wording composed of a combination of a plurality of the predetermined wording, inquiry whether to apply as the trigger, to notify the user, The information processing apparatus according to any one of (1) to (3).
  • the candidate wording composed of a combination of the plurality of predetermined wording is related to the plurality of predetermined wording extracted from the action log, and when all of the predetermined wording are recognized a predetermined number of times or more, the candidate wording is used as the trigger. Presumed suitable, The information processing device according to (4).
  • the notification control unit among the plurality of estimated candidate behaviors, an inquiry as to which one of the candidate behaviors is to be applied as the trigger, to notify the user, The information processing apparatus according to any one of (1) to (5).
  • the notification control unit according to the predetermined situation of the user, the estimated execution of the candidate behavior, whether or not to apply as the trigger, to notify the user, The information processing apparatus according to any one of (1) to (7).
  • the information on the candidate behavior includes at least a type of the candidate behavior, The information processing device according to any one of (1) to (8).
  • the information related to the candidate behavior includes at least a size of the candidate behavior, The information processing device according to any one of (1) to (9).
  • the notification control unit when the misfire of the speech applied as the trigger is estimated, whether to change the magnitude of the speech related to the trigger, to notify the user, The information processing device according to (10).
  • the information related to the candidate behavior includes at least the number of times of the candidate behavior, The information processing apparatus according to any one of (1) to (11).
  • the notification control unit when erroneous firing of the wording applied as the trigger is estimated, whether to change the number of times the wording related to the trigger, to notify the user, The information processing device according to (12).
  • the candidate behavior includes at least one gesture, The notification control unit causes the user to be notified of an inquiry as to whether to apply the execution of the gesture as the trigger.
  • the information processing apparatus according to any one of (1) to (13).
  • the candidate behavior includes at least one utterance, The notification control unit causes the user to be notified of an inquiry as to whether or not to apply the execution of the utterance as the trigger, The information processing apparatus according to any one of (1) to (14).
  • the predetermined process is executed by a wearable device.
  • the information processing device according to any one of (1) to (15).
  • the predetermined process is executed by a hearable device,
  • An estimating unit that estimates the candidate behavior that is suitable as the trigger related to the execution of the predetermined process, among the plurality of predetermined behaviors recognized from the action log, Further comprising The estimating unit estimates the candidate behavior based on the number of times the behavior can be extracted from the action log,
  • the information processing apparatus according to any one of (1) to (17).
  • the processor Among a plurality of behaviors that can be extracted from the user's action log, information on candidate behaviors that are estimated to be suitable as a trigger for execution of the predetermined process, to notify the user, Inquiring whether to apply the execution of the candidate behavior estimated from the action log as the trigger, and further notifying the user, Including The candidate behavior is estimated based on the number of times of the behavior extracted from the behavior log, Information processing method.
  • a notification control unit that notifies the user of information on candidate behaviors that are estimated to be suitable as a trigger for performing a predetermined process, With The notification control unit, the execution of the candidate behavior estimated from the action log, an inquiry as to whether to apply as the trigger, further notify the user,
  • the candidate behavior is estimated based on the number of times of the behavior extracted from the behavior log, Information processing equipment, Program to function as

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

ユーザの言動の特性に起因する装置の処理の誤発火を効率的に防止するために、ユーザの行動ログから抽出され得る複数の言動のうち、所定の処理の実行に係るトリガとして適していると推定された候補言動に係る情報を、前記ユーザに対し通知させる通知制御部、を備え、前記通知制御部は、前記行動ログから推定された前記候補言動の実行を、前記トリガとして適用するか否かの問い合わせを、前記ユーザに対しさらに通知させ、前記候補言動は、前記行動ログから抽出された前記言動の回数に基づいて推定される、情報処理装置。

Description

情報処理装置、情報処理方法、およびプログラム
 本開示は、情報処理装置、情報処理方法、およびプログラムに関する。
 近年、ジェスチャや発話を用いて操作を行うことが可能な装置が普及している。また、上記のような装置を利用するユーザの利便性を高めるための技術が開発されている。特許文献1では、操作に用いるジェスチャに関する姿勢の変化量をユーザに示すことで、ジェスチャ操作を容易にする技術が開示されている。
特開2017-21461号公報
 しかし、特許文献1に開示される装置の場合、ユーザの行動の癖などが、操作に用いるジェスチャと類似する場合、ユーザが意図しないタイミングで、ジェスチャが認識され装置の処理の誤発火が起こる可能性がある。
 そこで、本開示では、ユーザの言動の特性に起因する装置の処理の誤発火を効率的に防止することが可能な、新規かつ改良された情報処理装置、情報処理方法およびプログラムを提案する。
 本開示によれば、ユーザの行動ログから抽出され得る複数の言動のうち、所定の処理の実行に係るトリガとして適していると推定された候補言動に係る情報を、前記ユーザに対し通知させる通知制御部、を備え、前記通知制御部は、前記行動ログから推定された前記候補言動の実行を、前記トリガとして適用するか否かの問い合わせを、前記ユーザに対しさらに通知させ、前記候補言動は、前記行動ログから抽出された前記言動の回数に基づいて推定される、情報処理装置が提供される。
 本開示によれば、プロセッサが、ユーザの行動ログから抽出され得る複数の言動のうち、所定の処理の実行に係るトリガとして適していると推定された候補言動に係る情報を、前記ユーザに対し通知させることと、前記行動ログから推定された前記候補言動の実行を、前記トリガとして適用するか否かの問い合わせを、前記ユーザに対しさらに通知させることと、を含み、前記候補言動は、前記行動ログから抽出された前記言動の回数に基づいて推定される、情報処理方法が提供される。
 本開示によれば、コンピュータを、ユーザの行動ログから抽出され得る複数の言動のうち、所定の処理の実行に係るトリガとして適していると推定された候補言動に係る情報を、前記ユーザに対し通知させる通知制御部、を備え、前記通知制御部は、前記行動ログから推定された前記候補言動の実行を、前記トリガとして適用するか否かの問い合わせを、前記ユーザに対しさらに通知させ、前記候補言動は、前記行動ログから抽出された前記言動の回数に基づいて推定される、情報処理装置、として機能させるためのプログラムが提供される。
 以上説明したように本開示によれば、ユーザの言動の特性に起因する装置の処理の誤発火を効率的に防止することが可能である。
 なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
ジェスチャによる機器の操作の一例について説明するための図である。 起動ジェスチャよる装置の操作の一例について説明するための図である。 本実施形態に係る通知制御の概要について説明するための図である。 本実施形態に係る情報処理端末10の基本構造を示す図である。 耳穴開放型の情報処理端末10がユーザの耳に音波を出力する様子が示されている。 本実施形態に係る情報処理システムの構成例を示すブロック図である。 本実施形態に係る情報処理端末10の機能構成例を示すブロック図である。 本実施形態に係る情報処理サーバ20の機能構成例を示すブロック図である。 本実施形態に係るトリガとして適していると複数のジェスチャが推定された場合の一例を示す図である。 本実施形態に係る候補言動を複数の処理のうち、いずれの処理に割り当てるかを問い合わせる場合の一例を示す図である。 本実施形態に係るトリガとして適用部250が適用したジェスチャの大きさ変更の通知をする場合の一例を示す図である。 本実施形態に係るトリガとして適用部250が適用したジェスチャの回数変更の通知をする場合の一例を示す図である。 本実施形態に係るトリガとして適用された言動の組み合わせに係る情報を通知する場合の一例を示す図である。 本実施形態に係るユーザの状況に応じて処理の実行に係るトリガとして適用部250が適用したジェスチャに係る情報を通知する場合の一例を示す図である。 本実施形態に係る通知の一例について説明するための図である。 本実施形態に係るトリガとして適した候補言動を推定し、適用する流れの一例を示すフローチャートである。 本実施形態に係るジェスチャ処理における制御の流れの一例を示すフローチャートである。 本開示の一実施形態に係る情報処理サーバ20のハードウェア構成例を示すブロック図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 なお、説明は以下の順序で行うものとする。
 1.実施形態
  1.1.概要
  1.2.情報処理端末10の一例
  1.3.システム構成例
  1.4.情報処理端末10の機能構成例
  1.5.情報処理サーバ20の機能構成例
  1.6.適用に係る問い合わせ通知の具体例
  1.7.制御の流れ
 2.ハードウェア構成例
 3.まとめ
 <1.実施形態>
 <<1.1.概要>>
 まず、本開示の一実施形態の概要について説明する。上述したように、近年では、ジェスチャや発話を用いて操作を行うことが可能な装置が普及している。ユーザは、上記のような装置に対し、例えば、頷き、首振りなどの所定のジェスチャを行うことや、起動ワード(Wake up word)を発話することにより、種々の処理を実行させることができる。
 また、ジェスチャや発話を用いて操作を行う装置の一例としては、ウェアラブル装置が挙げられる。ウェアラブル装置には、例えば、ユーザの頭部に装着され、視覚情報や音声情報を提供するヘッドマウントディスプレイが挙げられる。
 一方、近年では、ウェアラブル装置の一種として、ユーザの耳に装着されるヒアラブル装置などの、表示装置を有しない端末も普及している。ヒアラブル装置の場合、ユーザは、例えば、発話、機器操作(ボタン押下、タッチ操作など)やジェスチャにより、装置の操作を行うことができる。
 しかし、発話による操作制御は、例えば公共の場所などにおいては、周囲への迷惑となり得ることや、心理的な抵抗感があることなどが原因で、困難な場合も多い。また、他の端末を用いる操作、例えばヒアラブル装置と連携するスマートフォンなどの端末に対するタッチ操作、は煩雑になる。また、ヒアラブル装置は、視覚的に確認ができる情報が少なく、ヘッドマウントディスプレイなどの表示装置を有するウェアラブル装置と比べて、装置の操作の幅が狭くなり得る。そのため、他の操作方法と比べてジェスチャを用いて装置の操作を行う方が、ユーザにとって利便性が高い。
 図1は、ジェスチャによる機器の操作の一例について説明するための図である。図1には、情報処理端末10を装着し、ジェスチャを実行しているユーザUが示されている。この際、ユーザUは、ジェスチャを行うことで、各々のジェスチャに対応する所定の処理を情報処理端末10に実行させることが可能である。ここで、所定の処理とは、情報処理端末10に備わった機能の実行、例えば「音楽再生」、「次の曲へスキップ」、「電話をかける」など、をいう。例えば、ユーザUがうなずくと、情報処理端末10は音楽再生処理もしくは停止処理を実行する。また、ユーザUが右を向くと、情報処理端末10は現在再生中の音楽から次の曲へのスキップ処理を実行する。また、ユーザUが左を向くと、情報処理端末10は現在再生中の音楽から前の曲へ戻る処理を実行する。
 図2は、起動ジェスチャよる装置の操作の一例について説明するための図である。図2には、情報処理端末10を装着し、起動ジェスチャを実行するユーザUが示されている。ここで、起動ジェスチャとは、情報処理端末10を介してエージェント機能との間のインタラクションを開始する起動トリガとして適用されたジェスチャをいう。図2に示す一例の場合、ユーザUは、起動ジェスチャの一例として、首をかしげる動作を行っている。ここで、ユーザUによる起動ジェスチャが認識された場合、エージェント機能が起動し、ユーザUと当該エージェント機能との間のインタラクションが開始する。この際、情報処理端末10は、当該インタラクションが開始したことをユーザUに対し通知するためのシステム発話SO1を実行する。
 図1および図2で示したように、ジェスチャを用いて操作を行うことが可能な装置では、種々のジェスチャが、各々の処理を実行させるトリガとして割り当てられる。
 しかしながら、上記のようなジェスチャに類似する行動は、日常生活においても発生し得るため、例えば、ユーザのジェスチャの癖などが、処理のトリガとして用いられるジェスチャと類似する場合、ユーザが意図しないタイミングで、装置の処理が誤発火(誤発生)してしまう場合がある。例えば、首をかしげるジェスチャで操作を行う装置を、首をかしげるジェスチャの癖があるユーザが利用する場合、他のユーザよりも誤発火が多くなってしまう。ここで、誤発火とは、ユーザが意図しないイベント処理が発生してしまうことをいう。
 本開示の一実施形態に係る技術思想は、上記の点に着目して発想されたものであり、ユーザの言動による装置の処理の誤発火を防止することが可能である。このために、本開示の一実施形態に係る情報処理装置は、ユーザの行動ログから抽出された複数の言動のうち、所定の処理の実行に係るトリガとして適していると推定された候補言動に係る情報を、ユーザに対し通知させる機能を有する。また、本実施形態に係る情報処理装置は、行動ログから推定された候補言動の実行を、当該トリガとして適用するか否かの問い合わせを、ユーザに対しさらに通知させることと、候補言動は、行動ログから認識された所定の言動の回数に基づいて推定されること、を特徴の一つとする。
 図3は、本実施形態に係る通知制御の概要について説明するための図である。図3上段には、ユーザUの行動ログを蓄積した行動ログ蓄積部230、および上記の行動ログから抽出された、所定の言動の回数を示す認識結果Rが示されている。
 ここで、所定の言動とは、あらかじめ定められた言動であり、処理の実行に係るトリガとして実用的な言動をいう。また、当該行動ログは、例えばユーザUの1日分の行動履歴が蓄積された行動ログでもよい。
 図3上段において、後述する情報処理サーバ20は、ユーザUの行動ログから抽出された複数の言動に基づいて、処理の実行に係るトリガとして適した候補言動を推定する。具体的には、情報処理サーバ20は、当該行動ログから抽出された認識結果Rに含まれる所定の動作や発話の回数に基づいて、当該候補言動を推定する。
 図3上段に示す一例の場合、例えば、認識結果Rには、それぞれ「うなずく」動作が5回、「首をかしげる」動作が1回、「首を横に振る」動作が4回認識されたことがわかる。この際、情報処理サーバ20は、上記3種類の動作のうち、抽出された回数が最も少ない動作である「首をかしげる」動作を、処理の実行に係るトリガとして適していると推定してもよい。この際、抽出された回数が最も少ない動作を当該トリガとすることで、ユーザが意図しないタイミングで、当該動作が認識され装置の処理の誤発火が起こる可能性が、最も低くなる。
 図3下段には、所定の言動を所定の処理の実行に係るトリガとして適用するか否かの問い合わせを、ユーザUに通知するためのシステム発話SO2を実行する情報処理端末10を装着したユーザUが示されている。ここで、情報処理端末10は、上記の認識結果Rに基づいて、処理の実行に係るトリガとして適していると情報処理サーバ20が推定した候補言動を、当該トリガとして適用するか否かの問い合わせをユーザUに対し通知することができる。
 図3下段に示す一例の場合、本実施形態に係る情報処理端末10は、「首をかしげる」ジェスチャを起動ジェスチャとして適用するか否かの問い合わせを通知するシステム発話SO2を実行していている。
 このように、本実施形態に係る情報処理端末10および情報処理サーバ20によれば、ユーザの言動の特性に基づいて、処理の実行に係るトリガとして適している候補言動に係る情報をユーザに対し通知することができる。係る機能によれば、ユーザが処理の実行を意図しない場面において、当該処理が実行される、すなわち誤発火が発生する、ことを効率的に防止することができる。また、各々のユーザに自身の行動の癖を知らせることで、候補言動をトリガとして適用することで、今後誤発火が起こる可能性が低くなることをユーザに把握させることなどが可能となる。
 ここで、本実施形態に係る情報処理端末10は、上記の候補言動が処理の実行に係るトリガとして適用された場合、当該候補言動に係る情報をユーザUに対し通知してもよい。図3の一例においては、本実施形態に係る情報処理端末10は、起動ジェスチャとして適していると推定部240が推定した「首をかしげる」動作に係る情報をユーザUに対し通知し、実行するように促してもよい。
 <<1.2.情報処理端末10の一例>>
 次に、本実施形態に係る情報処理端末10の一例について説明する。本実施形態に係る情報処理端末10は、情報処理サーバ20による制御に基づいて、ユーザに対し通知する情報処理装置である。図4は、本実施形態に係る情報処理端末10の基本構造を示す図である。なお、図4には、本実施形態に係る情報処理端末10がヒアラブル装置である場合の基本構造の一例が示されている。
 図4を参照すると、本実施形態に係る情報処理端末10は、音響を発生する音響発生部610、音響発生部610により発せられる音響を一端621から取り込む音導部620、音導部620を他端622付近で保持する保持部630を備える。音導部620は、例えば、内径が1~5ミリメートルの中空の管材からなり、その両端はともに開放端であってよい。また、音導部620の一端621は、音響発生部610からの発生音の音響入力孔であり、他端622は音響出力孔として機能する。したがって、一端621が音響発生部610に取り付けられることで、音導部620は片側開放状態となっている。
 また、保持部630は、外耳道の入り口付近(例えば、珠間切痕)と係合して、音導部620の他端622の音響出力孔が外耳道の奥側を向くように、音導部620を他端622付近で支持する。音導部620の少なくとも他端622付近の外径は、耳穴の内径よりもはるかに小さくなるように形成されている。したがって、音導部620の他端622が保持部630によって外耳道の入り口付近で保持されている状態でも、ユーザの耳穴を塞ぐことはない。すなわち、耳穴は開放されている。情報処理端末10は、一般的なイヤホンとは異なり、「耳穴開放型」ということができる。
 また、保持部630は、音導部620を保持した状態でも、外耳道入口(耳穴)を外界に開放する開口部631を備えている。図4に示す一例では、保持部630はリング状の構造体であり、内側の一部において音導部620の他端622付近と連結しているので、リング状構造体のそれ以外の部分はすべて開口部631となる。なお、保持部630は、リング状構造に限定されるものではなく、中空構造を備えていれば、音導部620の他端622を支持できる任意の形状でよい。
 管状の音導部620は、音響発生部610により発せられる音響をその一端621から管内に取り込むと、空気振動を伝搬して、保持部630によって外耳道入口付近に保持された他端622から外耳道にむけて放出して、鼓膜に伝える。
 上述したように、音導部620の他端622付近を保持する保持部630は、外耳道の入口(耳穴)を外界に開放する開口部631を備えている。したがって、情報処理端末10を装着している状態でも、ユーザの耳穴を塞ぐことはない。ユーザは、情報処理端末10を装着して音響発生部610から出力される音響を聴取している間も、開口部631を介して周囲音を十分に聴取することができる。
 また、本実施形態に係る情報処理端末10は、耳穴を開放しているが、音響発生部610からの発生音(再生音)の外部への漏れを防止することができる。なぜならば、音導部620の他端622が外耳道の入口付近で奥を向くように取り付けられ、発生音の空気振動を鼓膜の近くで放射することから、出力を小さくしても十分な音質を得ることができるからである。
 また、音導部620の他端622から放射される空気振動の指向性も音漏れの防止に寄与する。図5には、耳穴開放型の情報処理端末10がユーザの耳に音波を出力する様子が示されている。図5に示すように、音導部620の他端622から外耳道の内部に向けて空気振動が放射される。外耳道700は、外耳道入口701から始まり鼓膜702の内側で終了する穴であり、一般的におよそ25~30ミリメートルの長さがある。外耳道700は、筒状をした閉空間である。このため、音導部620の他端622から外耳道700の奥に向かって放射された空気振動は、参照番号711で示すように、指向性を以って鼓膜702まで伝搬する。また、空気振動は、外耳道700内では音圧が上がることから、とりわけ低域の感度(ゲイン)が向上する。他方、外耳道700の外側すなわち外界は開空間である。このため、音導部620の他端622から外耳道700の外に放射された空気振動は、参照番号712で示すように、外界では指向性がなく、急峻に減衰する。
 再び図4を参照しながら説明する。管状の音導部620は、中間部分に耳介の背面側から正面側に折り返す屈曲形状を有している。この屈曲部分は、開閉構造を有するピンチ部623となっており、ピンチ力を発生して耳垂を挟持することができる。
 また、音導部620は、外耳道の入口付近に配設される他端622と、屈曲するピンチ部623の間に、変形部624をさらに有している。変形部624は、過度な外力が作用すると変形して、音導部620の他端622が必要以上に外耳道の奥に入り込まないようにする機能を有する。
 以下、本実施形態に係る情報処理装置が有する特徴と当該特徴が奏する効果について詳細に説明する。なお、以下においては、情報の通知を行う情報処理端末10がヒアラブル装置である場合を主な例として説明するが、本実施形態に係る情報処理端末10は係る例に限定されない。本実施形態に係る情報処理端末10は、ユーザに対し候補言動に係る情報を通知させる種々の装置であり得る。
 <<1.3.システム構成例>>
 次に、本開示の一実施形態に係る情報処理システムの構成例について説明する。図6は、本実施形態に係る情報処理システムの構成例を示すブロック図である。当該情報処理システムは、情報処理端末10、情報処理サーバ20を備える。また、上記の各構成は、互いに情報通信が行えるように、ネットワーク30を介して接続される。
 (情報処理端末10)
 本実施形態に係る情報処理端末10は、情報処理サーバ20による制御に基づいて、処理の実行に係るトリガとして適していると推定された候補言動に係る情報を、ユーザに対し通知する情報処理装置である。本実施形態に係る情報処理端末10は、例えば、図4および図5を用いて説明したような、ヒアラブル装置であってもよい。一方、本実施形態に係る情報処理端末10は係る例に限定されない。本実施形態に係る情報処理端末10は、例えば、ヘッドマウントディスプレイのようなウェアラブル装置、据え置き型または自律移動型の専用装置であってもよい。本実施形態に係る情報処理端末10は、ユーザのジェスチャや発話に基づいて、処理を実行する種々の装置であり得る。
 また、本実施形態に係る情報処理端末10は、各種センサ、例えば加速度センサ、を用いてユーザの行動や周囲の環境に係るセンサ情報を収集する機能を有する。情報処理端末10が収集するセンサ情報は、情報処理サーバ20に蓄積され、処理の実行に係るトリガとして適している候補言動の推定に用いられる。
 (情報処理サーバ20)
 本実施形態に係る情報処理サーバ20は、センサ情報から所定の言動を認識し、ユーザの行動ログとして蓄積する。また、本実施形態に係る情報処理サーバ20は、行動ログに記憶される所定の言動の回数に基づいて、処理の実行に係るトリガとして適している候補言動を推定し、当該候補言動に係る情報をユーザに対し通知させる。この際、本実施形態に係る情報処理サーバ20は、上記行動ログから推定した候補言動の実行を、トリガとして適用するか否かの問い合わせを、ユーザに対し通知させること、を特徴の一つとする。本実施形態に係る情報処理サーバ20が有する機能の詳細については別途後述する。
 (ネットワーク30)
 ネットワーク30は、情報処理システムが備える各構成を接続する機能を有する。ネットワーク30は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク30は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。また、ネットワーク30は、Wi-Fi(登録商標)、Bluetooth(登録商標)など無線通信網を含んでもよい。
 以上、本実施形態に係る情報処理システムの構成例について説明した。なお、図6を用いて説明したシステム構成はあくまで一例であり、本実施形態に係る情報処理システムの構成は係る例に限定されない。例えば、本実施形態に係る情報処理端末10および情報処理サーバ20が有する機能は、単一の装置により実現されてもよい。本実施形態に係る情報処理システムの構成は、仕様や運用に応じて柔軟に変形可能である。
 <<1.4.情報処理端末10の機能構成例>>
 次に、本実施形態に係る情報処理端末10の機能構成例について説明する。図7は、本実施形態に係る情報処理端末10の機能構成例を示すブロック図である。図7を参照すると、本実施形態に係る情報処理端末10は、サーバ通信部110、表示部120、音声出力部130、撮像部140、音声入力部150、センサ部160、および制御部180を備える。
 (サーバ通信部110)
 本実施形態に係るサーバ通信部110は、ネットワーク30を介して情報処理サーバ20との情報通信を行う機能を有する。具体的には、サーバ通信部110は、音声入力部150が収集した音情報や、センサ部160が収集したセンサ情報を情報処理サーバ20に送信する。また、サーバ通信部110は、情報処理サーバ20から、処理の実行に係るトリガとして適していると、後述する推定部240が推定した候補言動に係る情報などを受信する。
 (表示部120)
 本実施形態に係る表示部120は、制御部180の制御下で、画像やテキストなどの視覚情報を出力する機能を有する。本実施形態に係る表示部120は、視覚情報を提示する表示デバイスなどを備える。上記の表示デバイスには、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)装置、OLED(Organic Light Emitting Diode)装置、タッチパネルなどが挙げられる。また、本実施形態に係る表示部120は、必ずしも情報処理端末10に備えられていなくてもよい。例えば、情報処理端末10は、ネットワーク30を介して、スマートフォンを表示部120として利用してもよい。
 (音声出力部130)
 本実施形態に係る音声出力部130は、音声発話を含む種々の音を出力する機能を有する。本実施形態に係る音声出力部130は、情報処理サーバ20による制御に基づいて、ユーザに対し候補言動に係る情報を通知する通知部ともいえる。このために、本実施形態に係る音声出力部130は、スピーカやアンプなどの音声出力装置を備える。
 (撮像部140)
 本実施形態に係る撮像部140は、ユーザや周囲環境の動画像を撮像する機能を有する。撮像部140が撮像した画像情報は、情報処理サーバ20によるユーザの行動認識や状態認識、周囲環境の認識に用いられる。本実施形態に係る撮像部140は、画像を撮像することが可能な撮像装置を備える。なお、上記の画像には、動画像のほか静止画像が含まれる。
 (音声入力部150)
 本実施形態に係る音声入力部150は、ユーザによる発話や、情報処理端末10の周囲で発生する周囲音などの音情報を収集する機能を有する。音声入力部150が収集する音情報は、情報処理サーバ20による音声認識や周囲環境の認識などに用いられる。本実施形態に係る音声入力部150は、音情報を収集するためのマイクロフォンを備える。
 (センサ部160)
 本実施形態に係るセンサ部160は、ユーザの行動や周囲環境に係るセンサ情報を、各種センサを用いて収集する機能を有する。後述する認識部220は、センサ部160が収集したセンサ情報に基づいて、所定の動作を認識する。センサ部160は、加速度センサ、ジャイロセンサ、地磁気センサ、振動センサ、GNSS(Global Navigation Satellite System)信号受信装置などを備える。
 (制御部180)
 本実施形態に係る制御部180は、情報処理端末10が備える各構成を制御する機能を有する。制御部180は、例えば、各構成の起動や停止を制御する。また、制御部180は、サーバ通信部110が受信した情報処理サーバ20により生成される制御信号を表示部120や音声出力部130に入力する。また、本実施形態に係る制御部180は、後述する情報処理サーバ20の通知制御部260と同等の機能を有してもよい。
 以上、本実施形態に係る情報処理端末10の機能構成例について説明した。なお、図7を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理端末10の機能構成は係る例に限定されない。例えば、上述したように、本実施形態に係る制御部180は、情報処理サーバ20の通知制御部260と同等の機能を有してもよい。本実施形態に係る情報処理端末10の機能構成は、仕様や運用に応じて柔軟に変形可能である。
 <<1.5.情報処理サーバ20の機能構成例>>
 次に、本実施形態に係る情報処理サーバ20の機能構成例について説明する。図8は、本実施形態に係る情報処理サーバ20の機能構成例を示すブロック図である。図8を参照すると、本実施形態に係る情報処理サーバ20は、通信部210、認識部220、行動ログ蓄積部230、推定部240、適用部250、通知制御部260、および処理制御部270を備える。
 (通信部210)
 本実施形態に係る通信部210は、ネットワーク30を介して情報処理端末10との情報通信を行う機能を有する。例えば、通信部210は、情報処理端末10からセンサ情報や音情報を受信し、後述する推定部240が処理の実行に係るトリガとして適していると推定した候補言動に係る情報を情報処理端末10に送信する。
 (認識部220)
 本実施形態に係る認識部220は、情報処理端末10が収集したセンサ情報に基づいてユーザの言動を認識する機能、すなわちジェスチャ認識機能および音声認識機能、を有する。認識部220は、通信部210から受信したセンサ情報や音情報から所定の言動を認識し、当該言動に係る情報を行動ログ蓄積部230へ送信する。なお、認識部220は、収集された加速度情報、角速度情報、音声や画像などに基づいて、種々の言動や周囲環境を認識することが可能である。
 (行動ログ蓄積部230)
 本実施形態に係る行動ログ蓄積部230は、認識部220が認識したユーザの言動に関する行動ログを蓄積する。また、本実施形態に係る行動ログ蓄積部230は、情報処理端末10に対するユーザの操作履歴(特に、認識部220が認識したジェスチャ、および当該ジェスチャに対応する操作の履歴)を蓄積する。当該行動ログおよび当該操作履歴は、推定部240により、候補言動の推定に用いられる。
 (推定部240)
 本実施形態に係る推定部240は、行動ログ蓄積部230に蓄積されたユーザの行動ログから複数の所定の言動を抽出し、当該複数の所定の言動の回数に基づいて、処理の実行に係るトリガとして適している候補言動を推定する。本実施形態に係る推定部240は、例えば、当該複数の所定の言動のうち、認識部220が認識した回数が最も少ない言動を当該トリガとして適している候補言動と推定してもよい。
 なお、推定部240は、処理の種別や特性に応じて、候補言動を推定してもよい。具体的には、推定部240は、当該処理の重要度に応じて、誤発火する可能性が異なるジェスチャを推定してもよい。より具体的には、推定部240は、複数の処理のうち、ユーザUによる使用頻度が高い処理に係るトリガとして、誤発火の可能性がより低いジェスチャを優先的に候補言動として推定してもよい。
 (適用部250)
 本実施形態に係る適用部250は、推定部240が推定した候補言動を処理の実行に係るトリガとして適用する機能を有する。本実施形態に係る適用部250は、例えば、音楽再生処理のトリガとして適していると推定部240が推定した首を振るジェスチャを、ユーザの承認に基づいて、音楽再生処理のトリガとして適用する。
 (通知制御部260)
 本実施形態に係る通知制御部260は、処理の実行に係るトリガとして適していると推定部240が推定した候補言動に係る情報を、ユーザに対し通知させる機能を有する。本実施形態に係る通知制御部260が有する上記の機能によれば、処理の誤発火の可能性がより低いと推定される言動に係る情報をユーザに対し通知することが可能となる。ここで、抽出され得る言動は、抽出された回数が0回の言動を含む。
 ここで、処理の実行に係るトリガとして適用部250が適用した言動に係る情報には、種別、大きさ、速さ、回数、ジェスチャの保持時間を含んでもよい。また、言動の大きさとは、例えばジェスチャを実行する際のユーザUの姿勢の変化量、をいう。また、言動の回数とは、例えばジェスチャを繰り返し実行する回数、をいう。また、トリガとして適用部250が適用した言動の大きさとは、当該トリガをユーザUが実行したと認識部220が認識する閾値、例えばジェスチャを実行する際のユーザUの姿勢の変化量の閾値、をいう。また、候補言動に係る情報とは、候補言動として推定部240が推定した言動に係る情報、をいう。
 また、通知制御部260は、例えば、認識部220が認識した言動の速さと、トリガとして適用部250が適用した言動の速さとの差をユーザUに対し通知させてもよい。
 ここで、処理の実行に係るトリガとして適用部250が適用した言動に係る情報には、種別、大きさ、速さ、回数、ジェスチャの保持時間を含んでもよい。また、通知制御部260は、例えば、認識部220が認識した言動の速さと、トリガとして適用部250が適用した言動の速さとの差をユーザUに対し通知させてもよい。
 また、本実施形態に係る通知制御部260は、上記の候補言動の実行を、処理の実行に係るトリガとして適用するか否かの問い合わせを、ユーザに対し通知してよい。係る機能によれば、各々のユーザは、処理の誤発火の可能性が低い言動を用いて装置を操作することが可能となる。
 (処理制御部270)
 本実施形態に係る処理制御部270は、認識部220が認識したユーザの言動に基づいて、当該言動に対応する処理を情報処理端末10に実行させる。
 以上、本実施形態に係る情報処理サーバ20の機能構成例について説明した。なお、図8を用いて説明した上記の機能構成はあくまで一例であり、本実施形態に係る情報処理サーバ20の機能構成は係る例に限定されない。例えば、情報処理サーバ20は、必ずしも図8に示す構成のすべてを備えなくてもよい。認識部220、行動ログ蓄積部230、推定部240、適用部250、および処理制御部270は、情報処理サーバ20とは異なる別の装置に備えることも可能である。本実施形態に係る情報処理サーバ20の機能構成は、仕様や運用に応じて柔軟に変形可能である。
 <<1.6.適用に係る問い合わせ通知の具体例>>
 次に、本実施形態に係る情報処理サーバ20の制御または動作について具体例を挙げながら詳細に説明する。上記では、主に推定された候補言動が1種類の場合について説明してきた。しかし、本実施形態に係る推定部240によれば、候補言動は、複数推定されてもよい。例えば、図9は、本実施形態に係るトリガとして適していると複数のジェスチャが推定された場合の一例を示す図である。図9には、情報処理端末10を装着し、表示部120を所持しているユーザUが示されている。ここで、本実施形態に係る通知制御部260は、処理の実行に係るトリガとして適していると推定部240が推定した複数の候補言動のうち、いずれの候補言動をトリガとして適用するかの問い合わせを、ユーザUに対し情報処理端末10やスマートフォンにより実現される表示部120を介して通知することができる。
 以下具体的に説明する。本実施形態に係る通知制御部260は、推定された複数の候補言動の種別、およびいずれの候補言動を適用するかを問い合わせる音声を、音声出力部130に出力させる。また、本実施形態に係る通知制御部260は、当該候補言動に係る情報を表示部120に表示させてもよい。
 図9に示す一例においては、本実施形態に係る通知制御部260は、トリガとして適用する候補言動の選択を促すシステム発話SO3を音声出力部130に出力させている。また、通知制御部260は、システム発話SO3の一例として「うなずく」、「首をかしげる」、「首を横に振る」ジェスチャに係る情報、例えば当該ジェスチャの文字情報やイラスト、を表示部120に表示させている。
 このように、本実施形態に係る通知制御部260によれば、ユーザは、各々の状況や趣向に合わせて、処理の実行に係るトリガとして適用する候補言動を選択することができる。
 なお、推定部240は、複数の抽出された言動の回数が同程度である場合に、当該複数の抽出された言動を、処理の実行に係るトリガとして適していると推定してよい。
 上記では、主に処理の実行に係るトリガとして適していると推定された候補言動を、割り当てる処理が、1種類提示される場合について説明してきた。しかし、割り当てる処理は、複数提示されてもよい。例えば、図10は、本実施形態に係る候補言動を複数の処理のうち、いずれの処理に割り当てるかを問い合わせる場合の一例を示す図である。図10には、情報処理端末10を装着し、表示部120を所持しているユーザUが示されている。ここで、本実施形態に係る通知制御部260は、処理の実行に係るトリガとして適していると推定部240が推定した候補言動を、当該複数の処理のうち、いずれの処理の実行に係るトリガとして適用するかの問い合わせを、ユーザUに対し情報処理端末10や表示部120を介して通知することができる。
 以下具体的に説明する。本実施形態に係る通知制御部260は、候補言動の種別や、処理の名称などの情報を通知する音声を、音声出力部130に出力させる。また、通知制御部260は、いずれの処理に係るトリガとして当該候補言動を適用するかの問い合わせる音声を、音声出力部130に出力させる。また、通知制御部260は、上記のような情報を表示部120に表示させることにより、通知してもよい。
 図10に示す一例においては、本実施形態に係る通知制御部260は、候補言動をいずれの処理のトリガとして適用するように促すためのシステム発話SO4を情報処理端末10に実行させている。また、通知制御部260は、「うなずく」ジェスチャの文字情報やイラスト、並びに処理の名称、「音楽再生」、「音楽停止」、「次の曲へスキップ」、を表示部120に表示させている。
 このように、本実施形態に係る通知制御部260によれば、ユーザは、各々の状況や趣向に応じて、候補言動をトリガとして適用する処理を選択することができる。
 上記では、主に候補言動を処理の実行に係るトリガとして、適用するまでの場合について説明してきた。一方で、候補言動を処理の実行に係るトリガとして適用した後、当該処理の誤発火が多い場合は、当該言動の大きさを変更してよい。なお、上述した操作履歴は、ジェスチャに対応する操作が誤発火であるか否かの情報を含んでもよく、当該誤発火の情報に基づいて、処理の実行に係るトリガとして適用部250が適用した言動の大きさを変更してもよい。なお、誤発火の情報は、例えば、当該言動が実行した後のユーザによる当該処理の取り消し操作の操作履歴を、推定部240が行動ログから抽出することで取得される。
 例えば、図11は、本実施形態に係るトリガとして適用部250が適用したジェスチャの大きさ変更の通知をする場合の一例を示す図である。図11には、情報処理端末10を装着し、表示部120を所持しているユーザUが示されている。ここで、本実施形態に係る通知制御部260は、言動による処理の誤発火を、推定部240が推定した場合に、当該トリガに係る言動の大きさを変更するか否かの問い合わせを、ユーザUに対し情報処理端末10や表示部120を介して通知させることができる。
 以下具体的に説明する。本実施形態に係る通知制御部260は、処理の実行に係るトリガとして適用部250が適用した言動に係る情報や当該言動の大きさを変更するか否かを問い合わせる音声を、音声出力部130に出力させる。ここで、本実施形態に係る通知制御部260は、当該トリガとして適用された言動の種別や大きさ、を表示部120に表示させることにより通知してもよい。
 図11に示す一例においては、本実施形態に係る通知制御部260は、上記大きさを変更するか否かの問い合わせを通知するためのシステム発話SO5を情報処理端末10に実行させている。また、通知制御部260は、当該トリガとして適用部250が適用したジェスチャに係る情報、例えば、当該トリガとして適用部250が適用した「うなずく」ジェスチャに関して、現在適用されている大きさおよび推奨する大きさを、表示部120に表示させている。
 このように、本実施形態に係る通知制御部260によれば、各々のユーザは、トリガとして適用するトリガの種別を変更しない場合でも、処理の誤発火を防止することができる。係る機能によれば、各々のユーザは、トリガとして適用する言動の大きさを変更する場合、種別を変更する場合と比べて、操作感が大きく変わることが無いため、ユーザは使用感を変えること無く、装置の操作を行うことが可能となる。
 また、上述した誤発火の情報に基づいて、処理の実行に係るトリガとして適用部250が適用した言動の回数を変更してよい。例えば、図12は、本実施形態に係るトリガとして適用部250が適用したジェスチャの回数変更の通知をする場合の一例を示す図である。図12には、情報処理端末10を装着し、表示部120を所持しているユーザUが示されている。ここで、本実施形態に係る通知制御部260は、処理に係るトリガとして適用部250が適用した前記言動の誤発火を、推定部240が推定した場合に、当該トリガに係る言動の回数を変更するか否かの問い合わせを、ユーザUに対し情報処理端末10や表示部120を介して通知させることができる。
 以下具体的に説明する。本実施形態に係る通知制御部260は、当該トリガとして適用部250が適用した言動に係る情報、例えばジェスチャの種別や回数、や当該言動の回数を変更するか否かの問い合わせる音声を、音声出力部130に出力させる。ここで、本実施形態に係る通知制御部260は、当該トリガとして適用された言動に係る情報、例えばジェスチャの種別や回数、を表示部120に表示させることにより通知してもよい。
 図12に示す一例においては、本実施形態に係る通知制御部260は、上記回数を変更するか否かの問い合わせを通知するためのシステム発話SO6を情報処理端末10に実行させている。また、通知制御部260は、トリガとして適用部250が適用したジェスチャに係る情報、例えば、トリガとして適用部250が適用した「うなずく」ジェスチャに関して、現在適用されている回数および推奨する回数を、表示部120に表示させている。
 このように、本実施形態に係る通知制御部260によれば、各々のユーザは、トリガとして適用する言動の種別を変更しない場合でも、処理の誤発火を防止することができる。係る機能によれば、各々のユーザは、当該言動の回数を変更する場合、種別を変更する場合と比べて、操作感が大きく変わることが無いため、ユーザは使用感を変えること無く、装置の操作を行うことが可能となる。
 上記では、主に推定部240が、単一の言動を処理の実行に係るトリガとして適していると推定する場合について説明してきた。しかし、候補言動は、複数の言動が組み合わせであってよい。例えば、図13は、本実施形態に係るトリガとして適用された言動の組み合わせに係る情報を通知する場合の一例を示す図である。図13上段には、情報処理端末10を装着し、表示部120を所持しているユーザUが示されている。また、図13下段には、首を横に振るジェスチャを実行しているユーザUが示されている。
 図13の上段において、本実施形態に係る通知制御部260は、処理の実行に係るトリガとして適用部250が適用した言動の組み合わせのうち、第一の言動に係る情報を通知している。ここで、第一の言動とは、当該言動の組み合わせのうち、1番目に実行するように適用部250が適用した言動をいう。以下具体的に説明する。本実施形態に係る通知制御部260は、当該第一の言動に係る種別の案内を通知する音声を、音声出力部130に出力させる。ここで、本実施形態に係る通知制御部260は、当該第一の言動の種別や当該種別に対応するイラスト、を表示部120に表示させることにより、通知してもよい。
 図13の上段の一例において、本実施形態に係る通知制御部260は、ユーザUが1番目に実行すべき「首を横に振る」動作に係る情報をユーザUに通知するためのシステム発話SO7を情報処理端末10に実行させている。また、通知制御部260は、「首を横に振る」動作に係る情報、例えば当該動作の種別やイラスト、を表示部120に表示させている。
 また、図13の下段において、本実施形態に係る通知制御部260は、所処理の実行に係るトリガとして適用部250が適用した言動の組み合わせのうち、第二の言動に係る情報を通知している。ここで、第二の言動とは、当該言動の組み合わせのうち、2番目に実行するように適用部250が適用した言動をいう。以下具体的に説明する。本実施形態に係る通知制御部260は、第一の言動を認識部220が認識した場合、当該第二の言動に係る種別の案内を通知する音声を、音声出力部130に出力させる。ここで、本実施形態に係る通知制御部260は、当該第二の言動に係る情報、例えばジェスチャの種別やイラスト、を表示部120に表示させることにより、通知してもよい。
 図13の下段の一例において、本実施形態に係る通知制御部260は、「首を横に振る」ジェスチャを認識部220が認識した場合、ユーザUが2番目に実行すべきジェスチャに係る情報をユーザUに通知するためのシステム発話SO8を情報処理端末10に実行させる。また、通知制御部260は、「うなづく」ジェスチャに係る情報、例えば当該ジェスチャの種別やイラスト、を表示部120に表示させている。
 このように、本実施形態に係る通知制御部260によれば、ユーザは、トリガとして適用された言動の組み合わせのうち、次に実行すべき言動に係る情報を把握することができる。係る機能によれば、ユーザは、当該言動の組み合わせによる装置の操作を容易に習得することが可能となる。
 上記では、主にユーザが特別な行動を行っていない場合の、推定部240の推定の場合について説明してきた。しかし、候補言動は、ユーザの所定の状況に応じて推定されてもよい。例えば、図14は、本実施形態に係るユーザの状況に応じて処理の実行に係るトリガとして適用部250が適用したジェスチャに係る情報を通知する場合の一例を示す図である。図14には、情報処理端末10を装着し、走っているユーザUが示されている。本実施形態に係る通知制御部260は、本実施形態に係る認識部220が認識したユーザUの所定の状況に応じて、本実施形態に係る通知制御部260は、当該状況において処理の実行に係るトリガとして適していると推定された候補言動に係る情報を、ユーザUに対し情報処理端末10を介して通知することができる。
 以下具体的に説明する。本実施形態に係る通知制御部260は、当該候補言動に係る情報の案内を通知する音声を、音声出力部130に出力させる。図14に示す一例の場合、ユーザUが走っている状況において、推定部240は、起動ジェスチャとして「うなずく」ジェスチャのみを用いた場合、誤発火が多くなると推定した。故に、情報処理端末10は、起動ジェスチャとして適していると推定部240が推定した「首を横に振る」ジェスチャと「うなずく」ジェスチャの組み合わせを当該起動ジェスチャとして適用したことをユーザUに通知している。
 また、本実施形態に係る通知制御部260は、ユーザUの所定の状況に応じて、行動ログから推定された候補言動の実行を、処理の実行に係るトリガとして適用するか否かの問い合わせを、ユーザUに対し通知させてもよい。
 このように、本実施形態に係る通知制御部260によれば、ユーザは、所定の状況に応じて、処理の実行に係るトリガとして適用する言動を変更することができる。係る機能によれば、各々の状況下で、処理の誤発火をより効果的に防止することが可能となる。
 上記では、処理の実行に係るトリガとして、動作を用いた例を述べたが、候補言動は、所定のフレーズの発話も含む。例えば、図15は、本実施形態に係る通知の一例について説明するための図である。図15には、情報処理端末10を装着したユーザUが示されている。ここで、情報処理端末10は、処理の実行に係るトリガとして適していると推定部240が推定したフレーズの発話を、当該トリガとして適用するか否かの問い合わせをユーザUに対し通知することができる。
 以下具体的に説明する。本実施形態に係る通知制御部260は、当該フレーズの発話に係る情報、および当該フレーズの発話を適用するか否かのメッセージを通知する音声を、音声出力部130に出力させる。ここで、通知制御部260は、当該フレーズの発話に係る情報を表示部120に表示させてもよい。
 図15に示す一例の場合、本実施形態に係る通知制御部260は、「次の曲」と発話することを、音楽再生に係るスキップ処理のトリガとして適用するか否かの問い合わせを、通知するためのシステム発話SO10を情報処理端末10に実行させている。
 このように、本実施形態に係る情報処理端末10および情報処理サーバ20によれば、ユーザの言動の特性に基づいて、処理の実行に係るトリガとして適している候補言動に係る情報をユーザに対し通知することができる。係る機能によれば、ユーザが処理の実行を意図しない場面において、当該処理が実行される、すなわち誤発火が発生する、ことを効率的に防止すること、および各々のユーザに自身の行動の癖を知らせることで、今後誤発火が起こる可能性が低くなることをユーザに対し把握させること、が可能となる。
 <<1.7.制御の流れ>>
 次に、本実施形態に係る情報処理サーバ20による候補言動に係る動作の流れについて詳細に説明する。図16は、本実施形態に係るトリガとして適した候補言動を推定し、適用する流れの一例を示すフローチャートである。
 図16を参照すると、まず、情報処理サーバ20の推定部240が、行動ログ蓄積部230に蓄積された行動ログから、所定の言動に係る情報を、認識結果Rとして抽出する(S1001)。
 次に、推定部240は、認識結果Rに基づいて、所定の言動のうち、認識部220が認識した回数が、所定の回数以下である所定の言動が存在するか否かを判定する(S1002)。認識部220が認識した回数が、所定の回数以下である所定の言動が存在する場合(S1002:YES)、当該所定の言動を、処理の実行に係るトリガとして適した候補言動を推定する(S1003)。なお、候補言動と推定された所定の言動が複数種類存在する場合は、複数の当該候補言動のうち、例えば、推定部240は、認識部220が認識した回数が最も少ない候補言動を、当該トリガとして適している候補言動と推定してもよい(S1003)。
 一方、認識部220が認識した回数が、所定の回数以下である所定の言動が存在しない場合(S1002:NO)、推定部240は、認識部220が認識した所定の言動に係る回数および当該所定の言動の組み合わせに基づいて、認識部220が認識した回数が、所定の回数以下である、所定の言動の組み合わせが存在するか否かを判定する(S1004)。ここで、認識部220が認識した回数が、所定の回数以下である、所定の言動の組み合わせが存在する場合(S1004:YES)、当該所定の言動の組み合わせをトリガとして適した候補言動として推定する(S1006)。なお、当該トリガとして適していると推定された所定の言動の組み合わせが複数種類存在する場合は、推定部240は、複数の当該所定の言動の組み合わせのうち、認識部220が認識した回数が、最も少ない当該所定の言動の組み合わせを、候補言動として推定してもよい(S1006)。
 一方、認識部220が認識した回数が所定の回数以下である、所定の言動の組み合わせが存在しない場合(S1004:NO)、推定部240は、当該トリガとして適していると推定される、所定の言動および所定の言動の組み合わせは存在しないと判定し(S1005)、情報処理サーバ20は、動作を終了する。なお、この際、推定部240は、機器操作、例えばボタン押下やタッチ操作などが当該トリガとして適していると推定してもよい(S1005)。
 ステップS1003またはステップS1006の実行後、通知制御部260は、推定部240が推定した、所定の言動または所定の言動の組み合わせを、処理の実行に係るトリガとして適用するか否かの問い合わせをユーザに対し通知する(S1007)。次に、情報処理サーバ20は、情報処理端末10を介してユーザから当該問い合わせに対しての応答を受信する(S1008)。
 次に、情報処理サーバ20は、ユーザから受信した応答の内容を判定する(S1009)。ここで、応答の内容が、問い合わせに対する承認である場合(S1009:YES)、適用部250は、ステップS1003またはS1006において推定された候補言動を、処理の実行に係るトリガとして適用し(S1010)、情報処理サーバ20は、動作を終了する。一方、応答の内容が、候補言動をトリガとして適用しない要求である場合は(S1009:NO)、情報処理サーバ20は、動作は終了する。
 次に、本実施形態に係る言動の処理における制御の流れの一例について詳細に説明する。図17は、本実施形態に係るジェスチャ処理における制御の流れの一例を示すフローチャートである。
 図17を参照すると、まず、認識部220は、通信部210を介してセンサ部160が収集したセンサ情報を受信し、所定の言動を認識する(S1101)。
 次に、認識部220は、ステップS1101で認識された所定の言動が、ジェスチャであるか否かを判定する(S1102)。当該所定の言動がジェスチャである場合(S1102:YES)、当該ジェスチャが、処理の実行に係るトリガとして適用部250が適用したジェスチャであるか否かを判定する(S1103)。ここで、当該所定の言動がジェスチャでない場合(S1102:NO)、情報処理サーバ20はステップS1101へ復帰する。
 一方、認識されたジェスチャが、トリガとして適用部250が適用したジェスチャである場合(S1103:YES)、処理制御部270は当該ジェスチャに対応する処理の実行を制御し、情報処理サーバ20は動作を終了する。一方、認識されたジェスチャが、トリガとして適用部250が適用したジェスチャでない場合(S1103:NO)、情報処理サーバ20はステップS1101へ復帰する。
 <2.ハードウェア構成例>
 次に、本開示の一実施形態に係る情報処理サーバ20のハードウェア構成例について説明する。図18は、本開示の一実施形態に係る情報処理サーバ20のハードウェア構成例を示すブロック図である。図18を参照すると、情報処理サーバ20は、例えば、プロセッサ871と、ROM872と、RAM873と、ホストバス874と、ブリッジ875と、外部バス876と、インターフェース877と、入力装置878と、出力装置879と、ストレージ880と、ドライブ881と、接続ポート882と、通信装置883と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
 (プロセッサ871)
 プロセッサ871は、例えば、演算処理装置又は制御装置として機能し、ROM872、RAM873、ストレージ880、又はリムーバブル記録媒体901に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。
 (ROM872、RAM873)
 ROM872は、プロセッサ871に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM873には、例えば、プロセッサ871に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
 (ホストバス874、ブリッジ875、外部バス876、インターフェース877)
 プロセッサ871、ROM872、RAM873は、例えば、高速なデータ伝送が可能なホストバス874を介して相互に接続される。一方、ホストバス874は、例えば、ブリッジ875を介して比較的データ伝送速度が低速な外部バス876に接続される。また、外部バス876は、インターフェース877を介して種々の構成要素と接続される。
 (入力装置878)
 入力装置878には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置878としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。また、入力装置878には、マイクロフォンなどの音声入力装置が含まれる。
 (出力装置879)
 出力装置879は、例えば、CRT(Cathode Ray Tube)、LCD、又は有機EL等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置879は、触覚刺激を出力することが可能な種々の振動デバイスを含む。
 (ストレージ880)
 ストレージ880は、各種のデータを格納するための装置である。ストレージ880としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。
 (ドライブ881)
 ドライブ881は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体901に記録された情報を読み出し、又はリムーバブル記録媒体901に情報を書き込む装置である。
 (リムーバブル記録媒体901)
リムーバブル記録媒体901は、例えば、DVDメディア、Blu-ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体901は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。
 (接続ポート882)
 接続ポート882は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS-232Cポート、又は光オーディオ端子等のような外部接続機器902を接続するためのポートである。
 (外部接続機器902)
 外部接続機器902は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。
 (通信装置883)
 通信装置883は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、又は各種通信用のモデム等である。
 <3.まとめ>
 以上説明したように、本開示の一実施形態に係る情報処理端末10および情報処理サーバ20は、各々のユーザにとって、処理の誤発火の可能性がより低くなると推定された言動に係る情報をユーザに対し通知する機能を有する。また、この際、情報処理端末10および情報処理サーバ20は、当該言動を処理の実行に係るトリガとして適用するか否かの問い合わせを、ユーザに対し通知することを特徴の一つとする。係る構成によれば、ユーザの言動の特性に起因する装置の処理の誤発火を効率的に防止することが可能である。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 また、本明細書の情報処理サーバ20の処理に係る各ステップは、必ずしもフローチャートに記載された順序に沿って時系列に処理される必要はない。例えば、情報処理サーバ20の処理に係る各ステップは、フローチャートに記載された順序と異なる順序で処理されても、並列的に処理されてもよい。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 ユーザの行動ログから抽出され得る複数の言動のうち、所定の処理の実行に係るトリガとして適していると推定された候補言動に係る情報を、前記ユーザに対し通知させる通知制御部、
 を備え、
 前記通知制御部は、前記行動ログから推定された前記候補言動の実行を、前記トリガとして適用するか否かの問い合わせを、前記ユーザに対しさらに通知させ、
 前記候補言動は、前記行動ログから抽出された前記言動の回数に基づいて推定される、
情報処理装置。
(2)
 前記候補言動は、前記行動ログから抽出された複数の前記所定の言動のうち、抽出された回数が所定の回数より少ない前記所定の言動である、
前記(1)に記載の情報処理装置。
(3)
 前記トリガは、前記ユーザとエージェント機能との間のインタラクションを開始する起動トリガを含む、
前記(1)または(2)に記載の情報処理装置。
(4)
 前記通知制御部は、複数の前記所定の言動の組み合わせから成る前記候補言動を、前記トリガとして適用するか否かの問い合わせを、前記ユーザに対し通知させる、
前記(1)~(3)のいずれかに記載の情報処理装置。
(5)
 複数の前記所定の言動の組み合わせから成る前記候補言動は、前記行動ログから抽出された複数の前記所定の言動に関し、全ての前記所定の言動が所定の回数以上認識された場合に、前記トリガとして適していると推定される、
前記(4)に記載の情報処理装置。
(6)
 前記通知制御部は、推定された複数の前記候補言動のうち、いずれの前記候補言動を前記トリガとして適用するかの問い合わせを、前記ユーザに対し通知させる、
前記(1)~(5)のいずれかに記載の情報処理装置。
(7)
 前記通知制御部は、推定された前記候補言動を、複数の前記所定の処理のうち、いずれの前記所定の処理の実行に係る前記トリガとして適用するかの問い合わせを、前記ユーザに対し通知させる、
前記(1)~(6)のいずれかに記載の情報処理装置。
(8)
 前記通知制御部は、前記ユーザの所定の状況に応じて、推定された前記候補言動の実行を、前記トリガとして適用するか否かの問い合わせを、前記ユーザに対し通知させる、
前記(1)~(7)のいずれかに記載の情報処理装置。
(9)
 前記候補言動に係る情報は、少なくとも前記候補言動の種別を含む、
前記(1)~(8)のいずれかに記載の情報処理装置。
(10)
 前記候補言動に係る情報は、少なくとも前記候補言動の大きさを含む、
前記(1)~(9)のいずれかに記載の情報処理装置。
(11)
 前記通知制御部は、前記トリガとして適用された前記言動の誤発火が推定された場合に、前記トリガに係る言動の大きさを変更するか否かを、前記ユーザに対し通知させる、
前記(10)に記載の情報処理装置。
(12)
 前記候補言動に係る情報は、少なくとも前記候補言動の回数を含む、
前記(1)~(11)のいずれかに記載の情報処理装置。
(13)
 前記通知制御部は、前記トリガとして適用された前記言動の誤発火が推定された場合に、前記トリガに係る言動の回数を変更するか否かを、前記ユーザに対し通知させる、
前記(12)に記載の情報処理装置。
(14)
 前記候補言動は、少なくとも1のジェスチャを含み、
 前記通知制御部は、前記ジェスチャの実行を、前記トリガとして適用するか否かの問い合わせを、前記ユーザに対し通知させる、
前記(1)~(13)のいずれかに記載の情報処理装置。
(15)
 前記候補言動は、少なくとも1の発話を含み、
 前記通知制御部は、前記発話の実行を、前記トリガとして適用するか否かの問い合わせを、前記ユーザに対し通知させる、
前記(1)~(14)のいずれかに記載の情報処理装置。
(16)
 前記所定の処理は、ウェアラブル装置により実行される、
前記(1)~(15)のいずれかに記載の情報処理装置。
(17)
 前記所定の処理は、ヒアラブル装置により実行される、
前記(1)~(16)のいずれかに記載の情報処理装置。
(18)
 前記行動ログから認識された複数の前記所定の言動のうち、前記所定の処理の実行に係る前記トリガとして適している前記候補言動を推定する推定部、
 をさらに備え、
 前記推定部は、前記候補言動を、前記行動ログから抽出され得る前記言動の回数に基づいて推定する、
前記(1)~(17)のいずれかに記載の情報処理装置。
(19)
 プロセッサが、
 ユーザの行動ログから抽出され得る複数の言動のうち、所定の処理の実行に係るトリガとして適していると推定された候補言動に係る情報を、前記ユーザに対し通知させることと、
 前記行動ログから推定された前記候補言動の実行を、前記トリガとして適用するか否かの問い合わせを、前記ユーザに対しさらに通知させることと、
 を含み、
 前記候補言動は、前記行動ログから抽出された前記言動の回数に基づいて推定される、
情報処理方法。
(20)
 コンピュータを、
 ユーザの行動ログから抽出され得る複数の言動のうち、所定の処理の実行に係るトリガとして適していると推定された候補言動に係る情報を、前記ユーザに対し通知させる通知制御部、
 を備え、
 前記通知制御部は、前記行動ログから推定された前記候補言動の実行を、前記トリガとして適用するか否かの問い合わせを、前記ユーザに対しさらに通知させ、
 前記候補言動は、前記行動ログから抽出された前記言動の回数に基づいて推定される、
情報処理装置、
として機能させるためのプログラム。
 10   情報処理端末
 110  サーバ通信部
 120  表示部
 130  音声出力部
 140  撮像部
 150  音声入力部
 160  センサ部
 180  制御部
 20   情報処理サーバ
 210  通信部
 220  認識部
 230  行動ログ蓄積部
 240  推定部
 250  適用部
 260  通知制御部
 270  処理制御部
 30   ネットワーク

Claims (20)

  1.  ユーザの行動ログから抽出され得る複数の言動のうち、所定の処理の実行に係るトリガとして適していると推定された候補言動に係る情報を、前記ユーザに対し通知させる通知制御部、
     を備え、
     前記通知制御部は、前記行動ログから推定された前記候補言動の実行を、前記トリガとして適用するか否かの問い合わせを、前記ユーザに対しさらに通知させ、
     前記候補言動は、前記行動ログから抽出された前記言動の回数に基づいて推定される、
    情報処理装置。
  2.  前記候補言動は、前記行動ログから抽出された複数の前記所定の言動のうち、抽出された回数が所定の回数より少ない前記所定の言動である、
    請求項1に記載の情報処理装置。
  3.  前記トリガは、前記ユーザとエージェント機能との間のインタラクションを開始する起動トリガを含む、
    請求項1に記載の情報処理装置。
  4.  前記通知制御部は、複数の前記所定の言動の組み合わせから成る前記候補言動を、前記トリガとして適用するか否かの問い合わせを、前記ユーザに対し通知させる、
    請求項1に記載の情報処理装置。
  5.  複数の前記所定の言動の組み合わせから成る前記候補言動は、前記行動ログから抽出された複数の前記所定の言動に関し、全ての前記所定の言動が所定の回数以上認識された場合に、前記トリガとして適していると推定される、
    請求項4に記載の情報処理装置。
  6.  前記通知制御部は、推定された複数の前記候補言動のうち、いずれの前記候補言動を前記トリガとして適用するかの問い合わせを、前記ユーザに対し通知させる、
    請求項1に記載の情報処理装置。
  7.  前記通知制御部は、推定された前記候補言動を、複数の前記所定の処理のうち、いずれの前記所定の処理の実行に係る前記トリガとして適用するかの問い合わせを、前記ユーザに対し通知させる、
    請求項1に記載の情報処理装置。
  8.  前記通知制御部は、前記ユーザの所定の状況に応じて、推定された前記候補言動の実行を、前記トリガとして適用するか否かの問い合わせを、前記ユーザに対し通知させる、
    請求項1に記載の情報処理装置。
  9.  前記候補言動に係る情報は、少なくとも前記候補言動の種別を含む、
    請求項1に記載の情報処理装置。
  10.  前記候補言動に係る情報は、少なくとも前記候補言動の大きさを含む、
    請求項1に記載の情報処理装置。
  11.  前記通知制御部は、前記トリガとして適用された前記言動の誤発火が推定された場合に、前記トリガに係る言動の大きさを変更するか否かを、前記ユーザに対し通知させる、
    請求項10に記載の情報処理装置。
  12.  前記候補言動に係る情報は、少なくとも前記候補言動の回数を含む、
    請求項1に記載の情報処理装置。
  13.  前記通知制御部は、前記トリガとして適用された前記言動の誤発火が推定された場合に、前記トリガに係る言動の回数を変更するか否かを、前記ユーザに対し通知させる、
    請求項12に記載の情報処理装置。
  14.  前記候補言動は、少なくとも1のジェスチャを含み、
     前記通知制御部は、前記ジェスチャの実行を、前記トリガとして適用するか否かの問い合わせを、前記ユーザに対し通知させる、
    請求項1に記載の情報処理装置。
  15.  前記候補言動は、少なくとも1の発話を含み、
     前記通知制御部は、前記発話の実行を、前記トリガとして適用するか否かの問い合わせを、前記ユーザに対し通知させる、
    請求項1に記載の情報処理装置。
  16.  前記所定の処理は、ウェアラブル装置により実行される、
    請求項1に記載の情報処理装置。
  17.  前記所定の処理は、ヒアラブル装置により実行される、
    請求項1に記載の情報処理装置。
  18.  前記行動ログから認識された複数の前記所定の言動のうち、前記所定の処理の実行に係る前記トリガとして適している前記候補言動を推定する推定部、
     をさらに備え、
     前記推定部は、前記候補言動を、前記行動ログから抽出され得る前記言動の回数に基づいて推定する、
    請求項1に記載の情報処理装置。
  19.  プロセッサが、
     ユーザの行動ログから抽出され得る複数の言動のうち、所定の処理の実行に係るトリガとして適していると推定された候補言動に係る情報を、前記ユーザに対し通知させることと、
     前記行動ログから推定された前記候補言動の実行を、前記トリガとして適用するか否かの問い合わせを、前記ユーザに対しさらに通知させることと、
     を含み、
     前記候補言動は、前記行動ログから抽出された前記言動の回数に基づいて推定される、
    情報処理方法。
  20.  コンピュータを、
     ユーザの行動ログから抽出され得る複数の言動のうち、所定の処理の実行に係るトリガとして適していると推定された候補言動に係る情報を、前記ユーザに対し通知させる通知制御部、
     を備え、
     前記通知制御部は、前記行動ログから推定された前記候補言動の実行を、前記トリガとして適用するか否かの問い合わせを、前記ユーザに対しさらに通知させ、
     前記候補言動は、前記行動ログから抽出された前記言動の回数に基づいて推定される、
    情報処理装置、
    として機能させるためのプログラム。
PCT/JP2018/030036 2018-08-10 2018-08-10 情報処理装置、情報処理方法、およびプログラム WO2020031367A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2020535461A JPWO2020031367A1 (ja) 2018-08-10 2018-08-10 情報処理装置、情報処理方法、およびプログラム
US17/265,213 US11940896B2 (en) 2018-08-10 2018-08-10 Information processing device, information processing method, and program
PCT/JP2018/030036 WO2020031367A1 (ja) 2018-08-10 2018-08-10 情報処理装置、情報処理方法、およびプログラム
EP18929569.4A EP3835923A4 (en) 2018-08-10 2018-08-10 INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND PROGRAM

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/030036 WO2020031367A1 (ja) 2018-08-10 2018-08-10 情報処理装置、情報処理方法、およびプログラム

Publications (1)

Publication Number Publication Date
WO2020031367A1 true WO2020031367A1 (ja) 2020-02-13

Family

ID=69414578

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/030036 WO2020031367A1 (ja) 2018-08-10 2018-08-10 情報処理装置、情報処理方法、およびプログラム

Country Status (4)

Country Link
US (1) US11940896B2 (ja)
EP (1) EP3835923A4 (ja)
JP (1) JPWO2020031367A1 (ja)
WO (1) WO2020031367A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022190774A1 (ja) * 2021-03-11 2022-09-15 株式会社Nttドコモ 情報処理装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11940896B2 (en) * 2018-08-10 2024-03-26 Sony Group Corporation Information processing device, information processing method, and program

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012256099A (ja) * 2011-06-07 2012-12-27 Sony Corp 情報処理端末および方法、プログラム、並びに記録媒体
JP2013059083A (ja) * 2004-12-28 2013-03-28 Sony Mobile Communications Ab 移動端末へのユーザ入力を予測するシステム及び方法
JP2017021461A (ja) 2015-07-08 2017-01-26 株式会社ソニー・インタラクティブエンタテインメント 操作入力装置および操作入力方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5636888B2 (ja) * 2010-11-09 2014-12-10 ソニー株式会社 情報処理装置、プログラムおよびコマンド生成方法
TWI423645B (zh) * 2011-03-02 2014-01-11 Nat Taichung Inst Of Technology A smartphone that gives control commands in a user's dynamic mode of operation
US9977506B2 (en) * 2015-05-22 2018-05-22 Microsoft Technology Licensing, Llc Input optimization based on frequency of use
JP6671928B2 (ja) * 2015-11-05 2020-03-25 富士ソフト株式会社 ロボットの動作制御データ生成システム及び動作制御データ生成方法
KR102132961B1 (ko) * 2018-08-03 2020-07-13 계명대학교 산학협력단 인지 기능을 갖는 로봇 수술등 시스템 및 그 이용방법
US11940896B2 (en) * 2018-08-10 2024-03-26 Sony Group Corporation Information processing device, information processing method, and program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013059083A (ja) * 2004-12-28 2013-03-28 Sony Mobile Communications Ab 移動端末へのユーザ入力を予測するシステム及び方法
JP2012256099A (ja) * 2011-06-07 2012-12-27 Sony Corp 情報処理端末および方法、プログラム、並びに記録媒体
JP2017021461A (ja) 2015-07-08 2017-01-26 株式会社ソニー・インタラクティブエンタテインメント 操作入力装置および操作入力方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SAKUSHIMA TAKAE: "11. Easy and Convenient Tips for Windows 10", NIKKEI PERSONAL COMPUTING, 12 March 2018 (2018-03-12), pages 48 - 51+114, XP009525258, ISSN: 0287-9506 *
See also references of EP3835923A4
SHIRAI SAKI : "Techno Trend 012", NIKKEI BIJNESU NIKKEI BUSINESS, no. 1934, 26 March 2018 (2018-03-26), pages 94 - 96, XP009525271, ISSN: 0029-0491 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022190774A1 (ja) * 2021-03-11 2022-09-15 株式会社Nttドコモ 情報処理装置

Also Published As

Publication number Publication date
EP3835923A1 (en) 2021-06-16
JPWO2020031367A1 (ja) 2021-08-02
EP3835923A4 (en) 2021-08-18
US20210303439A1 (en) 2021-09-30
US11940896B2 (en) 2024-03-26

Similar Documents

Publication Publication Date Title
US10586534B1 (en) Voice-controlled device control using acoustic echo cancellation statistics
CN106462383B (zh) 具有定向接口的免提装置
JP6463825B2 (ja) 多重話者音声認識修正システム
US11462213B2 (en) Information processing apparatus, information processing method, and program
US11948561B2 (en) Automatic speech recognition imposter rejection on a headphone with an accelerometer
KR102374620B1 (ko) 음성 인식을 위한 전자 장치 및 시스템
US11373635B2 (en) Information processing apparatus that fades system utterance in response to interruption
JP2023542968A (ja) 定位されたフィードバックによる聴力増強及びウェアラブルシステム
KR20200025226A (ko) 전자 장치 및 그 제어 방법
WO2020031367A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JPWO2018034077A1 (ja) 情報処理装置、情報処理方法、及びプログラム
CN111491236A (zh) 一种主动降噪耳机及其唤醒方法、装置及可读存储介质
WO2019142418A1 (ja) 情報処理装置および情報処理方法
JPWO2017175442A1 (ja) 情報処理装置、および情報処理方法
WO2021153101A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP2016189121A (ja) 情報処理装置、情報処理方法およびプログラム
JP6950708B2 (ja) 情報処理装置、情報処理方法、および情報処理システム
JP2022054447A (ja) ウェアラブルコンピューティングデバイスの音声インターフェースのための方法、システムおよびコンピュータプログラム製品(ウェアラブルコンピューティングデバイス音声インターフェース)
JP6927331B2 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2019142420A1 (ja) 情報処理装置および情報処理方法
WO2019017033A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2018136710A (ja) 音声取引システムおよび連携制御装置
US11997445B2 (en) Systems and methods for live conversation using hearing devices
WO2023283965A1 (zh) 用于语音代听和生成语音识别模型的方法、装置、电子设备和介质
JP7306390B2 (ja) 情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18929569

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020535461

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018929569

Country of ref document: EP

Effective date: 20210310