WO2018139050A1 - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
WO2018139050A1
WO2018139050A1 PCT/JP2017/043207 JP2017043207W WO2018139050A1 WO 2018139050 A1 WO2018139050 A1 WO 2018139050A1 JP 2017043207 W JP2017043207 W JP 2017043207W WO 2018139050 A1 WO2018139050 A1 WO 2018139050A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
user
presentation
condition
request
Prior art date
Application number
PCT/JP2017/043207
Other languages
English (en)
French (fr)
Inventor
脩 繁田
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Publication of WO2018139050A1 publication Critical patent/WO2018139050A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output

Definitions

  • This disclosure relates to an information processing apparatus, an information processing method, and a program.
  • a technology related to a robot apparatus that performs a dialogue with a user is known.
  • a technique for presenting presentation information to the user according to the user's emotion determined from the user's utterance content and the familiarity with the user registered in advance is disclosed (for example, see Patent Document 1).
  • a technique for presenting a plurality of pieces of presentation information having different aspects to a user is also known.
  • a posture information acquisition unit that acquires posture information of a user, and a presentation control unit that controls presentation of presentation information to the user, the presentation control unit is based on the posture information.
  • An information processing apparatus for controlling a plurality of the presentation information having different aspects is provided.
  • a technique capable of controlling a plurality of pieces of presentation information presented to the user as desired is provided.
  • the above effects are not necessarily limited, and any of the effects shown in the present specification, or other effects that can be grasped from the present specification, together with or in place of the above effects. May be played.
  • movement which selects the agent which performs a request in a server apparatus It is a figure which shows the structural example of the information processing system which concerns on 3rd Embodiment. It is a figure which shows the detailed structural example of a control part. It is a flowchart which shows the operation example which judges whether a request is made into an execution object in an agent (child machine). It is a flowchart which shows the operation example which selects the agent which performs a request in an agent (master machine). It is a flowchart which shows the other example of the operation
  • a plurality of constituent elements having substantially the same or similar functional configuration may be distinguished by adding different numerals after the same reference numerals. However, when it is not necessary to particularly distinguish each of a plurality of constituent elements having substantially the same or similar functional configuration, only the same reference numerals are given.
  • similar components in different embodiments may be distinguished by attaching different alphabets after the same reference numerals. However, if it is not necessary to distinguish each similar component, only the same reference numerals are given.
  • FIG. 1 is a diagram illustrating a configuration example of an information processing system according to the first embodiment.
  • the information processing system 1A according to the first embodiment includes an information processing apparatus 10A, controllers 20-1 to 20-N (N is a natural number), and a server apparatus 30A.
  • the information processing apparatus 10 ⁇ / b> A and the server apparatus 30 ⁇ / b> A can communicate with each other via the communication network 931.
  • the information processing apparatus 10A controls the execution of requests (for example, the first request and the second request appearing below) on behalf of the users U-1 to UN.
  • requests for example, the first request and the second request appearing below
  • agent the information processing apparatus 10A
  • the information processing apparatus 10A can process requests input from the users U-1 to UN.
  • the information processing apparatus 10A is not limited to an agent.
  • each of the users U-1 to UN can use the controller 20 one by one will be mainly described. However, some or all of the users U-1 to UN may be able to use a plurality of controllers 20, or may not be able to use one controller 20.
  • the controller 20 receives an operation input from the user U, the controller 20 transmits a request corresponding to the operation to the agent 10A.
  • the controller 20 may be a remote controller or a smartphone.
  • each of the users U-1 to UN can input a request to the agent 10 by utterance.
  • a voice voice or speech
  • a sound are used separately.
  • the voice voice or speech
  • the sound may include a sound other than the user's utterance.
  • the sound collection unit 113 has a function of obtaining sound by collecting sound.
  • the sound collection unit 113 includes a microphone and collects sound using the microphone.
  • the number of microphones included in the sound collection unit 113 is not particularly limited as long as it is one or more. And the position where each of the one or more microphones included in the sound collection unit 113 is provided is not particularly limited.
  • the sound collection unit 113 may include a sound collection device other than a microphone as long as it has a function of collecting sound information.
  • the imaging unit 114 has a function of inputting an image by imaging.
  • the imaging unit 114 includes a camera (including an image sensor), and inputs an image captured by the camera.
  • the type of camera is not limited.
  • the camera may be a wide-angle camera, a depth camera, or a camera that obtains an image that can detect the line of sight of the user U.
  • the number of cameras included in the imaging unit 114 is not particularly limited as long as it is one or more.
  • the position where each of the one or more cameras included in the imaging unit 114 is provided is not particularly limited.
  • the one or more cameras may include a monocular camera or a stereo camera.
  • the distance detection unit 115 has a function of detecting the distance to the user U.
  • the distance detection unit 115 includes a distance measuring sensor, and acquires the distance to the user U detected by the distance measuring sensor.
  • the position where the distance measuring sensor is provided is not particularly limited.
  • the type of distance measuring sensor is not particularly limited.
  • the distance measuring sensor may be an infrared distance sensor or an ultrasonic distance sensor.
  • the distance detection unit 115 may detect the distance based on the loudness of the user U's voice collected by the sound collection unit 113, or the user U's captured in the image captured by the imaging unit 114. The distance may be detected based on the size.
  • the receiving unit 116 includes a communication circuit, and receives a request transmitted from the controller 20.
  • the receiving unit 116 corresponds to the type of radio signal transmitted from the controller 20. That is, when the type of radio signal transmitted from the controller 20 is a radio wave, the radio wave can be received. Alternatively, when the type of wireless signal transmitted from the controller 20 is infrared, infrared can be received.
  • the communication unit 140 includes a communication circuit, and has a function of acquiring data from the server device 30A connected to the communication network 931 via the communication network 931 and providing data to the server device 30A.
  • the communication unit 140 is configured by a communication interface. Note that there may be one or more server devices 30A connected to the communication network 931.
  • the storage unit 130 includes a memory, and is a recording medium that stores a program executed by the control unit 120A and stores data necessary for executing the program.
  • the storage unit 130 temporarily stores data for calculation by the control unit 120A.
  • the storage unit 130 includes a magnetic storage device, a semiconductor storage device, an optical storage device, a magneto-optical storage device, or the like.
  • the display unit 150 has a function of displaying various screens.
  • the display unit 150 is a projector (for example, a single focus projector), but the type of the display unit 150 is not limited.
  • the display unit 150 may be a display capable of performing display visible to the user, and may be a liquid crystal display or an organic EL (Electro-Luminescence) display.
  • the display unit 150 displays at a relatively high position (for example, a wall surface) or displays at a relatively low position (for example, an agent's stomach, a user's hand).
  • the position where the display unit 150 performs display is not limited.
  • the sound output unit 160 has a function of outputting sound.
  • the sound output unit 160 includes a speaker and outputs sound through the speaker.
  • the number of speakers included in the sound output unit 160 is not particularly limited as long as it is one or more.
  • the position where each of the one or more speakers included in the sound output unit 160 is provided is not particularly limited.
  • the sound output unit 160 may include a sound output device in a form other than a speaker (for example, an earphone, a headset, or the like) as long as it has a function of outputting sound.
  • FIG. 4 is a block diagram illustrating a functional configuration example of the server device 30A according to the first embodiment.
  • the server device 30A includes a control unit 310A, a communication unit 340, and a storage unit 350.
  • these functional blocks provided in the server device 30A will be described.
  • the communication unit 340 includes a communication circuit, and has a function of performing communication with other devices via the network 931 (FIG. 1).
  • the communication unit 340 is configured by a communication interface.
  • the communication unit 340 can communicate with the agent 10A via the network 931 (FIG. 1).
  • the detection unit 121 detects a context related to a user. Then, the request processing unit 122A determines which of the first request and the second request should be preferentially processed based on the context detected by the detection unit 121. According to such a configuration, it is possible to more appropriately determine a request that is preferentially processed.
  • Context regarding the user is not particularly limited.
  • the context regarding the user may include at least one of time information regarding the user, weather information regarding the user, environment information regarding the user, and utterance content regarding the user.
  • FIG. 5 is a diagram illustrating an example of context list information. Referring to FIG. 5, context list information 151 is shown, and an example of context related to the user is shown.
  • the time information regarding the user may be time information to which the current time at which the user exists belongs.
  • the time information may be information indicating a time zone (for example, 6 am to 11 am, morning, noon, etc.) or information indicating a day of the week (for example, weekday, holiday, Monday, Sunday, etc.). May be.
  • the current time may be obtained from a clock that exists in the agent 10A or a device external to the agent 10A (for example, the server device 30A). Further, the time information related to the user may be appropriately acquired from a device inside the agent 10A or a device outside the agent 10A (for example, the server device 30A).
  • the weather information regarding the user may be weather information of a place where the user exists.
  • the weather information may be information indicating the weather (for example, sunny, cloudy, rain, etc.).
  • the location where the user exists may be acquired by some positioning function, or may be set in advance by the user. Further, the weather information regarding the user may be appropriately acquired from a device inside the agent 10A or a device outside the agent 10A (for example, the server device 30A).
  • the environment information related to the user may be information indicating an environment around the place where the user exists.
  • the environment information may be information indicating brightness (for example, ambient brightness of 10 lx or less) or information indicating volume (for example, ambient environment sound of 60 db or more).
  • the information indicating the brightness can be detected by the optical sensor if the agent 10A has the optical sensor.
  • the information indicating the sound volume may be detected by the sound sensor if the agent 10A has the sound sensor.
  • the request processing unit 122A preferentially processes either the first request or the second request based on the comparison between the priority of the first request and the priority of the second request. You may decide what to do. For example, the request processing unit 122A may determine that a request having a higher priority among the priority of the first request and the priority of the second request should be processed with priority.
  • FIG. 6 is a diagram illustrating a configuration example of related information in which context, attribute information, and priority are associated with each other.
  • the related information 152 includes context, attribute information (in the example shown in FIG. 6, a combination of the attribute type “Attribute” and the attribute value “Value”) and priority (example shown in FIG. 6). Then, “Priority Score”) is associated.
  • Such related information 152 may be appropriately acquired by the request processing unit 122A from an apparatus inside the agent 10A or an apparatus outside the agent 10A (for example, the server apparatus 30A).
  • the request processing unit 122A acquires the priority of the first request based on the context detected by the detection unit 121 and the attribute information of the first request, and the context and the attribute information of the second request The priority of the second request may be acquired based on.
  • the attribute type may include information indicating a user (“Person” in the example illustrated in FIG. 6) or information indicating a device (“modal” illustrated in FIG. 6).
  • a user in the example illustrated in FIG. 6
  • modal illustrated in FIG. 6
  • “user A (dad)” and “user B (speaker)” are shown as attribute values corresponding to the attribute type “Person”.
  • “controller” and “voice” are shown as attribute values corresponding to the attribute type “modal”.
  • the attribute type “Person” and the attribute value “user A (dad)” may be associated with the context “weekday morning”.
  • the attribute type “modal” and the attribute value “controller” may be associated with the context “ambient environmental sound of 60 db or more”.
  • the attribute value “user A” corresponding to the attribute type “Person” of the request may be recognized in any way.
  • the request processing unit 122A may acquire the attribute value recognized based on the voice recognition result.
  • the request processing unit 122A may acquire the attribute value recognized based on the face recognition result.
  • voices and face images used for recognition may be registered in advance. Further, when a voice or face of a user who is not registered is recognized, the user may be newly registered.
  • the first request is not limited to the request being processed.
  • the second request is not limited to a newly input request.
  • at least one of the first request and the second request may be a request that has not yet been processed (may be a request that exists in the request queue).
  • FIG. 7 is a diagram illustrating an example of a request queue table.
  • the request queue table 153 is associated with the processing order of requests, the task corresponding to the request, the user who made the request, the modal, and the status.
  • a request with the status “processing” is a request with the highest priority, and is a request that is being processed from the message queue.
  • the request with the status “waiting for processing” is a request existing in the message queue.
  • the request processing unit 122A compares the priorities of the request being processed and the newly input request, and determines that the request being processed should be processed preferentially. Continue processing the request.
  • the execution control unit 123 compares the priority of the request being processed and the newly input request, and determines that the newly input request should be processed preferentially,
  • the input request may be interrupted with respect to the request being processed.
  • the execution control unit 123 may control the output of predetermined output information when an interrupt occurs in this way.
  • the output information may be presented to the user who made the request being processed, or may be presented to the user who made the newly input request.
  • the type of output information is not limited.
  • the output information may be presented visually.
  • the visual presentation may be presented to the agent 10A by a predetermined gesture (for example, a gesture that turns the palm of the palm toward the user who has requested to be interrupted), or the light emission of the lamp (for example, a red lamp) And the like may be presented in hardware.
  • the output information may be a presentation of the request queue table 153 itself managed by the agent 10A.
  • FIG. 8 is a diagram showing an example of a screen presented to the user when an interruption occurs.
  • the execution control unit 123 may control the display unit 150 such that the request queue table 153 is presented by the display unit 150. At this time, in order to make it easy to distinguish between the interrupted request and the interrupted request, the execution control unit 123 performs processing for each line of the interrupted request and the interrupted request in the request queue table 153. A predetermined animation (for example, blinking) may be added.
  • a predetermined animation for example, blinking
  • FIG. 9 is a diagram illustrating an example of a voice message presented to the user when an interruption occurs.
  • the execution control unit 123 uses a predetermined voice message 161 (in the example shown in FIG. 9, “a request with a higher priority than a request that is currently being processed has been accepted. May be controlled to output the voice message “The process will be interrupted”.
  • the voice message 161 is not particularly limited.
  • the case where one context is detected by the detection unit 121 has been mainly described.
  • a plurality of contexts may be detected by the detection unit 121.
  • the request processing unit 122A determines the priority of each of the first request and the second request based on the calculation of the priorities related to the same attribute information corresponding to each of the first context and the second context. You may get a degree.
  • FIG. 10 is a diagram for explaining an example of request priority calculation when a plurality of contexts are detected and the attribute type is single. In the example illustrated in FIG. 10, it is assumed that the context “morning” and the context “weekday” are detected.
  • the request processing unit 122A determines the priority of each of the first request and the second request based on the calculation of the priorities associated with different attribute information corresponding to the first context and the second context. You may get.
  • the context may include a relationship between a certain parameter and a threshold value.
  • a threshold value For example, the context “ambient environmental sound of 60 db or more” includes the relationship between the parameter “ambient environmental sound” and the threshold value “60 db”.
  • Such a threshold value may be set in advance by the user or may be dynamically changed. For example, it is considered that the optimum threshold value of ambient environmental sound or the like can change depending on the location where the agent 10A exists, and therefore the threshold value should be changed dynamically.
  • the sound collection unit 113 may continue to detect ambient environmental sounds for a predetermined period. Then, the request processing unit 122A may use, as a threshold value (abnormal value), a value that deviates by x% from the reference value based on the average value of the ambient environmental sounds detected during the predetermined period.
  • a threshold value abnormal value
  • the request processing unit 122A may acquire related information of other users having a predetermined similar relationship with the user of the agent 10A as the related information 152.
  • the predetermined similarity relationship is not particularly limited.
  • FIG. 12 is a diagram for explaining an example in which related information of other users is used.
  • the server device 30 ⁇ / b> A
  • information 156 related to a plurality of users is stored in the storage unit 350.
  • the control unit 310A refers to the information 156 related to a plurality of users, and the information related to the other user “family A” and the information related to the user “family B” of the agent 10A have a predetermined similarity relationship.
  • the communication unit 340 may transmit the related information 152-1 of the other user “family A” to the agent 10A as the related information of the user “family B” of the agent 10A.
  • the communication unit 140 receives the related information 152-1 of the other user “family A”
  • the request processing unit 122A receives the related information 152-1 of the other user “family A”. Based on this, the priority of the request may be determined.
  • related information of the agent 10A (for example, related information 152-1 of another user “family A”) is associated with a certainty factor based on feedback from the user, and is it adopted based on this certainty factor? It may be determined whether or not. More specifically, the request processing unit 122A associates the certainty factor based on the feedback from the user with the related information of the agent 10A. Then, when the certainty factor related to at least one of the attribute information of each of the first request and the second request is below a predetermined threshold, the request processing unit 122A determines which of the first request and the second request It is not necessary to determine whether to be preferentially processed.
  • the predetermined threshold value may be a pseudo-random number.
  • the certainty factor may take a range of 0 ⁇ confidence ⁇ 1.
  • the initial value of the certainty factor may be set as an arbitrary value in the range of 0 to 1 (for example, 0.5).
  • the request processing unit 122A may set “+1” to “reward” when the detection unit 121 detects positive feedback from the user. Further, the request processing unit 122A may set “0” in the reward when the detection unit 121 detects negative feedback from the user. In addition, when the detection unit 121 detects different feedbacks from a plurality of users, the request processing unit 122A may handle a case where there is a user who has performed negative feedback even if one person has performed negative feedback.
  • the certainty factor may be calculated by the request processing unit 122A based on the total reward value / total number of trials.
  • FIG. 13 is a diagram illustrating an example of related information 152-2 further associated with a certainty factor based on feedback from the user.
  • the positive feedback may be a UI operation indicating positive (for example, pressing a button indicating positive), or a predetermined voice (for example, “Thank you”) Or an implied action (for example, an action with a predetermined facial expression such as a smile).
  • the negative feedback may be a UI operation indicating negative (for example, pressing a button indicating negative) or a predetermined voice indicating disgust (e.g. from an interrupted user) (for example, A message such as “don't interrupt”, or an equivalent behavior (for example, an action with an uncomfortable expression).
  • a new user may make a request.
  • a new user for example, a user who has not yet been registered
  • the request processing unit 122A may acquire the priority of another user who has a predetermined similarity with the new user as the priority of the new user.
  • the predetermined similarity relationship is not particularly limited as described above.
  • FIG. 14 is a flowchart illustrating an example of an operation for extracting and processing requests in order from the request queue. As illustrated in FIG. 14, when the request queue size is “0” (“No” in S11), the request processing unit 122A ends the operation.
  • the request processing unit 122A extracts the request with the highest priority from the request queue and processes the extracted request (S12).
  • the request processing unit 122A deletes the request from the request queue (S13), and returns to S11.
  • FIG. 15 is a flowchart showing an example of the operation when a new request is input when there is a request being processed.
  • the request processing unit 122A determines whether another request is being processed (S21). If another request is not being processed (“No” in S21), the request processing unit 122A proceeds to S26. On the other hand, when another request is being processed (“Yes” in S21), the request processing unit 122A acquires the context detected by the detection unit 121 (S22).
  • the request processing unit 122A determines whether the context detected by the detection unit 121 exists in the related information 152 (S23). If there is no corresponding request (“No” in S23), the request processing unit 122A proceeds to S26. On the other hand, when there is a corresponding request (“Yes” in S23), the request processing unit 122A acquires an Attribute related to the context from the related information 152 (S24).
  • the request processing unit 122A determines whether or not an Attribute value corresponding to the Attribute exists in the related information 152 (S25). When the corresponding Attribute value does not exist (“No” in S25), the request processing unit 122A adds the newly input request to the request queue (S26). On the other hand, if the corresponding Attribute value exists (“Yes” in S25), the request processing unit 122A determines that the certainty factor related to the corresponding Attribute value is less than the pseudo random number (rand) (“No” in S251). The newly input request is added to the request queue (S26).
  • the request processing unit 122A determines that the certainty factor related to the corresponding Attribute value is greater than or equal to a pseudo random number (rand) (“Yes” in S251).
  • the priority related to the Attribute value is acquired, and it is determined which of the newly input request and the request being processed should be prioritized by comparing the priorities (S27).
  • the first embodiment has been described above.
  • Second Embodiment> Next, the second embodiment will be described. In the first embodiment, the case where there is one agent 10 is mainly assumed. In the second embodiment, a case where there are a plurality of agents 10 will be mainly described.
  • FIG. 16 is a diagram illustrating a configuration example of an information processing system according to the second embodiment.
  • the information processing system 1B according to the second embodiment includes agents 10B-1 to 10B-N, controllers 20-1 to 20-N (N is a natural number), a server device 30B, Is provided.
  • the number of agents 10 and the number of controllers 20 are the same, but the number of agents 10 and the number of controllers 20 may be different.
  • the server device 30B stores a task status table 157.
  • the task status table 157 manages the tasks of the agents 10B-1 to 10B-N.
  • the task status table 157 will be described later.
  • FIG. 17 is a diagram illustrating a detailed configuration example of the control unit 120B. As illustrated in FIG. 17, the control unit 120B includes a detection unit 121, a request processing unit 122B, and an execution control unit 123. Hereinafter, the request processing unit 122B will be mainly described.
  • FIG. 18 is a diagram illustrating a functional configuration example of the server device 30B according to the second embodiment.
  • the server device 30B according to the second embodiment differs from the server device 30A according to the first embodiment in that a control unit 310B is provided instead of the control unit 310A.
  • the control unit 310B includes a distance acquisition unit 311, a selection unit 312, and an execution command output unit 313.
  • a functional configuration example of the control unit 310B will be mainly described.
  • FIG. 19 is a diagram illustrating an example of a task status table.
  • the task status table 157 includes an agent ID, a status (for example, whether response processing is being performed for a request, whether there is a request to be processed (whether free), etc.), and response
  • the identification information of the target user is associated with the type of task corresponding to the request being processed.
  • the server 10B should cause the agent 10B-1 to process a request from the user U-2 among the agents 10B-1 to 10B-2. If it is determined, the request from the user U-2 may be executed (for example, the request from the user U-2 may be added to the request queue).
  • the request processing unit 122B in the agent 10B-1 does not determine that the agent 10B-1 should process the request from the user U-2 among the agents 10B-1 to 10B-2, the user UB-1 -2 does not have to be an execution target (for example, a request from the user U-2 does not have to be added to the request queue).
  • the server device 30B allows the agent 10B-1 to process a request from the user U-2 when the distance from the user U-2 is the shortest among the agents 10B-1 to 10B-2. May be judged.
  • the agent 10B-1 does not have a request to be processed (task corresponding to the request) among the agents 10B-1 to 10B-2 by the server device 30B, the agent 10B-1 receives a request from the user U-2. It may be determined that the request should be processed.
  • the request processing unit 122B in the agent 10B-1 may change the response to the request. For example, the request processing unit 122B may make the response to the request a combination of sound and screen display, make the response to the request sound, increase the sound, make the response to the request a screen display, The display characters on the screen may be enlarged.
  • the request processing unit 122B executes a response to the request (S44).
  • the request processing unit 122B ends the operation without executing the response to the request.
  • FIG. 21 is a flowchart showing an operation example of selecting an agent for executing a request in the server device 30B.
  • the communication unit 340 receives the distance from the agent 10B-1 to the user U-2 from the agent 10B-1 (S51). The distances are similarly received from the agents 10B-2 to 10B-N.
  • the distance acquisition unit 311 acquires the distance.
  • the selection unit 312 selects an agent closest to the user U-2 from the agents 10B-1 to 10B-N (S52).
  • the execution command output unit 313 causes the agent selected by the selection unit 312 to transmit a response execution command (S53). When the transmission of the response execution command is completed, the operation is terminated.
  • FIG. 22 is a flowchart showing another example of the operation of selecting an agent for executing a request in the server device 30B.
  • the communication unit 340 receives the distance from the agent 10B-1 to the user U-2 from the agent 10B-1 (S51). The distances are similarly received from the agents 10B-2 to 10B-N.
  • the distance acquisition unit 311 acquires the distance.
  • FIG. 23 is a diagram illustrating a configuration example of an information processing system according to the third embodiment.
  • the information processing system 1C according to the third embodiment includes agents 10C-1 to 10C-N, controllers 20-1 to 20-N (N is a natural number), a server device 30A, Is provided.
  • the number of agents 10 and the number of controllers 20 are the same. However, as in the second embodiment, the number of agents 10 and the number of controllers 20 are different. It may be.
  • the agent 10C-G (master unit) stores the task status table 157. Of the plurality of agents 10, those other than the agent 10 ⁇ / b> C-G (master device) function as slave devices.
  • Agent 10C-G may be determined in any way.
  • the agent 10C-G (master unit) may be determined manually by the user.
  • the agent 10C-G (master unit) may be automatically determined from the agents existing in the communication area by the system (for example, the server device 30A).
  • the agent 10C-G (master unit) may be determined randomly, or may be determined as an agent having the highest contact frequency with the user.
  • the slave units are configured to be able to communicate with each other by short-range wireless communication or the like.
  • FIG. 24 is a diagram illustrating a detailed configuration example of the control unit 120C.
  • control unit 120C in the agent 10C-G includes a detection unit 121, a request processing unit 122B, and an execution control unit 123. Further, the control unit 120C in the agent 10C-G (master unit) includes a distance acquisition unit 311, a selection unit 312, and an execution command output unit 313.
  • the request processing unit 122B executes a response to the request (S64).
  • the request processing unit 122B operates without executing a response to the request. finish.
  • FIG. 26 is a flowchart showing an operation example of selecting an agent for executing a request in the agent 10C-G (master unit).
  • the communication unit 340 receives the distance from the agent 10C-1 (slave unit) to the user U-2 from the agent 10C-1 (S71). The distance is similarly received from other slave units.
  • the distance acquisition unit 311 acquires the distance.
  • the selection unit 312 selects an agent closest to the user U-2 from all the slave units (S72).
  • the execution command output unit 313 causes the agent selected by the selection unit 312 to transmit a response execution command (S73). When the transmission of the response execution command is completed, the operation is terminated.
  • FIG. 27 is a flowchart showing another example of the operation of selecting an agent for executing a request in the agent 10C-G (master unit).
  • communication unit 340 receives the distance from agent 10C-1 (slave unit) to user U-2 from agent 10C-1 (slave unit). (S71). The distance is similarly received from other slave units.
  • the distance acquisition unit 311 acquires the distance.
  • the selection unit 312 determines whether there is a free agent (S74). If there is no free agent (“No” in S74), the selection unit 312 selects the agent closest to the user U-2 (S72), and proceeds to S73. On the other hand, when there is a free agent (“Yes” in S74), the selection unit 312 selects an agent closest to the user U-2 from the free agents (S75).
  • the execution command output unit 313 causes the agent selected by the selection unit 312 to transmit a response execution command (S73). When the transmission of the response execution command is completed, the operation is terminated.
  • the third embodiment has been described above.
  • a technology related to an agent that performs a dialogue with a user by using presentation information mainly composed of voice information is known.
  • a technique related to an agent that presents not only audio information but also video information as presentation information to a user is also known.
  • a desirable dialogue is made by the user by effectively presenting the audio information and video information to the user. Conceivable.
  • the user requests the agent to present recommended information on the go.
  • the recommended spots are ordered from the beginning to the end by the audio information as in the audio information “Recommended spots are A, B, C... It is possible to present.
  • the user must wait for the time until all the recommended spots are heard, even though video information can be used. I must.
  • a list of recommended information is presented as video information, and an instruction word (for example, “Are you interested in?” Etc.) Can be presented to the user in a simple manner.
  • an instruction word for example, “Are you interested in?” Etc.
  • voice information may be presented in response to the request.
  • the video information and audio information presented to the user may be desirable to control the video information and audio information presented to the user depending on whether or not the user is currently viewing the screen.
  • the technique which can control the some presentation information shown to a user more as a user desires is mainly demonstrated.
  • the kind of each of some presentation information is not limited, the case where a plurality of presentation information contains video information and audio
  • the video information may be a still image or a moving image.
  • FIG. 28 is a diagram illustrating a configuration example of an information processing system according to the fourth embodiment.
  • the information processing system 1D according to the fourth embodiment includes an agent 10D.
  • the fourth embodiment it is mainly assumed that there is no server device that can communicate with the agent 10D via the communication network.
  • the information processing system 1D has such a server device. You may do it.
  • FIG. 29 is a diagram illustrating a detailed configuration example of the control unit 120D.
  • the control unit 120D includes a posture determination unit 124, a posture information acquisition unit 125, a presentation control unit 126, and a learning processing unit 127.
  • the posture information of the user U-1 may be information based on the orientation of part or all of the body of the user U-1.
  • the posture information of the user U-1 may include the face orientation of the user U-1 or the line of sight of the user U-1.
  • the posture information of the user U-1 may include pose information of the user U-1.
  • the pose information may be body shape data (for example, skeleton information) itself, or may be classification results of the body shape data (for example, standing, sitting, etc.).
  • the posture information of the user U-1 may include action information of the user U-1 (for example, reading, cleaning, eating).
  • the posture information acquisition unit 125 acquires the posture information of the user U-1 determined by the posture determination unit 124. Then, the presentation control unit 126 controls presentation of presentation information to the user U-1. At this time, the presentation control unit 126 controls a plurality of pieces of presentation information having different aspects based on the posture information of the user U-1. According to this configuration, it is possible to control the plurality of pieces of presentation information presented to the user U-1 as the user U-1 desires. As described above, in the fourth embodiment, it is assumed that a plurality of presentation information includes video information and audio information.
  • the presentation control unit 126 uses the “audio / video presentation mode” associated with the screen viewing condition when the posture information of the user U-1 satisfies the first condition (hereinafter also referred to as “screen viewing condition”). Control presentation.
  • the presentation control unit 126 displays the “voice subject presentation mode” associated with the screen non-viewing condition. ”Is controlled.
  • the “audio / video presentation mode” is a mode in which both video information and audio information are presented to the user U-1. That is, when the screen viewing condition is satisfied, the presentation control unit 126 controls the presentation of both video information and audio information associated with the screen viewing condition to the user U-1. Presentation of audio information may be done in any way. As an example, presentation of audio information may be performed by TTS (TextToSpeech). However, in the “audio / video presentation mode”, the audio information may not be presented to the user U-1 (preferably presented).
  • the “speech subject presentation mode” is a mode in which speech information is presented to the user U-1. That is, when the screen non-viewing condition is satisfied, the presentation control unit 126 controls the presentation of the audio information associated with the screen non-viewing condition to the user U-1.
  • video information as well as voice information may be presented to the user U-1. That is, when the screen non-viewing condition is satisfied, the presentation control unit 126 may further control the presentation of video information associated with the screen non-viewing condition to the user U-1.
  • the voice information may be presented so that the user U-1 can fully understand the response contents only by the voice information. desirable.
  • FIG. 30 is a diagram illustrating an example of a correspondence relationship between each condition and the presentation mode.
  • the screen viewing condition may include a condition that the user U-1 is currently viewing a screen on which video information is displayed (hereinafter also simply referred to as “screen”). Further, the screen viewing condition may include a condition that the screen is visible to the user U-1. Further, the screen viewing condition may include a condition that the screen viewing does not hinder the action of the user U-1.
  • the screen non-viewing condition may include a condition that the user U-1 is not currently viewing the screen. Further, the screen non-viewing condition may include a condition that the screen cannot be viewed by the user U-1. Further, the screen non-viewing condition may include a condition that the screen viewing hinders the action of the user U-1.
  • whether or not the user U-1 is currently viewing the screen is determined by the presentation control unit 126 according to the face direction of the user U-1 or the line of sight of the user U-1. Can be determined based on. Specifically, the presentation control unit 126 may determine that the user U-1 is currently viewing the screen when the face direction or line of sight of the user U-1 has a predetermined positional relationship with the screen. . On the other hand, the presentation control unit 126 may determine that the user U-1 is not currently viewing the screen when the face direction or line of sight of the user U-1 does not have a predetermined positional relationship with the screen.
  • the screen position may be set in any way.
  • the screen position when the screen position is automatically recognized based on the image captured by the imaging unit 114, the automatically recognized screen position may be set.
  • the screen position may be set manually in advance.
  • the presentation control unit 126 indicates that the face direction or line of sight of the user U-1 (or a view frustum based on the face direction or a view frustum based on the line of sight) intersects the screen. In this case, it may be determined that the user U-1 is currently viewing the screen. On the other hand, the presentation control unit 126, when the face direction or line of sight of the user U-1 (or the view frustum based on the face direction or the view frustum based on the line of sight) does not intersect the screen, It may be determined that the user U-1 is not currently viewing the screen.
  • the presentation control unit 126 is a case where the face direction or line of sight of the user U-1 (or a view frustum based on the face direction or a view frustum based on the line of sight) intersects the screen. However, if the user U-1 does not exist within the maximum visible distance from the screen, it may be determined that the user U-1 is not currently viewing the screen. As an example, when the character is currently displayed on the screen, the presentation control unit 126 may calculate the maximum viewable distance based on the character display size.
  • the presentation control unit 126 is a case where the face direction or line of sight of the user U-1 (or a view frustum based on the face direction or a view frustum based on the line of sight) intersects the screen. However, if there is a shield between the user U-1 and the screen, it may be determined that the user U-1 is not currently viewing the screen. As an example, when an object is detected between the user U-1 and the screen based on the image captured by the imaging unit 114, the presentation control unit 126 blocks the object between the user U-1 and the screen. It may be determined that exists.
  • whether or not the user U-1 can visually recognize the screen can be determined by the presentation control unit 126 based on the pose information of the user U-1. Specifically, the presentation control unit 126 calculates a viewable range (for example, an angle width of the face direction) of the user U-1 according to the pose information of the user U-1, and the viewable range is predetermined with the screen. It may be determined that the user U-1 can visually recognize the screen. On the other hand, when the viewable range does not have a predetermined positional relationship with the screen, the presentation control unit 126 may determine that the user U-1 cannot see the screen.
  • a viewable range for example, an angle width of the face direction
  • the relationship between the pose information of the user U-1 and the viewable range of the user U-1 may be determined in advance. For example, when the pose information of the user U-1 indicates “standing state”, the viewable range is wider than when the pose information of the user U-1 indicates “sitting state”. Also good.
  • the presentation control unit 126 allows the user U-1 to view the screen when the viewable range of the user U-1 according to the pose information of the user U-1 intersects the screen. You may judge that there is. On the other hand, the presentation control unit 126 determines that the user U-1 cannot see the screen when the viewable range of the user U-1 according to the pose information of the user U-1 does not intersect the screen. You can do it.
  • the presentation control unit 126 keeps the user U-1 within the maximum viewable distance from the screen. If it does not exist, the user U-1 may determine that the screen cannot be viewed. Alternatively, even when the viewable range of the user U-1 according to the pose information of the user U-1 intersects the screen, the presentation control unit 126 has an obstacle between the user U-1 and the screen. If it exists, the user U-1 may determine that the screen cannot be viewed.
  • whether or not the screen viewing does not hinder the action of the user U-1 can be determined by the presentation control unit 126 based on the action information of the user U-1. Specifically, the presentation control unit 126 determines that the screen is visually recognized by the user U-1 when the behavior information of the user U-1 is the first behavior information (for example, a state of sitting on a sofa). You may judge that it does not inhibit. On the other hand, when the action information of the user U-1 is the second action information (for example, during reading, cleaning, eating, etc.), the presentation control unit 126 recognizes the screen as the action of the user U-1. You may judge that it inhibits.
  • the presentation control unit 126 recognizes the screen as the action of the user U-1. You may judge that it inhibits.
  • the association between the screen viewing condition and the “audio / video presentation mode” and the association between the screen non-viewing condition and the “speech subject presentation mode” may be made uniformly regardless of the user. However, it may be different depending on the user which mode the user desires to be presented in which mode when which condition is satisfied. Therefore, the association between the screen viewing condition and the “audio / video presentation mode” and the association between the screen non-viewing condition and the “voice main presentation mode” may be made for each user. These associations may be changeable for each user.
  • the learning processing unit 127 detects the user U-1 The association between the screen viewing condition corresponding to -1 and the audio / video presentation mode may be changed. Then, the learning processing unit 127 may newly associate the screen viewing condition corresponding to the user U-1 and the voice subject presentation mode.
  • the first state may be a predetermined change operation by the user U-1.
  • the change operation may be a predetermined gesture indicating change, an utterance indicating change, or another operation.
  • the first state is a state in which the user U-1 is not visually recognizing the screen (a state in which the face direction of the user U-1 or the line of sight does not have a predetermined positional relationship). Also good.
  • the learning processing unit 127 when the second state of the user U-1 is detected after the presentation to the user U-1 in the voice subject presentation mode associated with the screen non-viewing condition is controlled, the learning processing unit 127 The association between the screen non-viewing condition corresponding to U-1 and the voice subject presentation mode may be changed. Then, the learning processing unit 127 may newly associate the user U-1 screen non-viewing condition with the audio / video presentation mode.
  • the second state may be a predetermined change operation by the user U-1.
  • the change operation may be a predetermined gesture indicating change, an utterance indicating change, or another operation.
  • the second state may be a state in which the user U-1 is viewing the screen (a state in which the face of the user U-1 or the line of sight has a predetermined positional relationship).
  • FIG. 31 and FIG. 32 are diagrams showing an example of the correspondence between each condition for each user and the presentation mode.
  • a condition that the screen does not exist in a range (viewable range) corresponding to the pose information is shown.
  • a voice subject presentation mode is associated with a condition that no screen exists in a range (viewable range) according to pause information.
  • a condition that a shielding object exists is shown.
  • the voice subject presentation mode is associated with the condition that there is a shield between the user and the screen.
  • a condition that the screen exists far away is shown.
  • change so that audio-video presentation mode is associated with the condition that the user exists far from the screen (the user does not exist within the maximum viewable distance from the screen) Has been.
  • the voice subject presentation mode is in response to the condition that the user exists far from the screen (the user does not exist within the maximum viewable distance from the screen). Associated.
  • the behavior information of the user is the second behavior information (either reading, cleaning, or eating).
  • the user UN has been changed so that the audio / video presentation mode is associated with the condition that the action information of the user is “reading”.
  • the voice subject presentation mode is associated with the condition that the action information of the user is “reading”.
  • the voice subject presentation mode is associated with the condition that the user action information is “cleaning”.
  • the audio video presentation mode is changed to be associated with the condition that the action information of the user is “meal”.
  • the voice subject presentation mode is associated with the condition that the action information of the user is “meal”.
  • FIG. 33 is a diagram illustrating an example of presentation in the voice subject presentation mode.
  • the user “U-1” inputs a request “presentation of today's schedule” by an utterance “tell me today's schedule”.
  • FIG. 33 shows a wall surface Wa as a screen on which video information is presented.
  • the user U-1 does not visually recognize the screen (for example, because it is being cleaned). Therefore, the presentation control unit 126 determines that the posture information of the user U-1 satisfies the screen non-viewing condition, and controls the presentation in the voice subject presentation mode.
  • the presentation control unit 126 may present only audio information to the user U-1 (video information may not be presented). At this time, it is desirable that the voice information is presented so that the user U-1 can fully understand the response contents only by the voice information.
  • today's schedule is included in the audio information 168-1.
  • 34 and 35 are diagrams showing examples of presentation in the audio / video presentation mode.
  • the user U-1 inputs the request “presentation of today's schedule” by the utterance “tell me today's schedule”.
  • the presentation control unit 126 determines that the posture information of the user U-1 satisfies the screen viewing condition, and controls the presentation in the audio / video presentation mode.
  • the presentation control unit 126 may present both video information and audio information to the user U-1.
  • the video information presented in the audio / video presentation mode may have a larger amount of information than the video information presented in the audio main presentation mode.
  • the audio information presented in the audio / video presentation mode may have a smaller amount of information than the audio information presented in the audio subject presentation mode.
  • the video information presented in the audio / video presentation mode may include at least one of graphics and text data.
  • the presentation control unit 126 controls the presentation of a schedule table (pie chart) by using both graphic and text data as the video information 158-1.
  • the audio information presented in the audio / video presentation mode may be simple audio information (may include at least one of an instruction word and an abbreviation).
  • the presentation control unit 126 controls the presentation of the short voice information 168-2 including the instruction word “here”.
  • the presentation control unit 126 controls the presentation of the schedule by text data as the video information 158-2.
  • the presentation control unit 126 controls the presentation of the short voice information 168-2 including the instruction word “here”.
  • the presentation control unit 126 may perform control such that content difficult to explain in words is presented by video information. For example, assume that a candidate for a request is found. In such a case, the presentation control unit 126 may control the presentation of voice information such as “How about such a thing?” And may control the candidate image to be presented by a graphic.
  • the presentation control unit 126 controls the presentation of voice information such as “How big is this?” And also controls the presentation so that the size of the candidate is grasped by the graphic. Good. More specifically, the presentation in which the sense of size of the candidate is grasped is the presentation of an image of an object having the same size as the candidate (for example, three Tokyo Domes, A4 size notebook, etc.) Also good. It is desirable that an image of an object having the same size as the candidate is presented in actual size.
  • the presentation control unit 126 may control the presentation of candidate colors by using graphics while controlling the presentation of simple audio information such as “How about such a color?”.
  • the presentation control unit 126 controls the presentation of voice information such as “How about this weight?” And also controls the presentation such that the weight of the candidate is grasped by the graphic. Good. More specifically, the presentation in which the weight of the candidate is grasped may be an presentation of an image of an object having the same weight as the candidate.
  • FIG. 36 is a diagram illustrating another example of presentation in the voice main body presentation mode.
  • the user U-1 inputs a request “presentation of today's weather forecast” by an utterance “tell me today ’s weather”.
  • FIG. 36 shows a wall surface Wa as a screen on which video information is presented.
  • the user U-1 does not visually recognize the screen (for example, because it is being cleaned). Therefore, the presentation control unit 126 determines that the posture information of the user U-1 satisfies the screen non-viewing condition, and controls the presentation in the voice subject presentation mode.
  • the presentation control unit 126 may present only audio information to the user U-1 (video information may not be presented). At this time, it is desirable that the voice information is presented so that the user U-1 can fully understand the response contents only by the voice information.
  • today's weather forecast is included in the audio information 168-3.
  • FIGS. 37 and 38 are diagrams showing other presentation examples in the audio / video presentation mode.
  • the user “U-1” inputs the request “presentation of today's weather forecast” by the utterance “tell me today ’s weather”.
  • the presentation control unit 126 determines that the posture information of the user U-1 satisfies the screen viewing condition, and controls the presentation in the audio / video presentation mode.
  • the presentation control unit 126 may present both video information and audio information to the user U-1.
  • the video information presented in the audio / video presentation mode may include at least one of graphics and text data.
  • the presentation control unit 126 controls the presentation of the weather forecast as graphics as the video information 158-3.
  • the audio information presented in the audio / video presentation mode may include additional audio information.
  • the presentation control unit 126 controls the presentation of audio information 168-4 including additional audio information “Let's take care of your laundry”.
  • the presentation control unit 126 controls the presentation of the weather forecast using text data as the video information 158-4.
  • the presentation control unit 126 performs the audio information 168-4 including the additional audio information “Let's take care of laundry”. Is controlling the presentation.
  • FIG. 39 is a flowchart illustrating an example of an operation of presenting presentation information to the user U-1 as a response to the request input by the user U-1. Note that here, an example in which presentation information is presented to the user U-1 as a response to the request when a request is input by the user U-1, will mainly be described. Regardless of whether or not a request is input, it may be presented to the user U-1.
  • the attitude determination unit 124 acquires sensor data (S101), and determines the attitude of the user U-1 based on the sensor data (S102). Thereby, the posture determination unit 124 obtains the posture information of the user U-1.
  • the posture information may include a face direction or line of sight, may include pose information, and may include action information.
  • the posture information acquisition unit 125 acquires the posture information of the user U-1 determined by the posture determination unit 124.
  • the presentation control unit 126 specifies a presentation mode according to the posture of the user U-1 (S104). Specifically, the presentation control unit 126 specifies the audio / video presentation mode associated with the screen viewing condition when the posture information satisfies the screen viewing condition. On the other hand, when the posture information satisfies the screen non-viewing condition, the presentation control unit 126 specifies the voice subject presentation mode associated with the screen non-viewing condition.
  • the presentation control unit 126 controls a response to the request (presentation of presentation information) according to the specified presentation mode (S105). Then, after the response to the request according to the specified presentation mode is performed, the learning processing unit 127 acquires the state of the user U-1. Then, when the state of the user U-1 is a predetermined state, the learning processing unit 127 performs a learning process for changing the association between the condition and the presentation mode (S106) and ends the operation.
  • the learning processing unit 127 is in a state in which a predetermined change operation by the user U-1 or the user U-1 is not visually recognizing the screen after the response is made according to the audio-video presentation mode associated with the screen viewing condition. Is detected so that the voice subject presentation mode is associated with the screen viewing condition. On the other hand, the learning processing unit 127 says that a predetermined change operation by the user U-1 or the user U-1 is viewing the screen after a response is made according to the voice subject presentation mode associated with the screen non-viewing condition. When the state is detected, a change is made so that the audio / video presentation mode is associated with the screen non-viewing condition.
  • the presentation information to the user U-1 may be presented regardless of whether a request is input from the user U-1. That is, the agent 10D may present the presentation information to the user U-1 independently without receiving a request from the user U-1. Even in this case, the presentation control unit 126 may control the presentation information presented to the user U-1 according to the presentation mode corresponding to the posture information of the user U-1.
  • the presentation control unit 126 guides the user U-1 to view the screen with a predetermined sound output (for example, SE (Sound Effect), TTS, etc.), and then based on the posture information of the user U-1.
  • a predetermined sound output for example, SE (Sound Effect), TTS, etc.
  • FIG. 40 is a diagram showing a first modification of the display unit 150 and the screen.
  • the display unit 150 may be a television device.
  • video information 158 is displayed by a television device as an example of the display unit 150.
  • the screen on which the video information 158 is displayed by the display unit 150 is the front surface of the television device.
  • FIG. 41 is a diagram showing a second modification of the display unit 150 and the screen.
  • the display unit 150 may be a projector installed on the ceiling.
  • the projector installed on the ceiling may be a single-focus projector, an omnidirectional projector that can project an image in all directions, or a drive that can control the display position (projection direction). It may be a type projector.
  • the position of the screen on which the video information is displayed by the display unit 150 may be a wall surface Wa.
  • FIG. 42 is a diagram showing a third modification of the display unit 150 and the screen.
  • the display unit 150 may be a stationary projector (for example, a single focus projector) installed on the table Ta.
  • the position of the screen on which the video information is displayed by the display unit 150 may be the upper surface of the table Ta.
  • FIG. 43 is a diagram showing a fourth modification of the display unit 150 and the screen.
  • the display unit 150 may be a projector installed on the ceiling above the table Ta.
  • the projector installed on the ceiling may be a single-focus projector or a drive-type projector capable of controlling the display position (projection direction).
  • the position of the screen on which the video information is displayed by the display unit 150 may be the upper surface of the table Ta.
  • the user situation is not limited.
  • the user's situation may include the user's posture (for example, whether the posture information satisfies a screen viewing condition or a screen non-viewing condition).
  • the user's situation may include the user's position (for example, a distance from the screen).
  • the user's situation may include the user's attributes (for example, gender, age (for example, whether he is an adult or a child), whether he belongs to a family member set as an agent, a language used, etc.). Good.
  • a user's situation may include whether it is a person who inputted a request (speaker), whether he is a person who receives presentation information from an agent, and the like.
  • the user's posture and position can be detected as described above.
  • user identification information is associated with a user attribute in advance, and when a user is recognized by the face recognition technology from an image captured by the imaging unit 114, an attribute related to the user identification information is detected. May be. Whether or not the speaker is a speaker may be detected based on the arrival direction of the detected speech sound. Whether or not the user is presented with the presentation information may be detected based on the content of the presentation information.
  • FIG. 45 is a diagram illustrating a presentation example of presentation information in consideration of a plurality of user situations.
  • the presentation control unit 126 may perform control so that presentation information according to the situation of each of a plurality of users is presented.
  • user U-1 and user U-2 exist as examples of a plurality of users.
  • the presentation control unit 126 may control presentation of the first presentation information according to the situation of the user U-1 and presentation of the second presentation information according to the situation of the user U-2. .
  • the presentation control unit 126 may control presentation of presentation information for adults (for example, video information 158-4 indicating weather details) to the user U-1 who is an adult.
  • the presentation information for adults may be audio information.
  • presentation of presentation information for children for example, video information 158-3 with a large weather mark drawn may be controlled.
  • the presentation information for adults (for example, video information 158-4 showing the weather in detail) is in the vicinity of the user U-1 who is an adult (in the example shown in FIG. 45, the user U-1 who is an adult). May be presented on the upper surface of the table Ta placed in the vicinity of.
  • presentation information for children (for example, video information 158-3 with a large weather mark drawn) is displayed in the vicinity of the user U-2 who is a child (in the example shown in FIG. 45, the user U-2 who is a child). May be presented on a wall surface Wa) located in the vicinity of.
  • the presentation control unit 126 may select a user to be prioritized from a plurality of users and control the plurality of presentation information based on the posture information of the selected user.
  • the control of the plurality of presentation information according to the user posture information may be performed as described above. That is, the presentation control unit 126 may control the presentation according to the audio / video presentation mode when the user posture information satisfies the screen viewing condition.
  • the presentation control unit 126 may control the presentation according to the voice subject presentation mode when the user posture information satisfies the screen non-viewing condition.
  • the user to be prioritized may be selected in any way.
  • the presentation control unit 126 may select a speaker as a user to be prioritized from a plurality of users.
  • the presentation control part 126 may select the person who receives presentation of presentation information as a user who should be prioritized from a plurality of users.
  • the presentation control unit 126 may select a person closest to the screen as a user to be prioritized from a plurality of users.
  • the presentation control unit 126 may select an adult as a user to be given priority from a plurality of users. Or presentation control part 126 may choose a child as a user who should give priority from a plurality of users. For example, whether to select an adult or a child may be determined based on the content of the presentation information.
  • the presentation control unit 126 may select a person who is most difficult to see the screen as a user who should be given priority from a plurality of users. That is, the presentation control unit 126 may select the voice subject presentation mode as long as there is a person who satisfies the screen non-viewing condition. On the other hand, the presentation control unit 126 may select the audio / video presentation mode as long as everyone satisfies the screen viewing condition.
  • the presentation control unit 126 may select a person belonging to a family member set as an agent as a user to be given priority from a plurality of users. That is, the presentation control unit 126 does not have to select a person who does not belong to the family member set as the agent (for example, a customer who has visited the home).
  • the presentation control unit 126 may select a person who uses the same language as the language set for the agent (the language used by the agent for the presentation information) as a user to be prioritized from a plurality of users. For example, when the agent uses Japanese for presentation information, the presentation control unit 126 may select a person who uses Japanese as a user to be prioritized from a plurality of users.
  • FIG. 46 is a block diagram illustrating a hardware configuration example of the information processing apparatus 10 according to the embodiment of the present disclosure. Note that the hardware configuration of the server device 30 according to the embodiment of the present disclosure can also be realized in the same manner as the hardware configuration example of the information processing device 10 illustrated in FIG. 46.
  • the information processing apparatus 10 includes a CPU (Central Processing unit) 901, a ROM (Read Only Memory) 903, and a RAM (Random Access Memory) 905.
  • the information processing apparatus 10 may include a host bus 907, a bridge 909, an external bus 911, an interface 913, an input device 915, an output device 917, a storage device 919, a drive 921, a connection port 923, and a communication device 925.
  • the information processing apparatus 10 may include an imaging device 933 and a sensor 935 as necessary.
  • the information processing apparatus 10 may include a processing circuit called a DSP (Digital Signal Processor) or ASIC (Application Specific Integrated Circuit) instead of or in addition to the CPU 901.
  • DSP Digital Signal Processor
  • ASIC Application Specific Integrated Circuit
  • the CPU 901 functions as an arithmetic processing device and a control device, and controls all or a part of the operation in the information processing device 10 according to various programs recorded in the ROM 903, the RAM 905, the storage device 919, or the removable recording medium 927.
  • the ROM 903 stores programs and calculation parameters used by the CPU 901.
  • the RAM 905 temporarily stores programs used in the execution of the CPU 901, parameters that change as appropriate during the execution, and the like.
  • the CPU 901, the ROM 903, and the RAM 905 are connected to each other by a host bus 907 configured by an internal bus such as a CPU bus. Further, the host bus 907 is connected to an external bus 911 such as a PCI (Peripheral Component Interconnect / Interface) bus via a bridge 909.
  • PCI Peripheral Component Interconnect / Interface
  • the input device 915 is a device operated by the user, such as a mouse, a keyboard, a touch panel, a button, a switch, and a lever.
  • the input device 915 may include a microphone that detects the user's voice.
  • the input device 915 may be, for example, a remote control device using infrared rays or other radio waves, or may be an external connection device 929 such as a mobile phone that supports the operation of the information processing device 10.
  • the input device 915 includes an input control circuit that generates an input signal based on information input by the user and outputs the input signal to the CPU 901. The user operates the input device 915 to input various data to the information processing device 10 or instruct a processing operation.
  • An imaging device 933 which will be described later, can also function as an input device by imaging a user's hand movement, a user's finger, and the like. At this time, the pointing position may be determined according to the movement of the hand or the direction of the finger.
  • the output device 917 is a device that can notify the user of the acquired information visually or audibly.
  • the output device 917 includes, for example, a display device such as an LCD (Liquid Crystal Display), a PDP (Plasma Display Panel), an organic EL (Electro-Luminescence) display, a projector, a hologram display device, a sound output device such as a speaker and headphones, As well as a printer device.
  • the output device 917 outputs the result obtained by the processing of the information processing device 10 as a video such as text or an image, or outputs it as a sound such as voice or sound.
  • the output device 917 may include a light or the like to brighten the surroundings.
  • the storage device 919 is a data storage device configured as an example of a storage unit of the information processing device 10.
  • the storage device 919 includes, for example, a magnetic storage device such as an HDD (Hard Disk Drive), a semiconductor storage device, an optical storage device, or a magneto-optical storage device.
  • the storage device 919 stores programs executed by the CPU 901, various data, various data acquired from the outside, and the like.
  • the drive 921 is a reader / writer for a removable recording medium 927 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, and is built in or externally attached to the information processing apparatus 10.
  • the drive 921 reads information recorded on the attached removable recording medium 927 and outputs the information to the RAM 905.
  • the drive 921 writes a record in the attached removable recording medium 927.
  • the connection port 923 is a port for directly connecting a device to the information processing apparatus 10.
  • the connection port 923 can be, for example, a USB (Universal Serial Bus) port, an IEEE 1394 port, a SCSI (Small Computer System Interface) port, or the like.
  • the connection port 923 may be an RS-232C port, an optical audio terminal, an HDMI (registered trademark) (High-Definition Multimedia Interface) port, or the like.
  • Various data can be exchanged between the information processing apparatus 10 and the external connection device 929 by connecting the external connection device 929 to the connection port 923.
  • the communication device 925 is a communication interface configured with, for example, a communication device for connecting to the communication network 931.
  • the communication device 925 can be, for example, a communication card for wired or wireless LAN (Local Area Network), Bluetooth (registered trademark), or WUSB (Wireless USB).
  • the communication device 925 may be a router for optical communication, a router for ADSL (Asymmetric Digital Subscriber Line), or a modem for various communication.
  • the communication device 925 transmits and receives signals and the like using a predetermined protocol such as TCP / IP with the Internet and other communication devices, for example.
  • the communication network 931 connected to the communication device 925 is a wired or wireless network, such as the Internet, a home LAN, infrared communication, radio wave communication, or satellite communication.
  • the imaging device 933 uses various members such as an imaging element such as a CCD (Charge Coupled Device) or CMOS (Complementary Metal Oxide Semiconductor), and a lens for controlling the imaging of a subject image on the imaging element. It is an apparatus that images a real space and generates a captured image.
  • the imaging device 933 may capture a still image or may capture a moving image.
  • the sensor 935 is various sensors such as a distance measuring sensor, an acceleration sensor, a gyro sensor, a geomagnetic sensor, an optical sensor, and a sound sensor.
  • the sensor 935 acquires information about the state of the information processing apparatus 10 itself, such as the attitude of the housing of the information processing apparatus 10, and information about the surrounding environment of the information processing apparatus 10, such as brightness and noise around the information processing apparatus 10.
  • the sensor 935 may include a GPS sensor that receives a GPS (Global Positioning System) signal and measures the latitude, longitude, and altitude of the apparatus.
  • GPS Global Positioning System
  • the detection unit that detects the context related to the user, and which of the first request and the second request should be preferentially processed based on the context.
  • an information processing apparatus including a request processing unit for determining. According to such a configuration, a technique capable of more appropriately determining a request that is preferentially processed is provided.
  • a posture information acquisition unit that acquires user posture information
  • a presentation control unit that controls presentation of presentation information to the user.
  • An information processing apparatus is provided that controls a plurality of the presentation information having different aspects based on posture information. According to such a configuration, a technique capable of controlling a plurality of pieces of presentation information presented to the user as desired by the user is provided.
  • any of the first to third embodiments and the fourth embodiment may be combined. More specifically, in any one of the first to third embodiments, it is determined which request should be preferentially processed, and based on the determination result of which request should be preferentially processed. In the fourth embodiment, a response to the request may be presented to the user as presentation information.
  • the position of each component is not particularly limited as long as the operations of the information processing apparatus 10 and the server apparatus 30 described above are realized.
  • a part of the processing of each unit in the information processing apparatus 10 may be performed by the server apparatus 30.
  • some or all of the blocks of the control unit 110 in the information processing apparatus 10 may exist in the server device 30 or the like.
  • a part of the processing of each unit in the server device 30 may be performed by the information processing device 10.
  • a posture information acquisition unit for acquiring user posture information
  • a presentation control unit for controlling presentation of presentation information to the user, The presentation control unit controls a plurality of the presentation information having different aspects based on the posture information.
  • Information processing device (2)
  • the plurality of presentation information includes video information and audio information.
  • the presentation control unit controls presentation of video information associated with the first condition when the posture information of the user satisfies a first condition, and the posture information of the user satisfies a second condition. If so, controlling the presentation of audio information associated with the second condition;
  • the information processing apparatus according to (2).
  • the user posture information includes the orientation of the user's face or the user's line of sight.
  • the information processing apparatus includes (3).
  • the first condition includes a condition that the orientation of the face or the line of sight has a predetermined positional relationship with the screen, and the second condition is that the orientation of the face or the line of sight has the predetermined position with the screen. Including the condition of not having a relationship,
  • the information processing apparatus according to (4).
  • the posture information of the user includes the pose information of the user.
  • the information processing apparatus according to (3).
  • the first condition includes a condition that the viewable range of the user according to the pose information has a predetermined positional relationship with the screen, and the second condition is that the viewable range includes the screen and the predetermined range. Including the condition of not having the positional relationship of The information processing apparatus according to (6).
  • the posture information of the user includes behavior information of the user.
  • the first condition includes a condition that the behavior information is first behavior information, and the second condition is second behavior information in which the behavior information is different from the first behavior information. Including the condition
  • the association between the first condition and the video information and the association between the second condition and the audio information are made for each user.
  • the information processing apparatus includes: After the presentation of the video information associated with the first condition is controlled, when the first state of the user is detected, the first condition corresponding to the user is associated with the video information A learning processing unit for changing The information processing apparatus according to (10).
  • the first state includes at least one of a predetermined change operation by the user and a state in which the user's face direction or line of sight and the screen do not have a predetermined positional relationship.
  • the information processing apparatus includes: If the second state of the user is detected after the presentation of the voice information associated with the second condition is controlled, the second condition corresponding to the user is associated with the voice information A learning processing unit for changing The information processing apparatus according to (10).
  • the second state includes at least one of a predetermined change operation by the user and a state in which the user's face direction or line of sight and the screen have a predetermined positional relationship.
  • the presentation control unit further controls presentation of audio information associated with the first condition when the user posture information satisfies the first condition.
  • the audio information associated with the first condition has a smaller information amount than the audio information associated with the second condition.
  • the presentation control unit further controls presentation of video information associated with the second condition when the posture information of the user satisfies the second condition.
  • the video information associated with the first condition has a larger amount of information than the video information associated with the second condition.
  • Information processing system 10 (10A to 10D) Agent (information processing apparatus) 20 controller 30 (30A to 30B) server device 110 control unit 113 sound collection unit 114 imaging unit 115 distance detection unit 116 reception unit 120 control unit 120 control unit 121 detection unit 122 request processing unit 123 execution control unit 124 posture determination unit 125 posture Information acquisition unit 126 Presentation control unit 127 Learning processing unit 130 Storage unit 140 Communication unit 150 Display unit 160 Sound output unit 310 Control unit 311 Distance acquisition unit 312 Selection unit 313 Execution command output unit 340 Communication unit 350 Storage unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】ユーザに提示される複数の提示情報をよりユーザが望むように制御することが可能な技術が提供されることが望まれる。 【解決手段】ユーザの姿勢情報を取得する姿勢情報取得部と、前記ユーザへの提示情報の提示を制御する提示制御部と、を備え、前記提示制御部は、前記姿勢情報に基づいて、異なる態様を有する複数の前記提示情報を制御する、情報処理装置が提供される。

Description

情報処理装置、情報処理方法およびプログラム
 本開示は、情報処理装置、情報処理方法およびプログラムに関する。
 近年、ユーザとの間で対話を行うロボット装置に関する技術が知られている。例えば、ユーザの発話内容から判別されるユーザの感情とあらかじめ登録されたユーザとの親密度とに応じた提示情報をユーザに提示する技術が開示されている(例えば、特許文献1参照)。また、異なる態様を有する複数の提示情報をユーザに提示する技術も知られている。
特開2004-090109号公報
 しかし、ユーザに提示される複数の提示情報をよりユーザが望むように制御することが可能な技術が提供されることが望まれる。
 本開示によれば、ユーザの姿勢情報を取得する姿勢情報取得部と、前記ユーザへの提示情報の提示を制御する提示制御部と、を備え、前記提示制御部は、前記姿勢情報に基づいて、異なる態様を有する複数の前記提示情報を制御する、情報処理装置が提供される。
 本開示によれば、ユーザの姿勢情報を取得することと、前記ユーザへの提示情報の提示を制御することと、を備え、プロセッサにより、前記姿勢情報に基づいて、異なる態様を有する複数の前記提示情報を制御することを含む、情報処理方法が提供される。
 本開示によれば、コンピュータを、ユーザの姿勢情報を取得する姿勢情報取得部と、前記ユーザへの提示情報の提示を制御する提示制御部と、を備え、前記提示制御部は、前記姿勢情報に基づいて、異なる態様を有する複数の前記提示情報を制御する、情報処理装置として機能させるためのプログラムが提供される。
 以上説明したように本開示によれば、ユーザに提示される複数の提示情報をよりユーザが望むように制御することが可能な技術が提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
第1の実施形態に係る情報処理システムの構成例を示す図である。 エージェントの機能構成例を示す図である。 制御部の詳細構成例を示す図である。 第1の実施形態に係るサーバ装置の機能構成例を示すブロック図である。 コンテキスト一覧情報の例を示す図である。 コンテキストと属性情報と優先度とが関連付けられてなる関連情報の構成例を示す図である。 リクエストキューテーブルの例を示す図である。 割り込みが発生した場合にユーザに提示される画面例を示す図である。 割り込みが発生した場合にユーザに提示される音声メッセージ例を示す図である。 複数のコンテキストが検出された場合、かつ、属性種別が単一である場合におけるリクエストの優先度算出の例を説明するための図である。 複数のコンテキストが検出された場合、かつ、属性種別が複数である場合におけるリクエストの優先度算出の例を説明するための図である。 他のユーザの関連情報を流用する例を説明するための図である。 ユーザによるフィードバックに基づく確信度がさらに関連付けられた関連情報の例を示す図である。 リクエストキューから順にリクエストを取り出し処理する動作の例を示すフローチャートである。 処理中のリクエストが存在する場合に新たなリクエストが入力された場合における動作の例を示すフローチャートである。 第2の実施形態に係る情報処理システムの構成例を示す図である。 制御部の詳細構成例を示す図である。 第2の実施形態に係るサーバ装置の機能構成例を示す図である。 タスクステータステーブルの例を示す図である。 エージェントにおいてリクエストを実行対象とするか否かを判断する動作例を示すフローチャートである。 サーバ装置においてリクエストを実行対象とするか否かを判断する動作例を示すフローチャートである。 サーバ装置においてリクエストを実行させるエージェントを選択する動作の他の例を示すフローチャートである。 第3の実施形態に係る情報処理システムの構成例を示す図である。 制御部の詳細構成例を示す図である。 エージェント(子機)においてリクエストを実行対象とするか否かを判断する動作例を示すフローチャートである。 エージェント(親機)においてリクエストを実行させるエージェントを選択する動作例を示すフローチャートである。 エージェント(親機)においてリクエストを実行させるエージェントを選択する動作の他の例を示すフローチャートである。 第4の実施形態に係る情報処理システムの構成例を示す図である。 制御部の詳細構成例を示す図である。 各条件と提示モードとの対応関係の例を示す図である。 ユーザごとの各条件と提示モードとの対応関係の例を示す図である。 ユーザごとの各条件と提示モードとの対応関係の例を示す図である。 音声主体提示モードによる提示例を示す図である。 音声映像提示モードによる提示例を示す図である。 音声映像提示モードによる提示例を示す図である。 音声主体提示モードによる他の提示例を示す図である。 音声映像提示モードによる他の提示例を示す図である。 音声映像提示モードによる他の提示例を示す図である。 ユーザによって入力されたリクエストに対する応答として提示情報をユーザに提示する動作の例を示すフローチャートである。 表示部および画面の第1の変形例を示す図である。 表示部および画面の第2の変形例を示す図である。 表示部および画面の第3の変形例を示す図である。 表示部および画面の第4の変形例を示す図である。 表示部および画面の第5の変形例を示す図である。 複数のユーザの状況を考慮した提示情報の提示例を示す図である。 情報処理装置のハードウェア構成例を示すブロック図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 また、本明細書および図面において、実質的に同一または類似の機能構成を有する複数の構成要素を、同一の符号の後に異なる数字を付して区別する場合がある。ただし、実質的に同一または類似の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。また、異なる実施形態の類似する構成要素については、同一の符号の後に異なるアルファベットを付して区別する場合がある。ただし、類似する構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。
 なお、説明は以下の順序で行うものとする。
 0.概要(優先的に処理すべきリクエスト)
 1.第1の実施形態
  1.1.システム構成例
  1.2.エージェントの機能構成例
  1.3.サーバ装置の機能構成例
  1.4.情報処理システムの機能詳細
  1.5.動作例
 2.第2の実施形態
  2.1.システム構成例
  2.2.エージェントの機能構成例
  2.3.サーバ装置の機能構成例
  2.4.情報処理システムの機能詳細
  2.5.動作例
 3.第3の実施形態
  3.1.システム構成例
  3.2.親機の機能構成例
  3.3.動作例
 4.概要(ユーザへの提示情報の制御)
 5.第4の実施形態
  5.1.システム構成例
  5.2.エージェントの機能構成例
  5.3.情報処理システムの機能詳細
  5.4.動作例
  5.5.エージェントからの主体的な提示
  5.6.表示部および画面の変形例
  5.7.複数のユーザに応じた提示例
 6.ハードウェア構成例
 7.むすび
 <0.概要(優先的に処理すべきリクエスト)>
 まず、優先的に処理すべきリクエストを判断する技術の概要を説明する。近年、ユーザからのリクエストを処理する技術として様々な技術が知られている。例えば、現在処理されているリクエストの他に、新たなリクエストが入力された場合に、割り込み許可がなされているか否かによって、新たなリクエストに対して割り込みを許可するか否かを判断する技術が開示されている。
 その他、リクエストに関連付けられた優先度に基づいて、優先的に処理されるリクエストを判断する技術も知られている。かかる優先度は、事前にユーザによって初期設定などにおいて手動で登録される。しかし、事前に登録された優先度が変化しない場合には、優先的に処理されるリクエストをより適切に判断することが困難である。
 具体的な例を挙げて説明すると、朝の出社前の時間帯に、子供とお母さんとがエージェントを利用していたとする。このとき、お父さんが交通情報をエージェントに問い合わせたとする。かかる状況においては、お父さんから入力されたリクエストの優先度を高くすべきであるが、お父さんの優先度が高く設定されていない場合には、お父さんからのリクエストが無視されたり後回しにされたりしてしまうといった事態が発生し得る。
 そこで、本明細書においては、優先的に処理されるリクエストをより適切に判断することが可能な技術について主に説明する。
 以上において、優先的に処理すべきリクエストを判断する技術の概要について説明した。
 <1.第1の実施形態>
 まず、第1の実施形態について説明する。
 [1.1.システム構成例]
 まず、図面を参照しながら第1の実施形態に係る情報処理システムの構成例について説明する。図1は、第1の実施形態に係る情報処理システムの構成例を示す図である。図1に示したように、第1の実施形態に係る情報処理システム1Aは、情報処理装置10Aと、コントローラ20-1~20-N(Nは自然数)と、サーバ装置30Aとを備える。情報処理装置10Aとサーバ装置30Aとは、通信ネットワーク931を介して通信を行うことが可能である。
 また、本明細書においては、情報処理装置10Aが、ユーザU-1~U-Nに代わってリクエスト(例えば、以下に登場する第1のリクエストおよび第2のリクエスト)の処理の実行を制御するエージェントである場合を主に説明する。そこで、以下の説明においては、情報処理装置10Aを主に「エージェント」と称する。情報処理装置10Aは、ユーザU-1~U-Nから入力されるリクエストを処理し得る。しかし、情報処理装置10Aは、エージェントに限定されない。
 本明細書においては、ユーザU-1~U-Nそれぞれが1台ずつコントローラ20を利用可能である場合を主に説明する。しかし、ユーザU-1~U-Nの一部または全部は、複数台のコントローラ20を利用可能であってもよいし、コントローラ20を1台も利用できなくてもよい。コントローラ20は、ユーザUからの入力される操作を受け付けると、操作に対応するリクエストを、エージェント10Aに対して送信する。コントローラ20は、リモートコントローラであってもよいし、スマートフォンであってもよい。
 また、ユーザU-1~U-Nそれぞれは、発話によってエージェント10にリクエストを入力することも可能である。なお、以下の説明において、音声(voiceまたはspeech)と音(sound)とは区別して用いられる。例えば、音声(voiceまたはspeech)は、エージェント10によって集音された音のうち、主にユーザの発話を示してよく、音(sound)は、ユーザの発話の他、物音などを含んでよい。
 また、サーバ装置30Aは、サーバ装置などのコンピュータであることが想定される。サーバ装置30Aは、エージェント10Aを管理する。なお、第1の実施形態においては、エージェント10Aが1台である場合を主に想定する。しかし、第2の実施形態以降と同様に、第1の実施形態においても、エージェント10Aは、複数存在してよい。かかる場合には、サーバ装置30Aは、複数台のエージェント10Aを管理し得る。
 以上、第1の実施形態に係る情報処理システム1Aの構成例について説明した。
 [1.2.エージェントの機能構成例]
 続いて、エージェント10Aの機能構成例について説明する。図2は、エージェント10Aの機能構成例を示す図である。図2に示したように、エージェント10Aは、集音部113、撮像部114、距離検出部115、受信部116、制御部120A、記憶部130、通信部140、表示部150および音出力部160を有している。エージェント10Aとコントローラ20とは、ネットワーク(例えば、無線LAN(Local Area Network)など)を介して通信を行うことが可能である。また、エージェント10Aは、通信ネットワーク931を介してサーバ装置30Aと接続されている。通信ネットワーク931は、例えば、インターネットを含む。
 集音部113は、集音によって音を得る機能を有する。例えば、集音部113は、マイクロフォンを含んでおり、マイクロフォンによって集音する。集音部113に含まれるマイクロフォンの数は1以上であれば特に限定されない。そして、集音部113に含まれる1以上のマイクロフォンそれぞれが設けられる位置も特に限定されない。なお、集音部113は、音情報を集音する機能を有すれば、マイクロフォン以外の形態の集音装置を含んでもよい。
 撮像部114は、撮像により画像を入力する機能を有する。例えば、撮像部114は、カメラ(イメージセンサを含む)を含んでおり、カメラによって撮像された画像を入力する。カメラの種類は限定されない。例えば、カメラは広角カメラであってもよいし、デプスカメラであってもよいし、ユーザUの視線を検出可能な画像を得るカメラであってもよい。撮像部114に含まれるカメラの数は1以上であれば特に限定されない。そして、撮像部114に含まれる1以上のカメラそれぞれが設けられる位置も特に限定されない。また、1以上のカメラには、単眼カメラが含まれてもよいし、ステレオカメラが含まれてもよい。
 距離検出部115は、ユーザUまでの距離を検出する機能を有する。例えば、距離検出部115は測距センサを含んでおり、測距センサによって検出されたユーザUまでの距離を取得する。測距センサが設けられる位置は特に限定されない。また、測距センサの種類は特に限定されない。例えば、測距センサは、赤外線距離センサであってもよいし、超音波距離センサであってもよい。あるいは、距離検出部115は、集音部113によって集音されたユーザUの音声の大きさに基づいて、距離を検出してもよいし、撮像部114によって撮像される画像に写るユーザUの大きさに基づいて、距離を検出してもよい。
 受信部116は、通信回路を含んで構成され、コントローラ20から送信されたリクエストを受信する。なお、受信部116は、コントローラ20から送信される無線信号の種類に対応している。すなわち、コントローラ20から送信される無線信号の種類が電波である場合には、電波を受信し得る。あるいは、コントローラ20から送信される無線信号の種類が赤外線である場合には、赤外線を受信し得る。
 通信部140は、通信回路を含んで構成され、通信ネットワーク931を介して通信ネットワーク931に接続されたサーバ装置30Aからのデータの取得および当該サーバ装置30Aへのデータの提供を行う機能を有する。例えば、通信部140は、通信インターフェースにより構成される。なお、通信ネットワーク931に接続されるサーバ装置30Aは、1つであってもよいし、複数であってもよい。
 記憶部130は、メモリを含んで構成され、制御部120Aによって実行されるプログラムを記憶したり、プログラムの実行に必要なデータを記憶したりする記録媒体である。また、記憶部130は、制御部120Aによる演算のためにデータを一時的に記憶する。記憶部130は、磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または、光磁気記憶デバイスなどにより構成される。
 表示部150は、各種の画面を表示する機能を有する。本明細書においては、表示部150がプロジェクタ(例えば、単焦点プロジェクタ)である場合を主に想定するが、表示部150の種類は限定されない。例えば、表示部150は、ユーザに視認可能な表示を行うことが可能なディスプレイであればよく、液晶ディスプレイであってもよいし、有機EL(Electro-Luminescence)ディスプレイであってもよい。また、本明細書においては、表示部150が比較的高い位置(例えば、壁面など)に表示を行ったり、比較的低い位置(例えば、エージェントのお腹、ユーザの手元など)に表示を行ったりする場合を主に想定するが、表示部150が表示を行う位置も限定されない。
 制御部120Aは、エージェント10Aの各部の制御を実行する。図3は、制御部120Aの詳細構成例を示す図である。図3に示したように、制御部120Aは、検出部121、リクエスト処理部122Aおよび実行制御部123を備える。これらの各機能ブロックについての詳細は、後に説明する。なお、制御部120Aは、例えば、1または複数のCPU(Central Processing Unit;中央演算処理装置)などで構成されていてよい。制御部120AがCPUなどといった処理装置によって構成される場合、かかる処理装置は、電子回路によって構成されてよい。
 図2に戻って説明を続ける。音出力部160は、音を出力する機能を有する。例えば、音出力部160は、スピーカを含んでおり、スピーカによって音を出力する。音出力部160に含まれるスピーカの数は1以上であれば特に限定されない。そして、音出力部160に含まれる1以上のスピーカそれぞれが設けられる位置も特に限定されない。なお、音出力部160は、音を出力する機能を有すれば、スピーカ以外の形態(例えば、イヤホン、ヘッドセットなど)の音出力装置を含んでもよい。
 以上、第1の実施形態に係るエージェント10Aの機能構成例について説明した。
 [1.3.サーバ装置の機能構成例]
 続いて、第1の実施形態に係るサーバ装置30Aの機能構成例について説明する。図4は、第1の実施形態に係るサーバ装置30Aの機能構成例を示すブロック図である。図4に示したように、サーバ装置30Aは、制御部310A、通信部340および記憶部350を備える。以下、サーバ装置30Aが備えるこれらの機能ブロックについて説明する。
 制御部310Aは、サーバ装置30Aの各部の制御を実行する。なお、制御部310Aは、例えば、1または複数のCPU(Central Processing Unit;中央演算処理装置)などといった処理装置によって構成されてよい。制御部310AがCPUなどといった処理装置によって構成される場合、かかる処理装置は電子回路によって構成されてよい。
 通信部340は、通信回路を含んで構成され、ネットワーク931(図1)を介して他の装置との間で通信を行う機能を有する。例えば、通信部340は、通信インターフェースにより構成される。例えば、通信部340は、ネットワーク931(図1)を介して、エージェント10Aとの間で通信を行うことが可能である。
 記憶部350は、メモリを含んで構成され、制御部310Aによって実行されるプログラムを記憶したり、プログラムの実行に必要なデータを記憶したりする記録デバイスである。また、記憶部350は、制御部310Aによる演算のためにデータを一時的に記憶する。なお、記憶部350は、磁気記憶部デバイスであってもよいし、半導体記憶デバイスであってもよいし、光記憶デバイスであってもよいし、光磁気記憶デバイスであってもよい。
 以上、第1の実施形態に係るサーバ装置30Aの機能構成例について説明した。
 [1.4.情報処理システムの機能詳細]
 続いて、第1の実施形態に係る情報処理システム1Aの機能詳細について説明する。第1の実施形態においては、検出部121が、ユーザに関するコンテキストを検出する。そして、リクエスト処理部122Aが、検出部121によって検出されたコンテキストに基づいて、第1のリクエストおよび第2のリクエストのいずれを優先的に処理すべきかを判断する。かかる構成によれば、優先的に処理されるリクエストをより適切に判断することが可能となる。
 ユーザに関するコンテキストは、特に限定されない。例えば、ユーザに関するコンテキストは、ユーザに関する時間情報、ユーザに関する天気情報、ユーザに関する環境情報およびユーザに関する発話内容の少なくともいずれか一つを含んでよい。図5は、コンテキスト一覧情報の例を示す図である。図5を参照すると、コンテキスト一覧情報151が示されており、ユーザに関するコンテキストの例が示されている。
 ここで、ユーザに関する時間情報は、ユーザが存在する現在時刻が属する時間情報であってよい。時間情報は、時間帯を示す情報(例えば、午前6時から午前11時、朝、昼など)であってもよいし、曜日を示す情報(例えば、平日、休日、月曜日、日曜日など)であってもよい。現在時刻は、エージェント10Aの内部またはエージェント10Aの外部の装置(例えば、サーバ装置30Aなど)に存在する時計から取得されてよい。また、ユーザに関する時間情報は、エージェント10Aの内部またはエージェント10Aの外部の装置(例えば、サーバ装置30Aなど)から適宜に取得されてよい。
 ユーザに関する天気情報は、ユーザが存在する場所の天気情報であってよい。天気情報は、天気を示す情報(例えば、晴れ、曇り、雨など)であってよい。ユーザが存在する場所は、何らかの測位機能によって取得されてもよいし、事前にユーザによって設定されてもよい。また、ユーザに関する天気情報は、エージェント10Aの内部またはエージェント10Aの外部の装置(例えば、サーバ装置30Aなど)から適宜に取得されてよい。
 ユーザに関する環境情報は、ユーザが存在する場所の周辺の環境を示す情報であってよい。環境情報は、明るさを示す情報(例えば、周囲の明るさ10lx以下など)であってもよいし、音量を示す情報(例えば、周辺環境音60db以上など)であってもよい。明るさを示す情報は、エージェント10Aが光センサを有していれば、光センサによって検出され得る。また、音量を示す情報は、エージェント10Aが音センサを有していれば、音センサによって検出されてよい。
 ユーザに関する発話内容は、集音部113によって検出された音情報に対する音声認識によって取得されてよい。音声認識は、エージェント10Aによってなされてもよいし、エージェント10Aの外部の装置(例えば、サーバ装置30Aなど)によってなされてもよい。また、ユーザに関する発話内容は、音声認識によって取得されたテキストデータそのものであってもよいし、音声認識によって取得されたテキストデータから認識されたキーワードであってもよい。
 より具体的には、リクエスト処理部122Aは、第1のリクエストの優先度と第2のリクエストの優先度との比較に基づいて、第1のリクエストおよび第2のリクエストのいずれを優先的に処理すべきかを判断してよい。例えば、リクエスト処理部122Aは、第1のリクエストの優先度および第2のリクエストの優先度のうち、より優先度が高いリクエストを優先的に処理すべきであると判断してよい。
 第1のリクエストの優先度および第2のリクエストそれぞれの優先度は、どのように決められてもよい。図6は、コンテキストと属性情報と優先度とが関連付けられてなる関連情報の構成例を示す図である。図6に示すように、関連情報152は、コンテキストと属性情報(図6に示した例では、属性種別「Attribute」と属性値「Value」との組み合わせ)と優先度(図6に示した例では、「Priority Score」)とが関連付けられてなる。
 このような関連情報152は、エージェント10Aの内部またはエージェント10Aの外部の装置(例えば、サーバ装置30Aなど)からリクエスト処理部122Aによって適宜に取得されてよい。例えば、リクエスト処理部122Aは、検出部121によって検出されたコンテキストと第1のリクエストの属性情報とに基づいて第1のリクエストの優先度を取得するとともに、コンテキストと第2のリクエストの属性情報とに基づいて第2のリクエストの優先度を取得してよい。
 ここで、第1のリクエストおよび第2のリクエストそれぞれの属性情報は、属性種別と属性種別に対応する属性値とを有していてよい。このとき、例えば、リクエスト処理部122Aは、第1のリクエストおよび第2のリクエストそれぞれの属性情報(属性種別と属性値との組み合わせ)を取得し、検出部121によって検出されたコンテキストと第1のリクエストおよび第2のリクエストそれぞれの属性情報(属性種別と属性値との組み合わせ)とに対応する優先度を、関連情報152から取得すればよい。
 属性種別は、ユーザを示す情報(図6に示した例では、「Person」)または機器を示す情報(図6に示した「モーダル」)を含んでよい。また、図6に示した例では、属性種別「Person」に対応する属性値として「ユーザA(お父さん)」「ユーザB(発話者)」が示されている。また、属性種別「モーダル」に対応する属性値として「コントローラ」「音声」が示されている。
 例として、コンテキストが「平日の朝」である場合には、出社前のお父さんのリクエストを優先すべきであると考えられる。そこで、関連情報152においては、コンテキスト「平日の朝」に対して、属性種別「Person」および属性値「ユーザA(お父さん)」が関連付けられているとよい。
 他の例として、コンテキストが「周囲の明るさ10lx以下」である場合には、コントローラを誤操作しやすくなるといった事情により、モーダル「音声」によるリクエストを優先すべきであると考えられる。そこで、関連情報152においては、コンテキスト「周囲の明るさ10lx以下」に対して、属性種別「モーダル」および属性値「音声」が関連付けられているとよい。
 逆に、コンテキストが「周辺環境音60db以上」である場合には、音声を誤認識しやすくなるといった事情により、モーダル「コントローラ」によるリクエストを優先すべきであると考えられる。そこで、関連情報152においては、コンテキスト「周辺環境音60db以上」に対して、属性種別「モーダル」および属性値「コントローラ」が関連付けられているとよい。
 他の例として、コンテキストが「音声認識によって得られたテキストデータにキーワード「助けて」が含まれる」である場合には、キーワードの発話者「ユーザB(発話者)」によるリクエストを優先すべきであると考えられる。そこで、関連情報152においては、コンテキスト「音声認識によって得られたテキストデータにキーワード「助けて」が含まれる」に対して、属性種別「Person」および属性値「ユーザB(発話者)」が関連付けられているとよい。
 他の例として、コンテキストが「天気が雨」である場合には、周囲が暗くなりやすいといった事情により、モーダル「音声」によるリクエストを優先すべきであると考えられる。そこで、関連情報152においては、コンテキスト「天気が雨」に対して、属性種別「モーダル」および属性値「音声」が関連付けられているとよい。
 その他、コンテキストが「あるユーザの視線がエージェントに向いている」「あるユーザが目を(絶対的に、あるいは、そのユーザの基準の目の大きさに対して)大きく見開いている」「あるユーザの発する発話音量が大きくなっている」「あるユーザの発する音声が高音になっている」「あるユーザの表情が深刻である」である場合には、これらのユーザによるリクエストを優先すべきであると考えられる。そこで、関連情報152においては、これらのコンテキストに対して、属性種別「Person」およびこれらのユーザが関連付けられているとよい。
 なお、リクエストの属性種別が「Person」を含む場合、リクエストの属性種別「Person」に対応する属性値「ユーザA」などは、どのように認識されてもよい。例えば、リクエスト処理部122Aは、属性種別が「Person」を含む場合、音声認識結果に基づいて認識された属性値を取得してもよい。あるいは、リクエスト処理部122Aは、顔認識結果に基づいて認識された属性値を取得してもよい。このとき、認識に利用される音声および顔画像は、あらかじめ登録されていてよい。また、登録されていないユーザの音声または顔が認識された場合は、そのユーザが新規に登録されてもよい。
 以下では、第1のリクエストの例として処理中のリクエストを挙げ、第2のリクエストの例として新たに入力されたリクエストを挙げて説明する。しかし、第1のリクエストは、処理中のリクエストに限定されない。また、第2のリクエストは、新たに入力されたリクエストに限定されない。例えば、第1のリクエストおよび第2のリクエストの少なくともいずれか一方は、まだ処理されていないリクエストであってもよい(リクエストキューに存在するリクエストであってもよい)。
 エージェント10Aに新たに入力されたリクエストは、処理中のリクエストに対して割り込みが発生しない限り、リクエストキューに追加される。また、リクエスト処理部122Aによってリクエストキューから最も優先度が高いリクエストが順に取り出されて処理され得る。リクエストキューに存在するリクエストは、リクエストキューテーブルとして、エージェント10Aの内部において管理されている。
 図7は、リクエストキューテーブルの例を示す図である。図7に示すように、リクエストキューテーブル153は、リクエストの処理順序、リクエストに対応するタスク、リクエストをしたユーザ、モーダルおよびステータスが関連付けられてなる。図7に示すように、ステータス「処理中」のリクエストは、最も優先度が高いリクエストであり、メッセージキューから取り出されて現在処理中のリクエストである。また、ステータス「処理待ち」のリクエストは、メッセージキューに存在するリクエストである。
 ここで、リクエスト処理部122Aは、処理中のリクエストおよび新たに入力されたリクエストそれぞれの優先度を比較して、処理中のリクエストを優先的に処理すべきであると判断した場合、処理中のリクエストの処理を継続する。
 一方、実行制御部123は、処理中のリクエストおよび新たに入力されたリクエストそれぞれの優先度を比較して、新たに入力されたリクエストを優先的に処理すべきであると判断した場合、新たに入力されたリクエストを処理中のリクエストに対して割り込ませてもよい。実行制御部123は、このように割り込みが発生した場合、所定の出力情報の出力を制御してよい。出力情報は、処理中のリクエストをしたユーザに対して提示されてもよいし、新たに入力されたリクエストをしたユーザに対して提示されてもよい。
 ここで、出力情報の種類は限定されない。例えば、出力情報は、視覚的に提示されてよい。視覚的な提示は、エージェント10Aに所定のジェスチャ(例えば、割り込みをされるリクエストをしたユーザに向かって手の平を向けるようなジェスチャなど)によって提示されてもよいし、ランプの発光(例えば、赤いランプの発光など)といったようにハードウェア的に提示されてもよい。あるいは、出力情報は、エージェント10Aにおいて管理されているリクエストキューテーブル153そのものの提示であってもよい。
 図8は、割り込みが発生した場合にユーザに提示される画面例を示す図である。図8に示すように、実行制御部123は、リクエストキューテーブル153が表示部150によって提示されるように表示部150を制御してもよい。このとき、実行制御部123は、割り込みをしたリクエストと割り込みをされたリクエストとを識別しやすくするため、リクエストキューテーブル153のうち、割り込みをしたリクエストおよび割り込みをされたリクエストそれぞれの行に対して所定のアニメーション(例えば、点滅など)を付加してもよい。
 あるいは、出力情報は、音声によって提示されてもよい。図9は、割り込みが発生した場合にユーザに提示される音声メッセージ例を示す図である。図9に示すように、実行制御部123は、所定の音声メッセージ161(図9に示した例では、「現在処理中のリクエストよりも優先度の高いリクエストが受け付けられたため、現在処理中のリクエストの処理を中断します」という音声メッセージ)の出力を制御してもよい。ただし、音声メッセージ161は、特に限定されない。
 上記においては、検出部121によって一つのコンテキストが検出される場合を主に説明した。しかし、検出部121によって複数のコンテキストが検出される場合もあり得る。例えば、検出部121によって第1のコンテキストおよび第2のコンテキストが検出された場合、かつ、第1のコンテキストおよび第2のコンテキストに対応する属性種別が同一である場合が想定される。かかる場合、リクエスト処理部122Aは、第1のコンテキストおよび第2のコンテキストそれぞれに対応する同一の属性情報に関連する優先度同士の演算に基づいて、第1のリクエストおよび第2のリクエストそれぞれの優先度を取得してよい。
 図10は、複数のコンテキストが検出された場合、かつ、属性種別が単一である場合におけるリクエストの優先度算出の例を説明するための図である。図10に示した例では、コンテキスト「朝」およびコンテキスト「平日」が検出された場合が想定されている。
 対応テーブル154-1は、コンテキスト「朝」に対応する各種情報(属性種別、属性値および優先度)と、コンテキスト「平日」に対応する各種情報とを含む。このとき、対応テーブル155-1に示すように、同一の属性情報(例えば、属性種別「Person」および属性値「ユーザA」)に関連する優先度「0.9」「0.8」の乗算によって、この属性情報を有するリクエストの優先度を「0.72」と算出してよい。なお、優先度同士の演算は、優先度同士の乗算に限定されず、優先度同士の加算であってもよいし、優先度同士の平均値であってもよい。
 また、検出部121によって第1のコンテキストおよび第2のコンテキストが検出された場合、かつ、第1のコンテキストおよび第2のコンテキストに対応する属性種別が異なる場合も想定される。かかる場合、リクエスト処理部122Aは、第1のコンテキストおよび第2のコンテキストそれぞれに対応する異なる属性情報に関連する優先度同士の演算に基づいて、第1のリクエストおよび第2のリクエストそれぞれの優先度を取得してよい。
 図11は、複数のコンテキストが検出された場合、かつ、属性種別が複数である場合におけるリクエストの優先度算出の例を説明するための図である。図11に示した例では、コンテキスト「朝」およびコンテキスト「周辺の明るさ10lx以下」が検出された場合が想定されている。
 対応テーブル154-2は、コンテキスト「朝」に対応する各種情報(属性種別、属性値および優先度)と、コンテキスト「周辺の明るさ10lx以下」に対応する各種情報とを含む。このとき、対応テーブル155-2に示すように、異なる属性情報(例えば、属性種別「Person」および属性値「ユーザA」と、属性種別「モーダル」および属性値「音声UI」)に関連する優先度「0.9」「0.9」の乗算によって、これらの属性情報を有するリクエストの優先度を「0.81」と算出してよい。なお、優先度同士の演算は、優先度同士の乗算に限定されず、優先度同士の加算であってもよいし、優先度同士の平均値であってもよい。
 上記においては、コンテキストの例を説明した。コンテキストは、あるパラメータと閾値との関係を含む場合もある。例えば、コンテキスト「周辺環境音60db以上」は、パラメータ「周辺環境音」と閾値「60db」との関係を含んでいる。このような閾値は、あらかじめユーザによって設定されてもよいし、動的に変更されてもよい。例えば、周辺環境音などは、エージェント10Aが存在する場所によって最適な閾値は変化し得ると考えられるため、閾値は動的に変更されるのがよい。
 具体的には、エージェント10Aが置かれた環境において、集音部113は、所定の期間周辺環境音を検出し続けてもよい。そして、リクエスト処理部122Aは、その所定の期間に検出された周辺環境音の平均値を基準として、その基準からx%乖離した値を閾値(異常値)としてもよい。
 上記においては、属性情報と優先度とが関連付けられてなる関連情報152の例を示した(図6)。かかる関連情報152は、どのように設定されてもよい。例えば、関連情報152は、エージェント10Aの製品(サービス)提供者によって、製品(サービス)の提供前に設定されてもよい。あるいは、関連情報152は、ユーザによって設定されてもよい。しかし、関連情報152が、エージェント10Aの置かれる環境、エージェント10Aのユーザにより適するように関連情報152を設定することも想定される。
 具体的には、サーバ装置30Aにおいて、他のユーザの関連情報も管理されている場合も想定される。そこで、リクエスト処理部122Aは、関連情報152として、エージェント10Aのユーザと所定の類似関係を有する他のユーザの関連情報を取得してもよい。所定の類似関係は、特に限定されない。
 例えば、所定の類似関係は、エージェント10Aのユーザに関する情報と他のユーザに関する情報との類似度が閾値を超えるという関係であってもよいし、エージェント10Aのユーザに関する情報に対して、他のユーザに関する情報とが最も類似するという関係であってもよい。エージェント10Aのユーザに関する情報と他のユーザに関する情報との類似度は、特に限定されないが、コサイン類似度などであってよい。
 図12は、他のユーザの関連情報を流用する例を説明するための図である。図12に示すように、サーバ装置30Aにおいて、記憶部350によって複数のユーザに関連する情報156が記憶されている。図12に示した例において、他のユーザが「家族A」であるとする。また、エージェント10Aのユーザが「家族B」であるとする。このとき、制御部310Aは、複数のユーザに関する情報156を参照して、他のユーザ「家族A」に関する情報とエージェント10Aのユーザ「家族B」に関する情報とが、所定の類似関係を有していると判断する。
 そこで、図12に示すように、通信部340は、エージェント10Aのユーザ「家族B」の関連情報として、他のユーザ「家族A」の関連情報152-1をエージェント10Aに送信すればよい。このとき、エージェント10Aにおいては、通信部140が、他のユーザ「家族A」の関連情報152-1を受信し、リクエスト処理部122Aが、他のユーザ「家族A」の関連情報152-1に基づいて、リクエストの優先度を判断すればよい。
 また、エージェント10Aの関連情報(例えば、他のユーザ「家族A」の関連情報152-1)には、ユーザからのフィードバックに基づく確信度が関連付けられ、この確信度に基づいて、採用されるか否かが判断されてもよい。より具体的には、リクエスト処理部122Aは、ユーザによるフィードバックに基づく確信度をエージェント10Aの関連情報に関連付ける。そして、リクエスト処理部122Aは、第1のリクエストおよび第2のリクエストそれぞれの属性情報の少なくともいずれか一方に関連する確信度が所定の閾値を下回る場合、第1のリクエストおよび第2のリクエストのいずれを優先的に処理すべきかを判断しなくてよい。
 ここで、所定の閾値は、擬似乱数であってもよい。例えば、確信度は、0≦確信度≦1の範囲を取り得る。また、確信度の初期値は、0~1の範囲の任意の値(例えば、0.5など)として設定されてよい。
 そして、リクエスト処理部122Aは、検出部121によって、ユーザからのポシティブフィードバックが検出された場合には、rewardに「+1」を設定してよい。また、リクエスト処理部122Aは、検出部121によって、ユーザからのネガティブフィードバックが検出された場合には、rewardに「0」を設定してよい。また、リクエスト処理部122Aは、検出部121によって、複数のユーザからの異なるフィードバックが検出された場合、一人でもネガティブフィードバックをしたユーザがいれば、ネガティブフィードバックがなされたとして取り扱ってよい。
 確信度は、リクエスト処理部122Aによって、総reward値/総試行回数によって算出されてよい。図13は、ユーザによるフィードバックに基づく確信度がさらに関連付けられた関連情報152-2の例を示す図である。
 例えば、ポジティブフィードバックは、ポジティブを示すUI操作(例えば、ポジティブを示すボタンの押下など)であってもよいし、(割り込みをしたユーザから発せられた)感謝を示す所定の音声(例えば、「ありがとう」などといったメッセージ)であってもよいし、それに準ずるImplicitな行動(例えば、笑顔などの所定の表情を浮かべる行動など)であってもよい。
 例えば、ネガティブフィードバックは、ネガティブを示すUI操作(例えば、ネガティブを示すボタンの押下など)であってもよいし、(割りこまれたユーザから発せられた)嫌悪感を示す所定の音声(例えば、「割り込まないで」などといったメッセージ)であってもよいし、それに準ずるImplicitな行動(例えば、不機嫌な表情を浮かべる行動など)であってもよい。
 さらに、新たなユーザ(例えば、まだ登録されていないユーザなど)がリクエストをする場合もあり得る。例えば、普段は、お父さん、お母さん、子供だけでしか、家庭内でエージェント10Aを使っていないが、遠くに住むおばあちゃんが家に来た場合などが想定される。かかる場合、リクエスト処理部122Aは、新たなユーザの優先度として、新たなユーザと所定の類似関係を有する他のユーザの優先度を取得してもよい。所定の類似関係は、既に述べたように、特に限定されない。
 以上、第1の実施形態に係る情報処理システム1Aの機能詳細について説明した。
 [1.5.動作例]
 続いて、第1の実施形態に係る情報処理システム1Aの動作例について説明する。図14は、リクエストキューから順にリクエストを取り出し処理する動作の例を示すフローチャートである。図14に示すように、リクエスト処理部122Aは、リクエストキューサイズが「0」である場合には(S11において「No」)、動作を終了する。
 一方、リクエスト処理部122Aは、リクエストキューサイズが「0」を超える場合には(S11において「Yes」)、リクエストキューから優先度が最大のリクエストを取り出し、取り出したリクエストを処理する(S12)。リクエスト処理部122Aは、リクエストを処理すると、リクエストキューからリクエストを削除して(S13)、S11に戻る。
 図15は、処理中のリクエストが存在する場合に新たなリクエストが入力された場合における動作の例を示すフローチャートである。図15に示すように、リクエスト処理部122Aは、新たなリクエストが入力された場合、他のリクエストが処理中であるか否かを判断する(S21)。リクエスト処理部122Aは、他のリクエストが処理中でない場合(S21において「No」)、S26に進む。一方、リクエスト処理部122Aは、他のリクエストが処理中である場合(S21において「Yes」)、検出部121によって検出されたコンテキストを取得する(S22)。
 続いて、リクエスト処理部122Aは、検出部121によって検出されたコンテキストが関連情報152に存在するか否かを判断する(S23)。リクエスト処理部122Aは、該当するリクエストが存在しない場合(S23において「No」)、S26に進む。一方、リクエスト処理部122Aは、該当するリクエストが存在する場合(S23において「Yes」)、関連情報152からコンテキストに関連するAttributeを取得する(S24)。
 続いて、リクエスト処理部122Aは、関連情報152にAttributeに対応するAttibute valueが存在するか否かを判断する(S25)。リクエスト処理部122Aは、該当するAttibute valueが存在しない場合(S25において「No」)、新たに入力されたリクエストをリクエストキューに追加する(S26)。一方、リクエスト処理部122Aは、該当するAttibute valueが存在する場合(S25において「Yes」)、該当するAttibute valueに関連する確信度が擬似乱数(rand)未満であれば(S251において「No」)、新たに入力されたリクエストをリクエストキューに追加する(S26)。一方、リクエスト処理部122Aは、該当するAttibute valueが存在する場合(S25において「Yes」)、該当するAttibute valueに関連する確信度が擬似乱数(rand)以上であれば(S251において「Yes」)、Attibute valueに関連する優先度を取得し、優先度同士の比較によって、新たに入力されたリクエストと処理中のリクエストとのいずれを優先すべきかを判断する(S27)。
 実行制御部123は、優先度同士の比較によって、新たに入力されたリクエストを優先すべきであると判断した場合(すなわち、処理中のタスクに対する割り込みが発生した場合)(S28において「Yes」)、ユーザに割り込み発生を通知し(S29)、S30に進む。一方、リクエスト処理部122Aは、優先度同士の比較によって、処理中のリクエストを優先すべきであると判断した場合(すなわち、処理中のタスクに対する割り込みが発生しない場合)(S28において「No」)、リクエストキューテーブルを更新して(S30)、動作を終了する。
 以上、第1の実施形態に係る情報処理システム1Aの動作例について説明した。
 以上において、第1の実施形態について説明した。
 <2.第2の実施形態>
 続いて、第2の実施形態について説明する。第1の実施形態においては、エージェント10が1台である場合を主に想定した。第2の実施形態においては、エージェント10が複数台存在する場合を主に説明する。
 [2.1.システム構成例]
 まず、図面を参照しながら第2の実施形態に係る情報処理システムの構成例について説明する。図16は、第2の実施形態に係る情報処理システムの構成例を示す図である。図16に示したように、第2の実施形態に係る情報処理システム1Bは、エージェント10B-1~10B-Nと、コントローラ20-1~20-N(Nは自然数)と、サーバ装置30Bとを備える。なお、図16に示した例では、エージェント10の数とコントローラ20の数とが同数となっているが、エージェント10の数とコントローラ20の数とは、異なっていてもよい。
 図16に示したように、ユーザU-2からリクエスト「スケジュール教えて」がなされた場合、このリクエストをエージェント10B-1~10B-Nのいずれが処理すべきかを特定する必要が生じる。なお、第2の実施形態においては、サーバ装置30Bが、タスクステータステーブル157を記憶している。タスクステータステーブル157は、エージェント10B-1~10B-Nそれぞれのタスクを管理する。タスクステータステーブル157については、後に説明する。
 以上、第2の実施形態に係る情報処理システム1Bの構成例について説明した。
 [2.2.エージェントの機能構成例]
 続いて、第2の実施形態に係るエージェント10Bの機能構成例について説明する。第2の実施形態に係るエージェント10Bは、第1の実施形態に係るエージェント10Aと比較して、制御部120Aの代わりに、制御部120Bを有する点において異なっている。以下、制御部120Bの機能構成例について主に説明する。図17は、制御部120Bの詳細構成例を示す図である。図17に示すように、制御部120Bは、検出部121、リクエスト処理部122Bおよび実行制御部123を有する。以下では、リクエスト処理部122Bについて主に説明する。
 以上、第2の実施形態に係るエージェント10Bの機能構成例について説明した。
 [2.3.サーバ装置の機能構成例]
 続いて、第2の実施形態に係るサーバ装置30Bの機能構成例について説明する。図18は、第2の実施形態に係るサーバ装置30Bの機能構成例を示す図である。図18に示すように、第2の実施形態に係るサーバ装置30Bは、第1の実施形態に係るサーバ装置30Aと比較して、制御部310Aの代わりに、制御部310Bを有する点において異なっている。具体的に、制御部310Bは、距離取得部311、選択部312および実行命令出力部313を有する。以下、制御部310Bの機能構成例について主に説明する。
 以上、第2の実施形態に係るサーバ装置30Bの機能構成例について説明した。
 [2.4.情報処理システムの機能詳細]
 続いて、第2の実施形態に係る情報処理システム1Bの機能詳細について説明する。図19は、タスクステータステーブルの例を示す図である。図19に示すように、タスクステータステーブル157は、エージェントIDと、ステータス(例えば、リクエストに対する応答処理中であるか、処理すべきリクエストを有していないか(空いているか)など)と、応答対象のユーザの識別情報と、処理中のリクエストに対応するタスクの種類とが関連付けられてなる。
 このとき、例えば、エージェント10B-1におけるリクエスト処理部122Bは、サーバ装置30Bによって、エージェント10B-1がエージェント10B-1~10B-2の中で、ユーザU-2からのリクエストを処理すべきと判断された場合に、ユーザU-2からのリクエストを実行対象とすればよい(例えば、ユーザU-2からのリクエストをリクエストキューに追加すればよい)。
 一方、エージェント10B-1におけるリクエスト処理部122Bは、エージェント10B-1がエージェント10B-1~10B-2の中で、ユーザU-2からのリクエストを処理すべきと判断されない場合には、ユーザU-2からのリクエストを実行対象としなくてよい(例えば、ユーザU-2からのリクエストをリクエストキューに追加しなくてよい)。
 例えば、サーバ装置30Bによって、エージェント10B-1は、エージェント10B-1~10B-2の中で、ユーザU-2からの距離が最も近い場合に、ユーザU-2からのリクエストを処理すべきと判断されてよい。あるいは、サーバ装置30Bによって、エージェント10B-1は、エージェント10B-1~10B-2の中で、処理すべきリクエスト(リクエストに対応するタスク)を有していない場合に、ユーザU-2からのリクエストを処理すべきと判断されてもよい。
 このように、エージェント10B-1が処理すべきリクエスト(リクエストに対応するタスク)を有していない場合には、エージェント10B-1がユーザU-2からのリクエストを処理すべきと判断されてもよいが、エージェント10B-1とユーザU-2との距離が遠い場合も想定される。したがって、かかる場合、エージェント10B-1におけるリクエスト処理部122Bは、リクエストに対する応答を変えてもよい。例えば、リクエスト処理部122Bは、リクエストに対する応答を音声と画面表示との組み合わせにしてもよいし、リクエストに対する応答を音声とし、その音声を大きくしてもよいし、リクエストに対する応答を画面表示とし、その画面の表示文字を大きくしてもよい。
 以上、第2の実施形態に係る情報処理システム1Bの機能詳細について説明した。
 [2.5.動作例]
 続いて、第2の実施形態に係る情報処理システム1Bの動作例について説明する。図20は、エージェント10B-1においてリクエストを実行対象とするか否かを判断する動作例を示すフローチャートである。なお、エージェント10B-2~10B-Nにおいても、同様な動作がなされてよい。図20に示すように、エージェント10B-1において、リクエスト処理部122Bは、ユーザU-2からリクエストを受け付けると(S41)、ユーザU-2からエージェント10B-1までの距離をサーバ装置30Bに送信させる(S42)。
 リクエスト処理部122Bは、通信部140が、サーバ装置30Bからリクエストに対する応答実行命令を受信すると(S43において「Yes」)、リクエストに対する応答を実行する(S44)。一方、リクエスト処理部122Bは、通信部140が、サーバ装置30Bからリクエストに対する応答実行命令を受信しないと(S43において「No」)、リクエストに対する応答を実行せずに、動作を終了する。
 図21は、サーバ装置30Bにおいてリクエストを実行させるエージェントを選択する動作例を示すフローチャートである。図21に示すように、サーバ装置30Bにおいて、通信部340は、エージェント10B-1からユーザU-2までの距離をエージェント10B-1から受信する(S51)。エージェント10B-2~10B-Nからも同様に距離を受信する。距離取得部311は、かかる距離を取得する。
 続いて、選択部312は、エージェント10B-1~10B-Nから、ユーザU-2に最も近いエージェントを選択する(S52)。実行命令出力部313は、選択部312によって選択されたエージェントに応答実行命令を送信させる(S53)。応答実行命令の送信が終わると、動作が終了される。
 図22は、サーバ装置30Bにおいてリクエストを実行させるエージェントを選択する動作の他の例を示すフローチャートである。図22に示すように、サーバ装置30Bにおいて、通信部340は、エージェント10B-1からユーザU-2までの距離をエージェント10B-1から受信する(S51)。エージェント10B-2~10B-Nからも同様に距離を受信する。距離取得部311は、かかる距離を取得する。
 続いて、選択部312は、空きエージェントが存在するか否かを判断する(S54)。選択部312は、空きエージェントが存在しない場合(S54において「No」)、ユーザU-2に最も近いエージェントを選択して(S52)、S53に進む。一方、選択部312は、空きエージェントが存在する場合(S54において「Yes」)、空きエージェントの中からユーザU-2に最も近いエージェントを選択する(S55)。実行命令出力部313は、選択部312によって選択されたエージェントに応答実行命令を送信させる(S53)。応答実行命令の送信が終わると、動作が終了される。
 以上、第2の実施形態に係る情報処理システム1Bの動作例について説明した。
 以上において、第2の実施形態について説明した。
 <3.第3の実施形態>
 続いて、第3の実施形態について説明する。第3の実施形態においても、第2の実施形態と同様に、エージェント10が複数台存在する。
 [3.1.システム構成例]
 まず、図面を参照しながら第3の実施形態に係る情報処理システムの構成例について説明する。図23は、第3の実施形態に係る情報処理システムの構成例を示す図である。図23に示したように、第3の実施形態に係る情報処理システム1Cは、エージェント10C-1~10C-Nと、コントローラ20-1~20-N(Nは自然数)と、サーバ装置30Aとを備える。なお、図23に示した例では、エージェント10の数とコントローラ20の数とが同数となっているが、第2の実施形態と同様に、エージェント10の数とコントローラ20の数とは、異なっていてもよい。
 図23に示したように、第2の実施形態と同様に、ユーザU-2からリクエスト「スケジュール教えて」がなされた場合、このリクエストをエージェント10C-1~10C-Nのいずれが処理すべきかを特定する必要が生じる。なお、第3の実施形態においては、エージェント10C-G(親機)が、タスクステータステーブル157を記憶している。また、複数のエージェント10のうち、エージェント10C-G(親機)以外は、子機として機能する。
 エージェント10C-G(親機)は、どのように決定されてもよい。例えば、エージェント10C-G(親機)は、ユーザの手動によって決定されてもよい。あるいは、エージェント10C-G(親機)は、システム(例えば、サーバ装置30Aなど)によって、通信圏内に存在するエージェントから自動的に決定されてもよい。例えば、エージェント10C-G(親機)は、ランダムに決定されてもよいし、ユーザとの接触頻度が最も高いエージェントに決定されてもよい。また、子機同士は、近距離無線通信などによって、互いに通信可能に構成されている。
 以上、第3の実施形態に係る情報処理システム1Cの構成例について説明した。
 [3.2.親機の機能構成例]
 続いて、第3の実施形態に係るエージェント10C-G(親機)の機能構成例について説明する。第3の実施形態に係るエージェント10C-G(親機)は、第2の実施形態に係るエージェント10Bと比較して、制御部120Bの代わりに、制御部120Cを有する点において異なっている。以下、制御部120Cの機能構成例について主に説明する。図24は、制御部120Cの詳細構成例を示す図である。
 図24に示すように、エージェント10C-G(親機)における制御部120Cは、検出部121、リクエスト処理部122Bおよび実行制御部123を有している。さらに、エージェント10C-G(親機)における制御部120Cは、距離取得部311、選択部312および実行命令出力部313を有している。
 以上、第3の実施形態に係るエージェント10C-G(親機)の機能構成例について説明した。
 [3.3.動作例]
 続いて、第3の実施形態に係る情報処理システム1Cの動作例について説明する。図25は、エージェント10C-1(子機)においてリクエストを実行対象とするか否かを判断する動作例を示すフローチャートである。なお、他の子機においても、同様な動作がなされてよい。図25に示すように、エージェント10C-1(子機)において、リクエスト処理部122Bは、ユーザU-2からリクエストを受け付けると(S61)、ユーザU-2からエージェント10C-1(子機)までの距離をエージェント10C-G(親機)に送信させる(S62)。
 リクエスト処理部122Bは、通信部140が、エージェント10C-G(親機)からリクエストに対する応答実行命令を受信すると(S63において「Yes」)、リクエストに対する応答を実行する(S64)。一方、リクエスト処理部122Bは、通信部140が、エージェント10C-G(親機)からリクエストに対する応答実行命令を受信しないと(S63において「No」)、リクエストに対する応答を実行せずに、動作を終了する。
 図26は、エージェント10C-G(親機)においてリクエストを実行させるエージェントを選択する動作例を示すフローチャートである。図26に示すように、エージェント10C-G(親機)において、通信部340は、エージェント10C-1(子機)からユーザU-2までの距離をエージェント10C-1から受信する(S71)。他の子機からも同様に距離を受信する。距離取得部311は、かかる距離を取得する。
 続いて、選択部312は、すべての子機から、ユーザU-2に最も近いエージェントを選択する(S72)。実行命令出力部313は、選択部312によって選択されたエージェントに応答実行命令を送信させる(S73)。応答実行命令の送信が終わると、動作が終了される。
 図27は、エージェント10C-G(親機)においてリクエストを実行させるエージェントを選択する動作の他の例を示すフローチャートである。図27に示すように、エージェント10C-G(親機)において、通信部340は、エージェント10C-1(子機)からユーザU-2までの距離をエージェント10C-1(子機)から受信する(S71)。他の子機からも同様に距離を受信する。距離取得部311は、かかる距離を取得する。
 続いて、選択部312は、空きエージェントが存在するか否かを判断する(S74)。選択部312は、空きエージェントが存在しない場合(S74において「No」)、ユーザU-2に最も近いエージェントを選択して(S72)、S73に進む。一方、選択部312は、空きエージェントが存在する場合(S74において「Yes」)、空きエージェントの中からユーザU-2に最も近いエージェントを選択する(S75)。実行命令出力部313は、選択部312によって選択されたエージェントに応答実行命令を送信させる(S73)。応答実行命令の送信が終わると、動作が終了される。
 以上、第3の実施形態に係る情報処理システム1Cの動作例について説明した。
 以上において、第3の実施形態について説明した。
 <4.概要(ユーザへの提示情報の制御)>
 上記においては、優先的に処理すべきリクエストを判断する技術について主に説明した。以下では、ユーザへの提示情報を制御する技術について主に説明する。近年、ユーザとの間で対話を行うロボット装置に関する技術が知られている。例えば、ユーザの発話内容から判別されるユーザの感情とあらかじめ登録されたユーザとの親密度とに応じた提示情報をユーザに提示する技術が開示されている。
 また、音声情報を主体とした提示情報によってユーザとの対話を行うエージェントに関する技術が知られている。音声情報だけではなく映像情報も提示情報としてユーザに提示するエージェントに関する技術も知られている。このように、音声情報と映像情報との双方を提示情報としてユーザに提示することが可能な場合、音声情報と映像情報とを有効にユーザに提示することによって、ユーザによって望ましい対話がなされると考えられる。
 ここで、具体例を二つ挙げる。一つ目の例として、ユーザがエージェントに対して天気に関する情報の提示をリクエストした場合を想定する。かかる場合、画面を視認不可能な状態のユーザに対しては、リクエストに対して音声情報(例えば、音声情報「明日の天気は晴れです」など)のみを提示することが考えられる。一方、画面を視認可能な状態のユーザは、音声情報だけではなく画面に映し出される映像情報も利用することができる。しかし、映像情報によって提示可能な内容と同内容の音声情報をユーザに提示してしまうと、ユーザへの提示が冗長になってしまう。
 二つ目の例として、ユーザがエージェントに対して外出先のおすすめ情報の提示をリクエストした場合を想定する。かかる場合、画面を視認不可能な状態のユーザに対しては、音声情報「おすすめスポットは、A,B,C・・・です」のように、おすすめスポットを最初から最後まで順番に音声情報によって提示することが考えられる。一方、画面を視認可能な状態のユーザに対して同様な音声情報のみを提示してしまうと、映像情報を利用できるにも関わらず、おすすめスポットを全て聞き終わるまでの時間だけユーザが待機しなければならない。
 このような例を想定した場合、一例として、ユーザが画面を現在視認しているか否かに応じて、ユーザに提示される音声情報および映像情報を制御するのが望ましい。例えば、一つ目の例では、画面を現在視認しているユーザには、天気に関する情報を映像情報によって提示しつつ、付加的な情報(例えば、「今日は暑いので、水分補給をしましょう」などといった付加的な情報)を音声情報によって提示することによって、ユーザにとって望ましい提示を行うことができる。一方、画面を現在視認していないユーザに対しては、リクエストに対して音声情報のみを提示してよい。
 二つ目の例では、画面を現在視認しているユーザには、おすすめ情報の一覧を映像情報によって提示しつつ、指示語(例えば、「これらの中で興味があるところはありますか?」などといった指示語)を音声情報によって簡潔に提示することによって、ユーザにとって望ましい提示を行うことができる。一方、画面を現在視認していないユーザに対しては、リクエストに対して音声情報のみを提示してよい。
 上記したように一例として、ユーザが画面を現在視認しているか否かに応じて、ユーザに提示される映像情報および音声情報を制御するのが望ましいと考えられる。以下では、ユーザに提示される複数の提示情報をよりユーザが望むように制御することが可能な技術について主に説明する。なお、複数の提示情報それぞれの種類は限定されないが、上記において説明した例と同様に、複数の提示情報が映像情報および音声情報を含む場合を主に想定する。映像情報は、静止画であってもよいし、動画であってもよい。
 以上において、ユーザへの提示情報を制御する技術の概要について説明した。
 <5.第4の実施形態>
 続いて、第4の実施形態について説明する。第1の実施形態においては、エージェント10が1台である場合を主に想定した。第4の実施形態においても、エージェント10が1台である場合を主に説明する。しかし、エージェント10は1台ではなく、複数存在していてもよい。
 [5.1.システム構成例]
 まず、図面を参照しながら第4の実施形態に係る情報処理システムの構成例について説明する。図28は、第4の実施形態に係る情報処理システムの構成例を示す図である。図28に示したように、第4の実施形態に係る情報処理システム1Dは、エージェント10Dを備える。なお、第4の実施形態においては、エージェント10Dとの間で通信ネットワークを介して通信可能なサーバ装置を有していない場合を主に想定するが、情報処理システム1Dは、かかるサーバ装置を有していてもよい。
 また、第4の実施形態においては、リクエストに対する応答として提示情報がユーザU-1に提示される場合を主に想定する。しかし、提示情報は、ユーザU-1からのリクエストがなされるか否かに関わらず、ユーザU-1に提示されてもよい。また、第4の実施形態においては、リクエストがユーザU-1からの発話に基づいてなされる場合を主に説明する。しかし、リクエストは、第1の実施形態から第3の実施形態までと同様に、コントローラに対する操作に基づいてなされてもよい。なお、ユーザU-2~U-Nに対してもユーザU-1と同様に提示情報が提示されてよい。
 以上、第4の実施形態に係る情報処理システム1Dの構成例について説明した。
 [5.2.エージェントの機能構成例]
 続いて、第4の実施形態に係るエージェント10Dの機能構成例について説明する。第4の実施形態に係るエージェント10Dは、第1の実施形態に係るエージェント10Aと比較して、制御部120Aの代わりに、制御部120Dを有する点において異なっている。以下、制御部120Dの機能構成例について主に説明する。図29は、制御部120Dの詳細構成例を示す図である。図29に示すように、制御部120Dは、姿勢判断部124、姿勢情報取得部125、提示制御部126および学習処理部127を有する。
 以上、第4の実施形態に係るエージェント10Dの機能構成例について説明した。
 [5.3.情報処理システムの機能詳細]
 続いて、第4の実施形態に係る情報処理システム1Dの機能詳細について説明する。第4の実施形態において、姿勢判断部124は、センサデータを取得し、センサデータに基づいてユーザU-1の姿勢を判断することによって、ユーザU-1の姿勢情報を得る。第4の実施形態においては、センサデータが、撮像部114によって撮像された画像である場合を主に想定するが、センサデータは、撮像部114によって撮像された画像に限定されない。例えば、センサデータは、ユーザU-1にセンサ(例えば、加速度センサなど)が装着されている場合、ユーザU-1に装着されたセンサによって検出されてもよい。なお、姿勢判断部124は、エージェント10Dの代わりに、サーバ装置に存在してもよい。
 ユーザU-1の姿勢情報は、ユーザU-1の身体の一部または全部の向きに基づく情報であってよい。例えば、ユーザU-1の姿勢情報は、ユーザU-1の顔の向きまたはユーザU-1の視線を含んでもよい。また、ユーザU-1の姿勢情報は、ユーザU-1のポーズ情報を含んでもよい。ポーズ情報は、身体の形状データ(例えば、骨格情報など)そのものであってよいし、身体の形状データの分類結果(例えば、立っている状態、座っている状態など)であってもよい。また、ユーザU-1の姿勢情報は、ユーザU-1の行動情報(例えば、読書中、掃除中、食事中など)を含んでもよい。
 姿勢情報取得部125は、姿勢判断部124によって判断されたユーザU-1の姿勢情報を取得する。そして、提示制御部126は、ユーザU-1への提示情報の提示を制御する。このとき、提示制御部126は、ユーザU-1の姿勢情報に基づいて、異なる態様を有する複数の提示情報を制御する。かかる構成によれば、ユーザU-1に提示される複数の提示情報をよりユーザU-1が望むように制御することが可能となる。なお、上記したように、第4の実施形態においては、複数の提示情報が映像情報および音声情報を含む場合を主に想定する。
 具体的に、ユーザU-1の姿勢情報と映像情報および音声情報との対応関係の例を説明する。第4の実施形態においては、「音声映像提示モード」による提示と「音声主体提示モード」による提示とを想定する。すなわち、提示制御部126は、ユーザU-1の姿勢情報が第1の条件(以下、「画面視認条件」とも言う。)を満たす場合、画面視認条件に関連付けられた「音声映像提示モード」による提示を制御する。一方、提示制御部126は、ユーザU-1の姿勢情報が第2の条件(以下、「画面非視認条件」とも言う。)を満たす場合、画面非視認条件に関連付けられた「音声主体提示モード」による提示を制御する。
 ここで、「音声映像提示モード」は、映像情報と音声情報との双方をユーザU-1に提示するモードである。すなわち、提示制御部126は、画面視認条件が満たされた場合、画面視認条件に関連付けられた映像情報と音声情報との双方のユーザU-1への提示を制御する。音声情報の提示はどのようになされてもよい。一例として、音声情報の提示は、TTS(TextToSpeech)によってなされてもよい。ただし、「音声映像提示モード」において、音声情報はユーザU-1に(提示されるのが望ましいが)提示されなくてもよい。
 一方、「音声主体提示モード」は、音声情報をユーザU-1に提示するモードである。すなわち、提示制御部126は、画面非視認条件が満たされた場合、画面非視認条件に関連付けられた音声情報のユーザU-1への提示を制御する。ただし、「音声主体提示モード」において、音声情報の他に映像情報もユーザU-1に提示されてよい。すなわち、提示制御部126は、画面非視認条件が満たされた場合、画面非視認条件に関連付けられた映像情報のユーザU-1への提示をさらに制御してもよい。しかし、映像情報がユーザU-1に提示される場合であっても、音声情報のみによってユーザU-1が十分に応答内容を理解することが可能であるように音声情報が提示されることが望ましい。
 図30は、各条件と提示モードとの対応関係の例を示す図である。図30に示すように、画面視認条件は、映像情報が映し出される画面(以下、単に「画面」とも言う。)をユーザU-1が現在視認しているという条件を含んでよい。また、画面視認条件は、画面をユーザU-1が視認可能な状態であるという条件を含んでよい。また、画面視認条件は、画面の視認がユーザU-1の行為を阻害しないという条件を含んでよい。
 一方、図30に示すように、画面非視認条件は、画面をユーザU-1が現在視認していないという条件を含んでよい。また、画面非視認条件は、画面をユーザU-1が視認不可能な状態であるという条件を含んでよい。また、画面非視認条件は、画面の視認がユーザU-1の行為を阻害するという条件を含んでよい。
 例えば、図30に示すように、ユーザU-1が画面を現在視認しているか否か(パターン1)は、提示制御部126によってユーザU-1の顔の向きまたはユーザU-1の視線に基づいて判断され得る。具体的には、提示制御部126は、ユーザU-1の顔の向きまたは視線が画面と所定の位置関係を有する場合に、ユーザU-1が画面を現在視認していると判断してよい。一方、提示制御部126は、ユーザU-1の顔の向きまたは視線が画面と所定の位置関係を有さない場合に、ユーザU-1が画面を現在視認していないと判断してよい。
 ここで、画面の位置はどのように設定されてもよい。例えば、撮像部114によって撮像された画像に基づいて自動的に画面の位置が認識された場合、自動的に認識された画面の位置が設定されてもよい。あるいは、画面の位置は、あらかじめ手動によって設定されてもよい。
 より具体的には、提示制御部126は、ユーザU-1の顔の向きまたは視線(または顔の向きを基準とした視錐台、または、視線を基準とした視錐台)が画面と交差する場合に、ユーザU-1が画面を現在視認していると判断してよい。一方、提示制御部126は、ユーザU-1の顔の向きまたは視線(または顔の向きを基準とした視錐台、または、視線を基準とした視錐台)が画面と交差しない場合に、ユーザU-1が画面を現在視認していないと判断してよい。
 さらに、提示制御部126は、ユーザU-1の顔の向きまたは視線(または顔の向きを基準とした視錐台、または、視線を基準とした視錐台)が画面と交差する場合であっても、ユーザU-1が画面から最大視認可能距離以内に存在しない場合には、ユーザU-1が画面を現在視認していないと判断してもよい。一例として、提示制御部126は、現在画面に文字を表示させている場合には、文字の表示サイズに基づいて最大視聴可能距離を算出してよい。
 さらに、提示制御部126は、ユーザU-1の顔の向きまたは視線(または顔の向きを基準とした視錐台、または、視線を基準とした視錐台)が画面と交差する場合であっても、ユーザU-1と画面との間に遮蔽物が存在する場合には、ユーザU-1が画面を現在視認していないと判断してもよい。一例として、提示制御部126は、撮像部114によって撮像された画像に基づいて、ユーザU-1と画面との間に物体が検出された場合、ユーザU-1と画面との間に遮蔽物が存在すると判断してよい。
 また、図30に示すように、ユーザU-1が画面を視認可能な状態であるか否か(パターン2)は、提示制御部126によってユーザU-1のポーズ情報に基づいて判断され得る。具体的には、提示制御部126は、ユーザU-1のポーズ情報に応じたユーザU-1の視認可能範囲(例えば、顔向きの角度幅など)を算出し、視認可能範囲が画面と所定の位置関係を有する場合に、ユーザU-1が画面を視認可能な状態であると判断してよい。一方、提示制御部126は、かかる視認可能範囲が画面と所定の位置関係を有さない場合に、ユーザU-1が画面を視認不可能な状態であると判断してよい。
 例えば、ユーザU-1のポーズ情報とユーザU-1の視認可能範囲との関係は、あらかじめ決められていてよい。例えば、ユーザU-1のポーズ情報が「立っている状態」を示す場合には、ユーザU-1のポーズ情報が「座っている状態」を示す場合と比較して、視認可能範囲が広くてもよい。
 より具体的には、提示制御部126は、ユーザU-1のポーズ情報に応じたユーザU-1の視認可能範囲が画面と交差する場合に、ユーザU-1が画面を視認可能な状態であると判断してよい。一方、提示制御部126は、ユーザU-1のポーズ情報に応じたユーザU-1の視認可能範囲が画面と交差しない場合に、ユーザU-1が画面を視認不可能な状態であると判断してよい。
 さらに、提示制御部126は、ユーザU-1のポーズ情報に応じたユーザU-1の視認可能範囲が画面と交差する場合であっても、ユーザU-1が画面から最大視認可能距離以内に存在しない場合には、ユーザU-1が画面を視認不可能な状態であると判断してもよい。あるいは、提示制御部126は、ユーザU-1のポーズ情報に応じたユーザU-1の視認可能範囲が画面と交差する場合であっても、ユーザU-1と画面との間に遮蔽物が存在する場合には、ユーザU-1が画面を視認不可能な状態であると判断してもよい。
 また、図30に示すように、画面の視認がユーザU-1の行為を阻害しないか否か(パターン3)は、提示制御部126によってユーザU-1の行動情報に基づいて判断され得る。具体的には、提示制御部126は、ユーザU-1の行動情報が第1の行動情報(例えば、ソファに座っている状態など)である場合に、画面の視認がユーザU-1の行為を阻害しないと判断してよい。一方、提示制御部126は、ユーザU-1の行動情報が第2の行動情報(例えば、読書中、掃除中、食事中など)である場合に、画面の視認がユーザU-1の行為を阻害すると判断してよい。
 上記したように、画面視認条件と「音声映像提示モード」との関連付け、および、画面非視認条件と「音声主体提示モード」との関連付けは、ユーザに依らずに一律的になされていてよい。しかし、どの条件が満たされた場合に、どのモードによる提示がなされることをユーザが望むかは、ユーザによって異なる可能性もある。そこで、画面視認条件と「音声映像提示モード」との関連付け、画面非視認条件と「音声主体提示モード」との関連付けは、ユーザごとになされていてもよい。そして、これらの関連付けは、ユーザごとに変更可能であってもよい。
 例えば、学習処理部127は、画面視認条件に関連付けられた音声映像提示モードによるユーザU-1への提示が制御された後、ユーザU-1の第1の状態が検出された場合、ユーザU-1に対応する画面視認条件と音声映像提示モードとの関連付けを変更してもよい。そして、学習処理部127は、ユーザU-1に対応する画面視認条件と音声主体提示モードとの関連付けを新たに行ってもよい。
 ここで、第1の状態は、ユーザU-1による所定の変更操作であってもよい。例えば、変更操作は、変更を示す所定のジェスチャであってもよいし、変更を示す発話であってもよいし、他の操作であってもよい。あるいは、第1の状態は、ユーザU-1が画面を視認していないという状態(ユーザU-1の顔の向きまたは視線と画面とが所定の位置関係を有さないという状態)であってもよい。
 一方、学習処理部127は、画面非視認条件に関連付けられた音声主体提示モードによるユーザU-1への提示が制御された後、ユーザU-1の第2の状態が検出された場合、ユーザU-1に対応する画面非視認条件と音声主体提示モードとの関連付けを変更してもよい。そして、学習処理部127は、ユーザU-1画面非視認条件と音声映像提示モードとの関連付けを新たに行ってもよい。
 ここで、第2の状態は、ユーザU-1による所定の変更操作であってもよい。例えば、変更操作は、変更を示す所定のジェスチャであってもよいし、変更を示す発話であってもよいし、他の操作であってもよい。あるいは、第2の状態は、ユーザU-1が画面を視認している状態(ユーザU-1の顔の向きまたは視線と画面とが所定の位置関係を有するという状態)であってもよい。
 図31および図32は、ユーザごとの各条件と提示モードとの対応関係の例を示す図である。図31を参照すると、画面非視認条件の例として、ポーズ情報に応じた範囲(視認可能範囲)に画面が存在しないという条件が示されている。ユーザU-1~ユーザU-Nそれぞれについて、ポーズ情報に応じた範囲(視認可能範囲)に画面が存在しないという条件に対して、音声主体提示モードが関連付けられている。その他、図31を参照すると、遮蔽物が存在するという条件が示されている。ユーザU-1~ユーザU-Nそれぞれについて、ユーザと画面との間に遮蔽物が存在するという条件に対して、音声主体提示モードが関連付けられている。
 また、図31を参照すると、画面が遠くに存在するという条件が示されている。ユーザU-1およびユーザU-Nについては、ユーザが画面から遠くに存在する(ユーザが画面から最大視認可能距離以内に存在しない)という条件に対して、音声映像提示モードが関連付けられるように変更がされている。他のユーザU-2~U-(N-1)については、ユーザが画面から遠くに存在する(ユーザが画面から最大視認可能距離以内に存在しない)という条件に対して、音声主体提示モードが関連付けられている。
 図32を参照すると、画面非視認条件の例として、ユーザの行動情報が第2の行動情報(読書中、掃除中、食事中のいずれか)であるという条件が示されている。ユーザU-Nについては、ユーザの行動情報が「読書中」であるという条件に対して、音声映像提示モードが関連付けられるように変更がされている。ユーザU-1~ユーザU-(N-1)それぞれについては、ユーザの行動情報が「読書中」であるという条件に対して、音声主体提示モードが関連付けられている。
 また、ユーザU-1~ユーザU-Nそれぞれについて、ユーザの行動情報が「掃除中」であるという条件に対して、音声主体提示モードが関連付けられている。また、ユーザU-1~U-(N-1)については、ユーザの行動情報が「食事中」であるという条件に対して、音声映像提示モードが関連付けられるように変更がされている。ユーザU-Nについては、ユーザの行動情報が「食事中」であるという条件に対して、音声主体提示モードが関連付けられている。
 以下、提示情報の具体的な例について説明する。図33は、音声主体提示モードによる提示例を示す図である。ここでは、ユーザU-1が「今日の予定を教えて」という発話によって、リクエスト「今日の予定の提示」を入力した場合を想定する。図33には、映像情報が提示される画面として壁面Waが示されている。しかし、ユーザU-1は(例えば、掃除中であるため)画面を視認していない。そこで、提示制御部126は、ユーザU-1の姿勢情報が画面非視認条件を満たしていると判断し、音声主体提示モードによる提示を制御する。
 上記したように、音声主体提示モードにおいては、提示制御部126は、音声情報のみをユーザU-1に提示してよい(映像情報は提示されなくてもよい)。このとき、音声情報のみによってユーザU-1が十分に応答内容を理解することが可能であるように音声情報が提示されることが望ましい。図33に示した例では、音声情報168-1に今日の予定が含まれている。
 図34および図35は、音声映像提示モードによる提示例を示す図である。ここでも、ユーザU-1が「今日の予定を教えて」という発話によって、リクエスト「今日の予定の提示」を入力した場合を想定する。図34および図35に示した例では、ユーザU-1は画面を視認している。そこで、提示制御部126は、ユーザU-1の姿勢情報が画面視認条件を満たしていると判断し、音声映像提示モードによる提示を制御する。
 上記したように、音声映像提示モードにおいては、提示制御部126は、映像情報と音声情報との双方をユーザU-1に提示してよい。このとき、画面視認条件が満たされているため、音声映像提示モードによって提示される映像情報は、音声主体提示モードによって提示される映像情報と比較して、情報量が大きくてよい。その反面、音声映像提示モードによって提示される音声情報は、音声主体提示モードによって提示される音声情報と比較して、情報量が小さくてよい。
 例えば、音声映像提示モードによって提示される映像情報は、グラフィックおよびテキストデータの少なくともいずれか一方を含んでよい。図34に示した例では、提示制御部126が、映像情報158-1として、グラフィックおよびテキストデータの双方によって予定表(円グラフ)の提示を制御している。このとき、音声映像提示モードによって提示される音声情報は、端的な音声情報であってよい(指示語および省略語の少なくともいずれか一方を含んでよい)。図34に示した例では、提示制御部126が、指示語「こちら」を含んだ端的な音声情報168-2の提示を制御している。
 図35に示した例では、提示制御部126が、映像情報158-2として、テキストデータによって予定表の提示を制御している。また、図35に示した例では、図34に示した例と同様に、提示制御部126が、指示語「こちら」を含んだ端的な音声情報168-2の提示を制御している。
 その他、音声映像提示モードにおいては、提示制御部126は、言葉で説明しにくい内容が映像情報によって提示されるように制御してもよい。例えば、リクエストに対する候補が見つかった場合を想定する。かかる場合、提示制御部126は、「こんなものはいかがでしょうか?」といった端的な音声情報の提示を制御するとともに、グラフィックによって候補の画像が提示されるように制御してもよい。
 また、提示制御部126は、「このくらいの大きさはいかがでしょうか?」といった端的な音声情報の提示を制御するとともに、グラフィックによって候補のサイズ感が把握されるような提示を制御してもよい。より具体的には、候補のサイズ感が把握されるような提示は、候補と同程度のサイズを有する物(例えば、東京ドーム3個分、A4サイズのノートなど)の画像の提示であってもよい。候補と同程度のサイズを有する物の画像は、実寸大で提示されるのが望ましい。
 また、提示制御部126は、「このような色味はいかがでしょうか?」といった端的な音声情報の提示を制御するとともに、グラフィックによって候補の色の提示を制御してもよい。また、提示制御部126は、「このくらいの重さはいかがでしょうか?」といった端的な音声情報の提示を制御するとともに、グラフィックによって候補の重さが把握されるような提示を制御してもよい。より具体的には、候補の重さが把握されるような提示は、候補と同程度の重さを有する物の画像の提示であってもよい。
 続いて、提示情報の他の具体的な例について説明する。図36は、音声主体提示モードによる他の提示例を示す図である。ここでは、ユーザU-1が「今日の天気を教えて」という発話によって、リクエスト「今日の天気予報の提示」を入力した場合を想定する。図36には、映像情報が提示される画面として壁面Waが示されている。しかし、ユーザU-1は(例えば、掃除中であるため)画面を視認していない。そこで、提示制御部126は、ユーザU-1の姿勢情報が画面非視認条件を満たしていると判断し、音声主体提示モードによる提示を制御する。
 上記したように、音声主体提示モードにおいては、提示制御部126は、音声情報のみをユーザU-1に提示してよい(映像情報は提示されなくてもよい)。このとき、音声情報のみによってユーザU-1が十分に応答内容を理解することが可能であるように音声情報が提示されることが望ましい。図36に示した例では、音声情報168-3に今日の天気予報が含まれている。
 図37および図38は、音声映像提示モードによる他の提示例を示す図である。ここでも、ユーザU-1が「今日の天気を教えて」という発話によって、リクエスト「今日の天気予報の提示」を入力した場合を想定する。図37および図38に示した例では、ユーザU-1は画面を視認している。そこで、提示制御部126は、ユーザU-1の姿勢情報が画面視認条件を満たしていると判断し、音声映像提示モードによる提示を制御する。
 上記したように、音声映像提示モードにおいては、提示制御部126は、映像情報と音声情報との双方をユーザU-1に提示してよい。例えば、音声映像提示モードによって提示される映像情報は、グラフィックおよびテキストデータの少なくともいずれか一方を含んでよい。図37に示した例では、提示制御部126が、映像情報158-3として、グラフィックによって天気予報の提示を制御している。このとき、音声映像提示モードによって提示される音声情報は、付加的な音声情報を含んでよい。図37に示した例では、提示制御部126が、付加的な音声情報「お洗濯には気をつけましょう」を含んだ音声情報168-4の提示を制御している。
 図38に示した例では、提示制御部126が、映像情報158-4として、テキストデータによって天気予報の提示を制御している。また、図38に示した例では、図37に示した例と同様に、提示制御部126が、付加的な音声情報「お洗濯には気をつけましょう」を含んだ音声情報168-4の提示を制御している。
 以上、第4の実施形態に係る情報処理システム1Dの機能詳細について説明した。
 [5.4.動作例]
 続いて、第4の実施形態に係る情報処理システム1Dの動作例について説明する。図39は、ユーザU-1によって入力されたリクエストに対する応答として提示情報をユーザU-1に提示する動作の例を示すフローチャートである。なお、ここでは、ユーザU-1によってリクエストが入力された場合に、そのリクエストに対する応答として提示情報がユーザU-1に提示される例を主に説明するが、上記したように、提示情報は、リクエストが入力されたか否かに関わらず、ユーザU-1に提示されてもよい。
 図39に示すように、姿勢判断部124は、センサデータを取得し(S101)、センサデータに基づいてユーザU-1の姿勢を判断する(S102)。これによって、姿勢判断部124は、ユーザU-1の姿勢情報を得る。上記したように、姿勢情報は、顔の向きまたは視線を含んでもよいし、ポーズ情報を含んでもよいし、行動情報を含んでもよい。姿勢情報取得部125は、姿勢判断部124によって判断されたユーザU-1の姿勢情報を取得する。
 そして、提示制御部126は、ユーザU-1からリクエストが入力されない場合(S103において「No」)、動作を終了する。一方、提示制御部126は、ユーザU-1からリクエストが入力された場合(S103において「Yes」)、ユーザU-1の姿勢に応じた提示モードを特定する(S104)。具体的に、提示制御部126は、姿勢情報が画面視認条件を満たす場合には、画面視認条件に関連付けられた音声映像提示モードを特定する。一方、提示制御部126は、姿勢情報が画面非視認条件を満たす場合には、画面非視認条件に関連付けられた音声主体提示モードを特定する。
 提示制御部126は、特定した提示モードに従って、リクエストに対する応答(提示情報の提示)を制御する(S105)。そして、学習処理部127は、特定した提示モードに従ったリクエストに対する応答が行われた後、ユーザU-1の状態を取得する。そして、学習処理部127は、ユーザU-1の状態が所定の状態である場合には、条件と提示モードとの関連付けを変更する学習処理を行って(S106)、動作を終了する。
 例えば、学習処理部127は、画面視認条件に関連付けられた音声映像提示モードに従って応答が行われた後、ユーザU-1による所定の変更操作またはユーザU-1が画面を視認していないという状態が検出された場合、画面視認条件に音声主体提示モードが関連付けられるように変更を行う。一方、学習処理部127は、画面非視認条件に関連付けられた音声主体提示モードに従って応答が行われた後、ユーザU-1による所定の変更操作またはユーザU-1が画面を視認しているという状態が検出された場合、画面非視認条件に音声映像提示モードが関連付けられるように変更を行う。
 以上、第4の実施形態に係る情報処理システム1Dの動作例について説明した。
 [5.5.エージェントからの主体的な提示]
 上記したように、ユーザU-1への提示情報は、ユーザU-1からのリクエストの入力があるか否かに関わらず提示されてもよい。すなわち、エージェント10Dは、ユーザU-1からのリクエストの入力がなくても、主体的にユーザU-1に対して提示情報を提示してもよい。この場合であっても、提示制御部126は、ユーザU-1の姿勢情報に応じた提示モードに従ってユーザU-1への提示情報の提示を制御してよい。
 ただし、エージェント10Dが前触れもなくユーザU-1に提示情報を提示する場合、提示情報を提示するタイミングにおいては、ユーザU-1は画面を視認していないと考えられる。そこで、提示制御部126は、所定の音声出力(例えば、SE(SoundEffect)、TTSなど)によって、ユーザU-1に対して画面の視認を誘導し、その後にユーザU-1の姿勢情報に基づいて、提示モードを特定するとよい。
 [5.6.表示部および画面の変形例]
 上記においては、表示部150が据え置き型のプロジェクタ(例えば、単焦点プロジェクタ)である場合を主に想定した。しかし、表示部150が設置される位置は限定されない。また、表示部150によって映像情報が映し出される画面の位置が壁面である場合を主に想定した。しかし、表示部150は、また、表示部150によって映像情報が映し出される画面の位置は、壁面に限定されない。以下においては、表示部150および画面の変形例を説明する。
 図40は、表示部150および画面の第1の変形例を示す図である。図40に示すように、表示部150は、テレビジョン装置であってもよい。図40を参照すると、表示部150の例としてのテレビジョン装置によって映像情報158が表示されている。このとき、表示部150によって映像情報158が映し出される画面は、テレビジョン装置の前面である。
 図41は、表示部150および画面の第2の変形例を示す図である。図41に示すように、表示部150は、天井に設置されるプロジェクタであってもよい。このとき、天井に設置されるプロジェクタは、単焦点プロジェクタであってもよいし、全方位に映像を投影可能な全方位プロジェクタであってもよいし、表示位置(投影方向)を制御可能な駆動型プロジェクタであってもよい。このとき、図41に示すように、表示部150によって映像情報が映し出される画面の位置は、壁面Waであってよい。
 図42は、表示部150および画面の第3の変形例を示す図である。図42に示すように、表示部150は、テーブルTaの上に設置される据え置き型のプロジェクタ(例えば、単焦点プロジェクタ)であってもよい。このとき、図42に示すように、表示部150によって映像情報が映し出される画面の位置は、テーブルTaの上面であってよい。
 図43は、表示部150および画面の第4の変形例を示す図である。図43に示すように、表示部150は、テーブルTaの上方の天井に設置されるプロジェクタであってもよい。このとき、天井に設置されるプロジェクタは、単焦点プロジェクタであってもよいし、表示位置(投影方向)を制御可能な駆動型プロジェクタであってもよい。このとき、図43に示すように、表示部150によって映像情報が映し出される画面の位置は、テーブルTaの上面であってよい。
 図44は、表示部150および画面の第5の変形例を示す図である。図44に示すように、表示部150は、テーブルTaの上方から下方に向けて映像が投射されるようにテーブルTaに備え付けられたプロジェクタ(例えば、単焦点プロジェクタ)であってもよい。このとき、図44に示すように、表示部150によって映像情報が映し出される画面の位置は、テーブルTaの上面であってよい。
 [5.7.複数のユーザに応じた提示例]
 上記においては、1人のユーザ(ユーザU-1)を考慮した提示情報の提示例について説明した。以下では、複数のユーザ(ユーザU-1~U-N)を考慮した提示情報の提示例について説明する。より具体的には、複数のユーザの状況を考慮した提示情報の提示例について説明する。
 ユーザの状況は限定されない。例えば、ユーザの状況は、ユーザの姿勢(例えば、姿勢情報が画面視認条件および画面非視認条件のいずれを満たすかなど)を含んでもよい。あるいは、ユーザの状況は、ユーザの位置(例えば、画面からの距離など)を含んでもよい。あるいは、ユーザの状況は、ユーザの属性(例えば、性別、年齢(例えば、大人であるか子供であるか)、エージェントに設定された家族構成員に属するか否か、使用言語など)を含んでもよい。あるいは、ユーザの状況は、リクエストを入力した者(発話者)であるか否か、エージェントから提示情報の提示を受ける者であるか否かなどを含んでもよい。
 例えば、ユーザの姿勢および位置(例えば、画面からの距離など)は、上記したようにして検出され得る。また、ユーザの属性には、あらかじめユーザの識別情報が関連付けられており、撮像部114によって撮像された画像から顔認識技術によってユーザが認識された場合、そのユーザの識別情報に関連する属性が検出されてよい。発話者であるか否かは、検出される発話音声の到来方向に基づいて検出されてよい。提示情報の提示を受ける者であるか否かは、提示情報の内容に基づいて検出されてよい。
 図45は、複数のユーザの状況を考慮した提示情報の提示例を示す図である。例えば、提示制御部126は、複数のユーザそれぞれの状況に応じた提示情報が提示されるように制御してよい。図45を参照すると、複数のユーザの例として、ユーザU-1およびユーザU-2が存在している。このとき、提示制御部126は、ユーザU-1の状況に応じた第1の提示情報の提示と、ユーザU-2の状況に応じた第2の提示情報の提示とを制御してもよい。
 具体的に、図45に示した例では、ユーザU-1が大人であり、ユーザU-2が子供である。そして、大人であるユーザU-1が「今日の天気を教えて」という発話によって、リクエスト「今日の天気予報の提示」を入力した場合を想定する。かかる場合、提示制御部126は、大人であるユーザU-1に対しては、大人向けの提示情報(例えば、天気を詳細に示す映像情報158-4など)の提示を制御してもよい。大人向けの提示情報は、音声情報であってもよい。一方、子供であるユーザU-2に対しては、子供向けの提示情報(例えば、天気マークが大きく描かれた映像情報158-3)の提示を制御してよい。
 このとき、大人向けの提示情報(例えば、天気を詳細に示す映像情報158-4など)は、大人であるユーザU-1の近傍(図45に示した例では、大人であるユーザU-1の近傍に置かれたテーブルTaの上面)に提示されてよい。一方、子供向けの提示情報(例えば、天気マークが大きく描かれた映像情報158-3)は、子供であるユーザU-2の近傍(図45に示した例では、子供であるユーザU-2の近傍に位置する壁面Wa)に提示されてよい。
 あるいは、提示制御部126は、複数のユーザから優先すべきユーザを選択し、選択したユーザの姿勢情報に基づいて複数の提示情報を制御してもよい。ユーザの姿勢情報に応じた複数の提示情報の制御は、既に述べた通りになされてよい。すなわち、提示制御部126は、ユーザの姿勢情報が画面視認条件を満たす場合には、音声映像提示モードに従った提示を制御すればよい。また、提示制御部126は、ユーザの姿勢情報が画面非視認条件を満たす場合には、音声主体提示モードに従った提示を制御すればよい。
 優先すべきユーザはどのように選択されてもよい。例えば、提示制御部126は、複数のユーザから優先すべきユーザとして発話者を選択してもよい。あるいは、提示制御部126は、複数のユーザから優先すべきユーザとして提示情報の提示を受ける者を選択してもよい。
 あるいは、提示制御部126は、複数のユーザから優先すべきユーザとして画面に最も近い者を選択してもよい。
 また、提示制御部126は、複数のユーザから優先すべきユーザとして大人を選択してもよい。あるいは、提示制御部126は、複数のユーザから優先すべきユーザとして子供を選択してもよい。例えば、大人を選択すべきか子供を選択すべきかについては、提示情報の内容に基づいて決められてもよい。
 また、提示制御部126は、複数のユーザから優先すべきユーザとして画面を最も見づらい者を選択してもよい。すなわち、提示制御部126は、一人でも画面非視認条件を満たす者が存在すれば、音声主体提示モードを選択してもよい。一方、提示制御部126は、全員が画面視認条件を満たせば、音声映像提示モードを選択してもよい。
 また、提示制御部126は、複数のユーザから優先すべきユーザとして、エージェントに設定された家族構成員に属する者を選択してもよい。すなわち、提示制御部126は、エージェントに設定された家族構成員に属さない者(例えば、家庭に訪問したお客さんなど)を選択しなくてよい。
 また、提示制御部126は、複数のユーザから優先すべきユーザとして、エージェントに設定された言語(エージェントが提示情報に使用する言語)と同じ言語を使用する者を選択してもよい。例えば、提示制御部126は、エージェントが提示情報に日本語を使用する場合、複数のユーザから優先すべきユーザとして、日本語を使用する者を選択してよい。
 以上において、第4の実施形態について説明した。
 <6.ハードウェア構成例>
 次に、図46を参照して、本開示の実施形態に係る情報処理装置(エージェント)10のハードウェア構成例について説明する。図46は、本開示の実施形態に係る情報処理装置10のハードウェア構成例を示すブロック図である。なお、本開示の実施形態に係るサーバ装置30のハードウェア構成も、図46に示した情報処理装置10のハードウェア構成例と同様にして実現され得る。
 図46に示すように、情報処理装置10は、CPU(Central Processing unit)901、ROM(Read Only Memory)903、およびRAM(Random Access Memory)905を含む。また、情報処理装置10は、ホストバス907、ブリッジ909、外部バス911、インターフェース913、入力装置915、出力装置917、ストレージ装置919、ドライブ921、接続ポート923、通信装置925を含んでもよい。さらに、情報処理装置10は、必要に応じて、撮像装置933、およびセンサ935を含んでもよい。情報処理装置10は、CPU901に代えて、またはこれとともに、DSP(Digital Signal Processor)またはASIC(Application Specific Integrated Circuit)と呼ばれるような処理回路を有してもよい。
 CPU901は、演算処理装置および制御装置として機能し、ROM903、RAM905、ストレージ装置919、またはリムーバブル記録媒体927に記録された各種プログラムに従って、情報処理装置10内の動作全般またはその一部を制御する。ROM903は、CPU901が使用するプログラムや演算パラメータなどを記憶する。RAM905は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一時的に記憶する。CPU901、ROM903、およびRAM905は、CPUバスなどの内部バスにより構成されるホストバス907により相互に接続されている。さらに、ホストバス907は、ブリッジ909を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス911に接続されている。
 入力装置915は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置915は、ユーザの音声を検出するマイクロフォンを含んでもよい。入力装置915は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置10の操作に対応した携帯電話などの外部接続機器929であってもよい。入力装置915は、ユーザが入力した情報に基づいて入力信号を生成してCPU901に出力する入力制御回路を含む。ユーザは、この入力装置915を操作することによって、情報処理装置10に対して各種のデータを入力したり処理動作を指示したりする。また、後述する撮像装置933も、ユーザの手の動き、ユーザの指などを撮像することによって、入力装置として機能し得る。このとき、手の動きや指の向きに応じてポインティング位置が決定されてよい。
 出力装置917は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。出力装置917は、例えば、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)、有機EL(Electro-Luminescence)ディスプレイ、プロジェクタなどの表示装置、ホログラムの表示装置、スピーカおよびヘッドホンなどの音声出力装置、ならびにプリンタ装置などであり得る。出力装置917は、情報処理装置10の処理により得られた結果を、テキストまたは画像などの映像として出力したり、音声または音響などの音声として出力したりする。また、出力装置917は、周囲を明るくするためライトなどを含んでもよい。
 ストレージ装置919は、情報処理装置10の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置919は、例えば、HDD(Hard Disk Drive)などの磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。このストレージ装置919は、CPU901が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。
 ドライブ921は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体927のためのリーダライタであり、情報処理装置10に内蔵、あるいは外付けされる。ドライブ921は、装着されているリムーバブル記録媒体927に記録されている情報を読み出して、RAM905に出力する。また、ドライブ921は、装着されているリムーバブル記録媒体927に記録を書き込む。
 接続ポート923は、機器を情報処理装置10に直接接続するためのポートである。接続ポート923は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポートなどであり得る。また、接続ポート923は、RS-232Cポート、光オーディオ端子、HDMI(登録商標)(High-Definition Multimedia Interface)ポートなどであってもよい。接続ポート923に外部接続機器929を接続することで、情報処理装置10と外部接続機器929との間で各種のデータが交換され得る。
 通信装置925は、例えば、通信ネットワーク931に接続するための通信デバイスなどで構成された通信インターフェースである。通信装置925は、例えば、有線または無線LAN(Local Area Network)、Bluetooth(登録商標)、またはWUSB(Wireless USB)用の通信カードなどであり得る。また、通信装置925は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、または、各種通信用のモデムなどであってもよい。通信装置925は、例えば、インターネットや他の通信機器との間で、TCP/IPなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置925に接続される通信ネットワーク931は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内LAN、赤外線通信、ラジオ波通信または衛星通信などである。
 撮像装置933は、例えば、CCD(Charge Coupled Device)またはCMOS(Complementary Metal Oxide Semiconductor)などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成する装置である。撮像装置933は、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。
 センサ935は、例えば、測距センサ、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサなどの各種のセンサである。センサ935は、例えば情報処理装置10の筐体の姿勢など、情報処理装置10自体の状態に関する情報や、情報処理装置10の周辺の明るさや騒音など、情報処理装置10の周辺環境に関する情報を取得する。また、センサ935は、GPS(Global Positioning System)信号を受信して装置の緯度、経度および高度を測定するGPSセンサを含んでもよい。
 <7.むすび>
 以上説明したように、本開示の実施形態によれば、ユーザに関するコンテキストを検出する検出部と、前記コンテキストに基づいて、第1のリクエストおよび第2のリクエストのいずれを優先的に処理すべきかを判断するリクエスト処理部と、を備える、情報処理装置が提供される。かかる構成によれば、優先的に処理されるリクエストをより適切に判断することが可能な技術が提供される。
 また、本開示の実施形態によれば、ユーザの姿勢情報を取得する姿勢情報取得部と、前記ユーザへの提示情報の提示を制御する提示制御部と、を備え、前記提示制御部は、前記姿勢情報に基づいて、異なる態様を有する複数の前記提示情報を制御する、情報処理装置が提供される。かかる構成によれば、ユーザに提示される複数の提示情報をよりユーザが望むように制御することが可能な技術が提供される。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 例えば、上記した各実施形態は適宜に組み合わされてよい。より具体的には、第1の実施形態から第3の実施形態までのいずれかと第4の実施形態とは組み合わされてもよい。より具体的には、第1の実施形態から第3の実施形態までのいずれかにおいて、どのリクエストを優先的に処理すべきかが判断され、どのリクエストを優先的に処理すべきかの判断結果に基づいて、第4の実施形態において、リクエストに対する応答が提示情報としてユーザに提示されてよい。
 また、コンピュータに内蔵されるCPU、ROMおよびRAMなどのハードウェアを、上記した制御部120が有する機能と同等の機能を発揮させるためのプログラムも作成可能である。また、該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。
 例えば、上記した情報処理装置10およびサーバ装置30の動作が実現されれば、各構成の位置は特に限定されない。情報処理装置10における各部の処理の一部はサーバ装置30によって行われてもよい。具体的な一例として、情報処理装置10における制御部110が有する各ブロックの一部または全部は、サーバ装置30などに存在していてもよい。また、サーバ装置30における各部の処理の一部は情報処理装置10によって行われてもよい。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏し得る。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 ユーザの姿勢情報を取得する姿勢情報取得部と、
 前記ユーザへの提示情報の提示を制御する提示制御部と、を備え、
 前記提示制御部は、前記姿勢情報に基づいて、異なる態様を有する複数の前記提示情報を制御する、
 情報処理装置。
(2)
 前記複数の提示情報は、映像情報および音声情報を含む、
 前記(1)に記載の情報処理装置。
(3)
 前記提示制御部は、前記ユーザの姿勢情報が第1の条件を満たす場合には、前記第1の条件に関連付けられた映像情報の提示を制御し、前記ユーザの姿勢情報が第2の条件を満たす場合には、前記第2の条件に関連付けられた音声情報の提示を制御する、
 前記(2)に記載の情報処理装置。
(4)
 前記ユーザの姿勢情報は、前記ユーザの顔の向きまたは前記ユーザの視線を含む、
 前記(3)に記載の情報処理装置。
(5)
 前記第1の条件は、前記顔の向きまたは前記視線が画面と所定の位置関係を有するという条件を含み、前記第2の条件は、前記顔の向きまたは前記視線が前記画面と前記所定の位置関係を有さないという条件を含む、
 前記(4)に記載の情報処理装置。
(6)
 前記ユーザの姿勢情報は、前記ユーザのポーズ情報を含む、
 前記(3)に記載の情報処理装置。
(7)
 前記第1の条件は、前記ポーズ情報に応じた前記ユーザの視認可能範囲が画面と所定の位置関係を有するという条件を含み、前記第2の条件は、前記視認可能範囲が前記画面と前記所定の位置関係を有さないという条件を含む、
 前記(6)に記載の情報処理装置。
(8)
 前記ユーザの姿勢情報は、前記ユーザの行動情報を含む、
 前記(3)に記載の情報処理装置。
(9)
 前記第1の条件は、前記行動情報が第1の行動情報であるという条件を含み、前記第2の条件は、前記行動情報が前記第1の行動情報とは異なる第2の行動情報であるという条件を含む、
 前記(8)に記載の情報処理装置。
(10)
 前記第1の条件と前記映像情報との関連付け、および、前記第2の条件と前記音声情報との関連付けは、前記ユーザごとになされる、
 前記(3)~(9)のいずれか一項に記載の情報処理装置。
(11)
 前記情報処理装置は、
 前記第1の条件に関連付けられた前記映像情報の提示が制御された後、前記ユーザの第1の状態が検出された場合、前記ユーザに対応する前記第1の条件と前記映像情報との関連付けを変更する学習処理部を備える、
 前記(10)に記載の情報処理装置。
(12)
 前記第1の状態は、前記ユーザによる所定の変更操作および前記ユーザの顔の向きまたは視線と画面とが所定の位置関係を有さないという状態の少なくともいずれか一つを含む、
 前記(11)に記載の情報処理装置。
(13)
 前記情報処理装置は、
 前記第2の条件に関連付けられた前記音声情報の提示が制御された後、前記ユーザの第2の状態が検出された場合、前記ユーザに対応する前記第2の条件と前記音声情報との関連付けを変更する学習処理部を備える、
 前記(10)に記載の情報処理装置。
(14)
 前記第2の状態は、前記ユーザによる所定の変更操作および前記ユーザの顔の向きまたは視線と画面とが所定の位置関係を有するという状態の少なくともいずれか一つを含む、
 前記(13)に記載の情報処理装置。
(15)
 前記提示制御部は、前記ユーザの姿勢情報が前記第1の条件を満たす場合には、前記第1の条件に関連付けられた音声情報の提示をさらに制御する、
 前記(3)~(14)のいずれか一項に記載の情報処理装置。
(16)
 前記第1の条件に関連付けられた音声情報は、前記第2の条件に関連付けられた音声情報と比較して、情報量が小さい、
 前記(15)に記載の情報処理装置。
(17)
 前記提示制御部は、前記ユーザの姿勢情報が前記第2の条件を満たす場合には、前記第2の条件に関連付けられた映像情報の提示をさらに制御する、
 前記(3)~(16)のいずれか一項に記載の情報処理装置。
(18)
 前記第1の条件に関連付けられた映像情報は、前記第2の条件に関連付けられた映像情報と比較して、情報量が大きい、
 前記(17)に記載の情報処理装置。
(19)
 ユーザの姿勢情報を取得することと、
 前記ユーザへの提示情報の提示を制御することと、を備え、
 プロセッサにより、前記姿勢情報に基づいて、異なる態様を有する複数の前記提示情報を制御することを含む、
 情報処理方法。
(20)
 コンピュータを、
 ユーザの姿勢情報を取得する姿勢情報取得部と、
 前記ユーザへの提示情報の提示を制御する提示制御部と、を備え、
 前記提示制御部は、前記姿勢情報に基づいて、異なる態様を有する複数の前記提示情報を制御する、
 情報処理装置として機能させるためのプログラム。
1(1A~1D)  情報処理システム
 10(10A~10D) エージェント(情報処理装置)
 20  コントローラ
 30(30A~30B) サーバ装置
 110 制御部
 113 集音部
 114 撮像部
 115 距離検出部
 116 受信部
 120 制御部
 120 制御部
 121 検出部
 122 リクエスト処理部
 123 実行制御部
 124 姿勢判断部
 125 姿勢情報取得部
 126 提示制御部
 127 学習処理部
 130 記憶部
 140 通信部
 150 表示部
 160 音出力部
 310 制御部
 311 距離取得部
 312 選択部
 313 実行命令出力部
 340 通信部
 350 記憶部

Claims (20)

  1.  ユーザの姿勢情報を取得する姿勢情報取得部と、
     前記ユーザへの提示情報の提示を制御する提示制御部と、を備え、
     前記提示制御部は、前記姿勢情報に基づいて、異なる態様を有する複数の前記提示情報を制御する、
     情報処理装置。
  2.  前記複数の提示情報は、映像情報および音声情報を含む、
     請求項1に記載の情報処理装置。
  3.  前記提示制御部は、前記ユーザの姿勢情報が第1の条件を満たす場合には、前記第1の条件に関連付けられた映像情報の提示を制御し、前記ユーザの姿勢情報が第2の条件を満たす場合には、前記第2の条件に関連付けられた音声情報の提示を制御する、
     請求項2に記載の情報処理装置。
  4.  前記ユーザの姿勢情報は、前記ユーザの顔の向きまたは前記ユーザの視線を含む、
     請求項3に記載の情報処理装置。
  5.  前記第1の条件は、前記顔の向きまたは前記視線が画面と所定の位置関係を有するという条件を含み、前記第2の条件は、前記顔の向きまたは前記視線が前記画面と前記所定の位置関係を有さないという条件を含む、
     請求項4に記載の情報処理装置。
  6.  前記ユーザの姿勢情報は、前記ユーザのポーズ情報を含む、
     請求項3に記載の情報処理装置。
  7.  前記第1の条件は、前記ポーズ情報に応じた前記ユーザの視認可能範囲が画面と所定の位置関係を有するという条件を含み、前記第2の条件は、前記視認可能範囲が前記画面と前記所定の位置関係を有さないという条件を含む、
     請求項6に記載の情報処理装置。
  8.  前記ユーザの姿勢情報は、前記ユーザの行動情報を含む、
     請求項3に記載の情報処理装置。
  9.  前記第1の条件は、前記行動情報が第1の行動情報であるという条件を含み、前記第2の条件は、前記行動情報が前記第1の行動情報とは異なる第2の行動情報であるという条件を含む、
     請求項8に記載の情報処理装置。
  10.  前記第1の条件と前記映像情報との関連付け、および、前記第2の条件と前記音声情報との関連付けは、前記ユーザごとになされる、
     請求項3に記載の情報処理装置。
  11.  前記情報処理装置は、
     前記第1の条件に関連付けられた前記映像情報の提示が制御された後、前記ユーザの第1の状態が検出された場合、前記ユーザに対応する前記第1の条件と前記映像情報との関連付けを変更する学習処理部を備える、
     請求項10に記載の情報処理装置。
  12.  前記第1の状態は、前記ユーザによる所定の変更操作および前記ユーザの顔の向きまたは視線と画面とが所定の位置関係を有さないという状態の少なくともいずれか一つを含む、
     請求項11に記載の情報処理装置。
  13.  前記情報処理装置は、
     前記第2の条件に関連付けられた前記音声情報の提示が制御された後、前記ユーザの第2の状態が検出された場合、前記ユーザに対応する前記第2の条件と前記音声情報との関連付けを変更する学習処理部を備える、
     請求項10に記載の情報処理装置。
  14.  前記第2の状態は、前記ユーザによる所定の変更操作および前記ユーザの顔の向きまたは視線と画面とが所定の位置関係を有するという状態の少なくともいずれか一つを含む、
     請求項13に記載の情報処理装置。
  15.  前記提示制御部は、前記ユーザの姿勢情報が前記第1の条件を満たす場合には、前記第1の条件に関連付けられた音声情報の提示をさらに制御する、
     請求項3に記載の情報処理装置。
  16.  前記第1の条件に関連付けられた音声情報は、前記第2の条件に関連付けられた音声情報と比較して、情報量が小さい、
     請求項15に記載の情報処理装置。
  17.  前記提示制御部は、前記ユーザの姿勢情報が前記第2の条件を満たす場合には、前記第2の条件に関連付けられた映像情報の提示をさらに制御する、
     請求項3に記載の情報処理装置。
  18.  前記第1の条件に関連付けられた映像情報は、前記第2の条件に関連付けられた映像情報と比較して、情報量が大きい、
     請求項17に記載の情報処理装置。
  19.  ユーザの姿勢情報を取得することと、
     前記ユーザへの提示情報の提示を制御することと、を備え、
     プロセッサにより、前記姿勢情報に基づいて、異なる態様を有する複数の前記提示情報を制御することを含む、
     情報処理方法。
  20.  コンピュータを、
     ユーザの姿勢情報を取得する姿勢情報取得部と、
     前記ユーザへの提示情報の提示を制御する提示制御部と、を備え、
     前記提示制御部は、前記姿勢情報に基づいて、異なる態様を有する複数の前記提示情報を制御する、
     情報処理装置として機能させるためのプログラム。
PCT/JP2017/043207 2017-01-25 2017-11-30 情報処理装置、情報処理方法およびプログラム WO2018139050A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017010919A JP2018120390A (ja) 2017-01-25 2017-01-25 情報処理装置、情報処理方法およびプログラム
JP2017-010919 2017-01-25

Publications (1)

Publication Number Publication Date
WO2018139050A1 true WO2018139050A1 (ja) 2018-08-02

Family

ID=62979242

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/043207 WO2018139050A1 (ja) 2017-01-25 2017-11-30 情報処理装置、情報処理方法およびプログラム

Country Status (2)

Country Link
JP (1) JP2018120390A (ja)
WO (1) WO2018139050A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7288781B2 (ja) * 2019-03-27 2023-06-08 本田技研工業株式会社 情報提供装置、情報提供方法、およびプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011253375A (ja) * 2010-06-02 2011-12-15 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
JP2014048937A (ja) * 2012-08-31 2014-03-17 Omron Corp ジェスチャ認識装置、その制御方法、表示機器、および制御プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011253375A (ja) * 2010-06-02 2011-12-15 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
JP2014048937A (ja) * 2012-08-31 2014-03-17 Omron Corp ジェスチャ認識装置、その制御方法、表示機器、および制御プログラム

Also Published As

Publication number Publication date
JP2018120390A (ja) 2018-08-02

Similar Documents

Publication Publication Date Title
US10546582B2 (en) Information processing device, method of information processing, and program
JP7277569B2 (ja) 検出されたジェスチャおよび凝視に基づく自動化アシスタントの機能の呼び出し
WO2019107145A1 (ja) 情報処理装置、及び情報処理方法
JP2019057297A (ja) 情報処理装置、情報処理方法およびプログラム
WO2018139036A1 (ja) 情報処理装置、情報処理方法およびプログラム
EP2843513A1 (en) Wearable device and method of outputting content thereof
EP3419020B1 (en) Information processing device, information processing method and program
WO2018163637A1 (ja) 情報処理装置、情報処理方法及び記録媒体
US20180196503A1 (en) Information processing device, information processing method, and program
JP7211367B2 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2016151956A1 (ja) 情報処理システムおよび情報処理方法
JP6973380B2 (ja) 情報処理装置、および情報処理方法
US20200018926A1 (en) Information processing apparatus, information processing method, and program
WO2016088410A1 (ja) 情報処理装置、情報処理方法およびプログラム
WO2016206646A1 (zh) 使机器装置产生动作的方法及系统
EP3813378A1 (en) Electronic apparatus and control method thereof
JP2016109726A (ja) 情報処理装置、情報処理方法およびプログラム
WO2018139050A1 (ja) 情報処理装置、情報処理方法およびプログラム
CN110543290B (zh) 多模态响应
US11688268B2 (en) Information processing apparatus and information processing method
JP2016156877A (ja) 情報処理装置、情報処理方法およびプログラム
WO2020031795A1 (ja) 情報処理装置、情報処理方法およびプログラム
JPWO2017187677A1 (ja) 情報処理装置、情報処理方法およびプログラム
JPWO2020175115A1 (ja) 情報処理装置、及び情報処理方法
US20210385101A1 (en) Information processing apparatus and information processing method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17894105

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17894105

Country of ref document: EP

Kind code of ref document: A1