WO2021251107A1 - 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム - Google Patents

情報処理装置、情報処理システム、および情報処理方法、並びにプログラム Download PDF

Info

Publication number
WO2021251107A1
WO2021251107A1 PCT/JP2021/019415 JP2021019415W WO2021251107A1 WO 2021251107 A1 WO2021251107 A1 WO 2021251107A1 JP 2021019415 W JP2021019415 W JP 2021019415W WO 2021251107 A1 WO2021251107 A1 WO 2021251107A1
Authority
WO
WIPO (PCT)
Prior art keywords
utterance
agent
user
unit
display data
Prior art date
Application number
PCT/JP2021/019415
Other languages
English (en)
French (fr)
Inventor
裕士 瀧本
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2021251107A1 publication Critical patent/WO2021251107A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection

Definitions

  • This disclosure relates to information processing devices, information processing systems, information processing methods, and programs. More specifically, the present invention relates to an information processing apparatus, an information processing system, an information processing method, and a program that execute processing and response according to a user's speech.
  • voice dialogue systems that perform voice recognition of user utterances and perform various processes and responses based on the recognition results is increasing.
  • this voice dialogue system the user's utterance input via the microphone is analyzed, and processing is performed according to the analysis result.
  • Agent devices that interact with users in this way are called agent devices and smart speakers.
  • the timing at which the agent device and the user speak may overlap. That is, "speech cover" may occur.
  • agent devices have a function of stopping the utterance of the agent device when the user's utterance is detected and preferentially executing the analysis of the user's utterance.
  • processing using such a function there arises a problem that it becomes difficult to quickly convey the information desired to be transmitted from the agent device side to the user.
  • Patent Document 1 Japanese Unexamined Patent Publication No. 9-26989
  • the computer analyzes the behavior of the user, for example, a line of sight, a facial expression, etc., and determines whether the right to speak is on the computer side or the user side. It discloses a configuration that controls the execution and standby of utterances on the computer side based on the determination result.
  • This disclosure is made in view of the above problems, for example, and it is desired to be notified from the agent device side when "speech cover" occurs in which the speech timing of the agent device that executes the dialogue with the user overlaps with that of the user. It is an object of the present invention to provide an information processing device, an information processing system, an information processing method, and a program capable of reliably transmitting information to a user.
  • the first aspect of this disclosure is The utterance cover detector that detects the user's utterance during the agent's utterance, which is the utterance of the information processing device,
  • the information processing apparatus has an output destination control unit that outputs display data instead of agent utterances to the display unit when the utterance cover detection unit detects the utterance cover.
  • the second aspect of the present disclosure is An information processing system that has an agent device and a data processing server.
  • the agent device is An input unit for inputting user utterances and It has a voice output unit that outputs an agent utterance received from the data processing server and a display unit that outputs display data received from the data processing server.
  • the data processing server is An utterance cover detection unit that detects a user's utterance during execution of an agent's utterance, which is output via the voice output unit of the agent device.
  • An information processing system having an output destination control unit that transmits display data instead of an agent utterance to the agent device and outputs the display data to the display unit of the agent device when the utterance cover detection unit detects the utterance cover. It is in.
  • the third aspect of the present disclosure is It is an information processing method executed in an information processing device.
  • the utterance cover detection step in which the utterance cover detection unit detects the user's utterance during execution of the agent's utterance, which is the utterance of the information processing device, and
  • the output destination control unit executes an output destination control step that outputs display data instead of an agent utterance to the display unit when the utterance cover is detected in the utterance cover detection step.
  • the fourth aspect of the present disclosure is It is an information processing method executed in an information processing system having an agent device and a data processing server.
  • the agent device is An input unit for inputting user utterances and It has a voice output unit that outputs an agent utterance received from the data processing server and a display unit that outputs display data received from the data processing server.
  • the data processing server The utterance cover detection process for detecting the user's utterance during execution of the agent's utterance output via the voice output unit of the agent device, and the utterance cover detection process.
  • Information processing that executes output destination control processing that sends display data instead of agent utterance to the agent device and outputs it to the display unit of the agent device when utterance cover is detected in the utterance cover detection process. In the way.
  • the fifth aspect of the present disclosure is It is a program that executes information processing in an information processing device.
  • An utterance cover detection step that causes the utterance cover detection unit to detect the user's utterance during execution of the agent's utterance, which is the utterance of the information processing device.
  • the program of the present disclosure is, for example, a program that can be provided by a storage medium or a communication medium provided in a computer-readable format to an information processing device or a computer system capable of executing various program codes.
  • a program can be provided by a storage medium or a communication medium provided in a computer-readable format to an information processing device or a computer system capable of executing various program codes.
  • system is a logical set configuration of a plurality of devices, and the devices of each configuration are not limited to those in the same housing.
  • a device and a method capable of reliably notifying the user of the content of the agent utterance when an utterance cover between the agent utterance and the user utterance occurs are realized.
  • the utterance cover detection unit that detects the user utterance during execution of the agent utterance, which is the utterance of the information processing device, and the utterance cover detection unit detect the utterance cover
  • the display instead of the agent utterance is displayed. It has an output destination control unit that outputs data to the display unit.
  • the output destination control unit stops or continues the agent utterance and outputs the display data instead of the agent utterance to the display unit.
  • FIG. 1 shows an agent device 10 which is an example of the information processing device of the present disclosure that recognizes and responds to a user's utterance uttered by the user 1.
  • the agent device 10 is installed, for example, at a bank reception.
  • Agent device utterance "Welcome, please tell us your requirements”
  • User utterance "I would like to open a bank account”
  • Such a dialogue is performed, and the agent device 10 analyzes the user's utterance and notifies the department in charge of the analysis result.
  • the information processing device 10 shown in FIG. 1 includes a camera 11, a microphone 12, a display unit 13, a speaker 14, and a sensor 15, and has a configuration capable of audio input / output and image input / output.
  • the camera 11 captures, for example, an image of a user who is a visitor.
  • the captured image is analyzed by the data processing unit in the agent device 10. For example, the presence or absence of visitors, the characteristics of visitors, such as age and gender, are analyzed. Further, it may be configured to perform identification processing of who the visitor is.
  • the microphone 12 inputs the user's utterance.
  • the voice data spoken by the user is analyzed by the data processing unit in the agent device 10. For example, voice recognition processing, semantic analysis processing, and the like are executed.
  • the display unit 13 displays, for example, an animation image as shown in FIG. Further, when the utterance of the agent device (voice output) and the user's utterance overlap, that is, when "speech cover" occurs, the display data corresponding to the utterance (voice output) data of the agent device is displayed. That is, the agent device selects and outputs display data as a substitute for the utterance being executed to the display unit 13. A specific example of this process will be described later.
  • the speaker 14 outputs an utterance (voice output) of the agent device.
  • the sensor 15 is composed of various sensors such as a distance sensor, a temperature sensor, GPS and the like.
  • the voice recognition process and the semantic analysis process for the user's utterance, and the analysis process of the image taken by the camera 11 may be performed in the information processing device 10 or may be executed in the server on the cloud side. ..
  • the agent device 10 which is an example of the information processing device of the present disclosure, is used when the utterance (voice output) of the agent device and the user's utterance overlap, that is, when "speech cover" occurs.
  • the user 1 can see the display data and confirm the same information as the utterance content of the agent device 10.
  • FIG. 2 is a diagram showing a dialogue sequence between the agent device 10 and the user 1, and shows a processing sequence according to the time axis shown in the lowermost row.
  • agent device 10 tries to execute the following agent utterance (voice output).
  • Agent utterance Hello, what kind of business is it today?
  • user 1 makes the following user utterance at the timing when "Hello” is spoken.
  • User utterance "that,”
  • the agent device 10 When the agent device 10 detects a user utterance input through the microphone 12 of the agent device 10 while outputting the agent utterance, it determines that "utterance cover" has occurred, stops the agent utterance, and utters the agent device 10. (Audio output) Display the display data corresponding to the data. The display data of the time (t2) shown in the figure is displayed on the display unit 13. That is, the agent device outputs display data as a substitute for the utterance being executed to the display unit 13.
  • the display data of the time (t2) shown in the figure is the following display data. "Please select your requirements (a) Open a bank account (b) Change your address” This display data is display data that substitutes for an utterance in which the agent device has stopped.
  • the agent device 10 In the storage unit of the agent device 10, display data corresponding to each of the utterance data of the agent device 10 is recorded in association with each other.
  • the agent device 10 detects "utterance cover”
  • the agent device 10 stops the utterance of the agent device being executed, acquires the display data recorded in association with the stopped agent utterance from the storage unit, and displays the display unit 13. indicate.
  • the storage unit does not record the display data associated with all agent utterances.
  • display data corresponding to a typical agent utterance is stored in a storage unit and can be used.
  • the agent utterance is appropriately changed according to the user utterance, and the display data corresponding to all these agent utterances is not stored in the storage unit.
  • the data processing unit of the agent device 10 outputs the text data of the stopped agent utterance to the display unit 13.
  • the user 1 can see the display data and confirm the same information as the utterance content of the agent device 10.
  • the display unit 13 of the agent device 10 has a touch panel function, and at time (t2), the user 1 selects and touches his / her requirements from the display data of the display unit 13 of the agent device 10, for example. By doing so, you can convey the requirements. The user 1 can also speak his / her requirements and inform the agent device 10.
  • the user 1 can hear the agent's utterance, confirm the data displayed on the display unit 13, and convey his / her requirements to the agent device.
  • FIG. 3 is a diagram showing a dialogue sequence between the agent device 10 and the user 1, which is different from that in FIG.
  • the processing from time (t1) to (t2) is the same processing as the processing described with reference to FIG.
  • FIG. 3 shows an example in which the user 1 follows the following user utterance after the agent device 10 displays the data on the display unit 13 at the time (t2).
  • User utterance I came to transfer today
  • the agent device 10 When the agent device 10 detects the user's utterance, the agent device 10 erases the data displayed on the display unit 13. After that, the dialogue with the user 1 is continued, or processing according to the input user utterance, for example, voice recognition of the user utterance, contacting the department in charge according to the semantic analysis result, and the like are executed.
  • the agent device 10 of the present disclosure detects the user utterance during the execution of the agent utterance and determines that the "utterance cover" has occurred, the agent device 10 stops the agent utterance, and the content of the stopped agent utterance is used. Display data including similar contents is displayed on the display unit 13.
  • the user can see the display data and confirm the same information as the utterance content of the agent device 10.
  • Example 1 in which Mr. A (user A) and Mr. B (user B) who come to the reception of a company talk with the agent device of the reception.
  • A2 Example 2 in which Mr. A (user A) and Mr. B (user B) who come to the reception of a company talk with the agent device of the reception.
  • A3 Example 3 in which Mr. A (user A) and Mr. B (user B) who come to the reception of a company talk with the agent device of the reception.
  • B1 Example 1 in which Mr. A (user A) who came to the bank for the procedure talks with the agent device at the reception.
  • B2) Example 2 in which Mr. A (user A) who came to the bank for the procedure talks with the agent device at the reception.
  • Example 1 in which user A in the driver's seat and user B in the passenger seat talk to the driver's seat agent device A and the passenger seat agent device B, respectively.
  • C2 Example 2 in which user A in the driver's seat and user B in the passenger seat talk to the driver's seat agent device A and the passenger seat agent device B, respectively.
  • C3 Example 3 in which user A in the driver's seat and user B in the passenger seat talk to the driver's seat agent device A and the passenger seat agent device B, respectively.
  • FIG. 4 shows an agent device 10 installed at a reception desk of a company, and two visitors, user A and user B, who came to the reception desk. Similar to FIGS. 2 and 3 described above, a processing sequence such as a dialogue along a time axis flowing from left to right is shown.
  • the figure shows the (voice) and (image) of the agent device 10 and the utterances and image output sections of the user A (utterance a) and the user B (utterance b) from the top.
  • the line segment section shown as a solid line parallel to the time axis indicates the utterance output period and the display data output period.
  • the solid line shown in (voice) of the agent device 10 indicates the utterance period of the agent utterance output through the speaker 14 of the agent device 10.
  • the solid line shown in the (image) of the agent device 10 indicates the display period of the display data output to the display unit 13 of the agent device 10.
  • the solid line shown in (speech a) of user A indicates the utterance period of user utterance of user A.
  • the solid line shown in (speech b) of user B indicates the utterance period of user utterance of user B.
  • step S101 to step S107 which are the processing steps shown in the figure.
  • step S101 to step S107 which are the processing steps shown in the figure.
  • each processing step will be described in order.
  • Step S102 The user A who has heard the agent utterance executes the following user utterances at times t2 to t3.
  • User utterance Mr. Sato
  • Step S103 The agent device 10 that has input the user utterance executes voice recognition and semantic analysis of the user utterance, generates a response according to the voice analysis result, and starts the following agent utterance from the time t3.
  • Agent utterance Sato (shin, please wait a moment)
  • step S104 the user utterance in the following step S104 is performed at the timing of the utterance (time t4) until "at Sato".
  • Step S104 User B makes the following user utterances at times t4 to t5 during the above-mentioned agent utterances.
  • User utterance Mr. Sato?
  • the agent utterance and the user utterance overlap (speech utterance).
  • Step S105 At time t4, the agent device 10 detects the occurrence of an overlap (utterance cover) between the agent utterance and the user utterance.
  • the agent device 10 detects the overlap (utterance cover) of this utterance at time t4, the agent utterance that is being executed is stopped, and the display data recorded in the storage unit corresponding to the stopped agent utterance or the stopped agent.
  • the utterance text data is output to the display unit 13.
  • the agent device 10 makes the above utterance and also executes a call process to Mr. Sato via the communication network.
  • an overlap (utterance cover) between the agent utterance and the user utterance occurs at time t4.
  • the agent device 10 stops the currently executing agent utterance in response to the detection of the utterance overlap (utterance cover) at time t4, and the display data recorded in the storage unit or the stop in response to the stopped agent utterance.
  • FIGS. 5 and 6 As in FIG. 4, the agent device 10 installed at the reception desk of the company and the utterances and display data of the two visitors, user A and user B, who came to the reception desk are shown from the left. It is shown according to the time axis flowing to the right.
  • step S121 to step S131 are the processing steps shown in FIGS. 5 and 6.
  • step S121 to step S131 are the processing steps shown in FIGS. 5 and 6.
  • Step S122 The user A who has heard the agent utterance executes the following user utterances at times t2 to t3.
  • User utterance Mr. Sato
  • Step S123 The agent device 10 that has input the user utterance executes voice recognition and semantic analysis of the user utterance, generates a response according to the voice analysis result, and starts the following agent utterance from the time t3.
  • Agent utterance Sato (shin, please wait a moment)
  • step S124 the user utterance in the following step S124 is performed at the timing of the utterance (time t4) until "at Sato".
  • Step S124 User B makes the following user utterances at times t4 to t5 during the above-mentioned agent utterances.
  • User utterance Mr. Sato?
  • the agent utterance and the user utterance overlap (speech utterance).
  • Step S125 At time t4, the agent device 10 detects the occurrence of an overlap (utterance cover) between the agent utterance and the user utterance.
  • the agent device 10 detects the overlap (utterance cover) of this utterance at time t4, the agent utterance that is being executed is stopped, and the display data recorded in the storage unit corresponding to the stopped agent utterance or the stopped agent.
  • the utterance text data is output to the display unit 13.
  • User utterance Oh, Mr. Kato
  • Agent display data Kato, not Sato?
  • the utterance text of the agent's utterance is output as it is as display data.
  • the data processing unit of the agent device 10 means meaningless utterances such as "Ah”, “Ah”, “Eh”, and “Hmm” included in user utterances, so-called “fillers”. Set not to be analyzed. The filler part is identified during voice recognition and excluded from the semantic analysis target. By performing such processing, it becomes possible to perform the processing quickly. However, as long as it is a device capable of high-speed processing, it may be configured to analyze the meaning of all user utterances.
  • Step S129 Further, at time t9, the user A makes the following utterance.
  • User utterance dangerous, dangerous
  • Agent display data Kato, not Sato
  • Agent display data Kato, not Sato
  • Step S131 the agent device 10 executes the following agent utterances at times t12 to t13.
  • Agent utterance Kato is called. please wait a little bit
  • the agent device 10 makes the above utterance and also executes a call process to Mr. Kato via the communication network.
  • an overlap (utterance cover) between the agent utterance and the user utterance occurs at time t4, as in the sequence of FIG. 4 described above.
  • the agent device 10 stops the currently executing agent utterance in response to the detection of the utterance overlap (utterance cover) at time t4, and the display data recorded in the storage unit or the stop in response to the stopped agent utterance.
  • the agent device 10 may execute the agent utterance here, but it is judged that it is difficult to hear "Sato-sama” and "Kato-sama” because they have similar pronunciations, and the dialogue is performed by switching the display data as it is. continuing. In this way, the agent device determines whether the agent utterance or the output of the display data can accurately convey the information, selects a means capable of transmitting the information with higher accuracy, and executes the information output. ..
  • FIGS. 7 and 8 also show the agent device 10 installed at the reception desk of the company and the utterances and display data of the two visitors, User A and User B, who came to the reception desk, according to the time axis flowing from left to right. Shows.
  • steps S141 to S148 are the processing steps shown in FIGS. 7 and 8.
  • steps S141 to S148 are the processing steps shown in FIGS. 7 and 8.
  • each processing step will be described in order.
  • Steps S141 to S146 The process of steps S141 to S146 shown in FIG. 7 is the same process as the process of steps S121 to S126 described above with reference to FIG.
  • the agent device 10 stops the executing agent utterance, and the display data recorded in the storage unit corresponding to the stopped agent utterance or the text data of the stopped agent utterance. Is output to the display unit 13.
  • This display data is the display data for the times t4 to t7 shown in the figure (step S145). That is, the following agent display data is displayed on the display unit 13.
  • Agent display data Sato. please wait a little bit
  • Agent display data Kato, not Sato?
  • the utterance text of the agent's utterance is output as it is as display data.
  • the agent device 10 executes the following agent utterances at times t8 to t9.
  • Agent utterance Kato is called. please wait a little bit
  • the agent device 10 makes the above utterance and also executes a call process to Mr. Kato via the communication network.
  • agent display data Sato?
  • 9 and 10 show the agent device 10 installed at the reception desk of the bank and the utterances and display data of the user A who is one visitor who came to the bank according to the time axis flowing from left to right. There is.
  • steps S201 to S208 which are the processing steps shown in FIGS. 9 and 10.
  • steps S201 to S208 which are the processing steps shown in FIGS. 9 and 10.
  • each processing step will be described in order.
  • step S202 the user utterance in the following step S202 is performed at the timing of the utterance (time t2) until "what is today".
  • Step S202 The user B makes the following user utterances at times t2 to t4 during the above-mentioned agent utterances.
  • User utterance I could't find the passbook I used in the past
  • the agent utterance and the user utterance overlap (speech utterance).
  • Step S203 At time t2, the agent device 10 detects the occurrence of an overlap (utterance cover) between the agent utterance and the user utterance.
  • the agent device 10 stops the executing agent utterance, and the display data recorded in the storage unit corresponding to the stopped agent utterance or the stopped agent.
  • the utterance text data is output to the display unit 13.
  • agent display data reissue of credit cards, etc.?
  • User utterance Yes Alternatively, user A gazes at the display unit 13 while speaking or without speaking.
  • the agent device 10 confirms that the above-mentioned user utterance has been performed, or confirms that the user A is gazing at the display unit 13 based on the captured image of the camera 11.
  • the agent device 10 displays the following display data on the display unit 13 in step S206 (time t6).
  • Agent display data credit card reissue, passbook reissue, stamp re-registration, etc.
  • an overlap (utterance cover) between the agent utterance and the user utterance occurs at time t2.
  • the agent device 10 stops the currently executing agent utterance in response to the detection of the utterance overlap (utterance cover) at time t2, and the display data recorded in the storage unit or the stop in response to the stopped agent utterance.
  • the text data of the agent's utterance is output to the display unit 13. That is, it is the display data of the times t2 to t5 shown in FIG.
  • the display data is sequentially switched according to the user's reaction such as the user's utterance and the gaze mode.
  • the agent device 10 is used. , Performs processing that preferentially uses display data over audio output.
  • 11 and 12 show the agent device 10 installed at the reception desk of the bank and the utterances and display data of the user A who is one visitor who came to the bank according to the time axis flowing from left to right. There is.
  • the processing is executed in the order of steps S221 to S227, which are the processing steps shown in FIGS. 11 and 12. Hereinafter, each processing step will be described in order.
  • step S222 the user utterance in the following step S222 is performed at the timing of the utterance (time t2) until "what is today".
  • Step S222 The user B makes the following user utterances at times t2 to t3 during the above-mentioned agent utterances.
  • User utterance I lost my credit card, so please reissue it.
  • the agent utterance and the user utterance overlap (speech utterance).
  • Step S223 the agent device 10 detects the occurrence of an overlap (utterance cover) between the agent utterance and the user utterance.
  • the agent device 10 stops the executing agent utterance, and the display data recorded in the storage unit corresponding to the stopped agent utterance or the stopped agent.
  • the utterance text data is output to the display unit 13.
  • the credit card reissue procedure is performed".
  • User utterance If you reissue a credit card, you don't need a seal, and it was free before, but it doesn't cost money.
  • Step S226) The agent device 10 switches the display data of the display unit 13 to the following display data within the execution period (t4 to t6) of the user utterance in step S225.
  • Agent display data The following is required to reissue. ID card, registered seal
  • This display data was shown as display data, not voice data, in order to accurately convey to the user the documents required for the credit reissue procedure.
  • an overlap (utterance cover) between the agent utterance and the user utterance occurs at time t2.
  • the agent device 10 stops the currently executing agent utterance in response to the detection of the utterance overlap (utterance cover) at time t2, and the display data recorded in the storage unit or the stop in response to the stopped agent utterance.
  • the text data of the agent's utterance is output to the display unit 13.
  • the agent device 10 appropriately uses the output of the display data to the display unit 13 and the audio output via the speaker nou.
  • the agent device 10 uses the display unit 13 to output information when the information to be notified to the user is important, complicated, or large in number. On the other hand, when the information to be notified to the user is not important or complicated, processing switching such as executing the information output as a voice output via the speaker 11 is executed. These output mode selection processes are executed according to a predetermined algorithm.
  • Example 1 in which user A in the driver's seat and user B in the passenger seat talk to the driver's seat agent device A and the passenger seat agent device B, respectively).
  • Example 1 Example 1 in which the driver seat user A and the passenger seat user B talk to the driver seat agent device A and the passenger seat agent device B, respectively, will be described.
  • the driver's seat agent device A and the passenger seat agent device B are, for example, navigation devices.
  • FIGS. 13 and 14 show the driver's seat agent device A installed in the driver's seat of the vehicle, the passenger seat agent device B installed in the passenger seat, the user A (driver) in the driver's seat, and the passenger seat.
  • the utterances and display data of the user B (passenger) in the passenger seat are shown according to the time axis flowing from left to right.
  • the processing is executed in the order of steps S301 to S310, which are the processing steps shown in FIGS. 13 and 14. Hereinafter, each processing step will be described in order.
  • Step S301 First, the driver's seat agent device A executes the following agent utterances.
  • Agent utterance 2 km ahead (turn right at the convenience store)
  • the utterance of this agent device is an utterance that provides information for the user A (driver) to travel according to a preset route to the destination.
  • step S302 the user utterance in the following step S302 is performed at the timing of the utterance (time t2) until "2 km ahead".
  • Step S302 The user A (driver) makes the following user utterances at times t2 to t3 during the above-mentioned agent utterances.
  • User utterance which restaurant should I go to?
  • the agent utterance and the user utterance overlap (speech utterance).
  • Step S303 At time t2, the driver's seat agent device A10 detects the occurrence of an overlap (utterance cover) between the agent utterance and the user utterance.
  • the driver's seat agent device A detects the overlap (utterance cover) of this utterance at time t2, the executing agent utterance is stopped, and the display data recorded in the storage unit or the stop corresponding to the stopped agent utterance is stopped.
  • the text data of the agent's utterance is output to the display unit 13.
  • This display data is the display data for the times t2 to t5 shown in the figure. That is, the following agent display data is displayed on the display unit of the driver's seat agent device A.
  • Agent display data 2km ahead, turn right at convenience store
  • Step S305 Further, the user A (driver) continues the following user utterances endlessly for a while during the time t4 transition.
  • User utterance That's right, meat ...
  • Step S306 the driver's seat agent device A switches the display data of the display unit to the following display data at time t5 as the vehicle progresses.
  • Agent display data 1km ahead, turn right at convenience store
  • Step S307 the driver's seat agent device A switches the display data of the display unit to the following display data at time t6 as the vehicle progresses.
  • Agent display data 0.5km ahead, turn right at convenience store
  • Step S308 the passenger seat agent device B also outputs the following display data to the display unit at time t6.
  • Agent display data 0.5km ahead, turn right at convenience store
  • Step S310 Further, the passenger seat agent device B also outputs the following display data to the display unit at time t7.
  • Agent display data 200m ahead, turn right at convenience store
  • This processing is also executed by the control of the data processing unit that performs integrated control of the agent devices A and B, for example, the agent device A or the data processing unit in the agent device B.
  • the agent device A or the data processing unit in the agent device B When either of the two agent devices outputs audio, the other agent device outputs display data without executing audio output. By performing such control, it is possible to prevent the occurrence of utterance cover between agent devices.
  • Example 2 in which user A in the driver's seat and user B in the passenger seat talk to the driver's seat agent device A and the passenger seat agent device B, respectively).
  • Example 2 will be described in which (c2) user A in the driver's seat and user B in the passenger seat talk to the driver's seat agent device A and the passenger seat agent device B, respectively.
  • the driver's seat agent device A and the passenger seat agent device B are, for example, navigation devices.
  • 15 and 16 show the driver's seat agent device A installed in the driver's seat of the vehicle, the passenger seat agent device B installed in the passenger seat, and the driver's seat, as in FIGS. 13 and 14 described above.
  • the utterances and display data of the user A (driver) in the passenger seat and the user B (passenger seat) in the passenger seat are shown according to the time axis flowing from left to right.
  • the processing is executed in the order of steps S321 to S331, which are the processing steps shown in FIGS. 15 and 16. Hereinafter, each processing step will be described in order.
  • Steps S321 to S328 The processes of steps S321 to S328 are the same as the processes of steps S301 to S308 described above with reference to FIGS. 13 and 14.
  • step S321 the driver's seat agent device A executes the following agent utterance.
  • Agent utterance 2 km ahead (turn right at the convenience store)
  • the following user utterance in step S322 is performed at the timing of the utterance (time t2) until "2 km ahead".
  • User utterance which restaurant should I go to?
  • the driver's seat agent device A10 detects the occurrence of an overlap (utterance cover) between the agent's utterance and the user's utterance at the time t2, the driver's seat agent device A stops the agent's utterance at the time t2, and the stopped agent's utterance is started.
  • the display data recorded in the storage unit is displayed on the display unit of the driver's seat agent device A.
  • Agent display data 2km ahead, turn right at convenience store
  • User B sitting in the passenger seat makes the following user utterances at time t3.
  • User utterance That's right.
  • user A driver
  • User utterance That's right, meat ...
  • the driver's seat agent device A sequentially switches the display data of the display unit to the following display data in step S326 (time t5) and step S327 (t6) as the vehicle progresses.
  • Agent display data 1 km ahead, turn right at convenience store
  • Agent display data 0.5 km ahead, turn right at convenience store
  • the passenger seat agent device B also outputs the following display data to the display unit in step S328 (time t6).
  • Agent display data 0.5km ahead, turn right at convenience store
  • the driver's seat agent device A executes the agent utterance and the display process on the display unit in parallel.
  • agent utterance and display processing on the display unit are executed in parallel.
  • Step S331 the passenger seat agent device B also outputs the following display data to the display unit at time t7.
  • Agent display data 200m ahead, turn right at convenience store
  • the driver's seat agent device A is characterized in that the agent utterance and the display processing on the display unit are executed in parallel.
  • the agent device of the present disclosure determines the importance of the notification information to the user, and in the case of the notification information of high importance, the agent utterance and the display process on the display unit are executed in parallel.
  • Example 3 in which user A in the driver's seat and user B in the passenger seat talk to the driver's seat agent device A and the passenger seat agent device B, respectively).
  • Example 3 will be described in which (c3) user A in the driver's seat and user B in the passenger seat talk to the driver's seat agent device A and the passenger seat agent device B, respectively.
  • the driver's seat agent device A and the passenger seat agent device B are, for example, navigation devices.
  • 17 and 18 show the driver's seat agent device A installed in the driver's seat of the vehicle, the passenger seat agent device B installed in the passenger seat, and the driver's seat, as in FIGS. 13 and 14 described above.
  • the utterances and display data of the user A (driver) in the passenger seat and the user B (passenger seat) in the passenger seat are shown according to the time axis flowing from left to right.
  • steps S341 to S352 are the processing steps shown in FIGS. 17 and 18.
  • steps S341 to S352 are the processing steps shown in FIGS. 17 and 18.
  • each processing step will be described in order.
  • Steps S341 to S3448 The processes of steps S341 to S348 are the same as the processes of steps S301 to S308 described above with reference to FIGS. 13 and 14.
  • step S341 the driver's seat agent device A executes the following agent utterance.
  • Agent utterance 2 km ahead (turn right at the convenience store)
  • the following user utterance in step S342 is performed at the timing of the utterance (time t2) until "2 km ahead".
  • User utterance which restaurant should I go to?
  • the driver's seat agent device A10 detects the occurrence of an overlap (utterance cover) between the agent's utterance and the user's utterance at the time t2, the driver's seat agent device A stops the agent's utterance at the time t2, and the stopped agent's utterance is started.
  • the display data recorded in the storage unit is displayed on the display unit of the driver's seat agent device A.
  • Agent display data 2km ahead, turn right at convenience store
  • User B sitting in the passenger seat makes the following user utterances at time t3.
  • User utterance That's right.
  • user A driver
  • User utterance That's right, meat ...
  • the driver's seat agent device A sequentially switches the display data of the display unit to the following display data in step S346 (time t5) and step S347 (t6) as the vehicle progresses.
  • Agent display data 1 km ahead, turn right at convenience store
  • Agent display data 0.5 km ahead, turn right at convenience store
  • the passenger seat agent device B also outputs the following display data to the display unit in step S348 (time t6).
  • Agent display data 0.5km ahead, turn right at convenience store
  • This example is also an example in which the driver's seat agent device A executes the agent utterance and the display process on the display unit in parallel. In the case of notification processing of information of high importance as described above, agent utterance and display processing on the display unit are executed in parallel.
  • Steps S351 to S352 the passenger seat agent device B also outputs the following agent utterances in step S351 (time t7).
  • Agent utterance Turn right at the convenience store 200 m ahead.
  • step S352 at the same time t7, the display data of the display unit is sequentially switched to the following display data.
  • Agent display data 200km ahead, turn right at convenience store
  • steps S349 to S352 the two agent devices, the driver's seat agent device A and the passenger seat agent device B, are characterized in that the agent utterance and the display processing on the display unit are executed in parallel. Is.
  • the driver's seat agent device A and the passenger seat agent device are controlled by the control of the data processing unit that performs integrated control of the agent devices A and B, for example, the agent device A or the data processing unit in the agent device B.
  • the two agent devices of B make the same agent utterance at the same timing. That is, by speaking in the same order so that the utterance does not shift, it is possible to prevent the occurrence of a difficult-to-hear state and to have the two agent devices perform the utterance.
  • agent device 10 of the present disclosure The plurality of processing sequences executed by the agent device 10 of the present disclosure have been described above.
  • the agent device 10 of the present disclosure may be configured to execute the following processing, for example.
  • the display data is changed to data including a more detailed explanation. For example, processing such as changing the text-only day display data to display data including animation is performed.
  • the display data is erased.
  • the display data is changed according to the content of the user's utterance. For example, display data that matches the content of the user's utterance is selected and displayed.
  • FIG. 19 The sequence of processing executed by the information processing apparatus of the present disclosure, that is, the agent apparatus, will be described with reference to the flowcharts below.
  • the process according to the flowchart shown in FIG. 19 and below is executed according to the program stored in the storage unit of the agent device which is an information processing device. For example, it can be executed as a program execution process by a processor such as a CPU having a program execution function.
  • FIG. 19 is a flowchart illustrating a sequence of basic processing examples in which agent utterance is stopped and display data is output based on the detection of utterance cover. The processing of each step of the flow shown in FIG. 19 will be sequentially described.
  • Step S501 First, in step S501, the data processing unit of the agent device executes the input presence / absence detection process of the user utterance during the agent utterance execution.
  • Step S502 the data processing unit of the agent device determines in step S502 whether or not the user utterance input during agent utterance execution is detected, and if the user utterance input is detected, proceeds to step S503. On the other hand, if the user utterance input is not detected, the process returns to step S501, and the input presence / absence detection process of the user utterance during the agent utterance execution is continuously executed.
  • Step S503 The process of step S503 is executed when the user utterance input during agent utterance execution is detected in step S502.
  • the data processing unit of the agent device stops the agent utterance in step S503, and outputs the display data associated with the stopped agent utterance data to the display unit.
  • the user can confirm that the agent device wanted to convey by looking at the data displayed on the display unit even if the user missed the agent's utterance.
  • FIG. 20 is a flowchart illustrating a sequence of processing examples in which display data is also output while continuing agent utterance based on the detection of utterance cover. The processing of each step of the flow shown in FIG. 20 will be sequentially described.
  • Step S521 First, in step S521, the data processing unit of the agent device executes the input presence / absence detection process of the user utterance during the agent utterance execution.
  • Step S522 the data processing unit of the agent device determines in step S522 whether or not the user utterance input during agent utterance execution is detected, and if the user utterance input is detected, proceeds to step S523. On the other hand, if the user utterance input is not detected, the process returns to step S521, and the input presence / absence detection process of the user utterance during the agent utterance execution is continuously executed.
  • Step S523 The process of step S523 is executed when the user utterance input during agent utterance execution is detected in step S522.
  • the data processing unit of the agent device outputs the display data associated with the agent utterance data to the display unit while continuing the agent utterance.
  • the user can confirm that the agent device wanted to convey based on either the agent's utterance, the data displayed on the display unit, or both.
  • FIG. 21 is a flowchart illustrating a sequence of processing examples in which display data is output when a predetermined condition is satisfied by executing determination processing based on the importance of utterance and the like in addition to detecting utterance cover. The processing of each step of the flow shown in FIG. 21 will be sequentially described.
  • Step S541 First, in step S541, the data processing unit of the agent device executes the input presence / absence detection process of the user utterance during the agent utterance execution.
  • Step S542 the data processing unit of the agent device determines in step S542 whether or not the user utterance input during agent utterance execution is detected, and if the user utterance input is detected, proceeds to step S543. On the other hand, if the user utterance input is not detected, the process returns to step S541 and continuously executes the input presence / absence detection process of the user utterance during the agent utterance execution.
  • Step S543 The process of step S543 is executed when the user utterance input during agent utterance execution is detected in step S542.
  • the data processing unit of the agent apparatus determines in step S543 at least one of the importance or complexity of the agent utterance being executed.
  • the importance and complexity of the agent utterance are recorded in the database in advance, and the data processing unit of the agent device determines by referring to this recorded data.
  • Step S544 The process of step S544 is a branch process based on the determination result of step S543. If the data processing unit of the agent apparatus determines in step S544 that the agent utterance being executed is "highly important" or “highly complex", or at least one of these, the process proceeds to step S545. ..
  • step S546 if it is determined that the agent's utterance being executed is "low importance" and “low complexity", and these two conditions are satisfied, the process proceeds to step S546.
  • Step S545 The process of step S545 is executed when it is determined in step S544 that the agent utterance being executed is "highly important” or “highly complex", or at least one of these.
  • step S545 the data processing unit of the agent device outputs the display data associated with the agent utterance data to the display unit while continuing the agent utterance.
  • the user can confirm that the agent device wanted to convey based on either the agent's utterance, the data displayed on the display unit, or both.
  • Step S546 The process of step S546 is executed when it is determined in step S544 that the agent utterance being executed is "less important” and “less complex", and these two conditions are satisfied.
  • the data processing unit of the agent device stops the agent utterance in step S546, and outputs the display data associated with the stopped agent utterance data to the display unit.
  • the user can confirm that the agent device wanted to convey based on the data displayed on the display unit even if the agent missed the utterance.
  • FIG. 22 is a flowchart illustrating a sequence of processing examples in which the user's comprehension is estimated and display data is output based on the estimation result, in addition to the detection of utterance cover. The processing of each step of the flow shown in FIG. 22 will be sequentially described.
  • Step S551 First, in step S551, the data processing unit of the agent device executes the input presence / absence detection process of the user utterance during the agent utterance execution.
  • Step S552 the data processing unit of the agent device determines in step S552 whether or not the user utterance input during agent utterance execution is detected, and if the user utterance input is detected, proceeds to step S553. On the other hand, if the user utterance input is not detected, the process returns to step S551, and the input presence / absence detection process of the user utterance during the agent utterance execution is continuously executed.
  • Step S553 The process of step S553 is executed when the user utterance input during agent utterance execution is detected in step S552.
  • the data processing unit of the agent device executes the analysis process of the user listening to the agent utterance in step S553. Specifically, for example, an analysis process is performed to determine whether or not the user is a user who does not have a high level of understanding, such as an elderly person or a child. Or, do you have a face that understands the agent's utterance by analyzing the user's facial expression? Analyze whether you have a troubled face. Further, for example, a user information database in which a user's face is registered in advance may be referred to to determine whether or not the user is a regular user.
  • Step S554 The process of step S554 is a branch process based on the determination result of step S553.
  • the data processing unit of the agent apparatus proceeds to step S555 when it is estimated that the user listening to the agent utterance has a high understanding of the agent utterance.
  • step S556 if it is estimated that the user listening to the agent utterance has a high understanding of the agent utterance, the process proceeds to step S556.
  • Step S555 The process of step S555 is executed in step S554 when the user listening to the agent utterance is presumed to have a high understanding of the agent utterance.
  • step S545 the data processing unit of the agent device outputs the display data associated with the agent utterance data to the display unit while continuing the agent utterance.
  • the user can confirm that the agent device wanted to convey based on either the agent's utterance, the data displayed on the display unit, or both.
  • Step S556 The process of step S556 is executed in step S554 when the user listening to the agent utterance is presumed to have a high understanding of the agent utterance.
  • the data processing unit of the agent device stops the agent utterance in step S546, and outputs the display data associated with the stopped agent utterance data to the display unit.
  • the user can confirm that the agent device wanted to convey based on the data displayed on the display unit even if the user could not understand the agent's utterance.
  • FIG. 23 is a flowchart illustrating a sequence of processing examples of stop and switching control of display data output to the display unit. The processing of each step of the flow shown in FIG. 23 will be sequentially described.
  • Step S561 First, in step S561, the data processing unit of the agent device analyzes the content of the user's utterance during the period in which the display data is output to the display unit.
  • Step S562 in the data processing unit of the agent device, the user utterance content during the period in which the display data is output to the display unit is the user utterance content and the topic at the output start timing of the display data displayed on the display unit. Determine if matches or changes.
  • step S563 If it is determined that the user's utterance content does not match the topic at the output start timing of the display data displayed on the display unit and the topic is changed, the process proceeds to step S563. On the other hand, if it is determined that they do not change and match, the process proceeds to step S564.
  • Step S563 The process of step S563 is executed when it is determined in step S562 that the user utterance content does not match the topic at the output start timing of the display data displayed on the display unit and is changed.
  • the data processing unit of the agent device executes a process of stopping or switching the display processing of the display data displayed on the display unit in step S562.
  • Step S564 the process of step S564 is executed when it is determined in step S562 that the user utterance content matches the topic at the output start timing of the display data displayed on the display unit.
  • the data processing unit of the agent device executes a process of continuing the display processing of the display data displayed on the display unit in step S564. Further, the process returns to step S561 and the analysis process of the user's utterance content is continued.
  • the user can stop or switch the display data after verifying whether or not the data displayed on the display unit of the agent device has been confirmed.
  • FIG. 24 is a diagram showing a configuration example of an information processing device 10 that inputs a user utterance and performs a process and a response corresponding to the user utterance.
  • the agent device 10 includes an input unit 110, an output unit 120, a data processing unit 130, a storage unit 170, and a communication unit 180.
  • the data processing unit 130 includes an input data analysis unit 140, a data processing execution unit 150, and an output information generation unit 160.
  • the storage unit 170 has an output data registration database 171 and a user information database 172.
  • the data processing unit 130 and the storage unit 170 other than the input unit 110 and the output unit 120 may be configured not in the agent device 10 but in an external server.
  • the agent device 10 transmits the input data input from the input unit 110 to the server via the network, receives the processing result of the day processing unit 130 of the server, and outputs the output unit 120. Output via.
  • the input unit 110 includes a voice input unit (microphone) 111, an image input unit (camera) 112, and a sensor 113.
  • the output unit 120 includes an audio output unit (speaker) 121 and an image output unit (display unit) 122.
  • the agent device 10 has, at a minimum, these components.
  • the voice input unit (microphone) 111 corresponds to the microphone 12 of the agent device 10 shown in FIG.
  • the image input unit (camera) 112 corresponds to the camera 11 of the agent device 10 shown in FIG.
  • the voice input unit (microphone) 111 is preferably configured to have, for example, a beamforming function that selectively acquires only the voice of a user who is immediately in front of the agent device 10. Further, the user position is determined based on the captured image of the image input unit (camera) 112, and the voice input unit (microphone) 111 selectively acquires the utterance of the analyzed user position by the beam forming function. May be.
  • the sensor 113 corresponds to the sensor 15 of the agent device 10 shown in FIG.
  • the sensor 113 is composed of various sensors such as a distance sensor, a position sensor such as GPS, and a temperature sensor.
  • the audio output unit (speaker) 121 corresponds to the speaker 14 of the agent device 10 shown in FIG.
  • the image output unit (display unit) 122 corresponds to the display unit 13 of the agent device 10 shown in FIG.
  • the image output unit (display unit) 122 can be configured by, for example, a projector or the like, or can be configured by using the display unit of a television of an external device.
  • the data processing unit 130 has an input data analysis unit 140, a data processing execution unit 150, and an output information generation unit 160.
  • the input data analysis unit 140 includes a voice analysis unit 141, an image analysis unit 142, and a sensor information analysis unit 14.
  • the output information generation unit 160 includes an output voice generation unit 161 and a display information generation unit 162.
  • the user's spoken voice is input to a voice input unit 111 such as a microphone.
  • the voice input unit (microphone) 111 inputs the input user-spoken voice to the voice analysis unit 141.
  • the voice analysis unit 141 has, for example, an ASR (Automatic Speech Recognition) function, and converts voice data into text data composed of a plurality of words.
  • ASR Automatic Speech Recognition
  • the voice analysis unit 141 further executes an utterance semantic analysis process for the text data.
  • the voice analysis unit 141 has a natural language understanding function such as NLU (Natural Language Understanding), and the intention (intent) of the user's utterance from the text data and a meaningful significant element (slot) included in the utterance. : Slot) is estimated. If the intention (intent) and the significant element (slot) can be accurately estimated and acquired from the user's utterance, the agent device 10 can perform accurate processing for the user's utterance.
  • the analysis result of the voice analysis unit 141 is input to the data processing execution unit 150.
  • the image input unit 112 captures an image of the utterance user and its surroundings and inputs the image to the image analysis unit 162.
  • the image analysis unit 142 analyzes the facial expression of the speaking user, the behavior of the user, the surrounding information of the speaking user, and the like, and inputs the analysis result to the data processing execution unit 150.
  • the sensor 113 is composed of various sensors such as a distance sensor, a position sensor such as GPS, and a temperature sensor, and the acquired information of the sensor 113 is input to the sensor information analysis unit 143.
  • the sensor information analysis unit 143 acquires data such as the current position and temperature based on the sensor acquisition information, and inputs the analysis result to the data processing execution unit 150.
  • the data processing execution unit 150 includes an utterance cover detection unit 151, an output destination control unit 152, and a user analysis unit 153.
  • the utterance cover detection unit 151 detects the overlap between the agent utterance and the user utterance, that is, the presence or absence of “speech cover”. Whether the output destination control unit 152 executes agent utterance via the voice output unit (speaker) 121 of the output unit 120 or outputs display data via the image output unit (display unit) 122 of the output unit 120. Is determined, and the agent speaks or displays the display data to the determined output destination. Specifically, for example, the output destination is determined according to the process described above with reference to the flowcharts of FIGS. 19 to 22.
  • the user analysis unit 153 analyzes the user included in the image captured by the camera based on the information input from the input data analysis unit 140, for example, the input information from the image analysis unit 142. For example, the analysis process of the user listening to the agent's utterance is executed. Specifically, for example, an analysis process is performed to determine whether or not the user is a user who does not have a high level of understanding, such as an elderly person or a child. Or, do you have a face that understands the agent's utterance by analyzing the user's facial expression? Analyze whether you have a troubled face. Further, for example, by referring to the user information database 172 in which the user's face is registered in advance, it is determined whether or not the user is a regular user.
  • the output destination control unit 152 also applies the information analyzed by the user analysis unit 153 to execute agent utterance via the voice output unit (speaker) 121 of the output unit 120, or the image output unit (image output unit 120 of the output unit 120).
  • Display unit Determines whether to execute display data output via 122.
  • the output information generation unit 160 includes an output voice generation unit 161 and a display information generation unit 162.
  • the output voice generation unit 161 generates the agent-spoken voice.
  • the response voice information generated by the output voice generation unit 161 is output via the voice output unit 121 such as a speaker.
  • the display information generation unit 162 displays display data corresponding to the agent utterance to the user, text information of the agent utterance, and other presentation information.
  • the output data registration database 171 of the storage unit 170 is a database in which typical agent utterance data, corresponding display data, and the importance and complexity of the information are recorded.
  • FIG. 25 shows an example of the registration data of the output data registration database 171.
  • the output data registration database 171 records typical agent utterance data, corresponding display data, and the importance and complexity of such information. The process according to the flow shown in FIG. 21 described above is executed with reference to this database.
  • the user information database 172 is a database that records, for example, face information for identifying a user who interacts with the agent device 10, age, gender, number of visits, user profile information such as whether or not the user is a regular user, and the like.
  • FIG. 24 has been described as a configuration example of the agent device 10, as described above, the data processing unit 130 and the storage unit 170 other than the input unit 110 and the output unit 120 in the configuration shown in FIG. 24 are the agent devices. It may not be configured in 10 but may be configured in an external server.
  • agent devices 10 which are user terminals and a data processing server 50 are connected via a network.
  • Each agent device 10 is composed of terminals such as smartphones and PCs owned by each individual and user terminals such as smart speakers in each house.
  • Each agent device 10 transmits the dialogue information with each user executed by the agent device 10, the image information, the voice information, the sensor detection information, etc. acquired via the input unit to the data processing server 50.
  • the data processing server 50 receives various information from each agent device 10 and performs analysis. Such a configuration can be made.
  • the agent device 10 may have an input unit 110 and an output unit 120
  • the data processing server 50 may have a data processing unit 130 and a storage unit 170.
  • the agent device 10 has an input unit 110 and an input data analysis unit 140, and further has an output information generation unit 160 and an output unit 120, and the data processing server 50 has a data processing execution unit 150 and a storage unit. It is also possible to have a configuration having 170.
  • the data processing server 50 can input and analyze the dialogue information with the user in a large number of agent devices 10 connected to the network, and has higher accuracy. It becomes possible to perform analysis.
  • FIG. 29 a hardware configuration example of the agent device (information processing device) will be described with reference to FIG. 29.
  • the hardware described with reference to FIG. 29 is one specific hardware configuration example of the information processing apparatus 10 described above with reference to FIGS. 24, 27, and 28, and is also FIG. 27. It is also an example of the hardware configuration of the information processing apparatus constituting the data processing server 50 described with reference to FIG. 28.
  • the CPU (Central Processing Unit) 301 functions as a control unit or a data processing unit that executes various processes according to a program stored in the ROM (Read Only Memory) 302 or the storage unit 308. For example, the process according to the sequence described in the above-described embodiment is executed.
  • the RAM (Random Access Memory) 303 stores programs and data executed by the CPU 301. These CPU 301, ROM 302, and RAM 303 are connected to each other by a bus 304.
  • the CPU 301 is connected to the input / output interface 305 via the bus 304, and the input / output interface 305 is connected to an input unit 306 consisting of various switches, a keyboard, a mouse, a microphone, a sensor, etc., and an output unit 307 consisting of a display, a speaker, and the like. Has been done.
  • the CPU 301 executes various processes in response to commands input from the input unit 306, and outputs the process results to, for example, the output unit 307.
  • the storage unit 308 connected to the input / output interface 305 is composed of, for example, a hard disk or the like, and stores programs executed by the CPU 301 and various data.
  • the communication unit 309 functions as a transmission / reception unit for Wi-Fi communication, Bluetooth (registered trademark) (BT) communication, and other data communication via a network such as the Internet or a local area network, and communicates with an external device.
  • Wi-Fi Wi-Fi
  • BT registered trademark
  • the drive 310 connected to the input / output interface 305 drives a removable media 311 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory such as a memory card, and records or reads data.
  • a removable media 311 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory such as a memory card
  • An utterance cover detection unit that detects a user's utterance during execution of an agent's utterance, which is the utterance of an information processing device.
  • An information processing device having an output destination control unit that outputs display data instead of agent utterances to the display unit when utterance cover is detected in the utterance cover detection unit.
  • the output destination control unit is The information processing device according to (1), wherein when an utterance cover is detected, the agent utterance is stopped and display data instead of the agent utterance is output to the display unit.
  • the output destination control unit is The information processing apparatus according to (1) or (2), wherein when an utterance cover is detected, display data instead of the agent utterance is output to the display unit while continuing the agent utterance.
  • the output destination control unit is Information processing according to any one of (1) to (3), wherein when an utterance cover is detected, at least one of the importance or complexity of the agent utterance is determined, and the output destination control is executed according to the determination result.
  • Device Information processing according to any one of (1) to (3), wherein when an utterance cover is detected, at least one of the importance or complexity of the agent utterance is determined, and the output destination control is executed according to the determination result.
  • the output destination control unit is When utterance cover is detected, if it is determined that at least one of the importance or complexity of the agent utterance is high, the display data instead of the agent utterance is output to the display unit while continuing the agent utterance (1). )-(4) The information processing apparatus according to any one of.
  • the output destination control unit is The information processing apparatus according to any one of (1) to (5), wherein when the utterance cover is detected, the user's comprehension estimation process is executed and the output destination control is executed according to the estimated user's comprehension.
  • the output destination control unit is The information processing according to any one of (1) to (6), which executes the user's comprehension estimation process by analyzing the user's image included in the camera-captured image, and executes the output destination control according to the estimated user's comprehension. Device.
  • the output destination control unit is The information processing device according to any one of (1) to (7), which acquires display data stored in a storage unit in association with an agent utterance and outputs the display data to the display unit.
  • the output destination control unit is The information processing apparatus according to any one of (1) to (8), which outputs text data spoken by an agent to a display unit.
  • the output destination control unit is The information processing apparatus according to any one of (1) to (9), wherein the user's comprehension estimation process is executed by the user's image analysis included in the camera-captured image, and the display data is changed according to the estimated user's comprehension. ..
  • the output destination control unit is If the content of the user's utterance that is outputting the display data to the display unit matches the content at the start of the display data output, the display data is continuously displayed.
  • the information processing apparatus according to any one of (1) to (10), wherein if they do not match, the output of the display data is stopped or a process of changing to another display data is executed.
  • An information processing system having an agent device and a data processing server.
  • the agent device is An input unit for inputting user utterances and It has a voice output unit that outputs an agent utterance received from the data processing server and a display unit that outputs display data received from the data processing server.
  • the data processing server is An utterance cover detection unit that detects a user's utterance during execution of an agent's utterance, which is output via the voice output unit of the agent device.
  • An information processing system having an output destination control unit that transmits display data instead of an agent utterance to the agent device and outputs the display data to the display unit of the agent device when the utterance cover detection unit detects the utterance cover. ..
  • the utterance cover detection step in which the utterance cover detection unit detects the user's utterance during execution of the agent's utterance, which is the utterance of the information processing device, and An information processing method in which an output destination control unit executes an output destination control step that outputs display data instead of an agent utterance to the display unit when an utterance cover is detected in the utterance cover detection step.
  • the agent device is An input unit for inputting user utterances and It has a voice output unit that outputs an agent utterance received from the data processing server and a display unit that outputs display data received from the data processing server.
  • the data processing server The utterance cover detection process for detecting the user's utterance during execution of the agent's utterance output via the voice output unit of the agent device, and the utterance cover detection process.
  • Information processing that executes output destination control processing that sends display data instead of agent utterance to the agent device and outputs it to the display unit of the agent device when utterance cover is detected in the utterance cover detection process.
  • a program that executes information processing in an information processing device An utterance cover detection step that causes the utterance cover detection unit to detect the user's utterance during execution of the agent's utterance, which is the utterance of the information processing device.
  • the series of processes described in the specification can be executed by hardware, software, or a composite configuration of both.
  • the program can be pre-recorded on a recording medium.
  • programs can be received via networks such as LAN (Local Area Network) and the Internet, and installed on a recording medium such as a built-in hard disk.
  • the various processes described in the specification are not only executed in chronological order according to the description, but may also be executed in parallel or individually as required by the processing capacity of the device that executes the processes.
  • the system is a logical set configuration of a plurality of devices, and the devices having each configuration are not limited to those in the same housing.
  • the utterance cover detection unit that detects the user utterance during execution of the agent utterance, which is the utterance of the information processing device, and the utterance cover detection unit detect the utterance cover
  • the display instead of the agent utterance is displayed. It has an output destination control unit that outputs data to the display unit.
  • the output destination control unit stops or continues the agent utterance and outputs the display data instead of the agent utterance to the display unit.
  • Agent device 11 Camera 12 Microphone 13 Display unit 14 Speaker 15 Sensor 50 Data processing server 110 Input unit 111 Audio input unit 112 Image input unit 113 Sensor 120 Output unit 121 Audio output unit 122 Image output unit 130 Data processing unit 140 Input data analysis Unit 141 Voice analysis unit 142 Image analysis unit 143 Sensor information analysis unit 150 Data processing execution unit 151 Speech cover detection unit 152 Output destination control unit 153 User analysis unit 160 Output information generation unit 161 Output voice generation unit 162 Display information generation unit 170 Storage Part 171 Output data registration database 172 User information database 301 CPU 302 ROM 303 RAM 304 Bus 305 I / O interface 306 Input section 307 Output section 308 Storage section 309 Communication section 310 Drive 311 Removable media

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

エージェント発話とユーザ発話との発話被りが発生した場合に、エージェント発話の内容を確実にユーザに通知することを可能とした装置、方法を実現する。情報処理装置の発話であるエージェント発話実行中のユーザ発話を検出する発話被り検出部と、発話被り検出部において、発話被りが検出された場合、エージェント発話の代わりの表示データを表示部に出力する出力先制御部を有する。出力先制御部は、発話被りが検出された場合、エージェント発話を停止し、または継続しながらエージェント発話の代わりの表示データを表示部に出力する。

Description

情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
 本開示は、情報処理装置、情報処理システム、および情報処理方法、並びにプログラムに関する。さらに詳細には、ユーザ発話に応じた処理や応答を実行する情報処理装置、情報処理システム、および情報処理方法、並びにプログラムに関する。
 昨今、ユーザ発話の音声認識を行い、認識結果に基づく様々な処理や応答を行う音声対話システムの利用が増大している。
 この音声対話システムにおいては、マイクを介して入力するユーザ発話の解析を行い、解析結果に応じた処理を行う。
 このように、ユーザとの対話を行なう情報処理装置は、エージェント装置やスマートスピーカーと呼ばれる。
 具体的には、例えばユーザとの対話を行うエージェント装置を会社や銀行などの受付に設置して、来訪者の要件を確認するなどの利用が行われている。
 例えば、銀行の受付に設置されたエージェント装置のカメラによって来訪者(ユーザ)が確認された場合、以下のような対話が行われる。
 エージェント装置発話=「ご用件をお聞かせ下さい」
 ユーザ発話=「銀行口座を開設したいのですが」
 このような対話がなされ、エージェント装置によるユーザ発話の解析結果が担当部署に通知されるといった処理がなされる。
 しかし、このようなエージェント装置とユーザとの対話において、エージェント装置とユーザが話すタイミングが重なってしまうことがある。すなわち「発話被り」が発生することがある。
 このように、「発話被り」が発生すると、ユーザは、話の腰を折られて話しづらくなってしまう。また、一般的な人同士の対話において、発話が重なってしまった際と同様、譲り合いや、沈黙となるといったことがあり、会話のテンポが悪くなる。
 また、エージェント装置には、ユーザ発話が検出された場合にエージェント装置の発話を停止して、ユーザ発話の解析を優先して実行する機能を備えたものが多い。
 このような機能を利用した処理を行うと、エージェント装置側から伝えたい情報を、ユーザに迅速に伝えにくくなるという問題が発生する。
 なお、このような「発話被り」の問題を解決する手法を開示した従来技術として、例えば、特許文献1(特開平9-269889号公報)がある。
 この特許文献1は、コンピュータとユーザとの対話システムにおいて、コンピュータがユーザの挙動、例えば視線や表情等を解析して、発話権がコンピュータ側にあるか、ユーザ側にあるかを判定して、判定結果に基づいて、コンピュータ側の発話の実行、待機を制御する構成を開示している。
 しかし、このような手法は、必ずしも常に成功するとは限らず、発話被りの発生を完全に防止することは困難である。
 また、この特許文献には発話被りが発生した場合の解決策についての記載がない。
特開平9-269889号公報
 本開示は、例えば、上記問題点に鑑みてなされたものであり、ユーザとの対話を実行するエージェント装置とユーザの発話タイミングが重なる「発話被り」が発生した場合に、エージェント装置側から伝えたい情報をユーザに確実に伝えることを可能とした情報処理装置、情報処理システム、および情報処理方法、並びにプログラムを提供することを目的とする。
 本開示の第1の側面は、
 情報処理装置の発話であるエージェント発話実行中のユーザ発話を検出する発話被り検出部と、
 前記発話被り検出部において、発話被りが検出された場合、エージェント発話の代わりの表示データを表示部に出力する出力先制御部を有する情報処理装置にある。
 さらに、本開示の第2の側面は、
 エージェント装置と、データ処理サーバを有する情報処理システムであり、
 前記エージェント装置は、
 ユーザ発話を入力する入力部と、
 前記データ処理サーバから受信したエージェント発話を出力する音声出力部と、前記データ処理サーバから受信した表示データを出力する表示部を有し、
 前記データ処理サーバは、
 前記エージェント装置の音声出力部を介して出力されているエージェント発話実行中のユーザ発話を検出する発話被り検出部と、
 前記発話被り検出部において、発話被りが検出された場合、エージェント発話の代わりの表示データを、前記エージェント装置に送信して、前記エージェント装置の表示部に出力する出力先制御部を有する情報処理システムにある。
 さらに、本開示の第3の側面は、
 情報処理装置において実行する情報処理方法であり、
 発話被り検出部が、情報処理装置の発話であるエージェント発話実行中のユーザ発話を検出する発話被り検出ステップと、
 出力先制御部が、前記発話被り検出ステップにおいて、発話被りが検出された場合、エージェント発話の代わりの表示データを表示部に出力する出力先制御ステップを実行する情報処理方法にある。
 さらに、本開示の第4の側面は、
 エージェント装置と、データ処理サーバを有する情報処理システムにおいて実行する情報処理方法であり、
 前記エージェント装置は、
 ユーザ発話を入力する入力部と、
 前記データ処理サーバから受信したエージェント発話を出力する音声出力部と、前記データ処理サーバから受信した表示データを出力する表示部を有し、
 前記データ処理サーバが、
 前記エージェント装置の音声出力部を介して出力されているエージェント発話実行中のユーザ発話を検出する発話被り検出処理と、
 前記発話被り検出処理において、発話被りが検出された場合、エージェント発話の代わりの表示データを、前記エージェント装置に送信して、前記エージェント装置の表示部に出力する出力先制御処理を実行する情報処理方法にある。
 さらに、本開示の第5の側面は、
 情報処理装置において情報処理を実行させるプログラムであり、
 発話被り検出部に、情報処理装置の発話であるエージェント発話実行中のユーザ発話を検出させる発話被り検出ステップと、
 出力先制御部に、前記発話被り検出ステップにおいて、発話被りが検出された場合、エージェント発話の代わりの表示データを表示部に出力させる出力先制御ステップを実行させるプログラムにある。
 なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。
 本開示のさらに他の目的、特徴や利点は、後述する本開示の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
 本開示の一実施例の構成によれば、、エージェント発話とユーザ発話との発話被りが発生した場合に、エージェント発話の内容を確実にユーザに通知することを可能とした装置、方法が実現される。
 具体的には、例えば、情報処理装置の発話であるエージェント発話実行中のユーザ発話を検出する発話被り検出部と、発話被り検出部において、発話被りが検出された場合、エージェント発話の代わりの表示データを表示部に出力する出力先制御部を有する。出力先制御部は、発話被りが検出された場合、エージェント発話を停止し、または継続しながらエージェント発話の代わりの表示データを表示部に出力する。
 本構成により、エージェント発話とユーザ発話との発話被りが発生した場合に、エージェント発話の内容を確実にユーザに通知することを可能とした装置、方法が実現される。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。
エージェント装置(情報処理装置)の構成と処理例について説明する図である。 本開示のエージェント装置(情報処理装置)が実行する処理の一例について説明する図である。 本開示のエージェント装置(情報処理装置)が実行する処理の一例について説明する図である。 本開示のエージェント装置(情報処理装置)が実行する処理シーケンスの一例について説明する図である。 本開示のエージェント装置(情報処理装置)が実行する処理シーケンスの一例について説明する図である。 本開示のエージェント装置(情報処理装置)が実行する処理シーケンスの一例について説明する図である。 本開示のエージェント装置(情報処理装置)が実行する処理シーケンスの一例について説明する図である。 本開示のエージェント装置(情報処理装置)が実行する処理シーケンスの一例について説明する図である。 本開示のエージェント装置(情報処理装置)が実行する処理シーケンスの一例について説明する図である。 本開示のエージェント装置(情報処理装置)が実行する処理シーケンスの一例について説明する図である。 本開示のエージェント装置(情報処理装置)が実行する処理シーケンスの一例について説明する図である。 本開示のエージェント装置(情報処理装置)が実行する処理シーケンスの一例について説明する図である。 本開示のエージェント装置(情報処理装置)が実行する処理シーケンスの一例について説明する図である。 本開示のエージェント装置(情報処理装置)が実行する処理シーケンスの一例について説明する図である。 本開示のエージェント装置(情報処理装置)が実行する処理シーケンスの一例について説明する図である。 本開示のエージェント装置(情報処理装置)が実行する処理シーケンスの一例について説明する図である。 本開示のエージェント装置(情報処理装置)が実行する処理シーケンスの一例について説明する図である。 本開示のエージェント装置(情報処理装置)が実行する処理シーケンスの一例について説明する図である。 本開示のエージェント装置(情報処理装置)が実行する処理シーケンスの一例について説明するフローチャートを示す図である。 本開示のエージェント装置(情報処理装置)が実行する処理シーケンスの一例について説明するフローチャートを示す図である。 本開示のエージェント装置(情報処理装置)が実行する処理シーケンスの一例について説明するフローチャートを示す図である。 本開示のエージェント装置(情報処理装置)が実行する処理シーケンスの一例について説明するフローチャートを示す図である。 本開示のエージェント装置(情報処理装置)が実行する処理シーケンスの一例について説明するフローチャートを示す図である。 本開示のエージェント装置(情報処理装置)の構成例について説明する図である。 出力データ登録データベースの登録データの一例について説明する図である。 本開示のエージェント装置(情報処理装置)とサーバを有するネットワーク構成例でについて説明する図である。 本開示のエージェント装置(情報処理装置)とサーハの構成例について説明する図である。 本開示のエージェント装置(情報処理装置)とサーバの構成例について説明する図である。 本開示のエージェント装置(情報処理装置)のハードウェア構成例について説明する図である。
 以下、図面を参照しながら本開示の情報処理装置、情報処理システム、および情報処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行なう。
 1.本開示の情報処理装置の構成と処理の概要について
 2.本開示の情報処理装置が実行する処理の具体例について
 3.本開示の情報処理装置が実行する処理のシーケンスについて
 4.情報処理装置の構成例について
 5.情報処理装置のハードウェア構成例について
 6.本開示の構成のまとめ
  [1.本開示の情報処理装置の構成と処理の概要について]
 まず、図1以下を参照して、本開示の情報処理装置、すなわち、ユーザ発話に応じた処理を行う情報処理装置の構成と処理の概要について説明する。
 なお、前述したように、ユーザとの対話を行なう情報処理装置は、例えばエージェント装置やスマートスピーカーと呼ばれる。
 図1には、ユーザ1の発するユーザ発話を認識して応答を行う本開示の情報処理装置の一例であるエージェント装置10を示している。
 このエージェント装置10は、例えば銀行の受付に設置されている。
 エージェント装置10のカメラ11によって来訪者であるユーザ1が確認された場合、以下のような対話が行われる。
 エージェント装置発話=「いらっしゃいませ、ご用件をお聞かせ下さい」
 ユーザ発話=「銀行口座を開設したいのですが」
 このような対話がなされ、エージェント装置10により、ユーザ発話が解析され、解析結果が担当部署に通知されるといった処理がなされる。
 図1に示す情報処理装置10は、カメラ11、マイク12、表示部13、スピーカー14、センサ15を有しており、音声入出力と画像入出力が可能な構成を有する。
 カメラ11は、例えば、来訪者であるユーザの画像を撮影する。撮影画像はエージェント装置10内のデータ処理部において解析される。例えば来訪者の有無、来訪者の特性、例えば年齢、性別などを解析する。さらに、来訪者が誰であるかの識別処理を行う構成としてもよい。
 マイク12は、ユーザ発話を入力する。ユーザ発話の音声データは、エージェント装置10内のデータ処理部において解析される。例えば音声認識処理や、意味解析処理等が実行される。
 表示部13は、例えば図1に示すようなアニメーション画像が表示される。さらに、エージェント装置の発話(音声出力)と、ユーザ発話が重なってしまった場合、すなわち「発話被り」の発生時等において、エージェント装置の発話(音声出力)データに対応する表示データを表示する。すなわちエージェント装置が実行中の発話の代わりとなる表示データを選択して表示部13に出力する。
 この処理の具体例については後述する。
 スピーカー14は、エージェント装置の発話(音声出力)を出力する。
 センサ15は距離センサ、温度センサ等、GPS等、様々なセンサによって構成される。
 なお、ユーザ発話に対する音声認識処理や意味解析処理、さらに、カメラ11が撮影した画像の解析処理などは、情報処理装置10内で行ってもよいし、クラウド側のサーバにおいて実行する構成としもよい。
 図2を参照して、本開示の情報処理装置の一例であるエージェント装置10が実行する処理の概要について説明する。
 上述したように、本開示の情報処理装置の一例であるエージェント装置10は、エージェント装置の発話(音声出力)と、ユーザ発話が重なってしまった場合、すなわち「発話被り」の発生時等において、エージェント装置の発話(音声出力)データに対応する表示データを表示する。すなわちエージェント装置が実行中の発話の代わりとなる表示データを選択して表示部13に出力する。
 このような処理を行うことで、ユーザ1は、エージェント装置10の発話を聞き逃しても、表示データを見て、エージェント装置10の発話内容と同様の情報を確認することが可能となる。
 図2には、エージェント装置10と、ユーザ1との対話シーケンスを示す図であり、最下段に示す時間軸に従った処理シーケンスを示している。
 まず、時間(t1)において、エージェント装置10が以下のエージェント発話(音声出力)を実行しようとする。
 エージェント発話=こんにちは、本日はどのようなご用件でしょうか
 しかし、このエージェント発話の実行途中、「こん」まで発話したタイミングで、ユーザ1が以下のユーザ発話を行う。
 ユーザ発話=「あの、」
 すなわち、時間(t1)において、エージェント発話と、ユーザ発話の重なりである「発話被り」が発生している。
 エージェント装置10は、エージェント発話を出力中、エージェント装置10のマイク12を介して入力するユーザ発話を検出すると、「発話被り」が発生したと判定し、エージェント発話を停止し、エージェント装置10の発話(音声出力)データに対応する表示データを表示する。図に示す時間(t2)の表示データを表示部13に表示する。すなわちエージェント装置が実行中の発話の代わりとなる表示データを表示部13に出力する。
 図に示す時間(t2)の表示データは、以下の表示データである。
  「ご用件をお選びください
  (a)銀行口座の開設
  (b)住所変更」
 この表示データは、エージェント装置が停止した発話の代わりとなる表示データである。
 エージェント装置10の記憶部には、エージェント装置10の発話データ各々に対応する表示用データが対応付けて記録されている。
 エージェント装置10は、「発話被り」を検出された場合、実行中のエージェント装置の発話を停止し、停止したエージェント発話に対応付けて記録された表示データを記憶部から取得して表示部13に表示する。
 なお、記憶部には、全てのエージェント発話に対応付けられた表示データが記録されているわけではない。
 例えば、定型的なエージェント発話に対応する表示データは記憶部に格納されており、これを利用することができる。しかし、エージェント発話は、ユーザ発話に応じて適宜、変更されるものであり、これら全てのエージェント発話に対応する表示データが記憶部に格納されているわけではない。
 エージェント発話に対応する表示データが記憶部に格納されていない場合には、エージェント装置10のデータ処理部は、停止したエージェント発話のテキストデータを表示部13に出力する。
 このような処理を実行することで、ユーザ1は、エージェント装置10の発話を聞き逃しても、表示データを見て、エージェント装置10の発話内容と同様の情報を確認することが可能となる。
 なお、エージェント装置10の表示部13はタッチパネル機能を有しており、時間(t2)において、ユーザ1は、例えば、エージェント装置10の表示部13の表示データから、自分の要件を選択してタッチすることで、要件を伝えることができる。
 また、ユーザ1は、自分の要件を発話してエージェント装置10に伝えることもできる。
 図2に示す例は、時間(t2)において、エージェント装置10が表示部13に表示したデータに対して、ユーザ1がリアクションを示さないため、時間(t3)において、エージェント装置10が、エージェント発話を再開した例を示している。すすなわち、時間(t3)において、エージェント装置10は、以下のエージェント発話を実行する。
 エージェント発話=ご用件をお話ください
 ユーザ1は、このエージェント発話を聞いて、表示部13に表示されたデータを確認しながら、自分の要件をエージェント装置に伝えることが可能となる。
 図3は、図2とは異なるエージェント装置10とユーザ1との対話シーケンスを示す図である。
 時間(t1)~(t2)までの処理は、図2を参照して説明した処理と同様の処理である。
 図3に示す例は、時間(t2)において、エージェント装置10が表示部13にデータを表示した後、ユーザ1が以下のユーザ発話を尾込なった例を示している。
 ユーザ発話=今日は振込に来ました
 エージェント装置10は、ユーザ発話を検出すると、表示部13に表示したデータを消去する。その後は、ユーザ1との対話を継続するか、あるいは、入力したユーザ発話に応じた処理、例えばユーザ発話の音声認識、意味解析結果に応じて、担当部署に連絡する等の処理を実行する。
 このように、本開示のエージェント装置10は、エージェント発話の実行中にユーザ発話が検出され、「発話被り」が発生したと判定した場合、エージェント発話を停止して、停止したエージェント発話の内容と同様の内容を含む表示データを表示部13に表示する。
 このような処理を実行することで、ユーザは、エージェント装置10の発話を聞き逃しても、表示データを見て、エージェント装置10の発話内容と同様の情報を確認することが可能となる。
  [2.本開示の情報処理装置が実行する処理の具体例について]
 次に、本開示の情報処理装置が実行する処理の具体例について説明する。
 以下の具体例について、順次、説明する。
 (a1)企業の受付にきたAさん(ユーザA)とBさん(ユーザB)が、受付のエージェント装置と会話する例1
 (a2)企業の受付にきたAさん(ユーザA)とBさん(ユーザB)が、受付のエージェント装置と会話する例2
 (a3)企業の受付にきたAさん(ユーザA)とBさん(ユーザB)が、受付のエージェント装置と会話する例3
 (b1)銀行に手続きに来たAさん(ユーザA)が、受付のエージェント装置と会話する例1
 (b2)銀行に手続きに来たAさん(ユーザA)が、受付のエージェント装置と会話する例2
 (c1)運転席のユーザAと助手席のユーザBが、各々運転席エージェント装置Aと、助手席エージェント装置Bと会話する例1
 (c2)運転席のユーザAと助手席のユーザBが、各々運転席エージェント装置Aと、助手席エージェント装置Bと会話する例2
 (c3)運転席のユーザAと助手席のユーザBが、各々運転席エージェント装置Aと、助手席エージェント装置Bと会話する例3
  (2-a1.企業の受付にきたAさん(ユーザA)とBさん(ユーザB)が、受付のエージェント装置と会話する例1)
 まず、(a1)企業の受付にきたAさん(ユーザA)とBさん(ユーザB)が、受付のエージェント装置と会話する例1について説明する。
 この処理例について、図4を参照して説明する。
 図4には、企業の受付に設置されたエージェント装置10と、受付に来た2人の来訪者であるユーザA、ユーザBを示している。
 先に説明した図2、図3と同様、左から右に流れる時間軸に従った対話等の処理シーケンスを示している。
 なお、図には、上からエージェント装置10の(音声)、(画像)、さらに、ユーザAの(発話a)とユーザBの(発話b)各々の発話や画像の出力区間を示している。
 時間軸に平行な実線として示す線分区間が発話の出力期間や、表示データの出力期間を示す。
 エージェント装置10の(音声)に示す実線ラインは、エージェント装置10のスピーカー14を介して出力されるエージェント発話の発話期間を示している。
 エージェント装置10の(画像)に示す実線ラインは、エージェント装置10の表示部13に出力される表示データの表示期間を示している。
 ユーザAの(発話a)に示す実線ラインは、ユーザAのユーザ発話の発話期間を示している。
 ユーザBの(発話b)に示す実線ラインは、ユーザBのユーザ発話の発話期間を示している。
 図に示す処理ステップであるステップS101~ステップS107の順に処理が実行される。
 以下、各処理ステップについて、順に説明する。
  (ステップS101)
 まず、エージェント装置10は、エージェント装置10のカメラ11によって来訪者を検出し、時間t1~t2において、以下のエージェント発話を実行する。
 エージェント発話=どなたと待ち合わせでしょうか?
  (ステップS102)
 上記のエージェント発話を聞いたユーザAは、時間t2~t3において、以下のユーザ発話を実行する。
 ユーザ発話=佐藤様です
  (ステップS103)
 上記のユーザ発話を入力したエージェント装置10は、ユーザ発話の音声認識、意味解析を実行し、この音声解析結果に応じた応答を生成して、時間t3から以下のエージェント発話を開始する。
 エージェント発話=佐藤で(すね、少々お待ちください)
 しかし、上記のエージェント発話の実行途中、「佐藤で」まで、発話したタイミング(時間t4)で以下のステップS104のユーザ発話が行われる。
  (ステップS104)
 ユーザBは、上記のエージェント発話が行われている途中の時間t4~t5において、以下のユーザ発話を行う。
 ユーザ発話=佐藤様だっけ?
 すなわち、時間t4においいて、エージェント発話とユーザ発話の重なり(発話被り)が発生する。
  (ステップS105)
 時間t4において、エージェント装置10は、エージェント発話とユーザ発話の重なり(発話被り)の発生を検出する。
 エージェント装置10は、時間t4において、この発話の重なり(発話被り)検出すると、実行中のエージェント発話を停止し、停止したエージェント発話に対応して記憶部に記録された表示データ、または停止したエージェント発話のテキストデータを表示部13に出力する。
 この表示データが、図に示す時間t4~t7の表示データである。すなわち、以下のエージェント表示データを表示部13に表示する。
 エージェント表示データ=佐藤ですね。少々お待ちください
  (ステップS106)
 上記の「エージェント表示データ=佐藤様ですね。少々お待ちください」が表示されている間の時間t6において、ユーザAが以下の発話を行う。
 ユーザ発話=佐藤様ですよ
  (ステップS107)
 エージェント装置10は、ステップS106における上記の「ユーザ発話=佐藤様ですよ」の音声認識、意味解析を実行し、この音声解析結果に応じた応答を生成して、時間t7~t8において以下のエージェント発話を実行する。
 エージェント発話=佐藤を呼び出しております。少々お待ちください
 なお、エージェント装置10は、上記発話を行うとともに、通信ネットワークを介して佐藤さんへの呼び出し処理も併せて実行する。
 図4を参照して説明した処理シーケンスでは、時間t4において、エージェント発話とユーザ発話の重なり(発話被り)が発生している。エージェント装置10は、時間t4における発話重なり(発話被り)の検出に応じて、現在、実行中のエージェント発話を停止し、停止したエージェント発話に対応して記憶部に記録された表示データ、または停止したエージェント発話のテキストデータを表示部13に出力する。
 すなわち、図に示す時間t4~t6の表示データ、
 エージェント表示データ=佐藤様ですね。少々お待ちください
 この表示データである。
 ユーザA,Bは、この表示データを見ることで、停止されたエージェント発話を聞き逃しても、エージェント装置10が理解している内容や、エージェント装置10が伝えたいことを確認することが可能となり、対話がスムーズに行われることになる。
  (2-a2.企業の受付にきたAさん(ユーザA)とBさん(ユーザB)が、受付のエージェント装置と会話する例2)
 次に、(a2)企業の受付にきたAさん(ユーザA)とBさん(ユーザB)が、受付のエージェント装置と会話する例2について説明する。
 この処理例について、図5、図6を参照して説明する。
 図5、図6には、図4と同様、企業の受付に設置されたエージェント装置10と、受付に来た2人の来訪者であるユーザA、ユーザBの発話や表示データを、左から右に流れる時間軸に従って示している。
 図5、図6に示す処理ステップであるステップS121~ステップS131の順に処理が実行される。
 以下、各処理ステップについて、順に説明する。
  (ステップS121)
 まず、エージェント装置10は、エージェント装置10のカメラ11によって来訪者を検出し、時間t1~t2において、以下のエージェント発話を実行する。
 エージェント発話=どなたと待ち合わせでしょうか?
  (ステップS122)
 上記のエージェント発話を聞いたユーザAは、時間t2~t3において、以下のユーザ発話を実行する。
 ユーザ発話=佐藤様です
  (ステップS123)
 上記のユーザ発話を入力したエージェント装置10は、ユーザ発話の音声認識、意味解析を実行し、この音声解析結果に応じた応答を生成して、時間t3から以下のエージェント発話を開始する。
 エージェント発話=佐藤で(すね、少々お待ちください)
 しかし、上記のエージェント発話の実行途中、「佐藤で」まで、発話したタイミング(時間t4)で以下のステップS124のユーザ発話が行われる。
  (ステップS124)
 ユーザBは、上記のエージェント発話が行われている途中の時間t4~t5において、以下のユーザ発話を行う。
 ユーザ発話=佐藤様だっけ?
 すなわち、時間t4においいて、エージェント発話とユーザ発話の重なり(発話被り)が発生する。
  (ステップS125)
 時間t4において、エージェント装置10は、エージェント発話とユーザ発話の重なり(発話被り)の発生を検出する。
 エージェント装置10は、時間t4において、この発話の重なり(発話被り)検出すると、実行中のエージェント発話を停止し、停止したエージェント発話に対応して記憶部に記録された表示データ、または停止したエージェント発話のテキストデータを表示部13に出力する。
 この表示データが、図に示す時間t4~t7の表示データである。すなわち、以下のエージェント表示データを表示部13に表示する。
 エージェント表示データ=佐藤ですね。少々お待ちください
  (ステップS126)
 上記の「エージェント表示データ=佐藤様ですね。少々お待ちください」が表示されている間の時間t6において、ユーザAが以下の発話を行う。
 ユーザ発話=あ、加藤様です
  (ステップS127)
 エージェント装置10は、ステップS126における上記の「ユーザ発話=あ、加藤様です」の音声認識、意味解析を実行し、この音声解析結果に応じて、時間t7において表示部13に表示されたデータを以下の表示データに切り替える処理を行う。
 エージェント表示データ=佐藤ではなく、加藤でしょうか
 なお、この表示データは、エージェント装置10のデータ処理部が、ステップS126における上記の「ユーザ発話=あ、加藤様です」の音声認識、意味解析を実行し、この音声解析結果に応じて生成されるエージェント発話の発話テキストをそのまま表示データとして出力したものである。
 なお、ユーザ発話に含まれる「あ、」や、「あのー」、「えーと」、「んー」といった無意味な発話、いわゆる「フィラー」については、エージェント装置10のデータ処理部は、原則として意味解析の対象としない設定とする。音声認識時にフィラー部を識別して、意味解析対象から除外する。このよう処理を行うことで処理を迅速に行うことが可能となる。
 ただし、高速処理が可能な装置であれば、全てのユーザ発話の意味解析を行う構成としてもよい。
  (ステップS128)
 上記の「エージェント表示データ=佐藤ではなく、加藤でしょうか」が表示されている間の時間t8において、ユーザBが以下の発話を行う。
 ユーザ発話=そうだよね
  (ステップS129)
 さらに、時間t9において、ユーザAが以下の発話を行う。
 ユーザ発話=あぶない、あぶない
  (ステップS130)
 エージェント装置10は、「エージェント表示データ=佐藤ではなく、加藤でしょうか」が表示されている間のユーザ発話、すなわち、
 ユーザ発話=そうだよね
 ユーザ発話=あぶない、あぶない
 これらのユーザ発話を入力し、音声認識、意味解析を実行し、この音声解析結果に応じて、ユーザA,Bが「エージェント表示データ=佐藤ではなく、加藤でしょうか」に同意したものと判断し、時間t10において、以下のエージェント表示データを表示部13に表示する。
 エージェント表示データ=加藤ですね。少々お待ちください
  (ステップS131)
 次に、エージェント装置10は、時間t12~t13において以下のエージェント発話を実行する。
 エージェント発話=加藤を呼び出しております。少々お待ちください
 なお、エージェント装置10は、上記発話を行うとともに、通信ネットワークを介して加藤さんへの呼び出し処理も併せて実行する。
 図5、図6を参照して説明した処理シーケンスでは、先に説明した図4のシーケンスト同様、時間t4において、エージェント発話とユーザ発話の重なり(発話被り)が発生している。エージェント装置10は、時間t4における発話重なり(発話被り)の検出に応じて、現在、実行中のエージェント発話を停止し、停止したエージェント発話に対応して記憶部に記録された表示データ、または停止したエージェント発話のテキストデータを表示部13に出力する。
 すなわち、図に示す時間t4~t6の表示データ、
 エージェント表示データ=佐藤様ですね。少々お待ちください
 この表示データである。
 ユーザA,Bは、この表示データを見ることで、停止されたエージェント発話を聞き逃しても、エージェント装置10が理解している内容や、エージェント装置10が伝えたいことを確認することが可能となる。
 図5、図6に示すシーケンスでは、ユーザがこの表示データを見て、訪問先が「佐藤様」ではなく、「加藤様」であることに気が付いて、その後、エージェント装置10に対して、訪問先が「加藤様」であることの訂正発話を行っている。
 エージェント装置10は、ここでエージェント発話を実行してもよいが、「佐藤様」と、「加藤様」は、発音が似ているため、聞き取りにくいと判断し、そのまま表示データの切り替えによる対話を継続している。
 このように、エージェント装置は、エージェント発話と、表示データの出力のどちらが、正確に伝えることが可能かを判定して、より高精度に情報を通知可能な手段を選択して情報出力を実行する。
  (2-a3.企業の受付にきたAさん(ユーザA)とBさん(ユーザB)が、受付のエージェント装置と会話する例3)
 次に、(a3)企業の受付にきたAさん(ユーザA)とBさん(ユーザB)が、受付のエージェント装置と会話する例3について説明する。
 この処理例について、図7、図8を参照して説明する。
 図7、図8も、企業の受付に設置されたエージェント装置10と、受付に来た2人の来訪者であるユーザA、ユーザBの発話や表示データを、左から右に流れる時間軸に従って示している。
 図7、図8に示す処理ステップであるステップS141~ステップS148の順に処理が実行される。
 以下、各処理ステップについて、順に説明する。
  (ステップS141~S146)
 図7に示すステップS141~S146の処理は、先に、図5を参照して説明したステップS121~S126の処理と同じ処理である。
 すなわち、時間t4において発話被りが発生し、エージェント装置10が、実行中のエージェント発話を停止し、停止したエージェント発話に対応して記憶部に記録された表示データ、または停止したエージェント発話のテキストデータを表示部13に出力する。
 この表示データが、図に示す(ステップS145)に示す時間t4~t7の表示データである。すなわち、以下のエージェント表示データを表示部13に表示する。
 エージェント表示データ=佐藤ですね。少々お待ちください
 ユーザA,Bは、この表示データを見て、訪問先が「佐藤様」ではなく、「加藤様」であることに気づき、ステップS146において、ユーザAが、以下の
 ユーザ発話=あ、加藤様です
  (ステップS147)
 エージェント装置10は、ステップS146における上記の「ユーザ発話=あ、加藤様です」の音声認識、意味解析を実行し、この音声解析結果に応じて、時間t7において表示部13に表示されたデータを以下の表示データに切り替える処理を行う。
 エージェント表示データ=佐藤ではなく、加藤でしょうか
 なお、この表示データは、エージェント装置10のデータ処理部が、ステップS146における上記の「ユーザ発話=あ、加藤様です」の音声認識、意味解析を実行し、この音声解析結果に応じて生成されるエージェント発話の発話テキストをそのまま表示データとして出力したものである。
 図8に示すシーケンスでは、この表示データの表示期間中、ユーザA,Bからの発話等のリアクションが検出されていない。
  (ステップS148)
 エージェント装置10は、ステップS147において表示部13に出力した表示データ、すなわち、
 エージェント表示データ=佐藤ではなく、加藤でしょうか
 この表示データの表示期間中、ユーザA,Bからの発話等のリアクションが検出されていないことに基づいて、ユーザA,Bが、表示データに納得したものと判定する。
 この判定結果に応じて、エージェント装置10は、時間t8~t9において以下のエージェント発話を実行する。
 エージェント発話=加藤を呼び出しております。少々お待ちください
 なお、エージェント装置10は、上記発話を行うとともに、通信ネットワークを介して加藤さんへの呼び出し処理も併せて実行する。
 この処理シーケンスでは、ステップS147におけるエージェント表示データ、すなわち、
 エージェント表示データ=佐藤ではなく、加藤でしょうか
 この表示データの表示期間中、ユーザA,Bからの発話等のリアクションが検出されていないことに基づいて、ユーザA,Bが、表示データに納得したものと判定し、その後、以下のエージェント発話を実行している。
 エージェント発話=加藤を呼び出しております。少々お待ちください
 この処理シーケンスでは、
 エージェント表示データ=佐藤ではなく、加藤でしょうか
 この表示データの表示期間中、ユーザA,Bからの発話等のリアクションが検出されなかったため、図6に示すステップS130の表示データの出力を省略している。結果として、先に説明した図6の処理より早いタイミングで、加藤さんの呼び出しが行われることになる。
  (2-b1.銀行に手続きに来たAさん(ユーザA)が、受付のエージェント装置と会話する例1)
 次に、(b1)銀行に手続きに来たAさん(ユーザA)が、受付のエージェント装置と会話する例1について説明する。
 この処理例について、図9、図10を参照して説明する。
 図9、図10には、銀行の受付に設置されたエージェント装置10と、銀行に来た1人の来訪者であるユーザAの発話や表示データを、左から右に流れる時間軸に従って示している。
 図9、図10に示す処理ステップであるステップS201~ステップS208の順に処理が実行される。
 以下、各処理ステップについて、順に説明する。
  (ステップS201)
 まず、エージェント装置10は、エージェント装置10のカメラ11によって来訪者を検出し、時間t1において、以下のエージェント発話を開始する。
 エージェント発話=本日はどの(ようなご用件でしょうか)?
 しかし、上記のエージェント発話の実行途中、「本日はどの」まで、発話したタイミング(時間t2)で以下のステップS202のユーザ発話が行われる。
  (ステップS202)
 ユーザBは、上記のエージェント発話が行われている途中の時間t2~t4において、以下のユーザ発話を行う。
 ユーザ発話=昔使っていた通帳とかが見つからなくって
 すなわち、時間t2においいて、エージェント発話とユーザ発話の重なり(発話被り)が発生する。
  (ステップS203)
 時間t2において、エージェント装置10は、エージェント発話とユーザ発話の重なり(発話被り)の発生を検出する。
 エージェント装置10は、時間t2において、この発話の重なり(発話被り)検出すると、実行中のエージェント発話を停止し、停止したエージェント発話に対応して記憶部に記録された表示データ、または停止したエージェント発話のテキストデータを表示部13に出力する。
 この表示データが、図に示す時間t2~t3の表示データである。すなわち、以下のエージェント表示データを表示部13に表示する。
 エージェント表示データ=ご用件を教えて下さい、振込、住所変更、再発行、その他
  (ステップS204)
 上記の「エージェント表示データ=ご用件を教えて下さい、振込、住所変更、再発行、その他」が表示されている間には、ユーザAから応答等のリアクションが得られなかったため、エージェント装置10は、ユーザAが表示データに含まれない他の処理を要求していると判定して、時間t3において表示部13の表示データを変更する。
 すなわち、以下のエージェント表示データを表示部13に表示する。
 エージェント表示データ=クレジットカードなどの再発行でしょうか
  (ステップS205)
 上記の「エージェント表示データ=クレジットカードなどの再発行でしょうか」が表示されている間の時間t5において、ユーザAが以下の発話を行う。
 ユーザ発話=そう
 あるいは、ユーザAは、発話しながら、あるいは発話を行うことなく表示部13を注視する。
 エージェント装置10は、上記のユーザ発話が行われたことの確認、あるいは、カメラ11の撮影画像に基づいて、ユーザAが表示部13を注視していることを確認する。
  (ステップS206)
 エージェント装置10は、ステップS204における表示データ、すなわち、
 「エージェント表示データ=クレジットカードなどの再発行でしょうか」
 この表示データに対する、
 ユーザ発話=そう、
 この応答やユーザAが、表示部13を注視していることの確認に応じて、ユーザの要求に、クレジットカードの再発行が含まれると判定し、さらに、その他の要求があるかを確認する必要があると判定する。
 エージェント装置10は、この判定に基づいて、ステップS206(時間t6)において、以下の表示データを表示部13に表示する。
 エージェント表示データ=クレジットカードの再発行、通帳の再発行、ハンコの再登録、その他、
  (ステップS207)
 ユーザAは、「エージェント表示データ=クレジットカードの再発行、通帳の再発行、ハンコの再登録、その他、」この表示データを確認し、時間t7において、以下のユーザ発話を行う。
 ユーザ発話=全部、必要かな
  (ステップS208)
 エージェント装置10は、ステップS207の「ユーザ発話=全部、必要かな」の音声認識、意味解析を実行し、この音声解析結果に応じて、以下のエージェント発話を実行する。
 エージェント発話=了解たいたしました。まずは、クレジットカードの再発行手続きを行います
 この図9、図10を参照して説明した処理シーケンスでは、時間t2において、エージェント発話とユーザ発話の重なり(発話被り)が発生している。エージェント装置10は、時間t2における発話重なり(発話被り)の検出に応じて、現在、実行中のエージェント発話を停止し、停止したエージェント発話に対応して記憶部に記録された表示データ、または停止したエージェント発話のテキストデータを表示部13に出力する。
 すなわち、図9に示す時間t2~t5の表示データである。
 その後は、ユーザ発話や注視態様等、ユーザのリアクションに応じて、表示データを、順次、切り替える処理を行っている。
 この処理は、ユーザの要求する処理の項目が多く、音声データより、表示データを用いた方が、正確に必要な字用法の伝達が可能なケースであり、このような場合、エージェント装置10は、音声出力より表示データを優先的に利用した処理を行う。
  (2-b2.銀行に手続きに来たAさん(ユーザA)が、受付のエージェント装置と会話する例2)
 次に、(b2)銀行に手続きに来たAさん(ユーザA)が、受付のエージェント装置と会話する例1について説明する。
 この処理例について、図11、図12を参照して説明する。
 図11、図12には、銀行の受付に設置されたエージェント装置10と、銀行に来た1人の来訪者であるユーザAの発話や表示データを、左から右に流れる時間軸に従って示している。
 図11、図12に示す処理ステップであるステップS221~ステップS227の順に処理が実行される。
 以下、各処理ステップについて、順に説明する。
  (ステップS221)
 まず、エージェント装置10は、エージェント装置10のカメラ11によって来訪者を検出し、時間t1において、以下のエージェント発話を開始する。
 エージェント発話=本日はどの(ようなご用件でしょうか)?
 しかし、上記のエージェント発話の実行途中、「本日はどの」まで、発話したタイミング(時間t2)で以下のステップS222のユーザ発話が行われる。
  (ステップS222)
 ユーザBは、上記のエージェント発話が行われている途中の時間t2~t3において、以下のユーザ発話を行う。
 ユーザ発話=クレジットカードをなくしたので再発行をお願いします
 すなわち、時間t2においいて、エージェント発話とユーザ発話の重なり(発話被り)が発生する。
  (ステップS223)
 時間t2において、エージェント装置10は、エージェント発話とユーザ発話の重なり(発話被り)の発生を検出する。
 エージェント装置10は、時間t2において、この発話の重なり(発話被り)検出すると、実行中のエージェント発話を停止し、停止したエージェント発話に対応して記憶部に記録された表示データ、または停止したエージェント発話のテキストデータを表示部13に出力する。
 この表示データが、図に示す時間t2~t3の表示データである。すなわち、以下のエージェント表示データを表示部13に表示する。
 エージェント表示データ=ご用件を教えて下さい、振込、住所変更、再発行、その他
  (ステップS224)
 上記の「エージェント表示データ=ご用件を教えて下さい、振込、住所変更、再発行、その他」が表示されている間に、ステップS222のユーザ発話、すなわち、
 ユーザ発話=クレジットカードをなくしたので再発行をお願いします
 このユーザ発話が入力され、エージェント装置10は、このユーザ発話の音声認識、意味解析を実行し、この音声解析結果に応じて以下のエージェント発話を生成し、時間t3~t4において出力する。
 エージェント発話=了解いたしました。まずは、クレジットカードの再発行手続きを行います
  (ステップS225)
 次に、ユーザAは、上記の「エージェント発話=了解いたしました。まずは、クレジットカードの再発行手続きを行います」に応じて、時間t4において、以下のユーザ発話を行う。
 ユーザ発話=クレジットカードの再発行だと印鑑とかいらないよね、あと、前は無料だったけど、お金かからないよね
  (ステップS226)
 エージェント装置10は、ステップS225のユーザ発話の実行期間(t4~t6)内に表示部13の表示データを以下の表示データに切り替える。
 エージェント表示データ=再発行には、以下が必要となります。身分証明書、登録済み印鑑
 この表示データは、クレジット再発行手続きに必要となる書類をユーザに正確に伝えるために、音声データではなく、表示データとして示してたのである。
  (ステップS227)
 ステップS225のユーザ発話、すなわち、
 ユーザ発話=クレジットカードの再発行だと印鑑とかいらないよね、あと、前は無料だったけど、お金かからないよね
 上記ユーザ発話が完了した時間t7において、エージェント装置10は、このユーザ発話の音声認識、意味解析を実行し、この音声解析結果に応じて以下のエージェント発話を生成し、時間t7~t8において出力する。
 エージェント発話=お客様、登録済みの印鑑が必要となります。また手数料もいただきます
 この図11、図12を参照して説明した処理シーケンスでは、時間t2において、エージェント発話とユーザ発話の重なり(発話被り)が発生している。エージェント装置10は、時間t2における発話重なり(発話被り)の検出に応じて、現在、実行中のエージェント発話を停止し、停止したエージェント発話に対応して記憶部に記録された表示データ、または停止したエージェント発話のテキストデータを表示部13に出力している。
 さらに、その後のシーケンスでは、エージェント装置10は、表示部13に対する表示データの出力と、スピーカーヌウを介する音声出力を、適宜、使い分けて使用している。
 エージェント装置10は、ユーザに通知する情報が重要である場合や、複雑である場合、あるいは多数である場合等には、情報出力を、表示部13を用いて行う。一方、ユーザに通知する情報が重要でない場合や、複雑でない場合等には、情報出力を、スピーカー11を介した音声出力として実行するといった処理の切り替えを実行する。
 これらの出力態様選択処理は、予め規定したアルゴリズムに従って実行される。
  (2-c1.運転席のユーザAと助手席のユーザBが、各々運転席エージェント装置Aと、助手席エージェント装置Bと会話する例1)
 次に、(c1)運転席のユーザAと助手席のユーザBが、各々運転席エージェント装置Aと、助手席エージェント装置Bと会話する例1について説明する。
 なお、運転席エージェント装置Aと、助手席エージェント装置Bは、例えばナビケーション装置である。
 この処理例について、図13、図14を参照して説明する。
 図13、図14には、車両の運転席に設置された運転席エージェント装置Aと、助手席に設置された助手席エージェント装置Bと、運転席にいるユーザA(運転者)と、助手席にいるユーザB(同乗者)の発話や表示データを、左から右に流れる時間軸に従って示している。
 図13、図14に示す処理ステップであるステップS301~ステップS310の順に処理が実行される。
 以下、各処理ステップについて、順に説明する。
  (ステップS301)
 まず、運転席エージェント装置Aは、以下のエージェント発話を実行する。
 エージェント発話=2Km先の(コンビニを右折です)
 なお、このエージェント装置の発話は、ユーザA(運転者)が予め設定した目的地までのルートに従った走行を行うための情報を提供する発話である。
 しかし、上記のエージェント発話の実行途中、「2Km先の」まで、発話したタイミング(時間t2)で以下のステップS302のユーザ発話が行われる。
  (ステップS302)
 ユーザA(運転者)は、上記のエージェント発話が行われている途中の時間t2~t3において、以下のユーザ発話を行う。
 ユーザ発話=どこのレストラン行こうかな
 すなわち、時間t2においいて、エージェント発話とユーザ発話の重なり(発話被り)が発生する。
  (ステップS303)
 時間t2において、運転席エージェント装置A10は、エージェント発話とユーザ発話の重なり(発話被り)の発生を検出する。
 運転席エージェント装置Aは、時間t2において、この発話の重なり(発話被り)検出すると、実行中のエージェント発話を停止し、停止したエージェント発話に対応して記憶部に記録された表示データ、または停止したエージェント発話のテキストデータを表示部13に出力する。
 この表示データが、図に示す時間t2~t5の表示データである。すなわち、以下のエージェント表示データを、運転席エージェント装置Aの表示部に表示する。
 エージェント表示データ=2Km先、コンビニ右折
  (ステップS304)
 一方、助手席に座っているユーザB(同乗者)は、運転席エージェント装置Aの表示部に上記表示データ、すなわち、「エージェント表示データ=2Km先、コンビニ右折」、この表示データが表示されている時間内である時間t3に以下のユーザ発話を行う。
 ユーザ発話=そうだね
 このユーザ発話は、ステップS302のユーザA(運転者)の「ユーザ発話=どこのレストランに行こうかな」に対する返事に相当する。
  (ステップS305)
 さらに、ユーザA(運転者)は、時間t4移行のしばらくの間、以下のユーザ発話を延々と続ける。
 ユーザ発話=そうだね、肉とか・・・・
  (ステップS306)
 一方、運転席エージェント装置Aは、車両の進行に伴い、時間t5において、表示部の表示データを以下の表示データに切り替える。
 エージェント表示データ=1Km先、コンビニ右折
  (ステップS307)
 さらに、運転席エージェント装置Aは、車両の進行に伴い、時間t6において、表示部の表示データを以下の表示データに切り替える。
 エージェント表示データ=0.5Km先、コンビニ右折
  (ステップS308)
 さらに、助手席エージェント装置Bも、時間t6において、表示部に以下の表示データを出力する。
 エージェント表示データ=0.5Km先、コンビニ右折
 これは、運転者が運転席エージェント装置Aの表示データに気づかない場合に利用可能とするため表示されるデータであり、エージェント装置A,Bの統合的なコントロールを行うデータ処理部、例えばエージェント装置A、またはエージェント装置B内のデータ処理部の制御によって実行される。
  (ステップS309)
 次に時間t7において、運転席エージェント装置Aは、以下のエージェント発話を出力する。
 エージェント発話=200m先のコンビニを右折です
  (ステップS310)
 さらに、助手席エージェント装置Bも、時間t7において、表示部に以下の表示データを出力する。
 エージェント表示データ=200m先、コンビニ右折
 この処理も、エージェント装置A,Bの統合的なコントロールを行うデータ処理部、例えばエージェント装置A、またはエージェント装置B内のデータ処理部の制御によって実行される。
 2つのエージェント装置のいずれかが音声出力を行っている場合、他方のエージェント装置は音声出力を実行することなく表示データの出力を行う。
 このような制御を行うことで、エージェント装置同士の発話被りの発生を防止できる。
  (2-c2.運転席のユーザAと助手席のユーザBが、各々運転席エージェント装置Aと、助手席エージェント装置Bと会話する例2)
 次に、(c2)運転席のユーザAと助手席のユーザBが、各々運転席エージェント装置Aと、助手席エージェント装置Bと会話する例2について説明する。
 なお、運転席エージェント装置Aと、助手席エージェント装置Bは、例えばナビケーション装置である。
 この処理例について、図15、図16を参照して説明する。
 図15、図16には、先に説明した図13、図14と同様、車両の運転席に設置された運転席エージェント装置Aと、助手席に設置された助手席エージェント装置Bと、運転席にいるユーザA(運転者)と、助手席にいるユーザB(同乗者)の発話や表示データを、左から右に流れる時間軸に従って示している。
 図15、図16に示す処理ステップであるステップS321~ステップS331の順に処理が実行される。
 以下、各処理ステップについて、順に説明する。
  (ステップS321~S328)
 ステップS321~S328の処理は、先に図13、図14を参照して説明したステップS301~S308の処理と同一の処理である。
 すなわち、ステップS321において、運転席エージェント装置Aが、以下のエージェント発話を実行する。
 エージェント発話=2Km先の(コンビニを右折です)
 しかし、上記のエージェント発話の実行途中、「2Km先の」まで、発話したタイミング(時間t2)でステップS322の以下のユーザ発話が行われる。
 ユーザ発話=どこのレストラン行こうかな
 時間t2において、運転席エージェント装置A10は、エージェント発話とユーザ発話の重なり(発話被り)の発生を検出すると、運転席エージェント装置Aは、時間t2において、エージェント発話を停止し、停止したエージェント発話に対応して記憶部に記録された表示データを、運転席エージェント装置Aの表示部に表示する。
 エージェント表示データ=2Km先、コンビニ右折
 助手席に座っているユーザB(同乗者)は、時間t3に以下のユーザ発話を行う。
 ユーザ発話=そうだね
 さらに、ユーザA(運転者)は、時間t4移行のしばらくの間、以下のユーザ発話を延々と続ける。
 ユーザ発話=そうだね、肉とか・・・・
 運転席エージェント装置Aは、車両の進行に伴い、ステップS326(時間t5)、ステップS327(t6)において、表示部の表示データを以下の表示データに、順次切り替える。
 エージェント表示データ=1Km先、コンビニ右折
 エージェント表示データ=0.5Km先、コンビニ右折
 さらに、助手席エージェント装置Bも、ステップS328(時間t6)において、表示部に以下の表示データを出力する。
 エージェント表示データ=0.5Km先、コンビニ右折
  (ステップS329~S330)
 次に時間t7において、運転席エージェント装置Aは、車両の進行に伴い、ステップS329において、以下のエージェント発話を出力する。
 エージェント発話=200m先のコンビニを右折です
 さらに、同じ時間t7のステップS330において、表示部の表示データを以下の表示データに、順次切り替える。
 エージェント表示データ=200Km先、コンビニ右折
 この例では、運転席エージェント装置Aはエージェント発話と、表示部への表示処理を並列して実行する。
 このように重要度の高い情報の通知処理の場合は、エージェント発話と、表示部への表示処理を並列して実行する。
  (ステップS331)
 さらに、助手席エージェント装置Bも、時間t7において、表示部に以下の表示データを出力する。
 エージェント表示データ=200m先、コンビニ右折
 この処理例では、ステップS329~S330において、運転席エージェント装置Aが、エージェント発話と、表示部への表示処理を並列して実行する点が特徴である。
 本開示のエージェント装置は、ユーザに対する通知情報の重要度を判定し、重要度の高い通知情報の場合は、エージェント発話と、表示部への表示処理を並列して実行する。
  (2-c3.運転席のユーザAと助手席のユーザBが、各々運転席エージェント装置Aと、助手席エージェント装置Bと会話する例3)
 次に、(c3)運転席のユーザAと助手席のユーザBが、各々運転席エージェント装置Aと、助手席エージェント装置Bと会話する例3について説明する。
 なお、運転席エージェント装置Aと、助手席エージェント装置Bは、例えばナビケーション装置である。
 この処理例について、図17、図18を参照して説明する。
 図17、図18には、先に説明した図13、図14と同様、車両の運転席に設置された運転席エージェント装置Aと、助手席に設置された助手席エージェント装置Bと、運転席にいるユーザA(運転者)と、助手席にいるユーザB(同乗者)の発話や表示データを、左から右に流れる時間軸に従って示している。
 図17、図18に示す処理ステップであるステップS341~ステップS352の順に処理が実行される。
 以下、各処理ステップについて、順に説明する。
  (ステップS341~S348)
 ステップS341~S348の処理は、先に図13、図14を参照して説明したステップS301~S308の処理と同一の処理である。
 すなわち、ステップS341において、運転席エージェント装置Aが、以下のエージェント発話を実行する。
 エージェント発話=2Km先の(コンビニを右折です)
 しかし、上記のエージェント発話の実行途中、「2Km先の」まで、発話したタイミング(時間t2)でステップS342の以下のユーザ発話が行われる。
 ユーザ発話=どこのレストラン行こうかな
 時間t2において、運転席エージェント装置A10は、エージェント発話とユーザ発話の重なり(発話被り)の発生を検出すると、運転席エージェント装置Aは、時間t2において、エージェント発話を停止し、停止したエージェント発話に対応して記憶部に記録された表示データを、運転席エージェント装置Aの表示部に表示する。
 エージェント表示データ=2Km先、コンビニ右折
 助手席に座っているユーザB(同乗者)は、時間t3に以下のユーザ発話を行う。
 ユーザ発話=そうだね
 さらに、ユーザA(運転者)は、時間t4移行のしばらくの間、以下のユーザ発話を延々と続ける。
 ユーザ発話=そうだね、肉とか・・・・
 運転席エージェント装置Aは、車両の進行に伴い、ステップS346(時間t5)、ステップS347(t6)において、表示部の表示データを以下の表示データに、順次切り替える。
 エージェント表示データ=1Km先、コンビニ右折
 エージェント表示データ=0.5Km先、コンビニ右折
 さらに、助手席エージェント装置Bも、ステップS348(時間t6)において、表示部に以下の表示データを出力する。
 エージェント表示データ=0.5Km先、コンビニ右折
  (ステップS349~S350)
 次に時間t7において、運転席エージェント装置Aは、車両の進行に伴い、ステップS349において、以下のエージェント発話を出力する。
 エージェント発話=200m先のコンビニを右折です
 さらに、同じ時間t7のステップS350において、表示部の表示データを以下の表示データに、順次切り替える。
 エージェント表示データ=200Km先、コンビニ右折
 この例も、運転席エージェント装置Aはエージェント発話と、表示部への表示処理を並列して実行する例である。
 このように重要度の高い情報の通知処理の場合は、エージェント発話と、表示部への表示処理を並列して実行する。
  (ステップS351~S352)
 さらに、助手席エージェント装置Bも、ステップS351(時間t7)において、以下のエージェント発話を出力する。
 エージェント発話=200m先のコンビニを右折です
 さらに、同じ時間t7のステップS352において、表示部の表示データを以下の表示データに、順次切り替える。
 エージェント表示データ=200Km先、コンビニ右折
 この処理例では、ステップS349~S352において、運転席エージェント装置Aと、助手席エージェント装置Bの2台のエージェント装置が、エージェント発話と、表示部への表示処理を並列して実行する点が特徴である。
 この処理例では、エージェント装置A,Bの統合的なコントロールを行うデータ処理部、例えばエージェント装置A、またはエージェント装置B内のデータ処理部の制御によって、運転席エージェント装置Aと、助手席エージェント装置Bの2台のエージェント装置が、同一タイミングで同じエージェント発話を行う。
 すなわち、発話のずれが生じないように、同次に発話することで、聞き取りづらい状態が発生することを防止して2台のエージェント装置による発話を行わせる。
 このような発話処理を行うことで、得運転者や同乗者の注意を最大限に引き付けることが可能となる。
 以上、本開示のエージェント装置10が実行する複数の処理シーケンスについて説明した。なお、この他、本開示のエージェント装置10は、例えば、以下のような処理を実行する構成としてもよい。
 ユーザが表示データを注視している時間が長いと判定した場合、表示データを、より詳細な説明を含むデータに変更する。
 例えばテキストのみの日表示データを、アニメーションを含む表示データに変更するなどの処理を行う。
 ユーザが、表示データを見ることを止めた場合、あるいはユーザが話し始めた場合、表示データを消す。
 ユーザの発話内容に応じて、表示データを変更する。例えば、ユーザの発話内容に一致する表示データを選択して表示する。
  [3.本開示の情報処理装置が実行する処理のシーケンスについて]
 次に、本開示の情報処理装置が実行する処理のシーケンスについて説明する。
 図19以下のフローチャートを参照して、本開示の情報処理装置、すなわちエージェント装置が実行する処理のシーケンスについて説明する。
 なお、図19以下に示すフローチャートに従った処理は、情報処理装置であるエージェント装置の記憶部に格納されたプログラムに従って実行される。例えばプログラム実行機能を有するCPU等のプロセッサによるプログラム実行処理として実行可能である。
 図19以下を参照して、以下の複数の異なる処理例に対応する処理シーケンスについて、順次、説明する。
 (1)発話被りの検出に基づいて、エージェント発話を停止して、表示データを出力する基本処理例(図19)
 (2)発話被りの検出に基づいて、エージェント発話を継続しながら、表示データも出力する処理例(図20)
 (3)発話被りの検出の他、発話の重要性等に基づく判定処理を実行して、規定条件を満たす場合に、表示データを出力する処理例(図21)
 (4)発話被りの検出の他、ユーザの理解力を推定し、推定結果に基づいて表示データを出力する処理例(図22)
 (5)出力した表示データの停止、切り替え制御の処理例(図23)
  (3-1.発話被りの検出に基づいて、エージェント発話を停止して、表示データを出力する基本処理例)
 まず、発話被りの検出に基づいて、エージェント発話を停止して、表示データを出力する基本処理例について説明する。
 図19は、発話被りの検出に基づいて、エージェント発話を停止して、表示データを出力する基本処理例のシーケンスを説明するフローチャートである。
 図19に示すフローの各ステップの処理について、順次、説明する。
  (ステップS501)
 まず、エージェント装置のデータ処理部は、ステップS501において、エージェント発話実行中のユーザ発話の入力有無検出処理を実行する。
  (ステップS502)
 次に、エージェント装置のデータ処理部は、ステップS502において、エージェント発話実行中のユーザ発話入力を検出したか否かを判定し、ユーザ発話入力を検出した場合は、ステップS503に進む。一方、ユーザ発話入力を検出していない場合は、ステップS501に戻り、エージェント発話実行中のユーザ発話の入力有無検出処理を継続して実行する。
  (ステップS503)
 ステップS503の処理は、ステップS502において、エージェント発話実行中のユーザ発話入力を検出した場合に実行する。
 この場合、エージェント装置のデータ処理部は、ステップS503において、エージェント発話を停止し、停止したエージェント発話データに対応付けられた表示データを表示部に出力する。
 この処理を行うことで、ユーザは、エージェント発話を聞き逃しても、表示部に表示されたデータを見ることで、エージェント装置が伝えたかったことを確認することができる。
  (3-2.発話被りの検出に基づいて、エージェント発話を継続しながら、表示データも出力する処理例)
 次に、発話被りの検出に基づいて、エージェント発話を継続しながら、表示データも出力する処理例について説明する。
 図20は、発話被りの検出に基づいて、エージェント発話を継続しながら、表示データも出力する処理例のシーケンスを説明するフローチャートである。
 図20に示すフローの各ステップの処理について、順次、説明する。
  (ステップS521)
 まず、エージェント装置のデータ処理部は、ステップS521において、エージェント発話実行中のユーザ発話の入力有無検出処理を実行する。
  (ステップS522)
 次に、エージェント装置のデータ処理部は、ステップS522において、エージェント発話実行中のユーザ発話入力を検出したか否かを判定し、ユーザ発話入力を検出した場合は、ステップS523に進む。一方、ユーザ発話入力を検出していない場合は、ステップS521に戻り、エージェント発話実行中のユーザ発話の入力有無検出処理を継続して実行する。
  (ステップS523)
 ステップS523の処理は、ステップS522において、エージェント発話実行中のユーザ発話入力を検出した場合に実行する。
 この場合、エージェント装置のデータ処理部は、ステップS523において、エージェント発話を継続しながら、併せてエージェント発話データに対応付けられた表示データを表示部に出力する。
 この処理を行うことで、ユーザは、エージェント発話、または表示部に表示されたデータのいずれか、または両者に基づいて、エージェント装置が伝えたかったことを確認することができる。
  (3-3.発話被りの検出の他、発話の重要性等に基づく判定処理を実行して、規定条件を満たす場合に、表示データを出力する処理例)
 次に、発話被りの検出の他、発話の重要性等に基づく判定処理を実行して、規定条件を満たす場合に、表示データを出力する処理例について説明する。
 図21は、発話被りの検出の他、発話の重要性等に基づく判定処理を実行して、規定条件を満たす場合に、表示データを出力する処理例のシーケンスを説明するフローチャートである。
 図21に示すフローの各ステップの処理について、順次、説明する。
  (ステップS541)
 まず、エージェント装置のデータ処理部は、ステップS541において、エージェント発話実行中のユーザ発話の入力有無検出処理を実行する。
  (ステップS542)
 次に、エージェント装置のデータ処理部は、ステップS542において、エージェント発話実行中のユーザ発話入力を検出したか否かを判定し、ユーザ発話入力を検出した場合は、ステップS543に進む。一方、ユーザ発話入力を検出していない場合は、ステップS541に戻り、エージェント発話実行中のユーザ発話の入力有無検出処理を継続して実行する。
  (ステップS543)
 ステップS543の処理は、ステップS542において、エージェント発話実行中のユーザ発話入力を検出した場合に実行する。
 この場合、エージェント装置のデータ処理部は、ステップS543において、実行中のエージェント発話の重要性、または複雑性の少なくともいずれかを判定する。
 なお、エージェント発話の重要性や複雑性については、予めデータベースに記録されており、エージェント装置のデータ処理部は、この記録データを参照して判定する。
  (ステップS544)
 ステップS544の処理は、ステップS543の判定結果に基づく分岐処理である。
 エージェント装置のデータ処理部は、ステップS544において、実行中のエージェント発話が「重要性が高い」、または「複雑性が高い」、これらの少なくともいずれかであると判定した場合は、ステップS545に進む。
 一方、実行中のエージェント発話が「重要性が低い」、および「複雑性が低い」、これらの2条件を満たすと判定した場合は、ステップS546に進む。
  (ステップS545)
 ステップS545の処理は、ステップS544において、実行中のエージェント発話が「重要性が高い」、または「複雑性が高い」、これらの少なくともいずれかであると判定した場合に実行する。
 この場合、エージェント装置のデータ処理部は、ステップS545において、エージェント発話を継続しながら、併せてエージェント発話データに対応付けられた表示データを表示部に出力する。
 この処理を行うことで、ユーザは、エージェント発話、または表示部に表示されたデータのいずれか、または両者に基づいて、エージェント装置が伝えたかったことを確認することができる。
  (ステップS546)
 ステップS546の処理は、ステップS544において、実行中のエージェント発話が「重要性が低い」、および「複雑性が低い」、これらの2条件を満たすと判定した場合に実行する。
 この場合、エージェント装置のデータ処理部は、ステップS546において、エージェント発話を停止し、停止したエージェント発話データに対応付けられた表示データを表示部に出力する。
 この処理を行うことで、ユーザは、エージェント発話を聞き逃しても表示部に表示されたデータに基づいて、エージェント装置が伝えたかったことを確認することができる。
  (3-4.発話被りの検出の他、ユーザの理解力を推定し、推定結果に基づいて表示データを出力する処理例)
 次に、発話被りの検出の他、ユーザの理解力を推定し、推定結果に基づいて表示データを出力する処理例について説明する。
 図22は、発話被りの検出の他、ユーザの理解力を推定し、推定結果に基づいて表示データを出力する処理例のシーケンスを説明するフローチャートである。
 図22に示すフローの各ステップの処理について、順次、説明する。
  (ステップS551)
 まず、エージェント装置のデータ処理部は、ステップS551において、エージェント発話実行中のユーザ発話の入力有無検出処理を実行する。
  (ステップS552)
 次に、エージェント装置のデータ処理部は、ステップS552において、エージェント発話実行中のユーザ発話入力を検出したか否かを判定し、ユーザ発話入力を検出した場合は、ステップS553に進む。一方、ユーザ発話入力を検出していない場合は、ステップS551に戻り、エージェント発話実行中のユーザ発話の入力有無検出処理を継続して実行する。
  (ステップS553)
 ステップS553の処理は、ステップS552において、エージェント発話実行中のユーザ発話入力を検出した場合に実行する。
 この場合、エージェント装置のデータ処理部は、ステップS553において、エージェント発話を聞いているユーザの解析処理を実行する。
 具体的には、例えば、ユーザが老人や子供等の理解力があまり高くないユーザであるか否か等の解析処理を行う。
 あるいは、ユーザの表情を解析して、エージェント発話を理解した顔をしているか、
困った顔をしているか等の解析を行う。
 また、例えば予めユーザの顔を登録したユーザ情報データベースを参照して、ユーザが常連のユーザであるか等の判定を行う構成としてもよい。
  (ステップS554)
 ステップS554の処理は、ステップS553の判定結果に基づく分岐処理である。
 エージェント装置のデータ処理部は、ステップS554において、エージェント発話を聞いているユーザが、エージェント発話の理解力が高いと推定される場合は、ステップS555に進む。
 一方、エージェント発話を聞いているユーザが、エージェント発話の理解力が高いと推定される場合は、ステップS556に進む。
  (ステップS555)
 ステップS555の処理は、ステップS554において、エージェント発話を聞いているユーザが、エージェント発話の理解力が高いと推定される場合に実行する。
 この場合、エージェント装置のデータ処理部は、ステップS545において、エージェント発話を継続しながら、併せてエージェント発話データに対応付けられた表示データを表示部に出力する。
 この処理を行うことで、ユーザは、エージェント発話、または表示部に表示されたデータのいずれか、または両者に基づいて、エージェント装置が伝えたかったことを確認することができる。
  (ステップS556)
 ステップS556の処理は、ステップS554において、エージェント発話を聞いているユーザが、エージェント発話の理解力が高いと推定される場合に実行する。
 この場合、エージェント装置のデータ処理部は、ステップS546において、エージェント発話を停止し、停止したエージェント発話データに対応付けられた表示データを表示部に出力する。
 この処理を行うことで、ユーザは、エージェント発話を理解できなくても、表示部に表示されたデータに基づいて、エージェント装置が伝えたかったことを確認することができる。
 (3-5.出力した表示データの停止、切り替え制御の処理例)
 次に、出力した表示データの停止、切り替え制御の処理例について説明する。
 図23は、表示部に出力した表示データの停止、切り替え制御の処理例のシーケンスを説明するフローチャートである。
 図23に示すフローの各ステップの処理について、順次、説明する。
  (ステップS561)
 まず、エージェント装置のデータ処理部は、ステップS561において、表示部に表示データを出力している期間におけるユーザ発話内容を解析する。
  (ステップS562)
 次に、エージェント装置のデータ処理部は、ステップS562において、表示部に表示データを出力している期間におけるユーザ発話内容が、表示部に表示中の表示データの出力開始タイミングにおけるユーザ発話内容と話題が一致しているか変更されているかを判定する。
 ユーザ発話内容が、表示部に表示中の表示データの出力開始タイミングにおけるユーザ発話内容と話題が一致せず、変更されていると判定した場合は、ステップS563に進む。
 一方、変更されず一致していると判定した場合は、ステップS564に進む。
  (ステップS563)
 ステップS563の処理は、ステップS562において、ユーザ発話内容が、表示部に表示中の表示データの出力開始タイミングにおけるユーザ発話内容と話題が一致せず、変更されていると判定した場合に実行する。
 この場合、エージェント装置のデータ処理部は、ステップS562において、表示部に表示中の表示データの表示処理を停止、または切り替える処理を実行する。
  (ステップS564)
 一方、ステップS564の処理は、ステップS562において、ユーザ発話内容が、表示部に表示中の表示データの出力開始タイミングにおけるユーザ発話内容と話題が一致していると判定した場合に実行する。
 この場合、エージェント装置のデータ処理部は、ステップS564において、表示部に表示中の表示データの表示処理を継続する処理を実行する。さらに、ステップS561に戻り、ユーザ発話内容の解析処理を継続する。
 この処理を行うことで、ユーザが、エージェント装置の表示部に表示されたデータを確認したか否かを検証した後に表示データを停止、または切り替えを行うことが可能となる。
 なお、図19~図23に示すフローチャートを参照して、複数の異なる処理について説明したが、これらの処理は個別に実行することも可能であり、複数の処理フローを組み合わせて実行してもよい。
  [4.情報処理装置の構成例について]
 次に、本開示の情報処理装置であるエージェント装置10の構成例について説明する。
 図24は、ユーザ発話を入力して、ユーザ発話に対応する処理や応答を行う情報処理装置10の一構成例を示す図である。
 図24に示すように、エージェント装置10は、入力部110、出力部120、データ処理部130、記憶部170、通信部180を有する。
 データ処理部130は、入力データ解析部140、データ処理実行部150、出力情報生成部160を有する。
 また、記憶部170は、出力データ登録データベース171、ユーザ情報データベース172を有する。
 なお、入力部110、出力部120以外のデータ処理部130や記憶部170は、エージェント装置10内に構成せず、外部サーバ内に構成してもよい。サーバを利用した構成の場合、エージェント装置10は、入力部110から入力した入力データを、ネットワークを介してサーバに送信し、サーバのデー処理部130の処理結果を受信して、出力部120を介して出力する。
 次に、図24に示すエージェント装置10の構成要素について説明する。
 入力部110は、音声入力部(マイク)111、画像入力部(カメラ)112、センサ113を有する。
 出力部120は、音声出力部(スピーカー)121、画像出力部(表示部)122を有する。
 エージェント装置10は、最低限、これらの構成要素を有する。
 なお、音声入力部(マイク)111は、図1に示すエージェント装置10のマイク12に対応する。
 画像入力部(カメラ)112は、図1に示すエージェント装置10のカメラ11に対応する。
 音声入力部(マイク)111は、例えば、エージェント装置10のすぐ前にいるユーザの声のみを選択的に取得するようなビームフォーミング機能を有する構成とすることが好ましい。
 また、画像入力部(カメラ)112の撮影画像に基づいてユーザ位置を判定し、音声入力部(マイク)111は、ビームフォーミナング機能により、解析したユーザ位置の発話を選択的に取得する構成としてもよい。
 センサ113は、図1に示すエージェント装置10のセンサ15に対応する。センサ113は、例えば距離センサ、GPS等の位置センサ、温度センサ等、様々なセンサによって構成される。
 音声出力部(スピーカー)121は、図1に示すエージェント装置10のスピーカー14に対応する。
 画像出力部(表示部)122は、図1に示すエージェント装置10の表示部13に対応する。
 なお、画像出力部(表示部)122は、例えば、プロジェクタ等によって構成することも可能であり、また外部装置のテレビの表示部を利用した構成とすることも可能である。
 データ処理部130は、入力データ解析部140、データ処理実行部150、出力情報生成部160を有する。
 入力データ解析部140は、音声解析部141、画像解析部142、センサ情報解析部14を有する。
 出力情報生成部160は、出力音声生成部161、表示情報生成部162を有する。
 ユーザの発話音声はマイクなどの音声入力部111に入力される。
 音声入力部(マイク)111は、入力したユーザ発話音声を音声解析部141に入力する。
 音声解析部141は、例えばASR(Automatic Speech Recognition)機能を有し、音声データを複数の単語から構成されるテキストデータに変換する。
 音声解析部141は、さらに、テキストデータに対する発話意味解析処理を実行する。音声解析部141は、例えば、NLU(Natural Language Understanding)等の自然言語理解機能を有し、テキストデータからユーザ発話の意図(インテント:Intent)や、発話に含まれる意味のある有意要素(スロット:Slot)を推定する。ユーザ発話から、意図(インテント)と、有意要素(スロット)を正確に推定、取得することができれば、エージェント装置10は、ユーザ発話に対する正確な処理を行うことができる。
 音声解析部141の解析結果はデータ処理実行部150に入力される。
 画像入力部112は、発話ユーザおよびその周囲の画像を撮影して、画像解析部162に入力する。
 画像解析部142は、発話ユーザの顔の表情やユーザの行動、発話ユーザの周囲情報等の解析を行い、この解析結果をデータ処理実行部150に入力する。
 センサ113は、例えば距離センサ、GPS等の位置センサ、温度センサ等の各種センサによって構成され、センサ113の取得情報は、センサ情報解析部143に入力される。
 センサ情報解析部143は、センサ取得情報に基づいて、例えば現在の位置、気温等のデータを取得して、この解析結果をデータ処理実行部150に入力する。
 データ処理実行部150は、発話被り検出部151、出力先制御部152、ユーザ解析部153を有する。
 発話被り検出部151は、エージェント発話とユーザ発話の重なり、すなわち「発話被り」の発生有無を検出する。
 出力先制御部152は、出力部120の音声出力部(スピーカー)121を介したエージェント発話を実行するか、出力部120の画像出力部(表示部)122を介した表示データ出力を実行するかを決定し、決定した出力先にエージェント発話、または表示データを出力する処理を行う。
 具体的には、例えば、先に図19~図22のフローチャートを参照して説明した処理に従って、出力先を決定する。
 ユーザ解析部153は、入力データ解析部140から入力する情報、例えば画像解析部142からの入力情報等に基づいて、カメラ撮影画像に含まれるユーザを解析する。
 例えば、エージェント発話を聞いているユーザの解析処理を実行する。
 具体的には、例えば、ユーザが老人や子供等の理解力があまり高くないユーザであるか否か等の解析処理を行う。
 あるいは、ユーザの表情を解析して、エージェント発話を理解した顔をしているか、
困った顔をしているか等の解析を行う。
 また、例えば予めユーザの顔を登録したユーザ情報データベース172を参照して、ユーザが常連のユーザであるか等の判定を行う。
 出力先制御部152は、ユーザ解析部153において解析された情報も適用して、出力部120の音声出力部(スピーカー)121を介したエージェント発話を実行するか、出力部120の画像出力部(表示部)122を介した表示データ出力を実行するかを決定する。
 出力情報生成部160は、出力音声生成部161、表示情報生成部162を有する。
 出力音声生成部161は、エージェント発話音声を生成する。
 出力音声生成部161の生成した応答音声情報は、スピーカー等の音声出力部121を介して出力される。
 表示情報生成部162は、ユーザに対するエージェント発話に対応する表示データや、エージェント発話のテキスト情報や、その他の提示情報を表示する。
 記憶部170の出力データ登録データベース171は、定型的なエージェント発話データと、その対応する表示データ、および、これらの情報の重要度や複雑度が記録されたデータベースである。
 図25に、出力データ登録データベース171の登録データの例を示す。
 図25に示すように、出力データ登録データベース171には、定型的なエージェント発話データと、その対応する表示データ、および、これらの情報の重要度や複雑度が記録されている。
 先に説明した図21に示すフローに従った処理は、このデータベースを参照して実行される。
 ユーザ情報データベース172は、例えばエージェント装置10と対話を行うユーザを識別するための顔情報や年齢、性別、来訪回数、常連であるか否か等のユーザプロファイル情報等を記録したデータベースである。
 なお、図24は、エージェント装置10の構成例として説明したが、前述したように、図24に示す構成中の入力部110、出力部120以外のデータ処理部130や記憶部170は、エージェント装置10内に構成せず、外部サーバ内に構成してもよい。
 例えば、図26に示すように、ユーザ端末である多数のエージェント装置10とデータ処理サーバ50を、ネットワークを介して接続する。各エージェント装置10は、各個人の所有するスマホやPC等の端末や、各家にあるスマートスピーカー等のユーザ端末によって構成される。各エージェント装置10は、エージェント装置10で実行される各ユーザとの対話情報や、入力部を介して取得される画像情報、音声情報、センサ検出情報等をデータ処理サーバ50に送信する。データ処理サーバ50は各エージェント装置10から様々な情報を受信して解析を行う。このような構成とすることができる。
 なお、図26に示すようなネットワーク接続構成においてエージェント装置10と、データ処理サーバ50各々が実行する処理の区分は様々な設定が可能である。
 例えば、図27に示すように、エージェント装置10が入力部110と出力部120を有し、データ処理サーバ50がデータ処理部130や記憶部170を有する構成が可能である。
 あるいは、図28に示すように、エージェント装置10が入力部110と入力データ解析部140、さらに出力情報生成部160と出力部120を有し、データ処理サーバ50がデータ処理実行部150と記憶部170を有する構成とすることも可能である。
 図26に示すようなネットワーク接続構成とした場合、データ処理サーバ50は、ネットワーク接続された多数のエージェント装置10におけるユーザとの対話情報等を入力して解析することが可能となり、より精度の高い解析を行うことが可能となる。
  [5.情報処理装置のハードウェア構成例について]
 次に、図29を参照して、エージェント装置(情報処理装置)のハードウェア構成例について説明する。
 図29を参照して説明するハードウェアは、先に図24や、図27、図28を参照して説明した情報処理装置10の1つの具体的なハードウェア構成例であり、また、図27や図28を参照して説明したデータ処理サーバ50を構成する情報処理装置のハードウェア構成の一例でもある。
 CPU(Central Processing Unit)301は、ROM(Read Only Memory)302、または記憶部308に記憶されているプログラムに従って各種の処理を実行する制御部やデータ処理部として機能する。例えば、上述した実施例において説明したシーケンスに従った処理を実行する。RAM(Random Access Memory)303には、CPU301が実行するプログラムやデータなどが記憶される。これらのCPU301、ROM302、およびRAM303は、バス304により相互に接続されている。
 CPU301はバス304を介して入出力インタフェース305に接続され、入出力インタフェース305には、各種スイッチ、キーボード、マウス、マイクロホン、センサなどよりなる入力部306、ディスプレイ、スピーカーなどよりなる出力部307が接続されている。CPU301は、入力部306から入力される指令に対応して各種の処理を実行し、処理結果を例えば出力部307に出力する。
 入出力インタフェース305に接続されている記憶部308は、例えばハードディスク等からなり、CPU301が実行するプログラムや各種のデータを記憶する。通信部309は、Wi-Fi通信、ブルートゥース(登録商標)(BT)通信、その他インターネットやローカルエリアネットワークなどのネットワークを介したデータ通信の送受信部として機能し、外部の装置と通信する。
 入出力インタフェース305に接続されているドライブ310は、磁気ディスク、光ディスク、光磁気ディスク、あるいはメモリカード等の半導体メモリなどのリムーバブルメディア311を駆動し、データの記録あるいは読み取りを実行する。
  [6.本開示の構成のまとめ]
 以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
 なお、本明細書において開示した技術は、以下のような構成をとることができる。
 (1) 情報処理装置の発話であるエージェント発話実行中のユーザ発話を検出する発話被り検出部と、
 前記発話被り検出部において、発話被りが検出された場合、エージェント発話の代わりの表示データを表示部に出力する出力先制御部を有する情報処理装置。
 (2) 前記出力先制御部は、
 発話被りが検出された場合、エージェント発話を停止して、エージェント発話の代わりの表示データを表示部に出力する(1)に記載の情報処理装置。
 (3) 前記出力先制御部は、
 発話被りが検出された場合、エージェント発話を継続しながら、エージェント発話の代わりの表示データを表示部に出力する(1)または(2)に記載の情報処理装置。
 (4) 前記出力先制御部は、
 発話被りが検出された場合、エージェント発話の重要度、または複雑度の少なくともいずれかを判定し、判定結果に応じて出力先制御を実行する(1)~(3)いずれかに記載の情報処理装置。
 (5) 前記出力先制御部は、
 発話被りが検出された場合、エージェント発話の重要度、または複雑度の少なくともいずれかが高いと判定した場合、エージェント発話を継続しながら、エージェント発話の代わりの表示データを表示部に出力する(1)~(4)いずれかに記載の情報処理装置。
 (6) 前記出力先制御部は、
 発話被りが検出された場合、ユーザの理解度推定処理を実行し、推定したユーザの理解度に応じて出力先制御を実行する(1)~(5)いずれかに記載の情報処理装置。
 (7) 前記出力先制御部は、
 カメラ撮影画像に含まれるユーザの画像解析によるユーザの理解度推定処理を実行し、推定したユーザの理解度に応じて出力先制御を実行する(1)~(6)いずれかに記載の情報処理装置。
 (8) 前記出力先制御部は、
 エージェント発話に対応付けて記憶部に格納された表示データを取得して、表示部に出力する(1)~(7)いずれかに記載の情報処理装置。
 (9) 前記出力先制御部は、
 エージェント発話のテキストデータを表示部に出力する(1)~(8)いずれかに記載の情報処理装置。
 (10) 前記出力先制御部は、
 カメラ撮影画像に含まれるユーザの画像解析によるユーザの理解度推定処理を実行し、推定したユーザの理解度に応じて表示データを変更する(1)~(9)いずれかに記載の情報処理装置。
 (11) 前記出力先制御部は、
 表示部に表示データを出力中のユーザ発話内容が、前記表示データ出力開始時の内容と一致する場合は、前記表示データを継続して表示し、
 一致しない場合は、前記表示データの出力を停止、または他の表示データに変更する処理を実行する(1)~(10)いずれかに記載の情報処理装置。
 (12) エージェント装置と、データ処理サーバを有する情報処理システムであり、
 前記エージェント装置は、
 ユーザ発話を入力する入力部と、
 前記データ処理サーバから受信したエージェント発話を出力する音声出力部と、前記データ処理サーバから受信した表示データを出力する表示部を有し、
 前記データ処理サーバは、
 前記エージェント装置の音声出力部を介して出力されているエージェント発話実行中のユーザ発話を検出する発話被り検出部と、
 前記発話被り検出部において、発話被りが検出された場合、エージェント発話の代わりの表示データを、前記エージェント装置に送信して、前記エージェント装置の表示部に出力する出力先制御部を有する情報処理システム。
 (13) 情報処理装置において実行する情報処理方法であり、
 発話被り検出部が、情報処理装置の発話であるエージェント発話実行中のユーザ発話を検出する発話被り検出ステップと、
 出力先制御部が、前記発話被り検出ステップにおいて、発話被りが検出された場合、エージェント発話の代わりの表示データを表示部に出力する出力先制御ステップを実行する情報処理方法。
 (14) エージェント装置と、データ処理サーバを有する情報処理システムにおいて実行する情報処理方法であり、
 前記エージェント装置は、
 ユーザ発話を入力する入力部と、
 前記データ処理サーバから受信したエージェント発話を出力する音声出力部と、前記データ処理サーバから受信した表示データを出力する表示部を有し、
 前記データ処理サーバが、
 前記エージェント装置の音声出力部を介して出力されているエージェント発話実行中のユーザ発話を検出する発話被り検出処理と、
 前記発話被り検出処理において、発話被りが検出された場合、エージェント発話の代わりの表示データを、前記エージェント装置に送信して、前記エージェント装置の表示部に出力する出力先制御処理を実行する情報処理方法。
 (15) 情報処理装置において情報処理を実行させるプログラムであり、
 発話被り検出部に、情報処理装置の発話であるエージェント発話実行中のユーザ発話を検出させる発話被り検出ステップと、
 出力先制御部に、前記発話被り検出ステップにおいて、発話被りが検出された場合、エージェント発話の代わりの表示データを表示部に出力させる出力先制御ステップを実行させるプログラム。
 また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Network)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
 なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
 以上、説明したように、本開示の一実施例の構成によれば、エージェント発話とユーザ発話との発話被りが発生した場合に、エージェント発話の内容を確実にユーザに通知することを可能とした装置、方法が実現される。
 具体的には、例えば、情報処理装置の発話であるエージェント発話実行中のユーザ発話を検出する発話被り検出部と、発話被り検出部において、発話被りが検出された場合、エージェント発話の代わりの表示データを表示部に出力する出力先制御部を有する。出力先制御部は、発話被りが検出された場合、エージェント発話を停止し、または継続しながらエージェント発話の代わりの表示データを表示部に出力する。
 本構成により、エージェント発話とユーザ発話との発話被りが発生した場合に、エージェント発話の内容を確実にユーザに通知することを可能とした装置、方法が実現される。
  10 エージェント装置
  11 カメラ
  12 マイク
  13 表示部
  14 スピーカー
  15 センサ
  50 データ処理サーバ
 110 入力部
 111 音声入力部
 112 画像入力部
 113 センサ
 120 出力部
 121 音声出力部
 122 画像出力部
 130 データ処理部
 140 入力データ解析部
 141 音声解析部
 142 画像解析部
 143 センサ情報解析部
 150 データ処理実行部
 151 発話被り検出部
 152 出力先制御部
 153 ユーザ解析部
 160 出力情報生成部
 161 出力音声生成部
 162 表示情報生成部
 170 記憶部
 171 出力データ登録データベース
 172 ユーザ情報データベース
 301 CPU
 302 ROM
 303 RAM
 304 バス
 305 入出力インタフェース
 306 入力部
 307 出力部
 308 記憶部
 309 通信部
 310 ドライブ
 311 リムーバブルメディア

Claims (15)

  1.  情報処理装置の発話であるエージェント発話実行中のユーザ発話を検出する発話被り検出部と、
     前記発話被り検出部において、発話被りが検出された場合、エージェント発話の代わりの表示データを表示部に出力する出力先制御部を有する情報処理装置。
  2.  前記出力先制御部は、
     発話被りが検出された場合、エージェント発話を停止して、エージェント発話の代わりの表示データを表示部に出力する請求項1に記載の情報処理装置。
  3.  前記出力先制御部は、
     発話被りが検出された場合、エージェント発話を継続しながら、エージェント発話の代わりの表示データを表示部に出力する請求項1に記載の情報処理装置。
  4.  前記出力先制御部は、
     発話被りが検出された場合、エージェント発話の重要度、または複雑度の少なくともいずれかを判定し、判定結果に応じて出力先制御を実行する請求項1に記載の情報処理装置。
  5.  前記出力先制御部は、
     発話被りが検出された場合、エージェント発話の重要度、または複雑度の少なくともいずれかが高いと判定した場合、エージェント発話を継続しながら、エージェント発話の代わりの表示データを表示部に出力する請求項1に記載の情報処理装置。
  6.  前記出力先制御部は、
     発話被りが検出された場合、ユーザの理解度推定処理を実行し、推定したユーザの理解度に応じて出力先制御を実行する請求項1に記載の情報処理装置。
  7.  前記出力先制御部は、
     カメラ撮影画像に含まれるユーザの画像解析によるユーザの理解度推定処理を実行し、推定したユーザの理解度に応じて出力先制御を実行する請求項1に記載の情報処理装置。
  8.  前記出力先制御部は、
     エージェント発話に対応付けて記憶部に格納された表示データを取得して、表示部に出力する請求項1に記載の情報処理装置。
  9.  前記出力先制御部は、
     エージェント発話のテキストデータを表示部に出力する請求項1に記載の情報処理装置。
  10.  前記出力先制御部は、
     カメラ撮影画像に含まれるユーザの画像解析によるユーザの理解度推定処理を実行し、推定したユーザの理解度に応じて表示データを変更する請求項1に記載の情報処理装置。
  11.  前記出力先制御部は、
     表示部に表示データを出力中のユーザ発話内容が、前記表示データ出力開始時の内容と一致する場合は、前記表示データを継続して表示し、
     一致しない場合は、前記表示データの出力を停止、または他の表示データに変更する処理を実行する請求項1に記載の情報処理装置。
  12.  エージェント装置と、データ処理サーバを有する情報処理システムであり、
     前記エージェント装置は、
     ユーザ発話を入力する入力部と、
     前記データ処理サーバから受信したエージェント発話を出力する音声出力部と、前記データ処理サーバから受信した表示データを出力する表示部を有し、
     前記データ処理サーバは、
     前記エージェント装置の音声出力部を介して出力されているエージェント発話実行中のユーザ発話を検出する発話被り検出部と、
     前記発話被り検出部において、発話被りが検出された場合、エージェント発話の代わりの表示データを、前記エージェント装置に送信して、前記エージェント装置の表示部に出力する出力先制御部を有する情報処理システム。
  13.  情報処理装置において実行する情報処理方法であり、
     発話被り検出部が、情報処理装置の発話であるエージェント発話実行中のユーザ発話を検出する発話被り検出ステップと、
     出力先制御部が、前記発話被り検出ステップにおいて、発話被りが検出された場合、エージェント発話の代わりの表示データを表示部に出力する出力先制御ステップを実行する情報処理方法。
  14.  エージェント装置と、データ処理サーバを有する情報処理システムにおいて実行する情報処理方法であり、
     前記エージェント装置は、
     ユーザ発話を入力する入力部と、
     前記データ処理サーバから受信したエージェント発話を出力する音声出力部と、前記データ処理サーバから受信した表示データを出力する表示部を有し、
     前記データ処理サーバが、
     前記エージェント装置の音声出力部を介して出力されているエージェント発話実行中のユーザ発話を検出する発話被り検出処理と、
     前記発話被り検出処理において、発話被りが検出された場合、エージェント発話の代わりの表示データを、前記エージェント装置に送信して、前記エージェント装置の表示部に出力する出力先制御処理を実行する情報処理方法。
  15.  情報処理装置において情報処理を実行させるプログラムであり、
     発話被り検出部に、情報処理装置の発話であるエージェント発話実行中のユーザ発話を検出させる発話被り検出ステップと、
     出力先制御部に、前記発話被り検出ステップにおいて、発話被りが検出された場合、エージェント発話の代わりの表示データを表示部に出力させる出力先制御ステップを実行させるプログラム。
PCT/JP2021/019415 2020-06-11 2021-05-21 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム WO2021251107A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-101577 2020-06-11
JP2020101577 2020-06-11

Publications (1)

Publication Number Publication Date
WO2021251107A1 true WO2021251107A1 (ja) 2021-12-16

Family

ID=78845993

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/019415 WO2021251107A1 (ja) 2020-06-11 2021-05-21 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム

Country Status (1)

Country Link
WO (1) WO2021251107A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016157662A1 (ja) * 2015-03-31 2016-10-06 ソニー株式会社 情報処理装置、制御方法、およびプログラム
JP2018055320A (ja) * 2016-09-28 2018-04-05 沖電気工業株式会社 情報処理装置および情報処理方法
WO2019138651A1 (ja) * 2018-01-10 2019-07-18 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016157662A1 (ja) * 2015-03-31 2016-10-06 ソニー株式会社 情報処理装置、制御方法、およびプログラム
JP2018055320A (ja) * 2016-09-28 2018-04-05 沖電気工業株式会社 情報処理装置および情報処理方法
WO2019138651A1 (ja) * 2018-01-10 2019-07-18 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム

Similar Documents

Publication Publication Date Title
Weng et al. Conversational in-vehicle dialog systems: The past, present, and future
JP6515764B2 (ja) 対話装置及び対話方法
JP7053432B2 (ja) 制御装置、エージェント装置及びプログラム
CN108337380B (zh) 自动调整用户界面以用于免提交互
JP4859982B2 (ja) 音声認識装置
JP2020080074A (ja) 視線検出装置、プログラム、及び、視線検出方法
JP2010102163A (ja) 車室内音声対話装置
JP2006317573A (ja) 情報端末
JP5181533B2 (ja) 音声対話装置
JP2020080116A (ja) 制御装置、エージェント装置及びプログラム
WO2021251107A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP2020077135A (ja) 制御装置、エージェント装置及びプログラム
JP2020060861A (ja) エージェントシステム、エージェント方法、およびプログラム
JP2020131805A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP7084848B2 (ja) 制御装置、エージェント装置及びプログラム
US20200301654A1 (en) On-vehicle device, method of controlling on-vehicle device, and storage medium
JP7175221B2 (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
Chen et al. Application of speech technology in vehicles
JP2020152298A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP2020060623A (ja) エージェントシステム、エージェント方法、およびプログラム
JP2020162003A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
WO2021166504A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
JP7274901B2 (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
US20230252987A1 (en) Vehicle and control method thereof
US11955123B2 (en) Speech recognition system and method of controlling the same

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21822195

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21822195

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP