WO2016052520A1 - 対話装置 - Google Patents
対話装置 Download PDFInfo
- Publication number
- WO2016052520A1 WO2016052520A1 PCT/JP2015/077545 JP2015077545W WO2016052520A1 WO 2016052520 A1 WO2016052520 A1 WO 2016052520A1 JP 2015077545 W JP2015077545 W JP 2015077545W WO 2016052520 A1 WO2016052520 A1 WO 2016052520A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- information
- response information
- input
- voice
- response
- Prior art date
Links
- 230000004044 response Effects 0.000 claims abstract description 266
- 230000002452 interceptive effect Effects 0.000 claims description 63
- 239000000463 material Substances 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 18
- 238000004891 communication Methods 0.000 description 41
- 238000007726 management method Methods 0.000 description 32
- 230000006870 function Effects 0.000 description 12
- 238000013500 data storage Methods 0.000 description 9
- 238000000034 method Methods 0.000 description 9
- 238000001514 detection method Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000003384 imaging method Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000003203 everyday effect Effects 0.000 description 3
- 235000012054 meals Nutrition 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 235000021152 breakfast Nutrition 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000035876 healing Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Definitions
- the present invention relates to a dialog device and a dialog system that recognize and respond to a user's voice.
- Patent Documents 1 to 4 an interactive robot (interactive device) having a voice recognition function and responding to a user's utterance is disclosed, for example, in Patent Documents 5 and 6.
- a dialogue robot having a function of accumulating user life information and assisting or supporting the user has been developed.
- the present invention has been made in view of the above problems, and provides an interactive apparatus and an interactive system that can smoothly output a plurality of information and provide a comfortable interactive environment without stressing the user. There is to do.
- an interactive apparatus includes a speech recognition unit that recognizes input speech, main response information that indicates response contents according to the result of the speech recognition, and A response information storage unit that stores sub-response information indicating response content that is associated with response information and added to the response content indicated by the main response information; a time calculation unit that estimates the time when the input voice is input; Prior to an estimated input time that is the estimated time, a secondary response information generating unit that acquires material information used to generate or update the secondary response information and generates or updates the secondary response information; and the input voice An output control unit that outputs the response content indicated by the sub-response information together with the response content indicated by the main response information obtained by referring to the response information storage unit.
- the voice output of the response content indicated by the secondary response information can be added to the voice output of the response content indicated by the main response information with respect to the input voice, A response is possible. Moreover, since the secondary response information is generated or updated before the estimated input time of the input voice, a response rich in change is possible. Thus, according to the above configuration, a plurality of information can be smoothly output as a voice, and a comfortable interactive environment can be provided without causing stress to the user.
- FIG. 1 is a diagram showing a configuration of a dialogue system 100 according to the present embodiment.
- the dialogue system 100 includes a dialogue device 10, a management server 30, information providing servers 31-1, 31-2, and a communication terminal 70, which are connected via a communication network.
- the Internet can be used as this communication network.
- a telephone line network, a mobile communication network, a CATV (CAble TeleVision) communication network, a satellite communication network, or the like can be used.
- the dialogue apparatus 10 has a voice recognition function, and the user can interact with the dialogue apparatus 10 by voice output (utterance) using natural language.
- the dialogue apparatus 10 may be a dialogue robot, or may be a smartphone, a tablet terminal, a personal computer, a home appliance (household electronic device) or the like having a voice recognition function.
- the management server is a device that manages the interactive device 10, the information providing servers 31-1 and 31-2 are devices that provide various information to the interactive device 10, and the communication terminal 70 is owned by the user of the interactive device 10.
- the communication terminal is used to register information about the user in the management server. Details will be described later.
- FIG. 1 for simplicity of explanation, one interactive device 10, one communication terminal 70, and two information providing servers 31-1 and 31-2 are illustrated, but the number thereof is not limited. .
- the dialogue apparatus 10 is represented as a dialogue robot and the communication terminal 70 is represented as a smartphone, but is not limited thereto.
- the type of the interactive device 10 managed by the management server 30 is not limited, that is, different types of interactive devices 10 such as an interactive robot and a smartphone may be connected to the management server 30 by communication.
- the dialogue device 10 is a device that performs voice recognition when a voice (input voice) is inputted and performs a dialogue according to the recognition result.
- the dialogue apparatus 10 includes a voice input unit 11, a voice output unit 12, a control unit 13, a data storage unit 14, and a communication unit 15.
- the voice input unit 11 is a voice input device such as a microphone
- the voice output unit 12 is a voice output device such as a speaker.
- the control unit 13 is a block that controls the operation of each unit of the dialogue apparatus 10.
- the control unit 13 includes a computer device including an arithmetic processing unit such as a CPU (Central Processing Unit) or a dedicated processor.
- the control unit 13 reads out and executes a program for executing various controls in the interactive device 10 stored in the data storage unit 14, thereby controlling the operation of each unit of the interactive device 10 in an integrated manner.
- arithmetic processing unit such as a CPU (Central Processing Unit) or a dedicated processor.
- the control unit 13 reads out and executes a program for executing various controls in the interactive device 10 stored in the data storage unit 14, thereby controlling the operation of each unit of the interactive device 10 in an integrated manner.
- the data storage unit 14 includes a RAM (Random Access Memory), a ROM (Read Only Memory), an HDD (Hard Disk Drive), and the like, and is a block that stores various information (data) used in the interactive device 10.
- the data storage unit 14 includes a response information storage unit 141.
- the response information storage unit 141 is a database in which main response information is registered in association with words and phrases.
- the main response information is registered not only for one word but also for a combination of a plurality of words.
- a plurality of pieces of main correspondence information may be registered corresponding to a certain word or a certain phrase, and in this case, what is actually output by voice may be selected.
- the words, phrases, and main response information may all be stored as text data.
- Known techniques can be used to construct such a database and to obtain response information from the database.
- the secondary response information is information indicating the response content added to the response content indicated by the main response information, and is generated at a predetermined time when not stored in the response information storage unit 141 as will be described later. Stored. If stored, it is updated at a predetermined time.
- the secondary response information will be described later using a specific example.
- the secondary response information may be stored in the response information storage unit 141 as text data.
- control unit 13 has functions as a speech recognition unit 16, a time calculation unit 17, a material information acquisition unit 18, a secondary response information generation unit 19, an output control unit 20, and a speech synthesis unit 21.
- the voice recognition unit 16 is a block that recognizes an input voice from the user. Specifically, the voice recognition unit 16 converts voice data input from the voice input unit 11 into text data, analyzes the text data, and extracts words and phrases. A known technique can be used for voice recognition processing.
- the time calculation unit 17 is a block that estimates (calculates) the time when input speech is input.
- the time estimated by the time calculation unit 17 is referred to as an estimated input time.
- the material information acquisition unit 18 is a block that acquires material information, which will be described later, used for generating or updating the secondary response information.
- the secondary response information generation unit 19 is a block that receives (acquires) material information from the material information acquisition unit 18 before the estimated input time calculated by the time calculation unit 17 and generates or updates the secondary response information.
- the generated or updated sub response information is stored in the response information storage unit 141.
- the time calculation unit 17 calculates an estimated input time of a specific input voice among the input voices
- the secondary response information generation unit 19 calculates an estimated input of the specific input voice calculated by the time calculation unit 17.
- all the sub-response information stored in the response information storage unit 141 is generated or updated. For example, if a particular input voice is “good morning”, all sub-voice information is generated or updated before the estimated input time of “good morning”, that is, before the estimated time of the start of the user's day. can do. The user can hear the voice of the response content indicated by the side response information generated or updated every day.
- the estimated input time is calculated for each input voice, and the secondary response information added to the main response information associated with the result of the voice recognition of the input voice is displayed before the estimated input time calculated for the input voice.
- generates or updates may be sufficient.
- the time calculation unit 17 calculates the estimated input time based on the past input time information of the input voice. In this case, for example, the information of the previous input time of the input voice may be calculated as the estimated input time, or the input voice within the past predetermined period (for example, the latest one week or one month) is input. You may calculate the average of time as estimated input time.
- the time calculation unit 17 calculates the estimated input time based on the user's life information. In this case, for example, the user's wake-up time may be calculated as the estimated input time.
- the user's wake-up time may be acquired from the time when the dialogue device 10 has a function of an alarm clock and the set alarm is sounded.
- the living information is not limited as long as it is information on the living state or living environment of the user.
- the secondary response information generating unit 19 generates or updates secondary response information based on the past input time information of the input voice as material information.
- the auxiliary response information generation unit 19 generates or updates the auxiliary response information based on the life information of the user or the living information related to the living environment as the material information.
- the living information may be any information as long as it is information related to the user's living state or living environment. For example, information related to the weather and traffic in the area where the interactive device is installed, the user's schedule (plan), and the user's life pattern Information on the user, information on the health of the user, and the like.
- the life information may be information obtained from the result of speech recognition of the input speech by the voice recognition unit.
- or the surrounding condition may detect. Moreover, the combination of these information may be sufficient.
- the state detection unit will be described in the second embodiment.
- the secondary response information will be described later using a specific example.
- the secondary response information generation unit 19 When the secondary response information is not registered in the response information storage unit 141, the secondary response information generation unit 19 generates secondary response information using the material information. Since this generation process can be said to be a process of updating (zero) secondary response information without information, the process of generating response information may be included in the process of updating the secondary response information.
- the secondary response information generation unit 19 generates or updates the secondary response information.
- the secondary response information is generated before the estimated input time, and a predetermined time or a predetermined voice (for example, “good night” “) Sub audio information may be cleared after input.
- the process in which the secondary response information generating unit 19 receives the secondary response information from the outside via the communication network 60 may be included in the process of generating or updating the secondary response information.
- the output control unit 20 is a block that performs audio output by causing the audio output unit 12 to output audio data. As a response to the input voice from the voice input unit 11, the output control unit 20 outputs the response content indicated by the sub response information together with the response content indicated by the main response information obtained by referring to the response information storage unit 141.
- the speech synthesizer 21 is a block that generates speech data.
- the voice synthesizer 21 generates voice data having response contents indicated by main response information and voice data having response contents indicated by sub-response information.
- the generated audio data is output via the audio output unit 12.
- the dialogue apparatus 10 can return a response to the user's utterance by referring to the response information storage unit 141, that is, can interact with the user.
- the communication unit 15 is a block that performs communication with the outside.
- the communication unit 15 receives life information from the management server 30 and the information providing servers 31-1 and 31-2.
- the dialogue apparatus 10 can add the voice output of the response content indicated by the secondary response information to the voice output of the response content indicated by the main response information with respect to the input voice, a response with a plurality of pieces of information can be made. Is possible. Further, since the secondary response information is generated or updated before the estimated input time, a response rich in change is possible. As described above, the dialogue apparatus 10 can smoothly output a plurality of pieces of information and can provide a comfortable dialogue environment without stressing the user.
- secondary response information is generated before the estimated input time of input speech even if communication with the outside is interrupted when input speech is input.
- the update since the update is performed, when the input voice is input after the generation or the update, the generated or updated side response information can be provided to the user.
- the secondary response information is also obtained by referring to the response information storage unit 141 when the input voice is input, a response (voice) that is quicker than a device that generates or updates the secondary response information at the time of input or receives it from the outside. Output).
- the interactive device 10 includes an image capturing unit
- the user's facial expression and position may be analyzed from an image input from the image capturing unit, and a dialogue may be performed based on the analysis.
- you may be comprised so that a user may be identified and interacted from the image etc. which are obtained from an imaging part.
- Management server and information providing server Next, the management server 30 and the information providing servers 31-1 and 31-2 will be described.
- the management server 30 is a device that manages the interactive device 10. When a plurality of interactive devices 10 are connected to the management server 30, each is managed individually. Furthermore, the management server 30 provides (sends) life information to the dialogue apparatus 10. The life information provided by the management server 30 is life information acquired (received) from the communication terminal 70 as described later.
- the management server 30 may be a cloud server that provides a cloud service, but is not limited thereto. Moreover, the management server 30 may be one or a plurality of management servers 30 connected via a communication network.
- the information providing servers 31-1 and 31-2 are devices that provide user life information.
- the life information provided by the information providing servers 31-1 and 31-2 may be any information, such as weather information, traffic information, disaster information, and local information transmitted by the government.
- the information providing server 31-1 will be described as the weather information providing server 31-1 that provides the weather information
- the information providing server 31-2 will be described as the traffic information providing server 31-2 that provides the traffic information.
- the weather information providing server 31-1, and the traffic information providing server 31-2 individually transmit the user's life information to the dialogue device 10
- the weather information providing server 31-1 and the traffic information may be once collected in the management server 30 and transmitted from the management server to the dialogue apparatus 10.
- the secondary response information can be generated or updated based on the life information provided from the management server 30 and the information providing servers 31-1 and 31-2. For example, the following response is made. It becomes possible.
- the voice of the response content indicated by the main response information with respect to the input voice “Good morning” “Good morning” is a voice of the response content indicated by the sub response information (sound output in the sub response information) “It seems to rain today.” Can be added.
- the management server 30 may be able to register the recorded voice from the communication terminal 70 or another communication terminal (not shown).
- the fact that the secondary response information generation unit 19 acquires the registered recorded voice as the secondary response information is also included in the generation or update of the secondary response information. Since the recorded voice is formed as voice data, if it is transmitted to the dialogue apparatus 10 as it is, the voice synthesis process in the dialogue apparatus 10 is not performed. For example, when the voice “There is a cake in the refrigerator” is registered in the management server 30 from the communication terminal (not shown) of the user's mother, the dialogue apparatus 10 responds to the input voice “Tadama”.
- the communication terminal 70 is a device that can communicate with other devices via the communication network 60.
- the communication terminal 70 is configured to register user life information in the management server 30.
- the communication terminal 70 is assumed to be a general-purpose device such as a tablet terminal, a smartphone, or a personal computer in which software (application) for registering user life information is incorporated.
- the life information that can be registered in the management server 30 from the communication terminal 70 is not limited as long as it is information on the living state or the living environment. Information such as routes (used for commuting and attending school).
- the life information may be input to the communication terminal 70 by the user, or may be acquired automatically or manually by the communication terminal 70. For example, as a route frequently used by the user, a user's normal action range may be grasped from a base station that is frequently used, and a route included in the range may be acquired. These are all examples.
- FIG. 3 shows an example of material information used for generating or updating the secondary response information acquired by the dialogue apparatus 10.
- the acquired material information includes weather information indicating “sunny”, traffic information indicating “none”, “burning garbage day”, “piano of learning at 10:00”, This indicates that there is schedule information indicating “dinner at 19:00” and life log information indicating “wake up yesterday is 7: 3”.
- acquiring traffic information of “None” means, in other words, not acquiring traffic information.
- the schedule information can be registered directly in the dialog device 10 by the user even if the dialog device 10 acquires the information registered in the management server 30 from the communication terminal 70, and the dialog device 10 acquires the information. There may be.
- the life log is user life information acquired by the interactive device 10, and the interactive device 10 records the life log and stores it in the data storage unit 14.
- the communication terminal 70 may record a life log and transmit it to the management server 30, and the dialogue apparatus 10 may acquire the life log from the management server 30.
- the secondary response information generation unit 19 acquires the material information before the estimated input time of the specific input voice (for example, “Good morning”) calculated by the time calculation unit 17, and the secondary response information based on the material information. Generate or update
- the interactive device 10 acquires material information every day before the estimated input time of “good morning”, which is a specific input voice, and generates or updates secondary response information based on the material information.
- FIG. 3 is an example of a database of main response information indicating response contents corresponding to a speech recognition word that is a result of speech recognition of input speech.
- each main response information is further associated with information indicating whether or not the sub response information is added.
- (D) of FIG. 3 is an example of the sub response information added to the main response information “Good morning”, and shows the information generated or updated based on the material information.
- the sub response information generation unit 19 sets a priority for the sub response information.
- the output control part 20 specifies subresponse information according to a priority, and outputs the response content shown by the specified subresponse information by audio
- the secondary response information is provided for each main response information, an example of the secondary response information added to the main response information other than “good morning” will not be described here.
- Priority is set for sub audio information that conveys a different situation than usual and sub audio information that conveys urgent content. For example, high priority is given to sub audio information generated or updated as traffic information, schedule registration, and bad weather as material information. In the present embodiment, the priority is from 1 to 3, with 1 being prioritized.
- the output control unit 20 always outputs auxiliary response information with a priority of 1. Further, when there is no sub response information with a priority of 1, sub response information with a priority of 2 is output at random.
- the sub-response information with priority 3 is output randomly when there is no sub-response information with priority 1 and sub-response information with priority 2.
- the dialogue apparatus 10 responds to the main response information “Good morning” with respect to the input voice “Good morning”, and “Today's burning garbage with a priority of 1”.
- the voice response is output with the additional response information “It's the day.
- a plurality of sub response information may be output or selected and output.
- FIG. 4A is an example of material information
- FIG. 4C is an example of a database of main response information indicating response contents according to a voice recognition word that is a result of voice recognition of an input voice
- FIG. 4D is an example of sub response information added to the main response information “I will come”.
- the dialogue apparatus 10 responds to the input response “I will come” with the main response information “Come on”, “Did you forget your umbrella?” Is added with the sub-response information.
- the service provided by the dialogue device 10 is mainly dialogue, but the dialogue device 10a is provided so as to be able to provide various services to the user in addition to the dialogue. Therefore, the dialogue apparatus 10a has an operation mode for each service that can be provided.
- Examples of services that can be provided by the interactive device 10a include, but are not limited to, dialogue, operation of home appliances, recording of user life information, and voice advice to the user.
- the dialogue is performed with respect to the voice input from the user.
- the voice advice to the user is information that is spontaneously voiced (spoken) from the dialogue device 10a even if there is no voice input from the user. It is.
- the provision of service by the interactive device 10a will be described later using a specific example.
- the interactive device 10 a is provided so that home appliances in the user's home 40 can be operated by infrared communication or wireless LAN communication.
- Home appliances are, for example, air conditioners (air conditioners), washing machines, refrigerators, cooking utensils, lighting devices, hot water supply equipment, photographing equipment, various AV (Audio-Visual) equipment, various household robots (for example, cleaning robots, housework support) Robot, animal type robot, etc.).
- air conditioners air conditioners
- washing machines washing machines
- refrigerators cooking utensils
- lighting devices hot water supply equipment
- photographing equipment various AV (Audio-Visual) equipment
- various household robots for example, cleaning robots, housework support
- Robot animal type robot, etc.
- the home appliance that can be operated by the interactive device 10a will be described using the air conditioner 50-1, the television 50-2, and the refrigerator 50-3.
- the home appliance to be operated is not limited thereto.
- the dialogue apparatus 10 a includes an operation unit 22 and a state detection unit 24 in addition to the configuration of the dialogue apparatus 10 according to the first embodiment.
- the operation unit 22 is a block that executes various operations of the interactive apparatus 10a.
- the state detection unit 24 may be any device that detects a user or a surrounding state, and examples thereof include a human sensor, an imaging unit (camera), and a temperature sensor. However, it is not limited to these.
- control unit 13a of the dialogue apparatus 10a has a function as the mode setting unit 23 in addition to the same function as the control unit 13.
- the mode setting unit 23 determines a service to be provided based on the result of speech recognition of the input speech input from the speech input unit 11, and sets the interactive apparatus 10a to an operation mode that provides the determined service. Therefore, when it is inferred from the dialogue with the user that, for example, it is desired to operate the air conditioner 50-1, the interactive device 10a sets the interactive device 10a to the operation mode for operating the air conditioner 50-1, and performs the operation. It becomes possible.
- the data storage unit 14a of the interactive device 10a includes a mode information storage unit 143.
- the mode information storage unit 143 stores information for setting the interactive device 10a in an operation mode for providing the service for each service. Stored.
- the position of the home appliance may be detected using infrared rays, and when the state detection unit 24 has an imaging unit, information acquired by the imaging unit You may detect the position of home appliances.
- the dialogue system according to the embodiment is obtained by replacing the dialogue apparatus 10 in FIG. 2 with the dialogue apparatus 10a.
- the air conditioner 50-1, the television 50-2, and the refrigerator 50-3 are further connected to the communication network 60, and the management server 30 acquires information from these home appliances.
- Information acquired by the management server 30 in this case includes, for example, information indicating the setting status and operation status of the air conditioner 50-1, the television 50-2, and the refrigerator 50-3, and information on the surrounding environment.
- the management server 30 provides user life information such as ON / OFF of the air conditioner 50-1 and set temperature information, information on the number of times the refrigerator 50-3 is opened, and ON of the TV 50-2. / OFF information is transmitted to the dialogue apparatus 10a.
- the dialogue apparatus 10a also uses life information obtained from the air conditioner 50-1, the television 50-2, and the refrigerator 50-3 to calculate the estimated input time and to generate or update the secondary response information. be able to. Therefore, in this case, for example, in response to the input voice “I will come”, “Come here” is the voice output as the main response information, and “Air conditioner and TV” is the voice output as the secondary response information. Can be added. "
- the living information may be directly transmitted from the air conditioner 50-1, the television 50-2, and the refrigerator 50-3 to the interactive device 10a without using the management server 30.
- the air conditioner 50-1, the television 50-2, and the refrigerator 50-3 are information providing devices that provide life information to the interactive device 10a.
- the voice recording to the refrigerator 50-3 may be performed directly or may be performed via the management server 30 as described in the first embodiment.
- the life state is grasped as “wake up”, and “wake up time” is recorded as a life log and stored in the data storage unit 14.
- the life log is user life information acquired by the dialogue apparatus 10a.
- the dialogue apparatus 10a returns the operation mode of the dialogue apparatus 10a from the sleep mode (or security mode), and changes it to, for example, the dialogue mode in which the voice output is minimized. This is because the user is often busy when getting up.
- the dialogue apparatus 10a outputs information necessary for waking up (for example, weather and news information) as auxiliary response information. For example, “Good morning” is output according to the main response information, and “Today is sunny” according to the sub response information.
- the average wake-up time may be compared with the “wake-up time” recorded this time, and for example, “I'm getting up early” or “I'll be late” may be output as auxiliary response information.
- the auxiliary response information generation unit 19 adds a flag that falls when the predetermined response time before the wake-up average time is reached to the auxiliary response information of “I'm getting up early”, and the output control unit 20 falls down The secondary response information may not be output. This is a measure for preventing the user from “getting up early” immediately before the average wake-up time or after the average wake-up time.
- the life information is acquired and the secondary response information is generated or updated before this time, or the air conditioner 50-1 is operated. Also, if the input voice “Good morning” is not received even after a predetermined time has elapsed from the average wake-up time, for example, “Okay morning, do you need to wake up?” Is output as voice advice and notified.
- the life state is “meal (breakfast)” and “meals” is recorded as a life log and the data storage unit 14.
- the data of “number of meals” if there is a day when the user has not eaten, for example, “You should eat breakfast” is output as voice advice and notified.
- the dialogue apparatus 10a can provide various services based on the result of voice recognition of the input voice. Therefore, the user can receive a service simply by talking to the interactive device, and can enjoy a comfortable living environment.
- the interactive devices 10 and 10a described in the first and second embodiments may be realized by a logic circuit (hardware) formed in an integrated circuit (IC chip) or the like, or may be a CPU (Central Processing Unit). It may be realized by software using
- each of the dialogue apparatuses 10 and 10a includes a CPU that executes instructions of a program that is software that realizes each function, and a ROM (Read that records the above program and various data so that the computer (or CPU) can read them. Only Memory) or a storage device (these are referred to as “recording media”), a RAM (Random Access Memory) for expanding the program, and the like. And the objective of this invention is achieved when a computer (or CPU) reads the said program from the said recording medium and runs it.
- the recording medium a “non-temporary tangible medium” such as a tape, a disk, a card, a semiconductor memory, a programmable logic circuit, or the like can be used.
- the program may be supplied to the computer via an arbitrary transmission medium (such as a communication network or a broadcast wave) that can transmit the program.
- a transmission medium such as a communication network or a broadcast wave
- the present invention can also be realized in the form of a data signal embedded in a carrier wave in which the program is embodied by electronic transmission.
- the present invention is not limited to the above-described embodiments, and various modifications are possible, and the present invention also relates to embodiments obtained by appropriately combining technical means disclosed in different embodiments. Is included in the technical scope. Furthermore, a new technical feature can be formed by combining the technical means disclosed in each embodiment.
- the dialogue apparatus 10 includes a voice recognition unit 16 that recognizes an input voice, main response information indicating response contents according to the result of the voice recognition, and response contents indicated by the main response information.
- the response information storage unit 141 that stores sub-response information indicating the response content added to the time
- the time calculation unit 17 that estimates the time when the input speech is input
- the estimated input time that is the estimated time
- the response information storage unit 19 acquires the material information used to generate or update the response information, and generates or updates the response information.
- an output control unit 20 that outputs the response content indicated by the sub-response information together with the response content indicated by the main response information obtained by referring to FIG.
- the secondary response information is generated or updated before the estimated input time of the input voice, and when the input voice is input, the response content indicated by the secondary response information together with the response content indicated by the main response information Is output as audio.
- the voice output of the response content indicated by the sub-response information can be added to the voice output of the response content indicated by the main response information with respect to the input voice, a response with a plurality of information is possible.
- the secondary response information is generated or updated before the estimated input time of the input voice, a response rich in change is possible.
- a plurality of information can be smoothly output as a voice, and a comfortable interactive environment can be provided without causing stress to the user.
- secondary response information is generated before the estimated input time of input speech even if communication with the outside is interrupted when input speech is input.
- the update since the update is performed, when the input voice is input after the generation or the update, the generated or updated side response information can be provided to the user.
- the secondary response information is also obtained by referring to the response information storage unit when the input voice is input, the response (voice output) is quicker than the device that generates or updates the secondary response information at the time of input or receives it from the outside. Is possible.
- the time calculation unit estimates the time based on information on the past input time of the input voice or life information on a user's life state or living environment. Calculate the input time.
- the auxiliary response information is generated or updated before the estimated input time calculated from the past input time information of the input voice or the life information on the user's living state or living environment.
- the material information is information on a past input time of the input voice or life information on a user's living state or living environment.
- the secondary response information is generated or updated based on the past input time information of the input voice or the life information on the user's living state or living environment. Therefore, by using the past input time information of the input voice or the life information of the user, the response content of the secondary response information can be set in accordance with, for example, the voice or life pattern often spoken by the user. . Therefore, it is possible to provide useful information for the user as the secondary response information.
- the living information may be any information as long as it is information related to the user's living state or living environment. For example, information related to the weather and traffic in the area where the interactive device is installed, information related to the user's life pattern, and information related to the user's health Information.
- the life information may be a result of voice recognition of the input voice by a voice recognition unit. Further, it may be information received from an external device, or information detected by a state detection unit included in the user's own device that detects the state of the user or its surroundings. Moreover, the combination of these information may be sufficient.
- the state detection unit included in the device itself may be any device that can detect the user or the surrounding state, and examples thereof include a human sensor, a camera, and a temperature sensor. However, it is not limited to these.
- the time calculation unit calculates an estimated input time of a specific input voice among the input voices, and the sub response
- the information generation unit generates or updates all the sub response information before the estimated input time of the specific input voice.
- the secondary response information added to the primary response information indicating the response content according to the result of the speech recognition of the specific input speech is estimated input time of the specific input speech. Can be generated or updated before.
- All sub audio information can be generated or updated. The user can hear the voice of the response content indicated by the side response information generated or updated every day.
- the estimated input time is calculated for each input voice, and the secondary response information added to the main response information associated with the result of the voice recognition of the input voice is displayed before the estimated input time calculated for the input voice.
- generates or updates may be sufficient.
- the secondary response information generation unit sets a priority for the secondary response information
- the response information storage unit sets the priority.
- the output control unit specifies the secondary response information according to the priority, and outputs the response content indicated by the specified secondary response information by voice.
- the interactive apparatus has an operation mode for each service that can be provided by the own apparatus, and the voice of the input voice by the voice recognition unit is provided.
- a mode setting unit 23 is further provided for determining a service to be provided based on the recognition result and setting the own apparatus in an operation mode for providing the determined service.
- the service to be provided can be determined based on the result of speech recognition of the input speech by the speech recognition unit.
- the interactive apparatus can set the own apparatus to an operation mode for providing the service and provide the service.
- Examples of services to be provided include dialogue, operation of home appliances, recording of user life information, and voice advice to the user.
- the dialogue is performed on the input voice from the user, and the voice advice to the user is information that is spontaneously outputted from the dialogue device even if there is no input voice from the user. .
- the user can receive a service simply by talking to the interactive device, and can enjoy a comfortable living environment.
- the mode setting unit may determine a service to be provided based on information received from an external device, information detected by a user or a state detection unit included in the device that detects the surrounding state, and the like.
- An interactive system according to an aspect 7 of the present invention is configured by connecting the interactive apparatus according to any one of the above aspects 1 to 6 and the information providing apparatus that provides the material information via a communication network. Yes.
- the information providing apparatus according to aspect 8 of the present invention is an information providing apparatus provided in the interactive system according to aspect 7.
- the dialogue system according to aspect 8 can be constructed.
- the interactive apparatus, the information providing apparatus, or the interactive system according to each aspect of the present invention may be realized by a computer.
- the computer operates as each unit included in the interactive apparatus, the information providing apparatus, or the interactive system. Accordingly, a program for realizing a dialogue apparatus, an information providing apparatus or a dialogue system on a computer, and a computer-readable recording medium on which the program is recorded also fall within the scope of the present invention.
- the present invention can be used for an interactive device that recognizes and responds to a user's voice.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
スムーズな応答が可能であり、ユーザにストレスを与えることなく快適な対話環境を提供できる対話装置を提供する。対話装置(10)は、入力音声の推定入力時刻よりも前に、副応答情報を背生成または更新する副応答情報生成部(19)と、入力音声が入力されると、主応答情報が示す応答内容と共に副応答情報が示す応答内容を音声出力する出力制御部(20)と、を備える。
Description
本発明は、ユーザの音声を認識して応答する対話装置及び対話システムに関する。
近年、介護や癒しのケアロボットや家事代行ロボットといったロボットが徐々にユーザの生活に浸透してきている。例えば、特許文献1~4に開示されているように、音声認識機能を有し、ユーザの発話に対して応答する対話ロボット(対話装置)や、例えば、特許文献5,6に開示されているように、音声認識機能に加え、ユーザの生活情報を蓄積してユーザの補助や支援を行う機能を有する対話ロボットも開発されている。
従来の対話ロボットは、性能やコストの面から複雑な音声認識を行うことは困難であり、また応答内容もパターン化されたものや単純なものであり、面白みに欠け、飽きられ易いものとなりがちである。そこで、対話ロボットをサーバ装置と通信接続させ、対話ロボットがサーバ装置による音声認識に基づく応答内容を受信して出力(応答)するシステムも開発されている。しかし、この場合、対話ロボット単体で音声認識して応答する場合と比べて、応答のタイミングが遅れてしまう。また、通信が切断されると、応答内容を受信できない。そのため、ユーザがストレスを感じ、会話し難いといった思いをすることもある。
そこで、本発明は、上記の問題点に鑑みてなされたものであり、複数の情報をスムーズに音声出力でき、ユーザにストレスを与えることなく快適な対話環境を提供できる対話装置及び対話システムを提供することにある。
上記の課題を解決するために、本発明の一態様に係る対話装置は、入力音声を音声認識する音声認識部と、上記音声認識の結果に応じた応答内容を示す主応答情報、及び、当該応答情報に対応づけられ当該主応答情報が示す応答内容に付加される応答内容を示す副応答情報を格納する応答情報格納部と、上記入力音声が入力される時刻を推定する時刻算出部と、上記推定された時刻である推定入力時刻よりも前に、上記副応答情報の生成または更新に用いる材料情報を取得して上記副応答情報を生成または更新する副応答情報生成部と、上記入力音声の入力に対し、上記応答情報格納部を参照して得られる上記主応答情報が示す応答内容と共に上記副応答情報が示す応答内容を音声出力する出力制御部と、を備えたことを特徴とする。
本発明の一態様に係る対話装置によると、入力音声に対して、主応答情報が示す応答内容の音声出力に、副応答情報が示す応答内容の音声出力を付加できるので、複数の情報での応答が可能である。また、副応答情報は、入力音声の推定入力時刻よりも前に生成または更新されるので、変化に富んだ応答が可能である。このように、上記構成によると、複数の情報をスムーズに音声出力でき、ユーザにストレスを与えることなく快適な対話環境を提供できる。
〔実施の形態1〕
以下、本発明の一実施形態について図1~4に基づいて説明すれば以下の通りである。
以下、本発明の一実施形態について図1~4に基づいて説明すれば以下の通りである。
(対話システムの構成)
図1は、本実施の形態に係る対話システム100の構成を示す図である。図1に示すように、対話システム100は、対話装置10、管理サーバ30、情報提供サーバ31-1,31-2、通信端末70、を備えており、これらは通信ネットワークを介して接続している。この通信ネットワークとしては、例えば、インターネットが利用できる。また、電話回線網、移動体通信網、CATV(CAble TeleVision)通信網、衛星通信網などを利用することもできる。
図1は、本実施の形態に係る対話システム100の構成を示す図である。図1に示すように、対話システム100は、対話装置10、管理サーバ30、情報提供サーバ31-1,31-2、通信端末70、を備えており、これらは通信ネットワークを介して接続している。この通信ネットワークとしては、例えば、インターネットが利用できる。また、電話回線網、移動体通信網、CATV(CAble TeleVision)通信網、衛星通信網などを利用することもできる。
対話装置10は音声認識機能を有しており、ユーザは自然言語を用いた音声出力(発話)によって対話装置10と対話することができる。対話装置10は、対話ロボットであってもよいし、音声認識機能を備えた、スマートフォン、タブレット端末、パーソナルコンピュータ、家電(家庭用電子機器)等であってもよい。
管理サーバは、対話装置10を管理する装置であり、情報提供サーバ31-1、31-2は対話装置10に各種情報を提供する装置であり、通信端末70は、対話装置10のユーザが有する通信端末であり、例えば、ユーザに関する情報を管理サーバに登録するのに用いられる。詳細は後述する。
なお、図1では、説明の簡略化のため、1つの対話装置10、1つの通信端末70、2つの情報提供サーバ31-1,31-2を図示しているが、これらの数は限定されない。また、図1では、対話装置10は対話ロボットとして、通信端末70はスマートフォンとして表わされているが、これらに限定されるものではない。また、管理サーバ30が管理する対話装置10の種類は問わず、つまり、管理サーバ30に、対話ロボットとスマートフォンといったように異なる種類の対話装置10が通信接続していてもよい。
(対話装置)
対話装置10の構成について説明する。対話装置10は、音声(入力音声)が入力されると、音声認識を行い、その認識結果に応じた対話を行う装置である。対話装置10は、図1に示すように、音声入力部11、音声出力部12、制御部13、データ格納部14、及び通信部15を備えている。
対話装置10の構成について説明する。対話装置10は、音声(入力音声)が入力されると、音声認識を行い、その認識結果に応じた対話を行う装置である。対話装置10は、図1に示すように、音声入力部11、音声出力部12、制御部13、データ格納部14、及び通信部15を備えている。
音声入力部11は、マイク等の音声入力装置であり、音声出力部12は、スピーカ等の音声出力装置である。
制御部13は、対話装置10の各部の動作を制御するブロックである。制御部13は、例えば、CPU(Central Processing Unit)や専用プロセッサなどの演算処理部などにより構成されるコンピュータ装置から成る。制御部13は、データ格納部14に記憶されている対話装置10における各種制御を実施するためのプログラムを読み出して実行することで、対話装置10の各部の動作を統括的に制御する。
データ格納部14は、RAM(Random Access Memory)、ROM(Read Only Memory)、HDD(Hard Disk Drive)などを含み、対話装置10にて用いられる各種情報(データ)を記憶するブロックである。また、データ格納部14には、応答情報格納部141が含まれる。応答情報格納部141は、単語やフレーズに対応させて主応答情報が登録されているデータベースである。主応答情報は、単語1つに対応したものだけでなく、複数の単語の組み合わせに対応しものが登録されている。また、ある単語やあるフレーズに対応させて複数の主対応情報が登録されていてもよく、この場合、実際に音声出力されるものを選択すればよい。なお、単語やフレーズおよび主応答情報は、何れもテキストデータとして格納しておけばよい。このようなデータベースの構築、また、データベースからの応答情報の取得については、公知技術が利用できる。
さらに、応答情報格納部141には、主応答情報対応付けられて副応答情報が登録されている。副応答情報は、主応答情報が示す応答内容に付加される応答内容を示す情報であり、後述のように、応答情報格納部141に格納されていない場合には、所定時刻になると生成されて格納される。また、格納されている場合には、所定時刻になると更新される。副応答情報については、具体例を用いて後述する。副応答情報もテキストデータとして応答情報格納部141に格納すればよい。
さらに、制御部13は、音声認識部16、時刻算出部17、材料情報取得部18、副応答情報生成部19、出力制御部20、及び音声合成部21としての機能を有する。
音声認識部16は、ユーザからの入力音声を認識するブロックである。具体的には、音声認識部16は、音声入力部11から入力された音声データをテキストデータに変換して、そのテキストデータを解析して単語やフレーズを抽出する。なお、音声認識の処理について公知技術を用いることができる。
時刻算出部17は、入力音声が入力される時刻を推定(算出)するブロックである。時刻算出部17により推定された時刻を推定入力時刻と称する。材料情報取得部18は、副応答情報の生成または更新に用いる後述の材料情報を取得するブロックである。副応答情報生成部19は、時刻算出部17が算出した推定入力時刻よりも前に、材料情報取得部18から材料情報を受け取り(取得し)、副応答情報を生成または更新するブロックである。生成または更新された副応答情報は応答情報格納部141に格納される。
本実施形態では、時刻算出部17は、入力音声のうちの特定の入力音声の推定入力時刻を算出し、副応答情報生成部19は、時刻算出部17が算出した特定の入力音声の推定入力時刻よりも前に、応答情報格納部141に格納されている全ての副応答情報を生成または更新する。例えば、特定の入力音声を「おはよう」とすると、「おはよう」の推定入力時刻よりも前に、つまり、ユーザの一日の始まりと推定される時刻前に、全ての副音声情報を生成または更新することができる。ユーザは、一日毎に生成または更新された副応答情報が示す応答内容の音声を聞くことができる。
もちろん、入力音声毎に推定入力時刻を算出して、ある入力音声の音声認識の結果に対応付けられた主応答情報に付加される副応答情報を、その入力音声について算出した推定入力時刻前に生成または更新する構成であってもよい。
時刻算出部17による推定入力時刻を算出について具体例を用いて説明する。時刻算出部17は、入力音声の過去の入力時刻の情報を基に推定入力時刻を算出する。この場合、例えば、入力音声の前回の入力時刻の情報を推定入力時刻として算出してもよいし、あるいは、過去の所定期間内(例えば、直近の、1週間または1ヶ月)の入力音声の入力時刻の平均を推定入力時刻として算出してもよい。あるいは、時刻算出部17は、ユーザの生活情報を基に推定入力時刻を算出する。この場合、例えば、ユーザの起床時刻を推定入力時刻として算出してもよい。ユーザの起床時刻は、例えば、対話装置10に目覚まし時計の機能が備えられており、設定されたアラームを鳴らす時刻から取得してもよい。もちろん、これらは例示であり、これらに限定されない。生活情報は、ユーザの生活状態ないし生活環境に関する情報であれば限定されない。
副応答情報生成部19は、材料情報として入力音声の過去の入力時刻の情報を基に副応答情報を生成または更新する。あるいは、副応答情報生成部19は、材料情報としてユーザの生活状態ないし生活環境に関する生活情報を基に副応答情報を生成または更新する。生活情報は、ユーザの生活状態ないし生活環境に関する情報であればどのような情報でもよく、例えば、対話装置が設置された地域の天気や交通に関する情報、ユーザのスケジュール(計画)、ユーザの生活パターンに関する情報、ユーザの健康に関する情報等が挙げられる。また、生活情報は、声認識部による入力音声の音声認識の結果から得られる情報であってもよい。また、通信部15を介して外部から受信した情報、あるいは、ユーザないしその周囲の状態を検知する状態検知部が検知した情報であってもよい。また、これらの情報の組み合わせであってもよい。状態検知部については、実施の形態2にて説明を行う。副応答情報については、後段で具体例を用いて説明する。
副応答情報が応答情報格納部141に登録されていない場合には、副応答情報生成部19は、材料情報を用いて副応答情報を生成する。この生成の処理は、情報が無い(ゼロ)副応答情報の更新の処理とも言えるので、応答情報の生成の処理も副応答情報の更新の処理に含めてもよい。
また、上記では、副応答情報生成部19が、副応答情報を生成または更新するものとして説明したが、推定入力時刻前に副応答情報を生成し、所定時刻あるいは所定の音声(例えば、「おやすみ」)入力後に副音声情報をクリアする構成であってもよい。
また、副応答情報生成部19が、副応答情報を通信ネットワーク60経由で外部から受信する処理も、副応答情報の生成または更新の処理に含めてもよい。
出力制御部20は、音声データを音声出力部12に出力させることで音声出力を行うブロックである。出力制御部20は、音声入力部11からの入力音声に対する応答として、応答情報格納部141を参照して得られる主応答情報が示す応答内容と共に上記副応答情報が示す応答内容を音声出力する。
音声合成部21は、音声データを生成するブロックである。音声合成部21は、主応答情報で示される応答内容の音声データ、副応答情報で示される応答内容の音声データを生成する。生成された音声データは、音声出力部12を介して出力される。
対話装置10は、このように、応答情報格納部141を参照することにより、ユーザの発話に対して応答を返すことが、つまり、ユーザとの対話が可能になる。
通信部15は、外部との通信を行うブロックである。通信部15は、管理サーバ30及び情報提供サーバ31-1、31-2から、生活情報を受信する。
以上のように、対話装置10は、入力音声に対して、主応答情報が示す応答内容の音声出力に、副応答情報が示す応答内容の音声出力を付加できるので、複数の情報での応答が可能である。また、副応答情報は、推定入力時刻よりも前に生成または更新されるので、変化に富んだ応答が可能である。このように、対話装置10は、複数の情報をスムーズに音声出力でき、ユーザにストレスを与えることなく快適な対話環境を提供できる。
また、副応答情報の生成または更新に用いられる材料情報を外部から取得する場合、入力音声の入力時に外部との通信が途絶えていても、入力音声の推定入力時刻より前に副応答情報を生成または更新するので、この生成または更新後に入力音声が入力されると、生成または更新された副応答情報をユーザに提供することができる。また、入力音声の入力時には、副応答情報も応答情報格納部141を参照して得るため、副応答情報を入力時に生成または更新したり、外部から受信したりする装置よりも、すばやい応答(音声出力)が可能である。
なお、対話装置10に撮像部が備えられている場合には、撮像部から入力された画像からユーザの表情や位置を解析してそれに基づき対話をするように構成されていてもよい。また、撮像部から得られる画像等からユーザを識別して対話をするように構成されていてもよい。
(管理サーバ及び情報提供サーバ)
次に、管理サーバ30及び情報提供サーバ31-1、31-2について説明する。
次に、管理サーバ30及び情報提供サーバ31-1、31-2について説明する。
管理サーバ30は、対話装置10を管理する装置である。管理サーバ30に複数の対話装置10が接続されている場合には、それぞれを個別に管理する。さらに、管理サーバ30は、対話装置10に生活情報を提供(送信)する。管理サーバ30はが提供する生活情報は、後述のように、通信端末70から取得(受信)した生活情報である。管理サーバ30は、クラウドサービスを提供するクラウドサーバであってもよいが、これに限定されることはない。また、管理サーバ30は、1台であってもよいし、複数台が通信ネットワークを介して接続したものであってもよい。
情報提供サーバ31-1,31-2は、ユーザの生活情報を提供する装置である。情報提供サーバ31-1,31-2が提供する生活情報はどのような情報であってもよく、例えば、気象情報、交通情報、災害情報、行政が発信する地域情報等が挙げられる。以下では、情報提供サーバ31-1を、天気情報を提供する天気情報提供サーバ31-1、情報提供サーバ31-2を、交通情報を提供する交通情報提供サーバ31-2として説明を行う。
ここで、管理サーバ30、天気情報提供サーバ31-1、交通情報提供サーバ31-2が、個別にユーザの生活情報を対話装置10に送信する構成でも、天気情報提供サーバ31-1及び交通情報提供サーバ31-2からの材料情報は管理サーバ30にいったん集約されて、管理サーバから対話装置10に送信する構成であってもよい。
対話システム100では、このような管理サーバ30及び情報提供サーバ31-1,31-2から提供された生活情報を基に副応答情報を生成または更新できるため、例えば、次のような応答を行うことが可能となる。副応答情報を生成または更新する際に天気情報提供サーバ31-1の提供する天気情報を利用することで、例えば、「おはよう。」という入力音声に対して、主応答情報が示す応答内容の音声(主応答情報で出力される音声)である「おはよう。」に、副応答情報が示す応答内容の音声(副応答情報で出力される音声)である「今日は雨が降るみたいだよ。」を付加することができる。
さらに、管理サーバ30は、通信端末70や図示しない他の通信端末から録音音声を登録できるようになっていてもよい。そして、この場合、副応答情報生成部19が、この登録された録音音声を副応答情報として取得することも、副応答情報の生成または更新に含める。録音音声は音声データとして形成されているので、そのまま対話装置10に送信すると、対話装置10での音声合成の処理はなされない。例えば、「冷蔵庫にケーキがあるよ」という音声がユーザの母親の通信端末(図示せず)から管理サーバ30に登録されると、対話装置10が、ユーザの「ただいま」という入力音声に対して、主応答情報を用いて「おかえり」を音声出力して、それに付加して、副応答情報を用いて「お母さんからの伝言だよ。「冷蔵庫にケーキがあるよ」。」を音声出力する、というような高度な応答を行うこともできる。
(通信端末)
通信端末70は、通信ネットワーク60を介して他の装置と通信を行える機器である。通信端末70は、管理サーバ30にユーザの生活情報を登録できるように構成されている。通信端末70としては、ユーザの生活情報を登録するためのソフトウェア(アプリケーション)が内蔵されたタブレット端末やスマートフォン、パーソナルコンピュータ等の汎用機器を想定する。通信端末70から管理サーバ30に登録できる生活情報は、生活状態ないし生活環境に関する情報であれば限定されず、例えば、ユーザのスケジュール、住んでいる地域、起床時間、ユーザのよく使用する(例えば、通勤や通学に使用する)路線等の情報が挙げられる。こまた、生活情報は、ユーザが通信端末70に入力してもよいし、通信端末70が自動または手動で取得してもよい。例えば、ユーザのよく使用する路線として、使用回数の多い基地局からユーザの通常の行動範囲を把握して、その範囲に含まれる路線を取得してもよい。これらは全て例示である。
通信端末70は、通信ネットワーク60を介して他の装置と通信を行える機器である。通信端末70は、管理サーバ30にユーザの生活情報を登録できるように構成されている。通信端末70としては、ユーザの生活情報を登録するためのソフトウェア(アプリケーション)が内蔵されたタブレット端末やスマートフォン、パーソナルコンピュータ等の汎用機器を想定する。通信端末70から管理サーバ30に登録できる生活情報は、生活状態ないし生活環境に関する情報であれば限定されず、例えば、ユーザのスケジュール、住んでいる地域、起床時間、ユーザのよく使用する(例えば、通勤や通学に使用する)路線等の情報が挙げられる。こまた、生活情報は、ユーザが通信端末70に入力してもよいし、通信端末70が自動または手動で取得してもよい。例えば、ユーザのよく使用する路線として、使用回数の多い基地局からユーザの通常の行動範囲を把握して、その範囲に含まれる路線を取得してもよい。これらは全て例示である。
(主応答情報及び副応答情報)
次に、主応答情報及び副応答情報を用いた応答について具体例を図3及び4を参照して説明する。
次に、主応答情報及び副応答情報を用いた応答について具体例を図3及び4を参照して説明する。
図3の(a)は、対話装置10が取得している、副応答情報の生成または更新に用いられる材料情報の一例を示す。図3の(a)は、取得している材料情報には、「晴」を示す天気の情報、「なし」を示す交通の情報、「燃えるごみの日」、「10時に習い事のピアノ」、「19時に食事会」を示すスケジュールの情報、「昨日の起床時刻は7時3分」を示す生活ログの情報があることを示している。
ここで、「なし」という交通の情報を取得しているとは、言い換えれば、交通の情報は取得していない、ということである。ケジュールの情報は、上記したように通信端末70から管理サーバ30に登録したものを対話装置10が取得する構成でも、対話装置10にユーザが直接登録でき、対話装置10はそれを取得する構成であってもよい。生活ログとは、対話装置10が取得するユーザの生活情報であり、対話装置10は生活ログを記録しデータ格納部14に格納する。あるいは、通信端末70が生活ログを記録し管理サーバ30に送信し、対話装置10は管理サーバ30から生活ログを取得するという構成であってもよい。
副応答情報生成部19は、時刻算出部17が算出した特定の入力音声(例えば、「おはよう」)の推定入力時刻よりも前に、材料情報を取得しおき、材料情報を基に副応答情報を生成または更新する。ここでは、対話装置10は、毎日、特定の入力音声である「おはよう」の推定入力時刻よりも前に、材料情報を取得しておき、材料情報を基に副応答情報を生成または更新するものとする。
図3の(c)は、入力音声を音声認識した結果である音声認識単語に応じた応答内容を示す主応答情報のデータベースの一例である。図3の(c)に示すデータベースでは、さらに、各主応答情報には、副応答情報を付加するか否かを示す情報が対応付けられている。
図3の(d)は、主応答情報「おはよう」に付加される副応答情報の一例であり、材料情報を基に生成または更新したものを示している。図3の(d)のように副応答情報が複数ある場合には、副応答情報生成部19は、副応答情報に優先度を設定する。そして、出力制御部20は、優先度に従って副応答情報を特定し、特定した副応答情報で示される応答内容を音声出力する。副応答情報は、主応答情報毎に設けられているが、ここでは、「おはよう」以外の主応答情報に付加される副応答情報の例については説明しない。
普段とは異なる状況を伝える副音声情報、緊急性を要する内容を伝えるものである副音声情報には、優先度を高く設定する。例えば、交通情報、スケジュール登録、悪天候を材料情報として生成または更新した副音声情報には高い優先度を付ける。本実施の形態では、優先度は1から3まであり、1の方が優先されるものである。
出力制御部20は、優先度が1の副応答情報は必ず出力する。また、優先度が2の副応答情報は優先度が1の副応答情報が無い場合に、ランダムに1つ出力する。また、優先度が3の副応答情報は、優先度が1の副応答情報及び優先度が2の副応答情報が無い場合にランダムに出力する。
この具体例では、図3の(b)に示すように、対話装置10は、「おはよう」という入力音声に対して、「おはよう」という主応答情報に、優先度が1の「今日は燃えるごみの日だよ」という副応答情報を付加して音声出力する。優先度が1の副応答情報が複数有る場合には、複数出力してもよいし、選択して出力してもよい。
別の具体例を図4を用いて説明する。図4の(a)は、材料情報の一例、図4の(c)は、入力音声を音声認識した結果である音声認識単語に応じた応答内容を示す主応答情報のデータベースの一例である。図4の(d)は、主応答情報「いってきます」に付加される副応答情報の一例である。この具体例では、図4の(b)に示すように、対話装置10は、「いってきます」という入力音声に対して、「いってらっしゃい」という主応答情報に、「傘忘れていない?」という副応答情報を付加して音声出力する。
〔実施の形態2〕
以下では、本発明の別の実施の形態の対話装置10aについて図5~7を用いて説明する。なお説明の便宜上、実施の形態1にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
以下では、本発明の別の実施の形態の対話装置10aについて図5~7を用いて説明する。なお説明の便宜上、実施の形態1にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
対話装置10の提供するサービス(対話装置10の動作)は主に対話であったが、対話装置10aは、対話以外にも、ユーザに各種サービスを提供可能に設けられている。そのため、対話装置10aは、提供可能なサービス毎の動作モードを有している。対話装置10aが提供可能なサービスとしては、例えば、対話、家電の操作、ユーザの生活情報の記録、ユーザへの音声アドバイスが挙げられるが、こられに限定されない。対話は、ユーザからの入力音声に対して行うものであるが、ユーザへの音声アドバイスとは、ユーザからの入力音声が無くても、対話装置10aから自発的に音声出力(発話)される情報である。対話装置10aによるサービスの提供については後に具体例を用いて説明する。
対話装置10aは、図5に示すように、ユーザ宅40にある家電を赤外線通信や無線LAN通信などで操作可能に設けられている。家電は、例えば、空気調和機(エアコン)、洗濯機、冷蔵庫、調理器具、照明装置、給湯機器、撮影機器、各種AV(Audio-Visual)機器、各種家庭用ロボット(例えば、掃除ロボット、家事支援ロボット、動物型ロボット等)等である。以下では、対話装置10aが操作できる家電として、エアコン50-1、テレビ50-2、冷蔵庫50-3を用いて説明を行うが、操作対象の家電はこれらに限定されない。
対話装置10aは、図6に示すように、実施の形態1の対話装置10の構成に加え、動作部22及び状態検知部24を備えている。動作部22は、対話装置10aの各種動作を実行するブロックである。状態検知部24は、ユーザないしその周囲の状態を検知する装置であればよく、例えば、人感センサ、撮像部(カメラ)、温度センサ等が挙げられる。しかし、これらに限定されない。
また、対話装置10aの制御部13aは、制御部13と同様の機能に加え、モード設定部23としての機能を有する。モード設定部23は、音声入力部11から入力された入力音声の音声認識の結果に基づき提供するサービスを決定し、決定したサービスを提供する動作モードに対話装置10aを設定する。よって、対話装置10aは、ユーザとの対話から、例えば、エアコン50-1を操作したいことを類推した場合には、エアコン50-1を操作する動作モードに対話装置10aを設定し、操作を行うことが可能となる。
また、対話装置10aのデータ格納部14aは、モード情報格納部143を含み、モード情報格納部143には、サービス毎に、そのサービスを提供する動作モードに対話装置10aを設定するための情報が格納されている。
対話装置10aから家電を操作する際には、赤外線を用いて家電の位置を検出してもよいし、状態検知部24が撮像部を有している場合には、この撮像部が取得した情報で家電の位置を検出してもよい。
実施の形態の対話システムは、図2の対話装置10が対話装置10aに置き換わったものである。実施の形態の対話システムは、さらに、エアコン50-1、テレビ50-2、及び冷蔵庫50-3が通信ネットワーク60に接続しており、管理サーバ30が、これら家電からの情報を取得する構成であってもよい。この場合に管理サーバ30が取得する情報としては、例えば、エアコン50-1、テレビ50-2、及び冷蔵庫50-3の、設定状況、動作状況を示す情報、周囲環境の情報が挙げられる。管理サーバ30は、これら家電から取得した情報のうちユーザの生活情報、例えば、エアコン50-1のON/OFFや設定温度の情報、冷蔵庫50-3を開ける回数の情報、テレビ50-2のON/OFFの情報を、対話装置10aに送信する。
このような構成であると、対話装置10aは、エアコン50-1、テレビ50-2、及び冷蔵庫50-3から得た生活情報も推定入力時刻の算出及び副応答情報の生成または更新に利用することができる。よって、この場合、例えば、「いってきます」という入力音声に対して、主応答情報で出力される音声である「いってらっしゃい。」に、副応答情報で出力される音声である「エアコンとテレビが点いているので消してね。」を付加することができる。
なお、管理サーバ30を介さず、エアコン50-1、テレビ50-2、及び冷蔵庫50-3から直接対話装置10aに生活情報を送信する構成であってもよい。この場合、エアコン50-1、テレビ50-2、及び冷蔵庫50-3が、対話装置10aに生活情報を提供する情報提供装置である。
また、冷蔵庫50-3が音声録音及び再生機能を有している場合、「ただいま」という入力音声に対して、主応答情報で出力される音声である「おかえり。」に、副応答情報で出力される音声である「冷蔵庫さんがお母さんの伝言を聞いているよ。」を付加することができる。この場合、冷蔵庫の伝言が再生されるまで、一定時間ごとに、副応答情報で出力される音声の出力を繰り返してもよい。冷蔵庫50-3への音声録音は、直接行う構成であっても、実施の形態1に記載のように、管理サーバ30介して行う構成でもよい。
次に、対話装置10aの動作の具体例について、図7を用いて説明する。
例えば、「おはよう」という入力音声を音声認識すると、生活状態が「起床」であると把握して、生活ログとして「起床時間」を記録しデータ格納部14に格納する。なお、生活ログとは、対話装置10aが取得するユーザの生活情報である。この「起床時間」の過去の記録を基に平均起床時刻を算出ることで、実施の形態1で記載したように、「おはよう」という入力音声の推定入力時刻の算出ができる。
さらに、このとき対話装置10aは、対話装置10aの動作モードを、スリープモード(またはセキュリティモード)から復帰させ、例えば、音声出力を最小限に抑えた対話モードに変更する。これは、起床時ユーザは忙しいことが多いための配慮である。
対話装置10aは、起床時に必要な情報(例えば、天気やニュースの情報)を副応答情報として出力する。例えば、主応答情報に応じて「おはよう。」を、副応答情報に応じて「今日は晴れだよ。」を音声出力する。
また、起床平均時刻と今回記録した「起床時刻」を比較し、例えば、「早起きだね。」や「遅刻するよ。」を副応答情報として出力してもよい。また、副応答情報生成部19は、例えば、「早起きだね」の副応答情報には、起床平均時刻よりも前の所定時間になると倒れるフラグを付けておき、出力制御部20はフラグが倒れた副応答情報は出力しないようになっていてもよい。これは、起床平均時刻の直前や起床平均時刻の後に「早起きだね」が出力されないための処置である。
また、起床平均時刻から、この時刻以前に、生活情報を取得して副応答情報の生成または更新を行ったり、エアコン50-1の運転を行ったりする。また、起床平均時刻を所定時刻経過しても入力音声「おはよう」を受信しないと、例えば、「もう朝だよ、起きなくていいの?」を音声アドバイスとして音声出力して通知する。
同様に、例えば、「いただきます」あるいは「ごちそうさま」という入力音声を音声認識すると、生活状態が「食事(朝食)」であると把握して、生活ログとして「食事回数」を記録しデータ格納部14に格納する。この場合、「食事回数」のデータを参照して、食べていない日があれば、例えば「朝ごはん食べた方がいいよ。」を音声アドバイスとして音声出力して通知する。
これらのように、対話装置10aは、入力音声の音声認識の結果に基づき、各種サービスを提供することができる。よって、ユーザは、対話装置に話し掛けるだけでサービスの提供を受けることができ、快適な生活環境を享受できる。
〔実施の形態3〕
実施の形態1及び2にて説明した対話装置10及び10aは、それぞれ、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
実施の形態1及び2にて説明した対話装置10及び10aは、それぞれ、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
後者の場合、対話装置10及び10aは、それぞれ、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラム及び各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)等を備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路等を用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
本発明は上述した各実施の形態に限定されるものではなく、種々の変更が可能であり、異なる実施の形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施の形態についても本発明の技術的範囲に含まれる。さらに、各実施の形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
〔まとめ〕
本発明の態様1に係る対話装置10は、入力音声を音声認識する音声認識部16と、上記音声認識の結果に応じた応答内容を示す主応答情報、及び、当該主応答情報が示す応答内容に付加される応答内容を示す副応答情報を格納する応答情報格納部141と、上記入力音声が入力される時刻を推定する時刻算出部17と、上記推定された時刻である推定入力時刻よりも前に、上記副応答情報の生成または更新に用いる材料情報を取得して上記副応答情報を生成または更新する副応答情報生成部19と、上記入力音声が入力されると、上記応答情報格納部を参照して得られる上記主応答情報が示す応答内容と共に上記副応答情報が示す応答内容を音声出力する出力制御部20と、を備えている。
本発明の態様1に係る対話装置10は、入力音声を音声認識する音声認識部16と、上記音声認識の結果に応じた応答内容を示す主応答情報、及び、当該主応答情報が示す応答内容に付加される応答内容を示す副応答情報を格納する応答情報格納部141と、上記入力音声が入力される時刻を推定する時刻算出部17と、上記推定された時刻である推定入力時刻よりも前に、上記副応答情報の生成または更新に用いる材料情報を取得して上記副応答情報を生成または更新する副応答情報生成部19と、上記入力音声が入力されると、上記応答情報格納部を参照して得られる上記主応答情報が示す応答内容と共に上記副応答情報が示す応答内容を音声出力する出力制御部20と、を備えている。
上記構成によると、入力音声の推定入力時刻よりも前に、副応答情報を生成または更新し、入力音声が入力されると、主応答情報が示す応答内容の共に上記副応答情報が示す応答内容を音声出力する。このように、入力音声に対して、主応答情報が示す応答内容の音声出力に、副応答情報が示す応答内容の音声出力を付加できるので、複数の情報での応答が可能である。また、副応答情報は、入力音声の推定入力時刻よりも前に生成または更新されるので、変化に富んだ応答が可能である。このように、上記構成によると、複数の情報をスムーズに音声出力でき、ユーザにストレスを与えることなく快適な対話環境を提供できる。
また、副応答情報の生成または更新に用いられる材料情報を外部から取得する場合、入力音声の入力時に外部との通信が途絶えていても、入力音声の推定入力時刻より前に副応答情報を生成または更新するので、この生成または更新後に入力音声が入力されると、生成または更新された副応答情報をユーザに提供することができる。また、入力音声の入力時には、副応答情報も応答情報格納部を参照して得るため、副応答情報を入力時に生成または更新したり外部から受信したりする装置よりも、すばやい応答(音声出力)が可能である。
本発明の態様2に係る対話装置では、上記態様1において、上記時刻算出部は、上記入力音声の過去の入力時刻の情報、または、ユーザの生活状態ないし生活環境に関する生活情報を基に上記推定入力時刻を算出する。
上記構成によると、入力音声の過去の入力時刻の情報、または、ユーザの生活状態ないし生活環境に関する生活情報によって算出された推定入力時刻よりも前に、副応答情報が生成または更新される。入力音声の過去の入力時刻の情報またはユーザの生活情報を用いることで、副応答情報の生成または更新の時期をユーザの生活パターンに則したものとすることができる。
本発明の態様3に係る対話装置では、上記態様1または2において、上記材料情報は、上記入力音声の過去の入力時刻の情報、または、ユーザの生活状態ないし生活環境に関する生活情報である。
上記構成によると、入力音声の過去の入力時刻の情報、または、ユーザの生活状態ないし生活環境に関する生活情報に基づき副応答情報が生成または更新される。よって、入力音声の過去の入力時刻の情報またはユーザの生活情報を用いることで、副応答情報の応答内容を、例えば、ユーザのよく口にする音声や生活パターンに沿ったものとすることができる。よって、副応答情報として、ユーザにとって有益な情報を提供することが可能になる。
生活情報は、ユーザの生活状態ないし生活環境に関する情報であればどのような情報でもよく、例えば、対話装置が設置された地域の天気や交通に関する情報、ユーザの生活パターンに関する情報、ユーザの健康に関する情報が挙げられる。
上記生活情報は、声認識部による上記入力音声の音声認識の結果であってもよい。また、外部装置から受信した情報、あるいは、ユーザないしその周囲の状態を検知する自装置が有する状態検知部が検知した情報であってもよい。また、これらの情報の組み合わせであってもよい。自装置が有する状態検知部とは、ユーザないしその周囲の状態を検知することができる装置であればよく、例えば、人感センサ、カメラ、温度センサ等が挙げられる。しかし、これらに限定されない。
本発明の態様4に係る対話装置では、上記態様1から3のいずれか1つにおいて、上記時刻算出部は、上記入力音声のうちの特定の入力音声の推定入力時刻を算出し、上記副応答情報生成部は、上記特定の入力音声の推定入力時刻よりも前に全ての上記副応答情報を生成または更新する。
上記構成によると、特定の入力音声の音声認識の結果に応じた応答内容を示す主応答情報に付加される副応答情報だけでなく、全ての副応答情報を、特定の入力音声の推定入力時刻よりも前に生成または更新することができる。このように、特定の入力音声の推定入力時刻を用いることで、例えば、「おはよう」という入力音声の推定入力時刻よりも前に、つまり、ユーザの一日の始まりと推定される時刻前に、全ての副音声情報を生成または更新することができる。ユーザは、一日毎に生成または更新された副応答情報が示す応答内容の音声を聞くことができる。
もちろん、入力音声毎に推定入力時刻を算出して、ある入力音声の音声認識の結果に対応付けられた主応答情報に付加される副応答情報を、その入力音声について算出した推定入力時刻前に生成または更新する構成であってもよい。
本発明の態様5に係る対話装置では、上記態様1から4のいずれか1つにおいて、副応答情報生成部は、上記副応答情報に優先度を設定し、上記応答情報格納部が優先度を設定された副応答情報を複数格納している場合、上記出力制御部は、上記優先度に従って副応答情報を特定し、当該特定した副応答情報で示される応答内容を音声出力する。
上記構成によると、副応答音声が複数ある場合、優先度に従った音声出力を行うことが可能となる。
本発明の態様6に係る対話装置では、上記態様1から5のいずれか1つにおいて、自装置が提供可能なサービス毎の動作モードを有しており、上記音声認識部による上記入力音声の音声認識の結果に基づき提供するサービスを決定し、当該決定したサービスを提供する動作モードに自装置を設定するモード設定部23をさらに備えている。
上記構成によると、提供するサービスの決定は、音声認識部による入力音声の音声認識の結果に基づき行うことができる。そして、対話装置は、提供するサービスが決定されると、そのサービスを提供する動作モードに自装置を設定し、サービスの提供を行うことが可能となる。提供するサービスの例としては、例えば、対話、家電の操作、ユーザの生活情報の記録、ユーザへの音声アドバイスが挙げられる。対話は、ユーザからの入力音声に対して行うものであるが、ユーザへの音声アドバイスとは、ユーザからの入力音声が無くても、対話装置から自発的に音声出力される情報であるとする。このように、ユーザは、対話装置に話し掛けるだけでサービスの提供を受けることができ、快適な生活環境を享受できる。
さらに、モード設定部は、外部装置から受信した情報、あるいは、ユーザないしその周囲の状態を検知する自装置が有する状態検知部が検知した情報等に基づき提供するサービスを決定してもよい。
本発明の態様7に係る対話システムは、上記態様1から6のいずれか1つに記載の対話装置と、上記材料情報を提供する情報提供装置とが通信ネットワークを介して接続されて構成されている。
上記対話システムによると、ユーザによる入力音声に対してスムーズな応答が可能であり、ユーザにストレスを与えることなく快適な対話環境を提供できる。
また、本発明の態様8に係る情報提供装置は、上記態様7の対話システムに備えられる情報提供装置である。
上記情報提供装置を用いることで、上記態様8の対話システムを構築することができる。
また、本発明の各態様に係る対話装置、情報提供装置または対話システムは、コンピュータによって実現してもよく、この場合には、コンピュータを対話装置、情報提供装置または対話システムが備える各手段として動作させることにより対話装置、情報提供装置または対話システムをコンピュータにて実現させるプログラム、及びそれを記録したコンピュータ読み取り可能な記録媒体も本発明の範疇に入る。
本発明は、ユーザの音声を認識して応答する対話装置等に利用可能である。
10,10a 対話装置
11 音声入力部
12 音声出力部
13,13a 制御部
14,14a データ格納部
15 通信部
16 音声認識部
17 時刻算出部
18 材料情報取得部
19 副応答情報生成部
20 出力制御部部
22 動作部
23 モード設定部
30 管理サーバ(外部装置、情報提供装置)
31-1,31-2 情報提供サーバ(外部装置、情報提供装置)
40 ユーザ宅
50-1 エアコン
50-2 テレビ
50-3 冷蔵庫
100 対話システム
141 応答情報格納部
143 モード情報格納部
11 音声入力部
12 音声出力部
13,13a 制御部
14,14a データ格納部
15 通信部
16 音声認識部
17 時刻算出部
18 材料情報取得部
19 副応答情報生成部
20 出力制御部部
22 動作部
23 モード設定部
30 管理サーバ(外部装置、情報提供装置)
31-1,31-2 情報提供サーバ(外部装置、情報提供装置)
40 ユーザ宅
50-1 エアコン
50-2 テレビ
50-3 冷蔵庫
100 対話システム
141 応答情報格納部
143 モード情報格納部
Claims (5)
- 入力音声を音声認識する音声認識部と、
上記音声認識の結果に応じた応答内容を示す主応答情報、及び当該主応答情報が示す応答内容に付加される応答内容を示す副応答情報を格納する応答情報格納部と、
上記入力音声が入力される時刻を推定する時刻算出部と、
上記推定された時刻である推定入力時刻よりも前に、上記副応答情報の生成または更新に用いる材料情報を取得して上記副応答情報を生成または更新する副応答情報生成部と、
上記入力音声が入力されると、上記応答情報格納部を参照して得られる上記主応答情報が示す応答内容と共に上記副応答情報が示す応答内容を音声出力する出力制御部と、を備えたことを特徴とする対話装置。 - 上記時刻算出部は、上記入力音声の過去の入力時刻の情報、または、ユーザの生活状態ないし生活環境に関する生活情報を基に上記推定入力時刻を算出することを特徴とする請求項1に記載の対話装置。
- 上記材料情報は、上記入力音声の過去の入力時刻の情報、または、ユーザの生活状態ないし生活環境に関する生活情報であることを特徴とする請求項1または2に記載の対話装置。
- 副応答情報生成部は、上記副応答情報に優先度を設定し、
上記応答情報格納部が優先度を設定された副応答情報を複数格納している場合、上記出力制御部は、上記優先度に従って副応答情報を特定し、当該特定した副応答情報で示される応答内容を音声出力することを特徴とする請求項1から3のいずれか1項に記載の対話装置。 - 自装置が提供可能なサービス毎の動作モードを有しており、
上記音声認識部による上記入力音声の音声認識の結果に基づき提供するサービスを決定し、当該決定したサービスを提供する動作モードに自装置を設定するモード設定部をさらに備えたことを特徴とする請求項1から4のいずれか1項に記載の対話装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014202219A JP6373709B2 (ja) | 2014-09-30 | 2014-09-30 | 対話装置 |
JP2014-202219 | 2014-09-30 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2016052520A1 true WO2016052520A1 (ja) | 2016-04-07 |
Family
ID=55630547
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2015/077545 WO2016052520A1 (ja) | 2014-09-30 | 2015-09-29 | 対話装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6373709B2 (ja) |
WO (1) | WO2016052520A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019021771A1 (ja) | 2017-07-24 | 2019-01-31 | 京セラ株式会社 | 充電台、携帯端末、コミュニケーションシステム、方法、およびプログラム |
CN109117233A (zh) * | 2018-08-22 | 2019-01-01 | 百度在线网络技术(北京)有限公司 | 用于处理信息的方法和装置 |
JP7503901B2 (ja) | 2019-12-27 | 2024-06-21 | ユニ・チャーム株式会社 | 提供プログラム、提供装置、提供方法および提供システム |
JP2021061636A (ja) * | 2021-01-07 | 2021-04-15 | 京セラ株式会社 | 携帯端末および方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002175405A (ja) * | 2000-12-07 | 2002-06-21 | Nippon Telegr & Teleph Corp <Ntt> | 適応型ネットワークサービス提供方法及びその記録媒体 |
JP2008026621A (ja) * | 2006-07-21 | 2008-02-07 | Fujitsu Ltd | 音声対話機能を有する情報処理装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5753212B2 (ja) * | 2013-03-19 | 2015-07-22 | シャープ株式会社 | 音声認識システム、サーバ、および音声処理装置 |
-
2014
- 2014-09-30 JP JP2014202219A patent/JP6373709B2/ja not_active Expired - Fee Related
-
2015
- 2015-09-29 WO PCT/JP2015/077545 patent/WO2016052520A1/ja active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002175405A (ja) * | 2000-12-07 | 2002-06-21 | Nippon Telegr & Teleph Corp <Ntt> | 適応型ネットワークサービス提供方法及びその記録媒体 |
JP2008026621A (ja) * | 2006-07-21 | 2008-02-07 | Fujitsu Ltd | 音声対話機能を有する情報処理装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2016071248A (ja) | 2016-05-09 |
JP6373709B2 (ja) | 2018-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10258295B2 (en) | Voice controlled assistance for monitoring adverse events of a user and/or coordinating emergency actions such as caregiver communication | |
JP6625418B2 (ja) | 人工知能に基づくヒューマンコンピュータインターアクションの方法、装置及び端末機器 | |
US20160234606A1 (en) | Method for augmenting hearing | |
JP2023015054A (ja) | 自動化アシスタントを呼び出すための動的および/またはコンテキスト固有のホットワード | |
US12001754B2 (en) | Context based media selection based on preferences setting for active consumer(s) | |
CN110709930B (zh) | 用于提供有关检测到的事件的信息的方法、系统和介质 | |
WO2016052520A1 (ja) | 対話装置 | |
US20200297264A1 (en) | Information processing device, information processing method, and program | |
US11119722B2 (en) | Movable body control apparatus and recording medium | |
WO2020105302A1 (ja) | 応答生成装置、応答生成方法及び応答生成プログラム | |
US11233490B2 (en) | Context based volume adaptation by voice assistant devices | |
WO2020116026A1 (ja) | 応答処理装置、応答処理方法及び応答処理プログラム | |
JP2017144521A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
US20130159400A1 (en) | User device, server, and operating conditions setting system | |
US20160125726A1 (en) | Cognitive alerting device | |
WO2017175442A1 (ja) | 情報処理装置、および情報処理方法 | |
JPWO2017195440A1 (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP2016206249A (ja) | 対話装置、対話システム、及び対話装置の制御方法 | |
US20210004747A1 (en) | Information processing device, information processing method, and program | |
KR20230047434A (ko) | 어시스턴트 디바이스(들)의 주변 감지에 기초한 어시스턴트 액션(들) 추론하기 | |
WO2020149031A1 (ja) | 応答処理装置及び応答処理方法 | |
JP7163103B2 (ja) | 情報処理装置、情報処理方法および情報処理プログラム | |
JP6855528B2 (ja) | 制御装置、入出力装置、制御方法、および制御プログラム | |
JP7136656B2 (ja) | 情報処理システムおよびプログラム | |
US20200357263A1 (en) | Method and device to notify an individual |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 15847737 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 15847737 Country of ref document: EP Kind code of ref document: A1 |