WO2018211677A1 - 情報処理装置、情報処理方法及び情報処理プログラム - Google Patents
情報処理装置、情報処理方法及び情報処理プログラム Download PDFInfo
- Publication number
- WO2018211677A1 WO2018211677A1 PCT/JP2017/018797 JP2017018797W WO2018211677A1 WO 2018211677 A1 WO2018211677 A1 WO 2018211677A1 JP 2017018797 W JP2017018797 W JP 2017018797W WO 2018211677 A1 WO2018211677 A1 WO 2018211677A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- user
- turn
- unit
- information processing
- time length
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
Definitions
- the present invention relates to a control technology for automatic dialogue.
- a question sentence is output by an artificial voice in a machine turn, and a response sentence is obtained by recognizing a user's utterance in a user turn.
- the machine turn is not switched while the user utters during the user turn.
- the user if the user does not speak in the user turn, the user turns to the machine turn after waiting for a certain time.
- An object of the present invention is, in one aspect, to determine the end of a user turn at a more appropriate timing.
- An information processing apparatus is an information processing apparatus that controls an automatic dialogue in which a machine turn and a user turn are alternately repeated.
- A According to a type of a question sentence that is voice-output in a machine turn, A first setting unit that sets a one-hour length; and (B) a first determination unit that determines to end a user turn when a period in which the start of user utterance is not detected in the user turn exceeds the first time length.
- the end of the user turn can be determined at a more appropriate timing.
- FIG. 1A is a diagram illustrating a module configuration example of an automatic dialogue apparatus.
- FIG. 1B is a diagram illustrating a module configuration example of the first control unit.
- FIG. 1C is a diagram illustrating a module configuration example of the second control unit.
- FIG. 1D is a diagram illustrating a network configuration example.
- FIG. 2 is a diagram illustrating an example of a classification table.
- FIG. 3 is a diagram showing a main processing flow.
- FIG. 4 is a diagram showing a machine turn processing flow.
- FIG. 5 is a diagram showing a first setting process flow.
- FIG. 6 is a diagram showing a user turn processing flow.
- FIG. 7 is a diagram illustrating a second setting process flow.
- FIG. 8 is a diagram showing a first correction processing flow.
- FIG. 1A is a diagram illustrating a module configuration example of an automatic dialogue apparatus.
- FIG. 1B is a diagram illustrating a module configuration example of the first control unit.
- FIG. 9 is a diagram showing a first determination processing flow.
- FIG. 10 is a diagram showing a user turn processing flow.
- FIG. 11 is a diagram showing a user turn processing flow.
- FIG. 12 is a diagram illustrating a second correction processing flow.
- FIG. 13 is a diagram showing a third correction processing flow.
- FIG. 14 is a diagram illustrating a second determination processing flow.
- FIG. 15 is a functional block diagram of a computer.
- Fig. 1A shows a module configuration example of the automatic dialogue apparatus.
- the automatic dialogue apparatus 101 includes a question generation unit 103, a dialogue control unit 105, a voice output unit 107, a timer 111, a voice input unit 113, and an image input unit 117.
- the question generation unit 103 generates a question sentence.
- the question generation unit 103 is based on the conventional technology.
- the dialogue control unit 105 controls a pseudo dialogue between the user and the automatic dialogue apparatus 101.
- the dialogue control unit 105 mainly outputs a question sentence by voice and converts the user's utterance into a response sentence.
- the audio output unit 107 is connected to the speaker 109.
- the voice output unit 107 converts a digital signal related to artificial voice into an analog signal.
- the speaker 109 outputs sound according to the analog signal.
- Timer 111 is used for measuring elapsed time.
- the voice input unit 113 is connected to the microphone 115.
- the microphone 115 is used for inputting user's voice.
- the voice input unit 113 converts an analog signal related to the user's voice into a digital signal.
- the image input unit 117 is connected to the camera 119.
- the camera 119 is used for photographing the user.
- the image input unit 117 inputs an image captured by the camera 119.
- the speaker 109, the microphone 115, and the camera 119 may be built in the automatic dialogue apparatus 101.
- the automatic dialogue apparatus 101 incorporating the speaker 109, the microphone 115, and the camera 119 may be a mobile phone terminal, a tablet terminal, or a personal computer.
- the speaker 109, the microphone 115, and the camera 119 may be installed outside the automatic dialogue apparatus 101.
- the speaker 109, the microphone 115, and the camera 119 may be installed in an automatic teller machine, a guidance device, a vending machine, or a humanoid robot.
- the speaker 109, the microphone 115, and the camera 119 may be mounted on a cockpit such as an automobile, a train, or an airplane. Further, a headset including the speaker 109, the microphone 115, and the camera 119 may be used.
- the dialogue control unit 105 includes a first control unit 131, a question sentence storage unit 133, a second control unit 135, a response sentence storage unit 137, a classification table storage unit 139, and a parameter storage unit 140.
- the first control unit 131 controls processing in the machine turn.
- the machine turn corresponds to a period during which the automatic dialogue apparatus 101 leads the dialogue. Details of the first control unit 131 will be described later with reference to FIG. 1B.
- the question sentence storage unit 133 stores the question sentence received from the question generation unit 103.
- the second control unit 135 controls processing in the user turn.
- the user turn corresponds to a period in which the user leads the dialogue. Details of the second control unit 135 will be described later with reference to FIG. 1C.
- the response sentence storage unit 137 stores a response sentence recognized from the user's utterance.
- the classification table storage unit 139 stores a classification table at the time when execution of processing is started.
- the classification table will be described later with reference to FIG.
- the parameter storage unit 140 stores various internal parameters (for example, question sentence type, status, first time length, and second time length). The type of question sentence, status, first time length and second time length will be described later.
- the question generation unit 103, the dialogue control unit 105, the voice output unit 107, the timer 111, the voice input unit 113, the image input unit 117, the first control unit 131, and the second control unit 135 described above are hardware resources (for example, FIG. 15) and a program that causes a processor to execute the processing described below.
- the above-described question sentence storage unit 133, response sentence storage unit 137, classification table storage unit 139, and parameter storage unit 140 are realized using hardware resources (for example, FIG. 15).
- FIG. 1B shows a module configuration example of the first control unit 131.
- the first control unit 131 includes a reception unit 141, a first setting unit 143, and a voice synthesis unit 145.
- the accepting unit 141 accepts a question sentence from the question generating unit 103.
- the first setting unit 143 executes a first setting process. The first setting process will be described later with reference to FIG.
- the speech synthesizer 145 performs speech synthesis related to the question sentence.
- the reception unit 141, the first setting unit 143, and the speech synthesis unit 145 described above are realized by using hardware resources (for example, FIG. 15) and a program that causes a processor to execute processing described below.
- FIG. 1C shows a module configuration example of the second control unit 135.
- the second control unit 135 includes a second setting unit 151, a voice recognition unit 153, a first correction unit 155, a first determination unit 157, a second correction unit 159, a third correction unit 161, a second determination unit 163, and a return unit. 165.
- the second setting unit 151 executes a second setting process.
- the second setting process will be described later with reference to FIG.
- the voice recognition unit 153 performs voice recognition related to the user utterance.
- the first correction unit 155 performs a first correction process.
- the first correction process will be described later with reference to FIG.
- the first determination unit 157 performs a first determination process.
- the first determination process will be described later with reference to FIG.
- the second correction unit 159 performs a second correction process.
- the second correction process will be described later with reference to FIG.
- the third correction unit 161 performs a third correction process.
- the third correction process will be described later with reference to FIG.
- the second determination unit 163 performs a second determination process.
- the second determination process will be described later with reference to FIG.
- the return unit 165 returns a code or a response sentence indicating no response to the question generation unit 103.
- the second setting unit 151, voice recognition unit 153, first correction unit 155, first determination unit 157, second correction unit 159, third correction unit 161, second determination unit 163, and return unit 165 described above are hardware. This is realized using a resource (for example, FIG. 15) and a program for causing a processor to execute processing described below.
- FIG. 1D shows a network configuration example.
- the automatic dialogue apparatus 101 is connected to an external apparatus 171 having a speaker 109, a microphone 115, and a camera 119 via a network.
- the sound output unit 107 in this example transmits a digital signal related to artificial sound to the external device 171.
- the voice input unit 113 in this example receives a digital signal related to the user's voice from the external device 171.
- the image input unit 117 in this example receives digital image data from the external device 171.
- the network connecting the external device 171 and the automatic dialog device 101 may be a telephone line network.
- the external device 171 may be a telephone terminal.
- the automatic dialogue apparatus 101 may be a server apparatus acting on behalf of a call center.
- the network connecting the external device 171 and the automatic dialog device 101 may be the Internet.
- the external device 171 may be a mobile phone terminal, a tablet terminal, or a personal computer.
- the automatic dialogue apparatus 101 may be a WEB server apparatus.
- the network connecting the external device 171 and the automatic dialog device 101 may be a corporate LAN (Local Area Network).
- the external device 171 may be a facing terminal installed in the reception corner.
- the automatic dialogue apparatus 101 may be an apparatus that supports customer reception.
- the network connecting the external device 171 and the automatic dialog device 101 may be a school LAN.
- the external device 171 may be a learning terminal used by students.
- the automatic dialogue apparatus 101 may be a learning support apparatus.
- the classification table in this example has a record corresponding to the type of question sentence.
- the record of the classification table has a field in which the first initial value is set and a field in which the second initial value is set.
- the first initial value is the default for the first time length.
- the first time length is a reference for timeout related to the start of the user's utterance. Accordingly, if the user does not utter even after the time corresponding to the first time length has elapsed after the question sentence is output by voice, it is considered that the user does not utter.
- the second initial value is the default for the second time length.
- the second time length is a reference for detecting the end of the user's utterance. When the time corresponding to the second time length elapses after the user's utterance stops, it is considered that the user's utterance has ended.
- the first record indicates that the initial value of the first time length is 1 second and the initial value of the second time length is 300 milliseconds when the question sentence type is “question concerning two choices”. means.
- the “question relating to two choices” is a question that is assumed to be answered, for example, “Yes” or “No”. In such a question, since the interval until the user speaks is considered to be short, the first initial value is set small. Similarly, since it is difficult to think that the user's utterances are continuous, the second initial value is also set small.
- the 8th record has an initial value of the first time length of 20 seconds and an initial value of the second time length of 1200 milliseconds when the type of the question sentence is “question for seeking opinions”. Means.
- the first initial value is set to be large on the assumption that the user waits until the ideas are collected.
- the second initial value is set to be large.
- FIG. 3 shows a main processing flow.
- the first control unit 131 performs machine turn processing (S301).
- S301 machine turn processing
- an artificial voice is mainly output by the question generation unit 103.
- Fig. 4 shows the machine turn processing flow.
- the accepting unit 141 accepts a question sentence from the question generating unit 103 (S401).
- the process in which the question generation unit 103 generates a question sentence is a conventional technique, and thus description thereof is omitted.
- the first control unit 131 starts the first setting process by the first setting unit 143 (S403).
- the first setting unit 143 sets the first time length according to the type of question sentence that is output as voice.
- the first setting process is executed in parallel with the machine turn process.
- Fig. 5 shows the first setting process flow.
- the first setting unit 143 classifies the question sentences (S501).
- the method for classifying the question sentences may be a conventional technique.
- the method of classifying the question texts is, for example, Hideharu Hayashi, Kazuhide Yamamoto, “Automatic QA Site Question Text Classification Based on Question Intention”, IEICE Technical Report, vol. 113, no. 83, NLC2013-10.
- question sentences are classified based on keywords included in the question sentence.
- the first setting unit 143 specifies a record corresponding to the question sentence type in the classification table (S503).
- the first setting unit 143 acquires the first initial value stored in the record (S505). Then, the first setting unit 143 sets the first initial value to the first time length (S507), and ends the first setting process.
- the voice synthesis unit 145 executes the voice synthesis process without waiting for the end of the first setting process (S405).
- the voice synthesizer 145 performs voice synthesis on the question sentence and generates a digital signal of an artificial voice that reads out the question sentence.
- the digital signal of the artificial voice is sent to the voice output unit 107, and the artificial voice is emitted from the speaker 109.
- the machine turn process is finished and the process returns to the caller's main process. It is assumed that the first setting process is finished when the voice synthesis process is finished.
- the second control unit 135 executes a user turn process (S303).
- voice recognition related to the user's utterance is mainly performed.
- Fig. 6 shows the user turn processing flow.
- the second control unit 135 activates the second setting process by the second setting unit 151 (S601).
- the second setting unit 151 sets the second time length according to the type of question sentence in the second setting process.
- the second setting process is executed in parallel with the user turn process.
- Fig. 7 shows the second setting process flow.
- the second setting unit 151 identifies a record corresponding to the type of question sentence in the classification table (S701).
- the second setting unit 151 acquires the second initial value stored in the record (S703).
- the second setting unit 151 sets the second initial value to the second time length (S705), and ends the second setting process.
- the second control unit 135 starts the second setting process in S601
- the second control unit 135 starts the voice recognition process by the voice recognition unit 153 without waiting for the end of the second setting process (S603).
- the speech recognition unit 153 obtains a digital signal related to the user's speech from the speech input unit 113 and generates text corresponding to the user's utterance content. In this example, it is assumed that a response sentence is obtained.
- the voice recognition process is executed in parallel with the user turn process.
- the second control unit 135 activates the first correction process by the first correction unit 155 (S605).
- the first correction unit 155 increases the first time length when the first gesture of the user is detected in the first correction process.
- the first correction process is executed in parallel with the user turn process.
- a movement that diverts the user's line of sight from the camera 119 may be the first gesture.
- the action of the user scratching his head may be the first gesture.
- the first gesture may be a pose in which the user's hand touches the nose.
- the first gesture may be a pose in which the user bites a finger.
- FIG. 8 shows the first correction processing flow.
- the first correction unit 155 instructs the camera 119 to start shooting via the image input unit 117 (S801). After this instruction, the first correction unit 155 continuously acquires captured image data from the image input unit 117.
- the captured image may be a moving image or a still image. If the camera 119 has already taken a picture, the process of S801 may be omitted.
- the first correction unit 155 determines whether the first gesture of the user is detected based on the captured image (S803).
- the first correction unit 155 increases the first time length (S805). For example, the first correction unit 155 adds a predetermined value to the first time length. Alternatively, the first correction unit 155 may multiply the first time length by a coefficient larger than 1. Then, the first correction unit 155 instructs the camera 119 to end shooting via the image input unit 117 (S807), and ends the first correction process. If the camera 119 continues to be photographed, the process of S807 may be omitted.
- the first correction unit 155 determines whether an instruction to end the first correction process has been received from the second control unit 135 (S809). .
- the process in which the second control unit 135 instructs the end of the first correction process will be described later.
- the processing returns to the processing shown in S803 and the above-described processing is repeated.
- the first correction unit 155 instructs the end of shooting (S807) and ends the first correction process. If the camera 119 continues to be photographed, the process of S807 may be omitted.
- the first determination unit 157 executes the first determination process without waiting for the end of the first correction process (S607).
- the 1st determination part 157 determines with a 1st determination process complete
- FIG. 9 shows the first determination process flow.
- the first determination unit 157 starts measuring elapsed time by the timer 111 (S901).
- the first determination unit 157 determines whether or not the start of the user utterance has been detected (S903). For example, the first determination unit 157 determines that the user utterance is started when the user's voice is included in the digital signal acquired from the voice input unit 113.
- the first determination unit 157 stops measuring the elapsed time by the timer 111 (S905).
- the first determination unit 157 sets a code indicating continuation of the user turn in the status (S907). Then, the first determination process is finished, and the process returns to the caller user turn process.
- the first determination unit 157 determines whether or not the elapsed time has exceeded the first time length (S909). If it is determined that the elapsed time does not exceed the first time length, the process returns to S903 and the above-described process is repeated.
- the first determination unit 157 stops measuring the elapsed time by the timer 111 (S911).
- the first determination unit 157 sets a code indicating the end of the user turn in the status (S913). Then, the first determination process is finished, and the process returns to the caller user turn process.
- the second control unit 135 instructs the first correction unit 155 to end the first correction process (S609), and determines whether the status indicates the end of the user turn (S609). S611).
- the second control unit 135 instructs the voice recognition unit 153 to end the voice recognition process (S1001). Then, the return unit 165 returns a code indicating no response to the question generation unit 103 (S1003). When the user turn process is completed, the process returns to the caller's main process.
- the process returns to the process shown in S301 and the above-described process is repeated.
- the question generation unit 103 generates the next question sentence.
- the second control unit 135 activates the second correction process by the second correction unit 159 (S1101).
- the second correction unit 159 increases the second time length when the second gesture of the user is detected in the second correction process.
- the second correction process is executed in parallel with the user turn process.
- the second gesture may be the same as the first gesture.
- the second gesture may be different from the first gesture.
- ⁇ In general, when a speaker still wants to continue his / her own story, there may be a unique gesture. For example, a pose looking up may be used as the second gesture. A facial expression with an open mouth may be used as the second gesture. Further, the action of waving a standing finger may be the second gesture.
- FIG. 12 shows the second correction processing flow.
- the second correction unit 159 instructs the start of shooting through the image input unit 117 (S1201). After this instruction, the second correction unit 159 continuously acquires captured image data from the image input unit 117. If the camera 119 has already taken a picture, the process of S1201 may be omitted.
- the second correction unit 159 determines whether or not the user's second gesture has been detected based on the captured image (S1203).
- the second correction unit 159 increases the second time length (S1205). For example, the second correction unit 159 adds a predetermined value to the second time length. The second correction unit 159 may multiply the second time length by a coefficient larger than 1. Then, the second correction unit 159 instructs the camera 119 to end shooting via the image input unit 117 (S1207), and ends the second correction process. If the camera 119 continues to be photographed, the process of S1207 may be omitted.
- the second correction unit 159 determines whether an instruction to end the second correction process has been received from the second control unit 135 (S1209). .
- the process in which the second control unit 135 instructs the end of the second correction process will be described later.
- the process returns to S1203 and the above-described process is repeated.
- the second correction unit 159 instructs the end of shooting (S1207), and ends the second correction process. If the camera 119 continues to be photographed, the process of S1207 may be omitted.
- the second control unit 135 starts the third correction process by the third correction unit 161 without waiting for the end of the second correction process (S1103).
- the third correction unit 161 increases the second time length when a predetermined word included in the user utterance is detected in the third correction process.
- the third correction process is executed in parallel with the user turn process.
- the predetermined word is, for example, a word sandwiched between utterances, that is, a filler.
- a filler In the case of Japanese, “um”, “that” or “well” corresponds to the filler. Fillers can vary by language and region.
- FIG. 13 shows a third correction processing flow.
- the third correction unit 161 determines whether a filler has been detected (S1301). For example, the third correction unit 161 detects a filler by analyzing a digital audio signal. Alternatively, the third correction unit 161 may determine that the filler has been detected when the response sentence includes a character string corresponding to the filler.
- the third correction unit 161 increases the second time length (S1303). For example, the third correction unit 161 adds a predetermined value to the second time length. Alternatively, the third correction unit 161 may multiply the second time length by a coefficient larger than 1. Then, the third correction unit 161 ends the third correction process.
- the third correction unit 161 determines whether or not an instruction to end the third correction process is received from the second control unit 135 (S1305). The process in which the second control unit 135 instructs the end of the third correction process will be described later.
- the processing returns to the processing shown in S1301 and the above-described processing is repeated. On the other hand, if it is determined that an instruction to end the third correction process has been received, the third correction process ends.
- the second determination unit 163 performs the second determination process without waiting for the end of the third correction process (S1105).
- the 2nd determination part 163 determines with a 2nd determination process complete
- FIG. 14 shows the second determination processing flow.
- the second determination unit 163 starts measuring elapsed time by the timer 111 (S1401).
- the second determination unit 163 determines whether or not a user utterance is currently detected (S1403). For example, the second determination unit 163 determines that a user utterance is detected when the digital signal acquired from the voice input unit 113 includes the user's voice.
- the second determination unit 163 determines to continue the user turn (S1405). Then, the process proceeds to S1411.
- the second determination unit 163 determines whether or not the elapsed time exceeds the second time length (S1407). If it is determined that the elapsed time does not exceed the second time length, the process returns to S1403 and the above-described process is repeated. On the other hand, if it is determined that the elapsed time has exceeded the second time length, the second determination unit 163 determines to end the user turn (S1409). Then, the process proceeds to S1411.
- the second determination unit 163 stops measuring the elapsed time by the timer 111.
- the second determination unit 163 branches the process depending on whether it is determined to end the user turn (S1413). If it is not determined to end the user turn, that is, if it is determined to continue the user turn, the process returns to S1401 and the above-described process is repeated.
- the second determination process is terminated and the process returns to the caller user turn process.
- the second control unit 135 instructs the second correction unit 159 to end the second correction process (S1107) and instructs the third correction unit 161 to end the third correction process. (S1109). Further, the second control unit 135 instructs the voice recognition unit 153 to end the voice recognition process (S1111).
- the return unit 165 returns the response text stored in the response text storage unit 137 to the question generation unit 103 (S1113). When the user turn process is completed, the process returns to the caller's main process.
- the process returns to the process shown in S301 and the above-described process is repeated.
- the question generation unit 103 generates the next question sentence.
- the user's response completion can be determined at a more appropriate timing.
- the present invention is not limited to this.
- the functional block configuration described above may not match the program module configuration.
- each storage area described above is an example, and the configuration as described above is not necessarily required. Further, in the processing flow, if the processing result does not change, the processing order may be changed or a plurality of processes may be executed in parallel.
- the above-described automatic dialogue apparatus 101 is a computer apparatus, and as shown in FIG. 15, a memory 2501, a CPU (Central Processing Unit) 2503, a hard disk drive (HDD: Hard Disk Drive) 2505, and a display device A display control unit 2507 connected to 2509, a drive device 2513 for the removable disk 2511, an input device 2515, and a communication control unit 2517 for connecting to a network are connected by a bus 2519.
- An operating system (OS: Operating System) and an application program for performing the processing in this embodiment are stored in the HDD 2505, and are read from the HDD 2505 to the memory 2501 when executed by the CPU 2503.
- OS Operating System
- the CPU 2503 controls the display control unit 2507, the communication control unit 2517, and the drive device 2513 according to the processing content of the application program, and performs a predetermined operation. Further, data in the middle of processing is mainly stored in the memory 2501, but may be stored in the HDD 2505.
- an application program for performing the above-described processing is stored in a computer-readable removable disk 2511 and distributed, and installed in the HDD 2505 from the drive device 2513. In some cases, the HDD 2505 may be installed via a network such as the Internet and the communication control unit 2517.
- Such a computer apparatus realizes various functions as described above by organically cooperating hardware such as the CPU 2503 and the memory 2501 described above and programs such as the OS and application programs. .
- the information processing apparatus is an information processing apparatus that controls an automatic dialogue in which a machine turn and a user turn are alternately repeated.
- A According to the type of question sentence that is output as a voice in a machine turn A first setting unit that sets a first time length; and
- B a first determination unit that determines that a user turn is to be terminated when a period in which the start of user utterance is not detected in the user turn exceeds the first time length. And have.
- the first setting unit 143 illustrated in FIG. 1B is an example of the first setting unit.
- the 1st determination part 157 shown to FIG. 1C is an example of a 1st determination part.
- the information processing apparatus may include a first correction unit that increases the first time length when the first gesture of the user is detected before detecting the start of the user utterance in the user turn. .
- the first correction unit 155 illustrated in FIG. 1C is an example of the first correction unit.
- the information processing apparatus includes: a second setting unit that sets a second time length according to the type of question sentence; and a user's utterance during a user turn when the duration of the user's utterance exceeds the second time length. You may make it have the 2nd determination part determined to complete
- the second setting unit 151 illustrated in FIG. 1C is an example of the second setting unit.
- the second determination unit 163 illustrated in FIG. 1C is an example of a second determination unit.
- the information processing apparatus may include a second correction unit that increases the second time length when the user's second gesture is detected after detecting the start of the user utterance in the user turn.
- the second correction unit 159 illustrated in FIG. 1C is an example of the second correction unit.
- the information processing apparatus may include a third correction unit that increases the second time length when a predetermined word included in the user utterance is detected in the user turn.
- the third correction unit 161 illustrated in FIG. 1C is an example of a third correction unit.
- the program is, for example, a computer such as a flexible disk, a CD-ROM, a magneto-optical disk, a semiconductor memory, and a hard disk. It may be stored in a readable storage medium or storage device. Note that intermediate processing results are generally temporarily stored in a storage device such as a main memory.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
一態様に係る情報処理装置は、マシンターンとユーザターンとを交互に繰り返す自動対話を制御する情報処理装置であって、(A)マシンターンにおいて音声出力される質問文の種類に応じて、第1時間長を設定する第1設定部と、(B)ユーザターンにおいてユーザ発話の開始を検知しない期間が第1時間長を超えた場合に、ユーザターンを終了すると判定する第1判定部とを有する。更に、上記情報処理装置は、ユーザターンにおいて、ユーザ発話の開始を検知する前にユーザの第1ジェスチャーを検出した場合に、第1時間長を増加させる第1補正部を有するようにしてもよい。
Description
本発明は、自動対話の制御技術に関する。
マシンターンとユーザターンとを交互に繰り返す自動対話装置では、例えばマシンターンにおいて質問文を人工音声で出力し、ユーザターンにおいてユーザの発話を音声認識することによって応答文を得る。
従来技術の場合、ユーザターンにおいてユーザの発話が行われている間は、マシンターンに切り替わらない。一方、ユーザターンにおいてユーザの発話が行われないと、一定時間待って、マシンターンに切り替わる。
但し、ユーザターンからマシンターンに切り替わるタイミングが早すぎると、ユーザが応答する機会が不適切に奪われることになる。反対に、ユーザターンからマシンターンに切り替わるタイミングが遅すぎると、対話が円滑に行われない。
本発明の目的は、一側面では、ユーザターンの終了を、より適正なタイミングで判別することである。
一態様に係る情報処理装置は、マシンターンとユーザターンとを交互に繰り返す自動対話を制御する情報処理装置であって、(A)マシンターンにおいて音声出力される質問文の種類に応じて、第1時間長を設定する第1設定部と、(B)ユーザターンにおいてユーザ発話の開始を検知しない期間が第1時間長を超えた場合に、ユーザターンを終了すると判定する第1判定部とを有する。
一側面としては、ユーザターンの終了を、より適正なタイミングで判別できる。
図1Aに、自動対話装置のモジュール構成例を示す。自動対話装置101は、質問生成部103、対話制御部105、音声出力部107、タイマ111、音声入力部113及び画像入力部117を有する。
質問生成部103は、質問文を生成する。質問生成部103は、従来技術による。対話制御部105は、ユーザと自動対話装置101との間における擬似的な対話を制御する。対話制御部105は、主に質問文を音声で出力し、ユーザの発話を応答文に変換する。
音声出力部107は、スピーカ109と接続している。音声出力部107は、人工音声に関するデジタル信号をアナログ信号に変換する。スピーカ109は、アナログ信号に応じて音を出力する。
タイマ111は、経過時間の計測に用いられる。
音声入力部113は、マイク115と接続している。マイク115は、ユーザの音声を入力するために用いられる。音声入力部113は、ユーザの音声に関するアナログ信号をデジタル信号に変換する。
画像入力部117は、カメラ119と接続している。カメラ119は、ユーザを撮影するために用いられる。画像入力部117は、カメラ119によって撮影された画像を入力する。
スピーカ109、マイク115及びカメラ119は、自動対話装置101に内蔵されていてもよい。スピーカ109、マイク115及びカメラ119を内蔵する自動対話装置101は、携帯電話端末、タブレット端末或いはパーソナルコンピュータであってもよい。
スピーカ109、マイク115及びカメラ119は、自動対話装置101の外部に設置されていてもよい。例えばスピーカ109、マイク115及びカメラ119が、現金自動預け払い機、案内装置、自動販売機や人型ロボットに設置されるようにしてもよい。スピーカ109、マイク115及びカメラ119が、自動車、電車或いは飛行機などの操縦席に搭載されるようにしてもよい。また、スピーカ109、マイク115及びカメラ119を含むヘッドセットを用いるようにしてもよい。
対話制御部105は、第1制御部131、質問文記憶部133、第2制御部135、応答文記憶部137、分類テーブル記憶部139及びパラメータ記憶部140を有する。
第1制御部131は、マシンターンにおける処理を制御する。マシンターンは、自動対話装置101が対話を主導する期間に相当する。第1制御部131の詳細については、図1Bを用いて後述する。質問文記憶部133は、質問生成部103から受け付けた質問文を記憶する。
第2制御部135は、ユーザターンにおける処理を制御する。ユーザターンは、ユーザが対話を主導する期間に相当する。第2制御部135の詳細については、図1Cを用いて後述する。応答文記憶部137は、ユーザの発話から認識された応答文を記憶する。
分類テーブル記憶部139は、処理の実行を開始する時点で分類テーブルを記憶している。分類テーブルについては、図2を用いて後述する。パラメータ記憶部140は、各種の内部パラメータ(例えば質問文の種類、ステータス、第1時間長及び第2時間長)を記憶する。質問文の種類、ステータス、第1時間長及び第2時間長については、後述する。
上述した質問生成部103、対話制御部105、音声出力部107、タイマ111、音声入力部113、画像入力部117、第1制御部131及び第2制御部135は、ハードウエア資源(例えば、図15)と、以下で述べる処理をプロセッサに実行させるプログラムとを用いて実現される。
上述した質問文記憶部133、応答文記憶部137、分類テーブル記憶部139及びパラメータ記憶部140は、ハードウエア資源(例えば、図15)を用いて実現される。
図1Bに、第1制御部131のモジュール構成例を示す。第1制御部131は、受付部141、第1設定部143及び音声合成部145を有する。受付部141は、質問生成部103から質問文を受け付ける。第1設定部143は、第1設定処理を実行する。第1設定処理については、図5を用いて後述する。音声合成部145は、質問文に関する音声合成を行う。
上述した受付部141、第1設定部143及び音声合成部145は、ハードウエア資源(例えば、図15)と、以下で述べる処理をプロセッサに実行させるプログラムとを用いて実現される。
図1Cに、第2制御部135のモジュール構成例を示す。第2制御部135は、第2設定部151、音声認識部153、第1補正部155、第1判定部157、第2補正部159、第3補正部161、第2判定部163及び返却部165を有する。
第2設定部151は、第2設定処理を実行する。第2設定処理については、図7を用いて後述する。音声認識部153は、ユーザ発話に関する音声認識を行う。第1補正部155は、第1補正処理を実行する。第1補正処理については、図8を用いて後述する。第1判定部157は、第1判定処理を実行する。第1判定処理については、図9を用いて後述する。第2補正部159は、第2補正処理を実行する。第2補正処理については、図12を用いて後述する。第3補正部161は、第3補正処理を実行する。第3補正処理については、図13を用いて後述する。第2判定部163は、第2判定処理を実行する。第2判定処理については、図14を用いて後述する。返却部165は、応答無しを示すコード又は応答文を質問生成部103へ返す。
上述した第2設定部151、音声認識部153、第1補正部155、第1判定部157、第2補正部159、第3補正部161、第2判定部163及び返却部165は、ハードウエア資源(例えば、図15)と、以下で述べる処理をプロセッサに実行させるプログラムとを用いて実現される。
尚、自動対話装置101がネットワークに接続するようにしてもよい。図1Dに、ネットワーク構成例を示す。この例で、自動対話装置101は、ネットワークを介してスピーカ109、マイク115及びカメラ119を有する外部装置171と接続している。
この例における音声出力部107は、人工音声に関するデジタル信号を外部装置171へ送信する。この例における音声入力部113は、ユーザの音声に関するデジタル信号を外部装置171から受信する。この例における画像入力部117は、デジタル画像データを外部装置171から受信する。
外部装置171と自動対話装置101とを接続するネットワークは、電話回線網であってもよい。外部装置171は、電話端末であってもよい。また、自動対話装置101は、コールセンターの業務を代行するサーバ装置であってもよい。
また、外部装置171と自動対話装置101とを接続するネットワークは、インターネットであってもよい。そして、外部装置171は、携帯電話端末、タブレット端末或いはパーソナルコンピュータであってもよい。また、自動対話装置101は、WEBサーバ装置であってもよい。
また、外部装置171と自動対話装置101とを接続するネットワークは、企業のLAN(Local Area Network)であってもよい。そして、外部装置171は、受付コーナーに設置されている対面端末であってもよい。また、自動対話装置101は、顧客応対を支援する装置であってもよい。
また、外部装置171と自動対話装置101とを接続するネットワークは、学校のLANであってもよい。そして、外部装置171は、生徒が使用する学習用端末であってもよい。また、自動対話装置101は、学習支援装置であってもよい。
次に、図2を用いて、分類テーブルの例について説明する。この例における分類テーブルは、質問文の種類に対応するレコードを有している。分類テーブルのレコードは、第1初期値が設定されているフィールドと、第2初期値が設定されているフィールドとを有している。
第1初期値は、第1時間長のデフォルトである。第1時間長は、ユーザの発話開始に係るタイムアウトの基準となる。従って、質問文が音声出力された後に、第1時間長に相当する時間が経過してもユーザが発話しなければ、ユーザの発話がないものと看做される。
第2初期値は、第2時間長のデフォルトである。第2時間長は、ユーザの発話終了を検出する基準となる。ユーザの発話が途絶えてから、そのまま第2時間長に相当する時間が経過した時点で、ユーザの発話が終了したものと看做される。
第1レコードは、質問文の種類が「二択に係る質問」である場合に、第1時間長の初期値が1秒であり、第2時間長の初期値が300ミリ秒であることを意味する。「二択に係る質問」は、例えば「はい」又は「いいえ」で答えられることを想定した質問である。このような質問では、ユーザが発話するまでの間隔が短いと考えられるので、第1初期値は小さく設定されている。同じく、ユーザの発話が断続的に連なることは考え難いので、第2初期値も小さく設定されている。
一方、第8レコードは、質問文の種類が「意見を求める質問」である場合に、第1時間長の初期値が20秒であり、第2時間長の初期値が1200ミリ秒であることを意味する。「意見を求める質問」では、ユーザが考えをまとめるまで待機することを想定して、第1初期値は大きく設定されている。同じく、ユーザの発話が断続的に連なることが考えられるので、第2初期値も大きく設定されている。
続いて、対話制御部105の動作について説明する。図3に、メイン処理フローを示す。第1制御部131は、マシンターン処理を実行する(S301)。マシンターン処理では、主に質問生成部103による人工音声の出力が行われる。
図4に、マシンターン処理フローを示す。受付部141は、質問生成部103から質問文を受け付ける(S401)。質問生成部103が質問文を生成する処理は、従来技術であるので説明を省く。
第1制御部131は、第1設定部143による第1設定処理を起動する(S403)。第1設定部143は、第1設定処理において、音声出力される質問文の種類に応じて、第1時間長を設定する。第1設定処理は、マシンターン処理と並行に実行される。
図5に、第1設定処理フローを示す。第1設定部143は、質問文を分類する(S501)。質問文を分類する方法は、従来技術であってもよい。質問文を分類する方法は、例えば林 秀治、山本 和英、「質問意図によるQAサイト質問文の自動分類」、信学技報、vol.113、no.83、NLC2013-10に記載されている。尚、この開示例では、質問文に含まれるキーワードに基づいて質問文を分類する。
第1設定部143は、分類テーブルにおいて、質問文の種類に対応するレコードを特定する(S503)。第1設定部143は、当該レコードに格納されている第1初期値を取得する(S505)。そして、第1設定部143は、第1初期値を第1時間長に設定し(S507)、第1設定処理を終える。
図4の説明に戻る。S403において第1制御部131が第1設定処理を起動すると、第1設定処理の終了を待たずに、音声合成部145は、音声合成処理を実行する(S405)。音声合成部145は、質問文に関する音声合成を行って、質問文を読み上げる人工音声のデジタル信号を生成する。人工音声のデジタル信号は音声出力部107に送られ、スピーカ109から人工音声が発せられる。
音声合成処理を終えると、マシンターン処理を終え、呼び出し元のメイン処理に復帰する。尚、音声合成処理を終えた時点で、第1設定処理は終わっているものとする。
図3の説明に戻る。マシンターン処理を終えると、第2制御部135は、ユーザターン処理を実行する(S303)。ユーザターン処理では、主にユーザの発話に関する音声認識が行われる。
図6に、ユーザターン処理フローを示す。第2制御部135は、第2設定部151による第2設定処理を起動する(S601)。第2設定部151は、第2設定処理において、質問文の種類に応じて第2時間長を設定する。第2設定処理は、ユーザターン処理と並行に実行される。
図7に、第2設定処理フローを示す。第2設定部151は、分類テーブルにおいて、質問文の種類に対応するレコードを特定する(S701)。第2設定部151は、当該レコードに格納されている第2初期値を取得する(S703)。そして、第2設定部151は、第2初期値を第2時間長に設定し(S705)、第2設定処理を終える。
図6の説明に戻る。S601において第2制御部135が第2設定処理を起動すると、第2設定処理の終了を待たずに、第2制御部135は、音声認識部153による音声認識処理を起動する(S603)。音声認識部153は、音声認識処理において、音声入力部113からユーザの音声に関するデジタル信号を得て、ユーザの発話内容に相当するテキストを生成する。この例では、応答文が得られることを想定する。音声認識処理は、ユーザターン処理と並行に実行される。
図6の説明に戻る。第2制御部135は、第1補正部155による第1補正処理を起動する(S605)。第1補正部155は、第1補正処理において、ユーザの第1ジェスチャーを検出した場合に第1時間長を増加させる。第1補正処理は、ユーザターン処理と並行に実行される。
一般的な人同士の対話において、相手の話を積極的に聞こうとする場合や相手に自分の話を真剣に伝えようとする場合に、相手と視線を合わせようとする。一方、自らの考えを纏めようとしているときには、相手と視線を合わせないようにすることが多い。
人と装置との擬似的な対話においても、ユーザが装置と正対していないときには、まだ考えが纏まっていないと想定される。従って、例えばユーザの視線をカメラ119から逸らす動きを第1ジェスチャーとしてもよい。
また、考えを纏めようとしている人が、特有の手の動きを見せることも多い。ユーザが頭を掻くアクションを第1ジェスチャーとしてもよい。ユーザの手が鼻に触れるポーズを第1ジェスチャーとしてもよい。更に、ユーザが指を噛むポーズを第1ジェスチャーとしてもよい。
このようなジェスチャーが行われている場合には、この後ユーザが発話する可能性が高い。従って、ユーザターンをすぐに打ち切らない方がよい。
図8に、第1補正処理フローを示す。第1補正部155は、画像入力部117を介してカメラ119に撮影の開始を指示する(S801)。この指示以降、第1補正部155は、画像入力部117から撮影画像のデータを連続的に取得する。撮影画像は、動画であってもよいし、静止画であってもよい。既に、カメラ119が撮影を行っている場合には、S801の処理を省くようにしてもよい。
第1補正部155は、撮影画像に基づいて、ユーザの第1ジェスチャーを検出したか否かを判定する(S803)。
ユーザの第1ジェスチャーを検出したと判定した場合には、第1補正部155は、第1時間長を増加させる(S805)。第1補正部155は、例えば第1時間長に所定値を加える。或いは、第1補正部155は、第1時間長に1より大きい係数を乗じるようにしてもよい。そして、第1補正部155は、画像入力部117を介してカメラ119に撮影の終了を指示して(S807)、第1補正処理を終える。カメラ119の撮影を継続させる場合には、S807の処理を省くようにしてもよい。
一方、ユーザの第1ジェスチャーを検出していないと判定した場合には、第1補正部155は、第2制御部135から第1補正処理の終了指示を受けたか否かを判定する(S809)。第2制御部135が第1補正処理の終了を指示する処理については、後述する。
第1補正処理の終了指示を受けていないと判定した場合には、S803に示した処理に戻って、上述した処理を繰り返す。一方、第1補正処理の終了指示を受けたと判定した場合には、第1補正部155は、撮影の終了を指示して(S807)、第1補正処理を終える。カメラ119の撮影を継続させる場合には、S807の処理を省くようにしてもよい。
図6の説明に戻る。S605において第2制御部135が第1補正処理を起動すると、第1補正処理の終了を待たずに、第1判定部157は、第1判定処理を実行する(S607)。第1判定部157は、第1判定処理において、ユーザ発話の開始を検知しない期間が第1時間長を超えた場合に、ユーザターンを終了すると判定する。
図9に、第1判定処理フローを示す。第1判定部157は、タイマ111による経過時間の計測を開始する(S901)。第1判定部157は、ユーザ発話の開始を検知したか否かを判定する(S903)。例えば、第1判定部157は、音声入力部113から取得したデジタル信号に、ユーザの音声が含まれている場合に、ユーザ発話が開始されたと判断する。
ユーザ発話の開始を検知したと判定した場合には、第1判定部157は、タイマ111による経過時間の計測を停止する(S905)。第1判定部157は、ユーザターンの継続を示すコードをステータスに設定する(S907)。そして、第1判定処理を終え、呼び出し元のユーザターン処理に復帰する。
一方、ユーザ発話の開始を検知していないと判定した場合には、第1判定部157は、経過時間が第1時間長を超えたか否かを判定する(S909)。経過時間が第1時間長を超えていないと判定した場合には、S903に示した処理に戻って、上述した処理を繰り返す。
一方、経過時間が第1時間長を超えたと判定した場合には、第1判定部157は、タイマ111による経過時間の計測を停止する(S911)。第1判定部157は、ユーザターンの終了を示すコードをステータスに設定する(S913)。そして、第1判定処理を終え、呼び出し元のユーザターン処理に復帰する。
図6の説明に戻る。第1判定処理を終えると、第2制御部135は、第1補正部155に第1補正処理の終了を指示し(S609)、ステータスがユーザターンの終了を示しているか否かを判定する(S611)。
ステータスがユーザターンの終了を示していると判定した場合には、端子Aを介して、図10に示したS1001の処理に移る。
第2制御部135は、音声認識部153に音声認識処理の終了を指示する(S1001)。そして、返却部165は、応答無しを示すコードを質問生成部103へ返す(S1003)。ユーザターン処理を終えると、呼び出し元のメイン処理に復帰する。
図3に示すように、ユーザターン処理を終えると、S301に示した処理に戻って、上述した処理を繰り返す。このとき、質問生成部103は、次の質問文を生成する。
図6の説明に戻る。S611において、ステータスがユーザターンの終了を示していないと判定した場合、つまりステータスがユーザターンの継続を示している場合には、端子Bを介して、図11に示したS1101の処理に移る。
第2制御部135は、第2補正部159による第2補正処理を起動する(S1101)。第2補正部159は、第2補正処理において、ユーザの第2ジェスチャーを検出した場合に第2時間長を増加させる。第2補正処理は、ユーザターン処理と並行に実行される。
第2ジェスチャーは、第1ジェスチャーと同じであってもよい。第2ジェスチャーは、第1ジェスチャーと異なってもよい。
一般的に話者が未だ自分の話を続けようとする場合に、特有の仕草をすることがある。例えば、上を見上げるポーズを第2ジェスチャーとしてもよい。口を開いている表情を第2ジェスチャーとしてもよい。更に、立てた指を振るアクションを第2ジェスチャーとしてもよい。
図12に、第2補正処理フローを示す。第2補正部159は、画像入力部117を介して撮影の開始を指示する(S1201)。この指示以降、第2補正部159は、画像入力部117から撮影画像のデータを連続的に取得する。既に、カメラ119が撮影を行っている場合には、S1201の処理を省くようにしてもよい。
第2補正部159は、撮影画像に基づいて、ユーザの第2ジェスチャーを検出したか否かを判定する(S1203)。
ユーザの第2ジェスチャーを検出したと判定した場合には、第2補正部159は、第2時間長を増加させる(S1205)。第2補正部159は、例えば第2時間長に所定値を加える。第2補正部159は、第2時間長に1より大きい係数を乗じるようにしてもよい。そして、第2補正部159は、画像入力部117を介してカメラ119に撮影の終了を指示して(S1207)、第2補正処理を終える。カメラ119の撮影を継続させる場合には、S1207の処理を省くようにしてもよい。
一方、ユーザの第2ジェスチャーを検出していないと判定した場合には、第2補正部159は、第2制御部135から第2補正処理の終了指示を受けたか否かを判定する(S1209)。第2制御部135が第2補正処理の終了を指示する処理については、後述する。
第2補正処理の終了指示を受けていないと判定した場合には、S1203に示した処理に戻って、上述した処理を繰り返す。一方、第2補正処理の終了指示を受けたと判定した場合には、第2補正部159は、撮影の終了を指示して(S1207)、第2補正処理を終える。カメラ119の撮影を継続させる場合には、S1207の処理を省くようにしてもよい。
図11の説明に戻る。S1101において第2制御部135が第2補正処理を起動すると、第2補正処理の終了を待たずに、第2制御部135は、第3補正部161による第3補正処理を起動する(S1103)。第3補正部161は、第3補正処理において、ユーザ発話に含まれる所定の言葉を検出した場合に、第2時間長を増加させる。第3補正処理は、ユーザターン処理と並行に実行される。
所定の言葉は、例えば発話の合間に挟み込まれる言葉、つまりフィラーである。日本語の場合、「ええと」「あの」或いは「まあ」などがフィラーに相当する。フィラーは、言語や地域によって異なることがある。
図13に、第3補正処理フローを示す。第3補正部161は、フィラーを検出したか否かを判定する(S1301)。例えば、第3補正部161は、音声のデジタル信号を解析してフィラーを検出する。或いは、第3補正部161は、応答文にフィラーに相当する文字列が含まれている場合に、フィラーを検出したと判定するようにしてもよい。
フィラーを検出したと判定した場合には、第3補正部161は、第2時間長を増加させる(S1303)。第3補正部161は、例えば第2時間長に所定値を加える。或いは、第3補正部161は、第2時間長に1より大きい係数を乗じるようにしてもよい。そして、第3補正部161は、第3補正処理を終える。
一方、フィラーを検出していないと判定した場合には、第3補正部161は、第2制御部135から第3補正処理の終了指示を受けたか否かを判定する(S1305)。第2制御部135が第3補正処理の終了を指示する処理については、後述する。
第3補正処理の終了指示を受けていないと判定した場合には、S1301に示した処理に戻って、上述した処理を繰り返す。一方、第3補正処理の終了指示を受けたと判定した場合には、第3補正処理を終える。
図11の説明に戻る。S1103において第2制御部135が第3補正処理を起動すると、第3補正処理の終了を待たずに、第2判定部163は、第2判定処理を実行する(S1105)。第2判定部163は、第2判定処理において、ユーザターンにおいてユーザ発話が途絶えた期間が第2時間長を超えた場合に、ユーザターンを終了すると判定する。
図14に、第2判定処理フローを示す。第2判定部163は、タイマ111による経過時間の計測を開始する(S1401)。第2判定部163は、現時点においてユーザ発話を検出しているか否かを判定する(S1403)。例えば、第2判定部163は、音声入力部113から取得したデジタル信号に、ユーザの音声が含まれている場合にユーザ発話を検出していると判定する。
現時点においてユーザ発話を検出していると判定した場合には、第2判定部163は、ユーザターンを継続すると判定する(S1405)。そして、S1411に示した処理に移る。
一方、現時点においてユーザ発話を検出していないと判定した場合には、第2判定部163は、経過時間が第2時間長を超えたか否かを判定する(S1407)。経過時間が第2時間長を超えていないと判定した場合には、S1403に示した処理に戻って、上述した処理を繰り返す。一方、経過時間が第2時間長を超えたと判定した場合には、第2判定部163は、ユーザターンを終了すると判定する(S1409)。そして、S1411の処理に移る。
S1411において、第2判定部163は、タイマ111による経過時間の計測を停止する。第2判定部163は、ユーザターンを終了すると判定しているか否かによって処理を分岐させる(S1413)。ユーザターンを終了すると判定していない場合、つまりユーザターンを継続すると判定している場合には、S1401に示した処理に戻って、上述した処理を繰り返す。
一方、ユーザターンを終了すると判定している場合には、第2判定処理を終え、呼び出し元のユーザターン処理に復帰する。
図11の説明に戻る。第2判定処理から復帰すると、第2制御部135は、第2補正部159に第2補正処理の終了を指示するとともに(S1107)、第3補正部161に第3補正処理の終了を指示する(S1109)。更に、第2制御部135は、音声認識部153に音声認識処理の終了を指示する(S1111)。
返却部165は、応答文記憶部137に記憶されている応答文を質問生成部103へ返す(S1113)。ユーザターン処理を終えると、呼び出し元のメイン処理に復帰する。
図3の説明に戻る。ユーザターン処理を終えると、S301に示した処理に戻って、上述した処理を繰り返す。このとき、質問生成部103は、次の質問文を生成する。
尚、上述した例では、図5のS501において、第1設定部143が質問文を分類する例を示したが、図4のS401において、受付部141が質問生成部103から質問文と共に当該質問文の種類を受け付けるようにしてもよい。
本実施の形態によれば、質問文の種類に応じて、ユーザの無応答を、より適正なタイミングで判別できる。
また、第1ジェスチャーに基づいて、発話を意図しているユーザに、より適正に発話機会を与えることができる。
また、質問文の種類に応じて、ユーザの応答完了を、より適正なタイミングで判別できる。
また、第2ジェスチャーに基づいて、断続的に発話を行おうとしているユーザに、より適正に発話機会を与えることができる。
また、フィラーを挟んで断続的に発話を行おうとしているユーザに、より適正に発話機会を与えることができる。
以上本発明の一実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、上述の機能ブロック構成はプログラムモジュール構成に一致しない場合もある。
また、上で説明した各記憶領域の構成は一例であって、上記のような構成でなければならないわけではない。さらに、処理フローにおいても、処理結果が変わらなければ、処理の順番を入れ替えることや複数の処理を並列に実行させるようにしても良い。
なお、上で述べた自動対話装置101は、コンピュータ装置であって、図15に示すように、メモリ2501とCPU(Central Processing Unit)2503とハードディスク・ドライブ(HDD:Hard Disk Drive)2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。CPU2503は、アプリケーション・プログラムの処理内容に応じて表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ2501に格納されるが、HDD2505に格納されるようにしてもよい。本発明の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
以上述べた本発明の実施の形態をまとめると、以下のようになる。
本実施の形態に係る情報処理装置は、マシンターンとユーザターンとを交互に繰り返す自動対話を制御する情報処理装置であって、(A)マシンターンにおいて音声出力される質問文の種類に応じて、第1時間長を設定する第1設定部と、(B)ユーザターンにおいてユーザ発話の開始を検知しない期間が第1時間長を超えた場合に、ユーザターンを終了すると判定する第1判定部とを有する。
このようにすれば、ユーザターンの終了を、より適正なタイミングで判別できる。尚、図1Bに示した第1設定部143は、第1設定部の例である。また、図1Cに示した第1判定部157は、第1判定部の例である。
更に、上記情報処理装置は、ユーザターンにおいて、ユーザ発話の開始を検知する前にユーザの第1ジェスチャーを検出した場合に、第1時間長を増加させる第1補正部を有するようにしてもよい。
このようにすれば、発話を意図しているユーザに、より適正に発話機会を与えることができる。尚、図1Cに示した第1補正部155は、第1補正部の例である。
更に、上記情報処理装置は、質問文の種類に応じて、第2時間長を設定する第2設定部と、ユーザターンにおいてユーザ発話が途絶えた期間が第2時間長を超えた場合に、ユーザターンを終了すると判定する第2判定部とを有するようにしてもよい。
このようにすれば、ユーザの応答完了を、より適正なタイミングで判別できる。尚、図1Cに示した第2設定部151は、第2設定部の例である。また、図1Cに示した第2判定部163は、第2判定部の例である。
更に、上記情報処理装置は、ユーザターンにおいて、ユーザ発話の開始を検知した後にユーザの第2ジェスチャーを検出した場合に、第2時間長を増加させる第2補正部を有するようにしてもよい。
このようにすれば、断続的に発話を行おうとしているユーザに、より適正に発話機会を与えることができる。尚、図1Cに示した第2補正部159は、第2補正部の例である。
更に、上記情報処理装置は、ユーザターンにおいて、ユーザ発話に含まれる所定の言葉を検出した場合に、第2時間長を増加させる第3補正部を有するようにしてもよい。
このようにすれば、所定の言葉を挟んで断続的に発話を行おうとしているユーザに、より適正に発話機会を与えることができる。尚、図1Cに示した第3補正部161は、第3補正部の例である。
なお、上で述べた自動対話装置101における処理をコンピュータに行わせるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブルディスク、CD-ROM、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納されるようにしてもよい。尚、中間的な処理結果は、一般的にメインメモリ等の記憶装置に一時保管される。
Claims (7)
- マシンターンとユーザターンとを交互に繰り返す自動対話を制御する情報処理装置であって、
前記マシンターンにおいて音声出力される質問文の種類に応じて、第1時間長を設定する第1設定部と、
前記ユーザターンにおいてユーザ発話の開始を検知しない期間が前記第1時間長を超えた場合に、当該ユーザターンを終了すると判定する第1判定部と
を有する情報処理装置。 - 更に、
前記ユーザターンにおいて、前記ユーザ発話の開始を検知する前にユーザの第1ジェスチャーを検出した場合に、前記第1時間長を増加させる第1補正部
を有する請求項1記載の情報処理装置。 - 更に、
前記質問文の種類に応じて、第2時間長を設定する第2設定部と、
前記ユーザターンにおいて前記ユーザ発話が途絶えた期間が前記第2時間長を超えた場合に、当該ユーザターンを終了すると判定する第2判定部と
を有する請求項1又は2記載の情報処理装置。 - 更に、
前記ユーザターンにおいて、前記ユーザ発話の開始を検知した後にユーザの第2ジェスチャーを検出した場合に、前記第2時間長を増加させる第2補正部
を有する請求項3記載の情報処理装置。 - 更に、
前記ユーザターンにおいて、前記ユーザ発話に含まれる所定の言葉を検出した場合に、前記第2時間長を増加させる第3補正部
を有する請求項3又は4記載の情報処理装置。 - マシンターンとユーザターンとを交互に繰り返す自動対話を制御するコンピュータにより実行される情報処理方法であって、
前記マシンターンにおいて音声出力される質問文の種類に応じて、第1時間長を設定し、
前記ユーザターンにおいてユーザ発話の開始を検知しない期間が前記第1時間長を超えた場合に、当該ユーザターンを終了すると判定する
処理を含む情報処理方法。 - マシンターンとユーザターンとを交互に繰り返す自動対話を制御するコンピュータに、
前記マシンターンにおいて音声出力される質問文の種類に応じて、第1時間長を設定し、
前記ユーザターンにおいてユーザ発話の開始を検知しない期間が前記第1時間長を超えた場合に、当該ユーザターンを終了すると判定する
処理を実行させる情報処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2017/018797 WO2018211677A1 (ja) | 2017-05-19 | 2017-05-19 | 情報処理装置、情報処理方法及び情報処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2017/018797 WO2018211677A1 (ja) | 2017-05-19 | 2017-05-19 | 情報処理装置、情報処理方法及び情報処理プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2018211677A1 true WO2018211677A1 (ja) | 2018-11-22 |
Family
ID=64273634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2017/018797 WO2018211677A1 (ja) | 2017-05-19 | 2017-05-19 | 情報処理装置、情報処理方法及び情報処理プログラム |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2018211677A1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006171709A (ja) * | 2004-11-17 | 2006-06-29 | Denso Corp | 音声対話装置、音声対話方法 |
JP2010152119A (ja) * | 2008-12-25 | 2010-07-08 | Toyota Central R&D Labs Inc | 応答生成装置及びプログラム |
JP2017049471A (ja) * | 2015-09-03 | 2017-03-09 | カシオ計算機株式会社 | 対話制御装置、対話制御方法及びプログラム |
-
2017
- 2017-05-19 WO PCT/JP2017/018797 patent/WO2018211677A1/ja active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006171709A (ja) * | 2004-11-17 | 2006-06-29 | Denso Corp | 音声対話装置、音声対話方法 |
JP2010152119A (ja) * | 2008-12-25 | 2010-07-08 | Toyota Central R&D Labs Inc | 応答生成装置及びプログラム |
JP2017049471A (ja) * | 2015-09-03 | 2017-03-09 | カシオ計算機株式会社 | 対話制御装置、対話制御方法及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11854527B2 (en) | Electronic device and method of controlling speech recognition by electronic device | |
JP4401155B2 (ja) | ユーザとエージェント間の対話管理方法及び装置 | |
KR101229034B1 (ko) | 디바이스 인터페이싱을 위한 다중모드 조음 통합 | |
CN116547746A (zh) | 针对多个用户的对话管理 | |
US10811005B2 (en) | Adapting voice input processing based on voice input characteristics | |
CN110473523A (zh) | 一种语音识别方法、装置、存储介质及终端 | |
US11222634B2 (en) | Dialogue method, dialogue system, dialogue apparatus and program | |
CN110310623A (zh) | 样本生成方法、模型训练方法、装置、介质及电子设备 | |
KR20210008521A (ko) | 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트-특정 핫 워드 | |
US11501768B2 (en) | Dialogue method, dialogue system, dialogue apparatus and program | |
KR102628211B1 (ko) | 전자 장치 및 그 제어 방법 | |
CN112840396A (zh) | 用于处理用户话语的电子装置及其控制方法 | |
JPWO2017200074A1 (ja) | 対話方法、対話システム、対話装置、及びプログラム | |
EP4447041A2 (en) | Synthesized speech audio data generated on behalf of human participant in conversation | |
WO2021232876A1 (zh) | 实时驱动虚拟人的方法、装置、电子设备及介质 | |
JP2020067658A (ja) | 音声を認識する装置及び方法、音声認識モデルをトレーニングする装置及び方法 | |
KR20210037857A (ko) | 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템 | |
WO2018163646A1 (ja) | 対話方法、対話システム、対話装置、およびプログラム | |
JPWO2018034169A1 (ja) | 対話制御装置および方法 | |
US20210216589A1 (en) | Information processing apparatus, information processing method, program, and dialog system | |
CN111506183A (zh) | 一种智能终端及用户交互方法 | |
WO2021232877A1 (zh) | 实时驱动虚拟人的方法、装置、电子设备及介质 | |
WO2018211677A1 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
JP6647636B2 (ja) | 対話方法、対話システム、対話装置、及びプログラム | |
JPH09269889A (ja) | 対話装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 17910134 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 17910134 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: JP |