WO2022070792A1 - パラメータ設定システム - Google Patents

パラメータ設定システム Download PDF

Info

Publication number
WO2022070792A1
WO2022070792A1 PCT/JP2021/032707 JP2021032707W WO2022070792A1 WO 2022070792 A1 WO2022070792 A1 WO 2022070792A1 JP 2021032707 W JP2021032707 W JP 2021032707W WO 2022070792 A1 WO2022070792 A1 WO 2022070792A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
unit
voice
parameter
vad
Prior art date
Application number
PCT/JP2021/032707
Other languages
English (en)
French (fr)
Inventor
智子 川瀬
歩 坂口
信彦 仲
Original Assignee
株式会社Nttドコモ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Nttドコモ filed Critical 株式会社Nttドコモ
Priority to JP2022553728A priority Critical patent/JPWO2022070792A1/ja
Publication of WO2022070792A1 publication Critical patent/WO2022070792A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection

Definitions

  • the present invention relates to a parameter setting system that sets parameters related to a dialogue system that interacts with a user.
  • a dialogue system that recognizes a user's utterance by voice and automatically responds to the voice recognition result.
  • a voice related to a dialogue from a user is input, a voice section which is a section for voice recognition is detected from the input voice, and voice recognition is performed for the detected voice section. .. Since the dialogue system makes a response after the detected voice section, it is necessary to properly detect the voice section in order to make an appropriate response.
  • the voice section is detected, for example, by setting the timing at which the pause length, which is the threshold value, is reached for the time when the user has not spoken since the end of the user's speech as the end of the voice section. If the pause length is long, the response from the dialogue system to the user's utterance becomes slow, and the UX (user experience) deteriorates. On the other hand, if the pause length is short, there is a risk that the end of the voice section will occur in the middle of the user's utterance. In this case, the user's utterance cannot be properly recognized by voice, and an appropriate response cannot be made.
  • Patent Document 1 discloses that it is determined whether a user's utterance includes a preset keyword (that is, an assumed user's utterance), and the above-mentioned pause length is set according to the determination. ..
  • Patent Document 1 when it is difficult to set a keyword in a response scenario, it is not always possible to set an appropriate pose length. For example, when the dialogue system asks "Please tell me your name”, you cannot set keywords in advance. As a result, many people can answer their name immediately, but the response from the dialogue system is slow. As a result, it may be difficult to make an appropriate response by the method shown in Patent Document 1.
  • One embodiment of the present invention has been made in view of the above, and an object of the present invention is to provide a parameter setting system capable of appropriately responding to a user's utterance and improving UX in a dialogue system. And.
  • the parameter setting system is a parameter setting system included in a dialogue system that has a dialogue with a user, and the dialogue system is information related to the dialogue.
  • a presentation unit that presents to the user, an input unit that inputs voice related to the dialogue from the user in response to the presentation of information to the user by the presentation unit, and a voice section that performs voice recognition from the voice input by the input unit.
  • the parameter setting system determines the information presented to the user by the presentation unit, including a detection unit for detecting the above and a voice recognition unit for performing voice recognition for the voice in the voice section detected by the detection unit. It includes a unit and a setting unit that sets parameters used for detecting a voice section based on the information at the timing when the information presented to the user is determined by the determination unit.
  • the parameters used for detecting the voice section are set based on the information.
  • the voice section is detected in consideration of the ease of speech of the user according to the information presented to the user.
  • the dialogue system it is possible to appropriately respond to the user's utterance and improve the UX.
  • the dialogue system it is possible to appropriately respond to the user's utterance and improve the UX.
  • FIG. 1 shows the parameter setting system 1 according to the present embodiment.
  • the parameter setting system 1 includes a server 10 and a client 20.
  • the parameter setting system 1 is included in a dialogue system that interacts with the user.
  • the dialogue system has the same device configuration (system configuration) as the parameter setting system 1.
  • the dialogue system may include a device (system) other than the parameter setting system 1.
  • the dialogue system inputs the voice related to the user's utterance and automatically responds in response to the voice input to perform the dialogue.
  • information is presented by voice from the dialogue system to the user. That is, the dialogue system according to the present embodiment has a voice dialogue with the user.
  • utterances from the user to the dialogue system are referred to as user utterances
  • utterances from the dialogue system to the user are referred to as system utterances.
  • the presentation of information from the dialogue system to the user does not necessarily have to be by voice, and may be by displaying text or the like.
  • the dialogue system is used, for example, in a call center that automatically answers a call from a user. Alternatively, the dialogue system may be used for any dialogue that performs an automatic response or the like.
  • the server 10 is a device (system) that recognizes voices related to dialogues from users and generates system utterances.
  • the server 10 is composed of a computer such as a server device, for example.
  • the server 10 may be composed of a plurality of computers.
  • the server 10 has a plurality of functions as described later, but may be configured by a device for each function.
  • the client 20 is a device (system) used by a user to input a voice related to a dialogue from the user and to reproduce (voice output) the system utterance.
  • the client 20 is composed of, for example, a computer such as a PC (personal computer), a smartphone, or a dedicated terminal.
  • the client 20 includes a device for inputting voice (for example, a microphone) and a device for outputting voice (for example, a speaker).
  • the server 10 and the client 20 have a communication function, and can transmit and receive information to and from each other via a communication network.
  • the server 10 generates a system utterance.
  • the system utterance may correspond to the previous user utterance.
  • the client 20 plays the system utterance generated by the server 10.
  • the user utterance is performed according to the reproduction of the system utterance in the client 20.
  • the user utterance is, for example, an answer to the system utterance.
  • the client 20 inputs a voice related to a dialogue from the user.
  • the voice related to the dialogue from the user includes the user's utterance.
  • the client 20 detects a voice section for voice recognition from the input voice. That is, the client 20 performs VAD (Voice Activity Detection).
  • VAD Voice Activity Detection
  • the VAD is performed so that the portion of the user's utterance is included in the detected voice section.
  • the server 10 performs voice recognition for the voice of the detected voice section. With voice recognition, user utterances can be obtained in text.
  • the server 10 performs processing based on the user utterance text, for example, generation of the next system utterance.
  • the parameter setting system 1 is a system for setting VAD parameters, which are parameters used for VAD.
  • the VAD parameter to be set is, for example, a pause length which is a threshold value of the time during which the user's utterance is not made after the user's utterance is completed for determining the end of the voice section.
  • a pause length which is a threshold value of the time during which the user's utterance is not made after the user's utterance is completed for determining the end of the voice section.
  • a pause length which is a threshold value of the time during which the user's utterance is not made after the user's utterance is completed for determining the end of the voice section.
  • an appropriate VAD parameter is set in consideration of the above.
  • the VAD parameter to be set may be other than the pause length.
  • the maximum utterance length which is the maximum length of the voice section to be detected, may be set as the VAD parameter to be set.
  • other parameters may be used as the VAD parameters to be set.
  • the server 10 included in the parameter setting system 1 according to the present embodiment and the client 20 according to the present embodiment will be described.
  • the server 10 and the client 20 may have functions provided in a normal dialogue system.
  • the server 10 includes a voice recognition unit 11, a determination unit 12, and a server-side setting unit 13.
  • the voice recognition unit 11 is a functional unit that recognizes the voice of the voice section detected by the client 20 (the detection unit 23 described later), that is, the voice after VAD.
  • the voice recognition unit 11 receives and acquires the voice (voice data) after VAD transmitted from the client 20.
  • the voice recognition unit 11 performs voice recognition (ASR: Automatic Speech Recognition) on the acquired voice.
  • ASR Automatic Speech Recognition
  • the voice recognition unit 11 acquires the result of ASR as a text.
  • the voice of the voice section is the voice of the user's utterance, and the text of the result of ASR corresponds to the text of transcribing the user's utterance.
  • the voice recognition unit 11 outputs the acquired text to the determination unit 12.
  • the ASR itself can be performed by any conventional ASR method.
  • the voice recognition unit 11 stores a conventional ASR engine including an ASR model in advance, and performs ASR using the ASR engine.
  • the voice recognition unit 11 may be independent as a device as an ASR server that performs ASR.
  • the determination unit 12 is a functional unit that determines information presented to the user by the client 20 (presentation unit 21 described later).
  • the determination unit 12 determines the system utterance text (utterance sentence) related to the system utterance as the information presented to the user.
  • the determination unit 12 inputs the user utterance text related to the user utterance from the voice recognition unit 11, and determines the system utterance text based on the input user utterance text.
  • the determination unit 12 may determine the system utterance text without using the text from the voice recognition unit 11.
  • the system utterance text may be determined according to the user's operation on the server 10 via the client 20.
  • the above system utterance text determination itself can be performed by any conventional method.
  • the above determination may be made using an NLU engine that performs natural language understanding (NLU).
  • the NLU engine includes an NLU model, an intent interpretation (intention understanding) engine, a summarization engine, and a scenario.
  • a scenario is information that describes a rule for performing an automatic response, and is described by, for example, AIML (Artificial Intelligence Markup Language).
  • a database used for the above determination (for example, a Q & A database that outputs an answer text in response to input of a question text) may be connected to the NLU engine and used for the above determination.
  • the dialogue system may request the user for a predetermined type of information in order to interpret the intention.
  • the type of the information includes, for example, the user's name or address.
  • the type of information requested from the user is called a slot.
  • the function of extracting slot information is called the slot fill function. From the state of the slot, the system utterance text is determined or other processing is performed. The processing according to the state of the slot in the determination unit 12 can be performed by the conventional slot fill function.
  • the determination unit 12 determines the text prompting the user to speak the slot information as the system utterance text. For example, if the user's name is required, the text "Tell me your name" is determined as the system utterance text. The text that is a candidate for the system utterance text is set, for example, in the above-mentioned scenario.
  • the determination unit 12 outputs information indicating a slot requested by the user by the determined system utterance to the server-side setting unit 13. Alternatively, the determination unit 12 outputs the determined system utterance text to the server-side setting unit 13.
  • the above-mentioned function of the determination unit 12 is a functional unit as the parameter setting system 1 according to the present embodiment.
  • the portion of the determination unit 12 that makes the above determination may be independent as an apparatus as an NLU server that performs NLU.
  • the determination unit 12 acquires the voice of the determined system utterance text, that is, the voice (voice data) of the system utterance. For example, the determination unit 12 performs speech synthesis (TTS: Text-To-Speech) of the determined system utterance text to generate the speech of the system utterance.
  • TTS speech synthesis
  • the TTS itself can be performed by any conventional TTS method.
  • the determination unit 12 stores the conventional TTS engine including the TTS model in advance, and performs TTS using the TTS engine.
  • the portion of the determination unit 12 that performs TTS may be independent as a device as a TTS server that performs TTS.
  • the determination unit 12 may store the voice corresponding to the system utterance in advance and read the stored voice as the voice of the system utterance.
  • the determination unit 12 transmits the acquired voice of the system utterance to the client 20.
  • the determination unit 12 may transmit the determined system utterance text to the client 20.
  • the server-side setting unit 13 sets a parameter (VAD parameter) used for detecting a voice section based on the information at the timing when the information presented to the user is determined by the determination unit 12 (on the server 10 side). It is a setting unit provided.
  • the server-side setting unit 13 may set VAD parameters based on the type of information to be spoken by the user with respect to the information presented to the user by the client 20 (presentation unit 21 described later).
  • the server-side setting unit 13 may set VAD parameters based on at least one of the assumed length and the difficulty level of the user's response to the information presented to the user by the client 20 (presentation unit 21 described later). ..
  • the server-side setting unit 13 sets the parameters as follows.
  • the server-side setting unit 13 inputs information indicating a slot requested by the user by the determined system utterance or the determined system utterance text from the determination unit 12.
  • the slot is a type of information that the user should speak in response to the system utterance.
  • the server-side setting unit 13 stores VAD parameters in association with a slot or system utterance text previously requested by the user.
  • the slot and the VAD parameter are stored in association with each other by the table shown in FIG.
  • the system utterance text and the VAD parameter are stored in association with each other.
  • the association between the system utterance text and the VAD parameter may be performed in the scenario used by the determination unit 12. In FIGS.
  • the VAD parameter "A” is the pause length
  • "B" is the maximum utterance length
  • the unit of each numerical value is seconds.
  • the VAD parameter associated with the slot or text and stored is, for example, input to and stored in the server 10 by a service operator who operates the dialogue system in advance.
  • the server-side setting unit 13 sets the information indicating the slot input from the determination unit 12 or the VAD parameter associated with the text as the VAD parameter used for VAD described later.
  • the determination of the information presented to the user by the determination unit 12 and the setting of the VAD parameter by the server-side setting unit 13 may be collectively performed as one process.
  • the VAD parameters set by the server-side setting unit 13 are assumed to be easy for the user to speak with respect to the system utterance that is the reference for setting the VAD parameters. For example, when the user has a gap in the answer, that is, when it is considered difficult for the user to speak smoothly, the pause length and the maximum utterance length are set long. If the user cannot wait for an answer, that is, if it is considered that the user speaks smoothly, the pause length and the maximum utterance length are set short.
  • the system utterance when the system utterance asks the user for his / her name, it is considered that the user can speak his / her name without delay, so the pause length and the maximum utterance length are set short. do. If the system utterance asks the user for the address, the address utterance is usually longer than the name utterance, and it is considered difficult to speak smoothly compared to the name, so the pause length and maximum utterance length are lengthened. Set. Similarly, when asking the user for a serial number or a free answer, the pause length and the maximum utterance length are set long as in the case of the address.
  • the server-side setting unit 13 may store the assumed length and difficulty level of the user's answer to the slot or system utterance text required by the user in advance, and set the VAD parameter based on them. good.
  • the assumed length of the answer is, for example, the character string length of the phonetic spelling.
  • the difficulty level of the answer is, for example, a numerical value indicating how difficult the user's answer is, and specifically, the higher the numerical value, the more difficult the answer is. Any of the following three levels of numerical values can be set.
  • Difficulty level 1 can be answered immediately by anyone such as a name.
  • Difficulty level 2 is for some users such as addresses to answer while looking at and thinking about materials.
  • Difficulty level 3 is for most users, such as contract numbers or free answers, to answer while looking at or thinking about materials.
  • the assumed length and difficulty level of the answer associated with the slot or text and stored are, for example, input to and stored in the server 10 by a service operator who operates the dialogue system in advance.
  • the server-side setting unit 13 acquires the information indicating the slot input from the determination unit 12 or the information indicating the assumed length and the difficulty level of the user's answer associated with the text.
  • the server-side setting unit 13 calculates a VAD parameter from the acquired information by, for example, a reference (for example, a mathematical formula) prepared in advance, and sets the calculated VAD parameter as a VAD parameter used for VAD described later.
  • a reference for example, a mathematical formula
  • the server-side setting unit 13 transmits the set VAD parameter to the client 20.
  • the transmission of the VAD parameter to the client 20 by the server-side setting unit 13 is performed at substantially the same timing as the transmission of the voice of the system utterance used for setting the VAD parameter by the determination unit 12 to the client 20. These may be transmitted to the client 20 at the same time.
  • the transmitted VAD parameter is used for the VAD of the user utterance immediately after the system utterance used for determining the VAD parameter is reproduced by the client 20 (presentation unit 21 described later).
  • the determination of the VAD parameter by the server-side setting unit 13 and the transmission of the VAD parameter to the client 20 are performed continuously after the determination unit 12 determines the system speech (system speech text) used for setting the VAD parameter. , It is performed until VAD is performed immediately after the reproduction of the system speech. As described above, the determination of the VAD parameter by the server-side setting unit 13 is performed at the timing when the system utterance is determined by the determination unit 12.
  • the server-side setting unit 13 is a functional unit as the parameter setting system 1 according to the present embodiment.
  • the server-side setting unit 13 may be included in the above-mentioned NLU server or ASR server.
  • the server-side setting unit 13 may be included in a control server that controls the flow of data between the NLU server and the ASR server and the client 20. The above is the function of the server 10.
  • the client 20 includes a presentation unit 21, an input unit 22, a detection unit 23, and a client-side setting unit 24.
  • the presentation unit 21 is a functional unit that presents information related to dialogue to the user.
  • the presentation unit 21 receives the voice of the system utterance transmitted from the server 10 (decision unit 12), and reproduces the received voice by a device that outputs the voice such as a speaker included in the client 20 (voice output). do.
  • the user listens to the system utterance emitted from the client 20 (presentation unit 21) and makes an utterance (answer) to the system utterance.
  • the presentation unit 21 receives the text transmitted from the server 10 (decision unit 12). Then, the received text is displayed and presented to the user.
  • the input unit 22 is a functional unit that inputs voice related to a dialogue from the user in response to the presentation of information to the user by the presentation unit 21.
  • the input unit 22 inputs and records the voice related to the dialogue from the user by the device for inputting the voice such as the microphone provided in the client 20.
  • the input unit 22 continuously inputs voice while the dialogue by the dialogue system is being performed.
  • the input unit 22 outputs the input voice to the detection unit 23.
  • the detection unit 23 is a functional unit that detects a voice section for voice recognition from the voice input by the input unit 22. That is, the detection unit 23 is a functional unit that performs VAD. The detection unit 23 performs VAD as follows.
  • the detection unit 23 receives the VAD parameter transmitted from the server 10 (the server-side setting unit 13 of the server 10).
  • the detection unit 23 inputs voice from the input unit 22.
  • the detection unit 23 performs VAD on the input voice using the received VAD parameter.
  • the VAD itself can be performed by any conventional VAD method.
  • the detection unit 23 transmits the voice after VAD obtained by VAD to the server 10.
  • VAD parameter used for the VAD of the detection unit 23 even if the VAD parameter further set (corrected) by the client side setting unit 24 is used based on the VAD parameter transmitted from the server 10 as shown below. good.
  • the client side setting unit 24 is a functional unit (setting unit provided on the client 20 side) for setting parameters used for detecting a voice section.
  • the client-side setting unit 24 detects the user's speaking speed from the voice input by the input unit 22, and sets the VAD parameter based on the detected speaking speed.
  • the client-side setting unit 24 further sets the VAD parameter based on the VAD parameter set by the server 10, that is, modifies the VAD parameter.
  • the client-side setting unit 24 inputs the voice after VAD from the detection unit 23.
  • the voice after VAD input from the detection unit 23 to the client side setting unit 24 is not from the end of the voice section to the end of the voice section, but from the beginning of the voice section for a certain period (for example, several seconds).
  • the pause length and the maximum utterance length, which are VAD parameters set by the server 10, are for determining the end of the voice section. Therefore, the detection unit 23 can start VAD without using the VAD parameter set by the server 10 and detect the voice for a certain period from the beginning of the voice section.
  • the client side setting unit 24 detects the user's speaking speed from the input voice.
  • the detection of speaking speed can be performed by a conventional method.
  • the client-side setting unit 24 corrects the pause length and the maximum utterance length, which are VAD parameters transmitted from the server 10, based on the detected speech speed. For example, when the speaking speed is slow, the client-side setting unit 24 increases the pause length and the maximum utterance length transmitted from the server 10. Specifically, when the speaking speed is smaller than the preset threshold value, the client-side setting unit 24 increases the pause length and the maximum utterance length transmitted from the server 10 by preset constant values. When the user's speaking speed is slow, the voice section can be appropriately detected by increasing the pause length and the maximum utterance length.
  • the client-side setting unit 24 notifies the detection unit 23 of the modified VAD parameter, and the detection unit 23 detects the end of the voice section whose start is detected by using the modified VAD parameter.
  • the VAD parameter is modified by using the voice of the voice section in which the end is detected by using the corrected VAD parameter, but the voice of the voice section before the voice section is used. May be done. That is, the VAD parameter may be set (corrected) by detecting the user's speaking speed from the voice of the voice section before the voice section in which the end is detected by using the modified VAD parameter.
  • the client-side setting unit 24 may detect a feature amount other than the speaking speed among the feature amounts of the voice input by the input unit 22, and set the VAD parameter based on the detected feature amount.
  • the VAD parameter to be set is a VAD parameter other than the type set by the server 10.
  • the VAD parameter to be set is a transition probability for determining whether the voice at each time point is a voice state or a non-voice state related to the user's speech, or a voice likelihood threshold for determining (detecting) the voice interval. be.
  • the client-side setting unit 24 detects the noise level of the voice input by the input unit 22 (for example, the voice in the voice section) as a feature amount, and sets the VAD parameter based on the noise level.
  • the VAD parameter may be set by using the voice of the voice section in which the end is detected by using the VAD parameter after the setting. In this case, voice for a certain period (for example, about 1 second) from the beginning of the voice section is used.
  • the VAD parameter may be set by using the voice of the voice section before the voice section in which the end is detected by using the VAD parameter after the setting.
  • the client side setting unit 24 notifies the detection unit 23 of the VAD parameter set as described above, and the detection unit 23 detects the voice section using the set VAD parameter.
  • the VAD parameter set based on the voice feature amount may be other than the above-mentioned transition probability or voice likelihood threshold value. Further, the feature amount used for setting the VAD parameter may be other than the noise level.
  • the client-side setting unit 24 is a functional unit as the parameter setting system 1 according to the present embodiment. The above is the function of the client 20.
  • This process is a process when a dialogue is performed between the user and the dialogue system including the parameter setting system 1.
  • the system utterance text is determined by the determination unit 12 on the server 10 (S01). This decision depends on the user's utterance or the user's operation before that. Subsequently, the server-side setting unit 13 determines the VAD parameter based on the system utterance text (S02). In addition, the determination unit 12 performs speech synthesis of the determined system utterance text (S03). The set VAD parameters and the voice of the system utterance obtained by voice synthesis are transmitted from the server 10 to the client 20 (S04). These transmissions may be performed separately or together.
  • the destination client 20 receives the VAD parameter and the voice of the system utterance (S04). Subsequently, the presentation unit 21 reproduces the voice of the system utterance (S05). The user utterance is performed in response to the reproduction of the system utterance. Further, the input unit 22 inputs the voice related to the dialogue from the user (S06). The voice input by the input unit 22 is not performed at this timing, but is continuously performed when a dialogue is performed between the user and the dialogue system. Here, the voice input by the input unit 22 includes the above-mentioned user utterance.
  • the client-side setting unit 24 sets the VAD parameter based on the voice input by the input unit 22 (S07).
  • the VAD parameter setting here is a modification of the VAD parameter set in the server 10 based on the user's speaking speed, or a setting of other VAD parameters.
  • the parameter setting by the client-side setting unit 24 may or may not be performed only in any of the above.
  • the detection unit 23 performs VAD on the voice related to the dialogue from the user (S08). The voice after VAD is transmitted from the client 20 to the server 10.
  • the destination server 10 receives the voice after VAD (S09). Subsequently, the voice recognition unit 11 performs voice recognition on the voice after VAD (S10). Subsequently, the server 10 processes the user-spoken text after voice recognition (S11). For example, the next system utterance text is determined based on the text after speech recognition. In this case, the process from S01 described above is repeated.
  • the above is the process executed by the parameter setting system 1 according to the present embodiment.
  • the VAD parameter is set based on the system utterance at the timing when the system utterance, which is the information presented to the user, is determined.
  • the voice section is detected in consideration of the ease of speech of the user according to the information presented to the user.
  • the VAD parameter may be set based on the type of information that the user should speak for the system utterance, for example, the slot described above.
  • the VAD parameter may be set based on at least one of the assumed length and difficulty of the user's response to the system utterance. These can appropriately reflect the ease of speaking by the user. Therefore, according to this configuration, VAD based on the system utterance can be appropriately and surely performed, and as a result, UX can be surely improved.
  • the setting of the VAD parameter based on the system utterance does not necessarily have to be performed as described above, and may be performed in any way as long as it is performed according to the above-mentioned idea.
  • the VAD parameters set based on the system utterance can be the pause length and the maximum utterance length. According to this configuration, VAD based on the system utterance can be appropriately and surely performed, and as a result, UX can be surely improved.
  • only one of the pause length and the maximum utterance length may be set as a VAD parameter set based on the system utterance.
  • the VAD parameter set based on the system utterance is not necessarily limited to the above, and may be other than the above as long as the VAD can be appropriately performed based on the system utterance.
  • the VAD parameter may be set based on the user's speaking speed detected from the input voice as described above. According to this configuration, VAD can be appropriately performed according to the speaking speed of the user, and as a result, UX can be further improved. However, the VAD parameter may not always be set based on the user's speaking speed.
  • a part or all of the functional unit provided in the server 10 may be provided in the client 20. Further, as long as it functions effectively as a dialogue system, a part of the functional unit provided in the client 20 may be provided in the server 10. Further, the essential components of the parameter setting system 1 are the determination unit 12 and the server-side setting unit 13. The client-side setting unit 24 is also a component of the parameter setting system 1, but is an optional component as described above.
  • each functional block may be realized using one physically or logically coupled device, or two or more physically or logically separated devices can be directly or indirectly (eg, for example). , Wired, wireless, etc.) and may be realized using these plurality of devices.
  • the functional block may be realized by combining the software with the one device or the plurality of devices.
  • Functions include judgment, decision, judgment, calculation, calculation, processing, derivation, investigation, search, confirmation, reception, transmission, output, access, solution, selection, selection, establishment, comparison, assumption, expectation, and assumption. Broadcasting, notifying, communicating, forwarding, configuring, reconfiguring, allocating, mapping, assigning, etc., but limited to these I can't.
  • a functional block (configuration unit) that makes transmission function is called a transmitting unit (transmitting unit) or a transmitter (transmitter).
  • the realization method is not particularly limited.
  • the server 10 and the client 20 in one embodiment of the present disclosure may function as a computer that performs information processing of the present disclosure.
  • FIG. 5 is a diagram showing an example of the hardware configuration of the server 10 and the client 20 according to the embodiment of the present disclosure.
  • the server 10 and the client 20 described above may be physically configured as a computer device including a processor 1001, a memory 1002, a storage 1003, a communication device 1004, an input device 1005, an output device 1006, a bus 1007, and the like.
  • the word “device” can be read as a circuit, device, unit, etc.
  • the hardware configuration of the server 10 and the client 20 may be configured to include one or more of the devices shown in the figure, or may be configured not to include some of the devices.
  • the processor 1001 For each function of the server 10 and the client 20, by loading predetermined software (program) on hardware such as the processor 1001 and the memory 1002, the processor 1001 performs an operation and controls communication by the communication device 1004. It is realized by controlling at least one of reading and writing of data in the memory 1002 and the storage 1003.
  • the processor 1001 operates, for example, an operating system to control the entire computer.
  • the processor 1001 may be configured by a central processing unit (CPU: Central Processing Unit) including an interface with a peripheral device, a control device, an arithmetic unit, a register, and the like.
  • CPU Central Processing Unit
  • each function in the server 10 and the client 20 described above may be realized by the processor 1001.
  • the processor 1001 reads a program (program code), a software module, data, etc. from at least one of the storage 1003 and the communication device 1004 into the memory 1002, and executes various processes according to these.
  • a program program code
  • a program that causes a computer to execute at least a part of the operations described in the above-described embodiment is used.
  • each function in the server 10 and the client 20 may be realized by a control program stored in the memory 1002 and operating in the processor 1001.
  • Processor 1001 may be mounted by one or more chips.
  • the program may be transmitted from the network via a telecommunication line.
  • the memory 1002 is a computer-readable recording medium, and is composed of at least one such as a ROM (Read Only Memory), an EPROM (Erasable Programmable ROM), an EEPROM (Electrically Erasable Programmable ROM), and a RAM (Random Access Memory). May be done.
  • the memory 1002 may be referred to as a register, a cache, a main memory (main storage device), or the like.
  • the memory 1002 can store a program (program code), a software module, or the like that can be executed to perform information processing according to the embodiment of the present disclosure.
  • the storage 1003 is a computer-readable recording medium, and is, for example, an optical disk such as a CD-ROM (Compact Disc ROM), a hard disk drive, a flexible disk, an optical magnetic disk (for example, a compact disk, a digital versatile disk, a Blu-ray). It may consist of at least one (registered trademark) disk), smart card, flash memory (eg, card, stick, key drive), floppy (registered trademark) disk, magnetic strip, and the like.
  • the storage 1003 may be referred to as an auxiliary storage device.
  • the storage medium included in the server 10 and the client 20 may be, for example, a database including at least one of the memory 1002 and the storage 1003, a server, or any other suitable medium.
  • the communication device 1004 is hardware (transmission / reception device) for communicating between computers via at least one of a wired network and a wireless network, and is also referred to as, for example, a network device, a network controller, a network card, a communication module, or the like.
  • the input device 1005 is an input device (for example, a keyboard, a mouse, a microphone, a switch, a button, a sensor, etc.) that accepts an input from the outside.
  • the output device 1006 is an output device (for example, a display, a speaker, an LED lamp, etc.) that outputs to the outside.
  • the input device 1005 and the output device 1006 may have an integrated configuration (for example, a touch panel).
  • each device such as the processor 1001 and the memory 1002 is connected by the bus 1007 for communicating information.
  • the bus 1007 may be configured by using a single bus, or may be configured by using a different bus for each device.
  • the server 10 and the client 20 use hardware such as a microprocessor, a digital signal processor (DSP: Digital Signal Processor), an ASIC (Application Specific Integrated Circuit), a PLD (Programmable Logic Device), and an FPGA (Field Programmable Gate Array). It may be configured to include, and a part or all of each functional block may be realized by the hardware. For example, processor 1001 may be implemented using at least one of these hardware.
  • DSP Digital Signal Processor
  • ASIC Application Specific Integrated Circuit
  • PLD Programmable Logic Device
  • FPGA Field Programmable Gate Array
  • the input / output information and the like may be stored in a specific location (for example, a memory) or may be managed using a management table. Information to be input / output may be overwritten, updated, or added. The output information and the like may be deleted. The input information or the like may be transmitted to another device.
  • the determination may be made by a value represented by 1 bit (0 or 1), by a boolean value (Boolean: true or false), or by comparing numerical values (for example, a predetermined value). It may be done by comparison with the value).
  • the notification of predetermined information (for example, the notification of "being X") is not limited to the explicit one, but is performed implicitly (for example, the notification of the predetermined information is not performed). May be good.
  • software, instructions, information, etc. may be transmitted and received via a transmission medium.
  • a transmission medium For example, a website where the software uses at least one of wired technology (coaxial cable, fiber optic cable, twisted pair, digital subscriber line (DSL: Digital Subscriber Line), etc.) and wireless technology (infrared, microwave, etc.).
  • wired technology coaxial cable, fiber optic cable, twisted pair, digital subscriber line (DSL: Digital Subscriber Line), etc.
  • wireless technology infrared, microwave, etc.
  • system and “network” used in this disclosure are used interchangeably.
  • the information, parameters, etc. described in the present disclosure may be expressed using an absolute value, a relative value from a predetermined value, or another corresponding information. It may be represented.
  • determining and “determining” used in this disclosure may include a wide variety of actions.
  • “Judgment” and “decision” are, for example, judgment (judging), calculation (calculating), calculation (computing), processing (processing), derivation (deriving), investigation (investigating), search (looking up, search, inquiry). It may include (eg, searching in a table, database or another data structure), ascertaining as “judgment” or “decision”.
  • judgment and “decision” are receiving (for example, receiving information), transmitting (for example, transmitting information), input (input), output (output), and access. It may include (for example, accessing data in memory) to be regarded as “judgment” or “decision”.
  • judgment and “decision” are considered to be “judgment” and “decision” when the things such as solving, selecting, choosing, establishing, and comparing are regarded as “judgment” and “decision”. Can include. That is, “judgment” and “decision” may include considering some action as “judgment” and “decision”. Further, “judgment (decision)” may be read as “assuming", “expecting”, “considering” and the like.
  • connection means any direct or indirect connection or connection between two or more elements and each other. It can include the presence of one or more intermediate elements between two “connected” or “combined” elements.
  • the connection or connection between the elements may be physical, logical, or a combination thereof.
  • connection may be read as "access”.
  • the two elements use at least one of one or more wires, cables and printed electrical connections, and as some non-limiting and non-comprehensive examples, the radio frequency domain. Can be considered to be “connected” or “coupled” to each other using electromagnetic energy having wavelengths in the microwave and light (both visible and invisible) regions.
  • references to elements using designations such as “first” and “second” as used in this disclosure does not generally limit the quantity or order of those elements. These designations can be used in the present disclosure as a convenient way to distinguish between two or more elements. Therefore, references to the first and second elements do not mean that only two elements can be adopted, or that the first element must somehow precede the second element.
  • the term "A and B are different” may mean “A and B are different from each other”.
  • the term may mean that "A and B are different from C”.
  • Terms such as “separate” and “combined” may be interpreted in the same way as “different”.
  • ... Parameter setting system 10 ... Server, 11 ... Voice recognition unit, 12 ... Decision unit, 13 ... Server side setting unit, 20 ... Client, 21 ... Presentation unit, 22 ... Input unit, 23 ... Detection unit, 24 ... Client Side setting unit, 1001 ... processor, 1002 ... memory, 1003 ... storage, 1004 ... communication device, 1005 ... input device, 1006 ... output device, 1007 ... bus.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

対話システムにおいて、ユーザの発話に対して適切に応答を行ってUXを向上させる。 パラメータ設定システム1は、ユーザとの間で対話を行う対話システムに含まれるシステムであって、対話システムは、対話に係る情報をユーザに提示する提示部21と、ユーザへの情報の提示に応じて、ユーザからの対話に係る音声を入力する入力部22と、入力された音声から音声認識を行う音声区間を検出する検出部23と、検出された音声区間の音声に対して音声認識を行う音声認識部11とを備え、パラメータ設定システムは、ユーザに提示される情報を決定する決定部12と、ユーザに提示される情報が決定されるタイミングで、当該情報に基づいて音声区間の検出に用いるパラメータを設定する設定部13とを備える。

Description

パラメータ設定システム
 本発明は、ユーザとの間で対話を行う対話システムに係るパラメータを設定するパラメータ設定システムに関する。
 従来から、ユーザの発話を音声認識して、音声認識結果に対して自動的に応答を行う対話システムが知られている。このような対話システムでは、通常、ユーザからの対話に係る音声を入力して、入力した音声から音声認識を行う区間である音声区間を検出して、検出した音声区間に対して音声認識を行う。対話システムでは、検出された音声区間の後に応答を行うため、適切な応答を行うためには音声区間の検出を適切に行う必要がある。
 音声区間の検出は、例えば、ユーザの発話が終了してからユーザの発話がなされていない時間が、閾値であるポーズ長に到達したタイミングを音声区間の終端とすることによって行われる。ポーズ長が長いとユーザの発話に対して対話システムからの応答が遅くなり、UX(ユーザエクスペリエンス)が低下する。一方でポーズ長が短いとユーザの発話の途中で音声区間の終端としてしまうおそれがある。この場合、ユーザの発話を適切に音声認識することができず、適切な応答を行えない。
 特許文献1には、ユーザの発話に予め設定したキーワード(即ち、想定されるユーザの発話)が含まれているか判断し、当該判断に応じて上記のポーズ長を設定することが示されている。
国際公開第2018/078885号
 特許文献1に示される方法では、応答のシナリオにおいて、キーワードの設定が困難である場合、必ずしも適切なポーズ長を設定することができない。例えば、対話システムが、「氏名を教えてください」と質問する場合、予めキーワードを設定することができない。そのため、多くの人が自分の名前は即答できるにもかかわらず、対話システムからの応答が遅くなる。その結果、特許文献1に示される方法では、適切な応答を行うことが困難な場合がある。
 本発明の一実施形態は、上記に鑑みてなされたものであり、対話システムにおいて、ユーザの発話に対して適切に応答を行ってUXを向上させることができるパラメータ設定システムを提供することを目的とする。
 上記の目的を達成するために、本発明の一実施形態に係るパラメータ設定システムは、ユーザとの間で対話を行う対話システムに含まれるパラメータ設定システムであって、対話システムは、対話に係る情報をユーザに提示する提示部と、提示部によるユーザへの情報の提示に応じて、ユーザからの対話に係る音声を入力する入力部と、入力部によって入力された音声から音声認識を行う音声区間を検出する検出部と、検出部によって検出された音声区間の音声に対して音声認識を行う音声認識部と、を備え、パラメータ設定システムは、提示部によってユーザに提示される情報を決定する決定部と、決定部によってユーザに提示される情報が決定されるタイミングで、当該情報に基づいて音声区間の検出に用いるパラメータを設定する設定部と、を備える。
 本発明の一実施形態に係るパラメータ設定システムでは、ユーザに提示される情報が決定されるタイミングで、当該情報に基づいて音声区間の検出に用いるパラメータが設定される。このように設定されたパラメータを用いることで、ユーザに提示される情報に応じたユーザの発話しやすさを考慮した音声区間の検出が行われる。その結果、対話システムにおいて、ユーザの発話に対して適切に応答を行ってUXを向上させることができる。
 本発明の一実施形態によれば、対話システムにおいて、ユーザの発話に対して適切に応答を行ってUXを向上させることができる。
本発明の実施形態に係るパラメータ設定システムの構成を示す図である。 パラメータ設定システムに予め記憶されるVADパラメータの例である。 パラメータ設定システムに予め記憶されるVADパラメータの別の例である。 本発明の実施形態に係るパラメータ設定システムで実行される処理を示すシーケンス図である。 本発明の実施形態に係るパラメータ設定システムに含まれるサーバ及びクライアントのハードウェア構成を示す図である。
 以下、図面と共に本発明に係るパラメータ設定システムの実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。
 図1に本実施形態に係るパラメータ設定システム1を示す。パラメータ設定システム1は、サーバ10と、クライアント20と含む。パラメータ設定システム1は、ユーザとの間で対話を行う対話システムに含まれる。本実施形態においては、対話システムは、パラメータ設定システム1と同様の装置構成(システム構成)である。但し、対話システムは、パラメータ設定システム1以外の装置(システム)を含んでいてもよい。
 対話システムは、ユーザの発話に係る音声を入力すると共に音声の入力に応じて自動的に応答を行って対話を行う。本実施形態では、対話システムからユーザへは音声で情報を提示する。即ち、本実施形態に係る対話システムは、ユーザと音声で対話する。以下では、ユーザから対話システムへの発話をユーザ発話と呼び、対話システムからユーザへの発話をシステム発話と呼ぶ。但し、対話システムからユーザへの情報の提示は、必ずしも音声によるものでなくてもよく、テキストの表示等によるものであってもよい。対話システムは、例えば、ユーザからの電話に対して自動的に応答するコールセンターに利用される。あるいは、対話システムは、自動応答等を行う任意の対話に用いられてもよい。
 サーバ10は、ユーザからの対話に係る音声に対して音声認識を行うと共に、システム発話を生成する装置(システム)である。サーバ10は、例えば、サーバ装置等のコンピュータによって構成されている。サーバ10は、複数のコンピュータによって構成されていてもよい。例えば、サーバ10は、後述するように複数の機能を有するが、機能毎の装置によって構成されていてもよい。
 クライアント20は、ユーザによって用いられ、ユーザからの対話に係る音声を入力すると共に、システム発話を再生(音声出力)する装置(システム)である。クライアント20は、例えば、PC(パーソナルコンピュータ)、スマートフォン又は専用端末等のコンピュータによって構成されている。クライアント20は、音声を入力する装置(例えば、マイク)及び音声を出力する装置(例えば、スピーカ)を備えている。サーバ10及びクライアント20は、通信機能を有しており、通信網を介して互いに情報の送受信を行えるようになっている。
 対話システムとユーザとの間の対話の概要を説明する。サーバ10は、システム発話を生成する。システム発話は、その前のユーザ発話に応じたものであってもよい。クライアント20は、サーバ10によって生成されたシステム発話を再生する。
 クライアント20におけるシステム発話の再生に応じて、ユーザ発話が行われる。ユーザ発話は、例えば、システム発話に対しての回答を行うものである。クライアント20は、ユーザからの対話に係る音声を入力する。ユーザからの対話に係る音声には、ユーザ発話が含まれる。クライアント20は、入力した音声から音声認識を行う音声区間を検出する。即ち、クライアント20は、VAD(Voice Activity Detection)を行う。VADは、ユーザ発話の部分が検出する音声区間に含まれるように行われる。サーバ10は、検出された音声区間の音声に対して音声認識を行う。音声認識によって、ユーザ発話をテキストで得ることができる。サーバ10は、ユーザ発話テキストに基づく処理、例えば、次のシステム発話の生成等を行う。
 本実施形態に係るパラメータ設定システム1は、VADに用いるパラメータであるVADパラメータを設定するシステムである。設定対象となるVADパラメータは、例えば、音声区間の終端を決めるための、ユーザの発話が終了してからユーザの発話がなされていない時間の閾値であるポーズ長である。通常、音声対話では、高いUXのために、ユーザ発話が終端してから約1秒以内でシステム発話を再生することが求められる。これを考慮して、1秒から音声認識等のシステム発話を生成するための処理時間を引いた時間をポーズ長として設定することが考えられる。一方で、ユーザが滞りなく発話することが難しい内容の発話をユーザに求める場合、上記のポーズ長設定ではユーザ発話途中を誤って音声区間の終端としてしまうおそれがある。このようなケースの例としては、ユーザに住所、連続番号又は自由回答を求める場合が考えられる。上記のようにVADでは、語尾まで漏らさず区間検出することとレスポンスとのトレードオフがある。
 本実施形態では、上記を考慮して適切なVADパラメータを設定する。なお、設定対象となるVADパラメータは、ポーズ長以外であってもよい。例えば、ポーズ長に代えて、又はポーズ長に加えて、検出する音声区間の最大の長さである最大発話長を設定対象となるVADパラメータとしてもよい。あるいは、それ以外のパラメータを設定対象のVADパラメータとしてもよい。
 引き続いて、本実施形態に係るパラメータ設定システム1に含まれるサーバ10と、クライアント20との本実施形態に係る機能について説明する。なお、以下に説明する機能以外にも、サーバ10と、クライアント20とは、通常の対話システムが備える機能を有していてもよい。図1に示すようにサーバ10は、音声認識部11と、決定部12と、サーバ側設定部13とを含んで構成される。
 音声認識部11は、クライアント20(の後述する検出部23)によって検出された音声区間の音声、即ち、VAD後の音声に対して音声認識を行う機能部である。音声認識部11は、クライアント20から送信されたVAD後の音声(音声データ)を受信して取得する。音声認識部11は、取得した音声に対して音声認識(ASR:Automatic Speech Recognition)を行う。音声認識部11は、ASRの結果をテキストとして取得する。音声区間の音声は、ユーザ発話の音声であり、ASRの結果のテキストはユーザ発話を書き起こしたテキストに相当する。音声認識部11は、取得したテキストを決定部12に出力する。
 ASR自体は、従来の任意のASRの方法で行うことができる。例えば、音声認識部11は、ASRモデルを含む従来のASRエンジンを予め記憶しておき、ASRエンジンを用いてASRを行う。なお、音声認識部11は、ASRを行うASRサーバとして、装置として独立していてもよい。
 決定部12は、クライアント20(の後述する提示部21)によってユーザに提示される情報を決定する機能部である。決定部12は、ユーザに提示される情報としてシステム発話に係るシステム発話テキスト(発話文)を決定する。決定部12は、音声認識部11からユーザ発話に係るユーザ発話テキストを入力して、入力したユーザ発話テキストに基づいてシステム発話テキストを決定する。あるいは、決定部12は、音声認識部11からのテキストを用いずにシステム発話テキストを決定してもよい。例えば、クライアント20を介したサーバ10へのユーザの操作に応じてシステム発話テキストを決定してもよい。
 上記のシステム発話テキストの決定自体は、従来の任意の方法で行うことができる。例えば、自然言語理解(NLU:Natural Language Understanding)を行うNLUエンジンが用いられて上記の決定が行われてもよい。NLUエンジンは、NLUモデル、意図解釈(意図理解)エンジン、要約エンジン、シナリオを含む。シナリオは、自動応答を行うためのルールを記述した情報であり、例えば、AIML(Artificial Intelligence Markup Language)によって記述される。また、NLUエンジンには、上記の決定に用いられるデータベース(例えば、質問のテキストの入力に応じて回答のテキストを出力するQ&Aデータベース)が接続されて、上記の決定に用いられてもよい。
 ユーザと対話システムとの対話によっては、意図解釈のため、対話システムがユーザに所定の種別の情報を求めることがある。当該情報の種別としては、例えば、ユーザの氏名又は住所がある。ユーザに求める情報の種別をスロットと呼ぶ。対話システムにおいて、スロットの情報を抽出する機能をスロットフィル機能と呼ばれる。スロットの状態から、システム発話テキストの決定又はその他の処理が行われる。決定部12におけるスロットの状態に応じた処理は、従来のスロットフィル機能で行うことができる。
 スロットの情報が必要である場合、決定部12は、ユーザにスロットの情報の発話を促すテキストをシステム発話テキストとして決定する。例えば、ユーザの氏名が必要である場合、「氏名を教えてください」というテキストが、システム発話テキストとして決定される。システム発話テキストの候補となるテキストは、例えば、上述したシナリオに設定されている。決定部12は、決定したシステム発話によってユーザに求められるスロットを示す情報をサーバ側設定部13に出力する。あるいは、決定部12は、決定したシステム発話テキストをサーバ側設定部13に出力する。なお、決定部12の上記の機能は、本実施形態に係るパラメータ設定システム1としての機能部である。なお、決定部12のうち上記の決定を行う部分は、NLUを行うNLUサーバとして、装置として独立していてもよい。
 また、決定部12は、決定したシステム発話テキストの音声、即ち、システム発話の音声(音声データ)を取得する。例えば、決定部12は、決定したシステム発話テキストの音声合成(TTS:Text-To-Speech)を行ってシステム発話の音声を生成する。TTS自体は、従来の任意のTTSの方法で行うことができる。例えば、決定部12は、TTSモデルを含む従来のTTSエンジンを予め記憶しておき、TTSエンジンを用いてTTSを行う。なお、決定部12のうちTTSを行う部分は、TTSを行うTTSサーバとして、装置として独立していてもよい。あるいは、決定部12は、システム発話に対応する音声を予め記憶しておき、記憶した音声をシステム発話の音声として読み出してもよい。決定部12は、取得したシステム発話の音声をクライアント20に送信する。
 なお、対話システムからユーザへの情報の提示が、音声ではなく、例えば、テキストの表示で行われる場合には、TTSが行われる必要はない。その場合、決定部12は、決定したシステム発話テキストをクライアント20に送信すればよい。
 サーバ側設定部13は、決定部12によってユーザに提示される情報が決定されるタイミングで、当該情報に基づいて音声区間の検出に用いるパラメータ(VADパラメータ)を設定する機能部(サーバ10側に設けられる設定部)である。サーバ側設定部13は、クライアント20(の後述する提示部21)によってユーザに提示される情報に対してユーザが発話すべき情報の種別に基づいて、VADパラメータを設定してもよい。サーバ側設定部13は、クライアント20(の後述する提示部21)によってユーザに提示される情報に対するユーザの回答の想定長及び難易度の少なくとも何れかに基づいて、VADパラメータを設定してもよい。サーバ側設定部13は、以下のようにパラメータを設定する。
 サーバ側設定部13は、決定部12から、決定したシステム発話によってユーザに求められるスロットを示す情報又は決定したシステム発話テキストを入力する。上述したようにスロットは、システム発話に対してユーザが発話すべき情報の種別である。サーバ側設定部13は、予めユーザに求められるスロット又はシステム発話テキストに対応付けてVADパラメータを記憶している。例えば、図2に示すテーブルによってスロットとVADパラメータとを対応付けて記憶している。あるいは、図3に示すようにシステム発話テキストとVADパラメータとを対応付けて記憶している。なお、システム発話テキストとVADパラメータとの対応付けは、決定部12によって用いられるシナリオにおいて行われていてよい。図2及び図3において、VADパラメータの「A」はポーズ長であり、「B」は最大発話長であり、それぞれの数値の単位は秒である。スロット又はテキストに対応付けられて記憶されるVADパラメータは、例えば、予め対話システムを運用するサービス運用者によってサーバ10に入力されて記憶されている。
 サーバ側設定部13は、上記のように記憶した情報において、決定部12から入力したスロットを示す情報又はテキストに対応付けられたVADパラメータを後述するVADに用いられるVADパラメータとして設定する。なお、決定部12によるユーザに提示される情報の決定と、サーバ側設定部13によるVADパラメータの設定とは、まとめて一つの処理として行われてもよい。
 サーバ側設定部13によって設定されるVADパラメータは、VADパラメータの設定の基準となるシステム発話に対するユーザの発話しやすさの想定に応じたものとされる。例えば、ユーザが回答に間を開ける、即ち、ユーザが滞りなく発話することが難しいと考えられる場合、ポーズ長及び最大発話長を長く設定する。ユーザが回答に間を開けない、即ち、ユーザが滞りなく発話すると考えられる場合、ポーズ長及び最大発話長を短く設定する。
 例えば、図2及び図3に示すように、システム発話がユーザに氏名を聞くものである場合、ユーザは自分の氏名については滞りなく発話できると考えられるため、ポーズ長及び最大発話長を短く設定する。システム発話がユーザに住所を聞くものである場合、住所の発話は氏名の発話よりも通常長くなり、氏名に比べて滞りなく発話することが難しいと考えられるため、ポーズ長及び最大発話長を長く設定する。同様に連続番号又は自由回答等をユーザに聞く場合も、住所と同様にポーズ長及び最大発話長を長く設定する。
 サーバ側設定部13は、予めユーザに求められるスロット又はシステム発話テキストに対応付けて、それらに対するユーザの回答の想定長及び難易度を記憶しておき、それらに基づいてVADパラメータを設定してもよい。回答の想定長は、例えば、読み仮名の文字列長である。回答の難易度は、例えば、ユーザの回答がどの程度困難かを示す数値であり、具体的には、数値が高い程、回答が困難であることを示す数値である。以下のような、3段階の数値の何れかを設定することができる。難易度1は、氏名等の誰でも即答できるものである。難易度2は、住所等の一部のユーザは資料を見たり考えたりしながら回答するものである。難易度3は、契約番号又は自由回答等のほとんどのユーザは資料を見たり考えたりしながら回答するものである。スロット又はテキストに対応付けられて記憶される回答の想定長及び難易度は、例えば、予め対話システムを運用するサービス運用者によってサーバ10に入力されて記憶されている。
 サーバ側設定部13は、上記のように記憶した情報において、決定部12から入力したスロットを示す情報又はテキストに対応付けられたユーザの回答の想定長及び難易度を示す情報を取得する。サーバ側設定部13は、取得した情報から、例えば、予め用意された基準(例えば、数式)によってVADパラメータを算出して、算出したVADパラメータを後述するVADに用いられるVADパラメータとして設定する。算出に用いる基準は、例えば、上述した考え方に沿うものが用いられる。
 サーバ側設定部13は、設定したVADパラメータをクライアント20に送信する。サーバ側設定部13によるVADパラメータのクライアント20への送信は、決定部12によるVADパラメータの設定に用いられるシステム発話の音声のクライアント20への送信と概ね同じタイミングで行われる。これらが同時にクライアント20に送信されてもよい。送信されるVADパラメータは、VADパラメータの決定に用いられたシステム発話がクライアント20(の後述する提示部21)によって再生された直後のユーザ発話のVADに用いられる。
 サーバ側設定部13によるVADパラメータの決定及び当該VADパラメータのクライアント20への送信は、決定部12によって、VADパラメータの設定に用いられるシステム発話(システム発話テキスト)が決定された後に続けて行われ、当該システム発話の再生の直後にVADが行われるまでに行われる。このように、サーバ側設定部13によるVADパラメータの決定は、決定部12によってシステム発話が決定されるタイミングで行われる。
 なお、サーバ側設定部13は、本実施形態に係るパラメータ設定システム1としての機能部である。サーバ側設定部13は、上述したNLUサーバ又はASRサーバに含まれてもよい。あるいは、サーバ側設定部13は、NLUサーバ及びASRサーバとは独立したこれらのサーバとクライアント20との間のデータの流れを制御する制御サーバに含まれてもよい。以上が、サーバ10の機能である。
 図1に示すようにクライアント20は、提示部21と、入力部22と、検出部23と、クライアント側設定部24を含んで構成される。
 提示部21は、対話に係る情報をユーザに提示する機能部である。例えば、提示部21は、サーバ10(の決定部12)から送信されたシステム発話の音声を受信し、受信した音声をクライアント20が備えるスピーカ等の音声の出力を行う装置によって再生(音声出力)する。ユーザは、クライアント20(の提示部21)から発せられるシステム発話を聞き、それに対する発話(回答)を行う。なお、対話システムからユーザへの情報の提示が、音声ではなく、例えば、テキストの表示で行われる場合には、提示部21は、サーバ10(の決定部12)から送信されたテキストを受信して、受信したテキストを表示してユーザに提示する。
 入力部22は、提示部21によるユーザへの情報の提示に応じて、ユーザからの対話に係る音声を入力する機能部である。入力部22は、クライアント20が備えるマイク等の音声の入力を行う装置によって、ユーザからの対話に係る音声を入力して録音する。入力部22は、対話システムによる対話が行われている間、継続的に音声を入力している。入力部22は、入力した音声を検出部23に出力する。
 検出部23は、入力部22によって入力された音声から音声認識を行う音声区間を検出する機能部である。即ち、検出部23は、VADを行う機能部である。検出部23は、以下のようにVADを行う。
 検出部23は、サーバ10(のサーバ側設定部13)から送信されたVADパラメータを受信する。検出部23は、入力部22から音声を入力する。検出部23は、受信したVADパラメータを用いて、入力した音声に対してVADを行う。VAD自体は、従来の任意のVADの方法で行うことができる。なお、サーバ10から送信される種別以外のVADパラメータは、例えば、予め設定されて検出部23に記憶されたもの(デフォルトパラメータ)が用いられる。検出部23は、VADによって得られたVAD後の音声をサーバ10に送信する。
 検出部23のVADに用いられるVADパラメータは、以下に示すようにサーバ10から送信されたVADパラメータに基づいて、クライアント側設定部24によって更に設定された(修正された)ものが用いられてもよい。
 クライアント側設定部24は、音声区間の検出に用いるパラメータを設定する機能部(クライアント20側に設けられる設定部)である。クライアント側設定部24は、入力部22によって入力された音声からユーザの話速を検出し、検出した話速にも基づいてVADパラメータを設定する。
 例えば、クライアント側設定部24は、サーバ10によって設定されたVADパラメータに基づいて、更にVADパラメータを設定する、即ち、VADパラメータを修正する。この場合、クライアント側設定部24は、検出部23からVAD後の音声を入力する。ここで、検出部23からクライアント側設定部24に入力されるVAD後の音声は、音声区間の終端までのものではなく、音声区間の始端から一定期間(例えば、数秒)のものである。なお、サーバ10によって設定されるVADパラメータであるポーズ長及び最大発話長は、音声区間の終端を決めるためのものである。そのため、検出部23は、サーバ10によって設定されるVADパラメータを用いずにVADを開始し、音声区間の始端から一定期間の音声を検出することができる。
 クライアント側設定部24は、入力した音声からユーザの話速を検出する。話速の検出は、従来の方法で行うことができる。クライアント側設定部24は、検出した話速に基づいて、サーバ10から送信されたVADパラメータであるポーズ長及び最大発話長を修正する。例えば、話速が遅い場合、クライアント側設定部24は、サーバ10から送信されたポーズ長及び最大発話長を大きくする。具体的には、話速が予め設定した閾値よりも小さい場合、クライアント側設定部24は、サーバ10から送信されたポーズ長及び最大発話長を予め設定された一定値大きくする。ユーザの話速が遅い場合、ポーズ長及び最大発話長を大きくすることで適切に音声区間を検出することができる。
 クライアント側設定部24は、修正したVADパラメータを検出部23に通知し、検出部23は、修正後のVADパラメータを用いて始端を検出した音声区間についての終端を検出する。なお、上記では、VADパラメータの修正は、修正後のVADパラメータが用いられて終端が検出される音声区間の音声が用いられて行われたが、当該音声区間以前の音声区間の音声が用いられて行われてもよい。即ち、修正後のVADパラメータが用いられて終端が検出される音声区間以前の音声区間の音声から、ユーザの話速を検出してVADパラメータを設定(修正)してもよい。
 また、クライアント側設定部24は、入力部22によって入力された音声の特徴量のうち、話速以外の特徴量を検出して、検出した特徴量に基づいてVADパラメータを設定してもよい。設定されるVADパラメータは、サーバ10によって設定される種別以外のVADパラメータである。例えば、設定されるVADパラメータは、各時点における音声がユーザ発話に係る音声状態か非音声状態かを判断するための遷移確率、又は音声区間を決定(検出)するための音声尤度の閾値である。クライアント側設定部24は、入力部22によって入力された音声(例えば、音声区間の音声)の雑音レベルを特徴量として検出し、雑音レベルに基づいてVADパラメータを設定する。
 この際、上記の話速を検出する場合と同様に、VADパラメータの設定は、設定後のVADパラメータが用いられて終端が検出される音声区間の音声が用いられて行われてもよい。この場合、音声区間の始端から一定期間(例えば、1秒程度)の音声が用いられる。あるいは、VADパラメータの設定は、設定後のVADパラメータが用いられて終端が検出される音声区間以前の音声区間の音声が用いられて行われてもよい。
 クライアント側設定部24は、上記のように設定したVADパラメータを検出部23に通知し、検出部23は、設定したVADパラメータを用いて音声区間を検出する。なお、音声の特徴量に基づいて設定されるVADパラメータは、上記の遷移確率又は音声尤度の閾値以外でもよい。また、VADパラメータの設定に用いる特徴量は、雑音レベル以外であってもよい。クライアント側設定部24は、本実施形態に係るパラメータ設定システム1としての機能部である。以上が、クライアント20の機能である。
 引き続いて、図4のシーケンス図を用いて、本実施形態に係るパラメータ設定システム1で実行される処理(パラメータ設定システム1が行う動作方法)を説明する。本処理は、ユーザとパラメータ設定システム1を含む対話システムとの間で対話が行われる際の処理である。
 本処理では、サーバ10において、決定部12によってシステム発話テキストが決定される(S01)。この決定は、それ以前のユーザ発話又はユーザの操作等に応じたものである。続いて、サーバ側設定部13によって、システム発話テキストに基づいてVADパラメータが決定される(S02)。また、決定部12によって、決定したシステム発話テキストの音声合成が行われる(S03)。設定されたVADパラメータ及び音声合成によって得られたシステム発話の音声は、サーバ10からクライアント20に送信される(S04)。これらの送信は別々に行われてもよいし、あわせて行われてもよい。
 送信先のクライアント20では、VADパラメータ及びシステム発話の音声が受信される(S04)。続いて、提示部21によって、システム発話の音声の再生が行われる(S05)。システム発話の再生を受けて、ユーザ発話が行われる。また、入力部22によってユーザからの対話に係る音声が入力される(S06)。なお、入力部22による当該音声の入力は、このタイミングで行われるわけではなく、ユーザと対話システムとの間で対話が行われる際に継続的に行われている。ここで入力部22によって入力される音声には、上記のユーザ発話が含まれている。
 続いて、クライアント側設定部24によって、入力部22によって入力された音声に基づいて、VADパラメータが設定される(S07)。ここでのVADパラメータの設定は、ユーザの話速に基づくサーバ10で設定されたVADパラメータの修正、又はそれ以外のVADパラメータの設定である。なお、クライアント側設定部24によるパラメータの設定は、上記の何れかのみ行われてもよく、あるいは、行われなくてもよい。続いて、上記のように設定されたVADパラメータが用いられて、検出部23によって、ユーザからの対話に係る音声に対してVADが行われる(S08)。VAD後の音声は、クライアント20からサーバ10に送信される。
 送信先のサーバ10では、VAD後の音声が受信される(S09)。続いて、音声認識部11によって、VAD後の音声に対して音声認識が行われる(S10)。続いて、サーバ10では、音声認識後のユーザ発話テキストに対する処理が行われる(S11)。例えば、音声認識後のテキストに基づいて次のシステム発話テキストが決定される。この場合、上述したS01からの処理が繰り返される。以上が、本実施形態に係るパラメータ設定システム1で実行される処理である。
 本実施形態では、ユーザに提示される情報であるシステム発話が決定されるタイミングで、システム発話に基づいてVADパラメータが設定される。このように設定されたVADパラメータを用いることで、ユーザに提示される情報に応じたユーザの発話しやすさを考慮した音声区間の検出が行われる。その結果、対話システムにおいて、上述したキーワードの設定が困難である場合等であっても、ユーザの発話に対して適切に応答を行ってUXを向上させることができる。例えば、ユーザが滞りなく発話すると考えられる場合には、発話が終了した後、直ぐに音声認識を行うことができ、その結果、ユーザを待たせずに対話システムからの応答をすることができる。一方、ユーザが滞りなく発話することが難しいと考えられる場合には、ユーザが滞りなく発話すると考えられる場合と比べて直ぐに音声認識を行うことができないが、語尾まで漏らさずに音声区間の検出をすることができる。その結果、音声区間が適切に検出されずに音声認識の誤りが生じる可能性を低減することができ、対話システムから適切な応答をすることができる。
 また、本実施形態のように、システム発話に対してユーザが発話すべき情報の種別、例えば、上述したスロットに基づいてVADパラメータが設定されてもよい。あるいは、システム発話に対するユーザの回答の想定長及び難易度の少なくとも何れかに基づいてVADパラメータが設定されてもよい。これらは、ユーザの発話しやすさを適切に反映し得るものである。そのため、この構成によれば、システム発話に基づいたVADを適切かつ確実に行うことができ、その結果UXを確実に向上させることができる。但し、システム発話に基づくVADパラメータの設定は、必ずしも上記のように行われる必要はなく、上述した考え方によって行われるものであれば、どのように行われてもよい。
 また、本実施形態のように、システム発話に基づいて設定されるVADパラメータとしては、ポーズ長及び最大発話長とすることができる。この構成によれば、システム発話に基づいたVADを適切かつ確実に行うことができ、その結果UXを確実に向上させることができる。なお、ポーズ長及び最大発話長の何れか一方のみを、システム発話に基づいて設定されるVADパラメータとしてもよい。また、システム発話に基づいて設定されるVADパラメータは、必ずしも上記に限られず、システム発話に基づいて適切にVADを行い得るものであれば、上記以外のものであってもよい。
 また、上述したように入力された音声から検出されたユーザの話速にも基づいてVADパラメータを設定してもよい。この構成によれば、ユーザの話速にも応じてVADを適切に行うことができ、その結果UXを更に向上させることができる。但し、ユーザの話速にも基づいたVADパラメータの設定は、必ずしも行われなくてもよい。
 なお、本実施形態において、サーバ10に設けられた機能部の一部又は全部が、クライアント20に設けられていてもよい。また、対話システムとして有効に機能する限り、クライアント20に設けられた機能部の一部がサーバ10に設けられていてもよい。また、パラメータ設定システム1の必須の構成要素は、決定部12及びサーバ側設定部13である。クライアント側設定部24も、パラメータ設定システム1の構成要素であるが、上述したように任意的な構成要素である。
 なお、上記実施形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した1つの装置を用いて実現されてもよいし、物理的又は論理的に分離した2つ以上の装置を直接的又は間接的に(例えば、有線、無線などを用いて)接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記1つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。
 機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知(broadcasting)、通知(notifying)、通信(communicating)、転送(forwarding)、構成(configuring)、再構成(reconfiguring)、割り当て(allocating、mapping)、割り振り(assigning)などがあるが、これらに限られない。たとえば、送信を機能させる機能ブロック(構成部)は、送信部(transmitting unit)又は送信機(transmitter)と呼称される。いずれも、上述したとおり、実現方法は特に限定されない。
 例えば、本開示の一実施の形態におけるサーバ10及びクライアント20は、本開示の情報処理を行うコンピュータとして機能してもよい。図5は、本開示の一実施の形態に係るサーバ10及びクライアント20のハードウェア構成の一例を示す図である。上述のサーバ10及びクライアント20は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、バス1007などを含むコンピュータ装置として構成されてもよい。
 なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。サーバ10及びクライアント20のハードウェア構成は、図に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。
 サーバ10及びクライアント20における各機能は、プロセッサ1001、メモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることによって、プロセッサ1001が演算を行い、通信装置1004による通信を制御したり、メモリ1002及びストレージ1003におけるデータの読み出し及び書き込みの少なくとも一方を制御したりすることによって実現される。
 プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)によって構成されてもよい。例えば、上述のサーバ10及びクライアント20における各機能は、プロセッサ1001によって実現されてもよい。
 また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュール、データなどを、ストレージ1003及び通信装置1004の少なくとも一方からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態において説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、サーバ10及びクライアント20における各機能は、メモリ1002に格納され、プロセッサ1001において動作する制御プログラムによって実現されてもよい。上述の各種処理は、1つのプロセッサ1001によって実行される旨を説明してきたが、2以上のプロセッサ1001により同時又は逐次に実行されてもよい。プロセッサ1001は、1以上のチップによって実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。
 メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)などの少なくとも1つによって構成されてもよい。メモリ1002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本開示の一実施の形態に係る情報処理を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
 ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、CD-ROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu-ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップなどの少なくとも1つによって構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。サーバ10及びクライアント20が備える記憶媒体は、例えば、メモリ1002及びストレージ1003の少なくとも一方を含むデータベース、サーバその他の適切な媒体であってもよい。
 通信装置1004は、有線ネットワーク及び無線ネットワークの少なくとも一方を介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。
 入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、LEDランプなど)である。なお、入力装置1005及び出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。
 また、プロセッサ1001、メモリ1002などの各装置は、情報を通信するためのバス1007によって接続される。バス1007は、単一のバスを用いて構成されてもよいし、装置間ごとに異なるバスを用いて構成されてもよい。
 また、サーバ10及びクライアント20は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つを用いて実装されてもよい。
 本開示において説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本開示において説明した方法については、例示的な順序を用いて様々なステップの要素を提示しており、提示した特定の順序に限定されない。
 入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルを用いて管理してもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。
 判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:true又はfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。
 本開示において説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。
 以上、本開示について詳細に説明したが、当業者にとっては、本開示が本開示中に説明した実施形態に限定されるものではないということは明らかである。本開示は、請求の範囲の記載により定まる本開示の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本開示の記載は、例示説明を目的とするものであり、本開示に対して何ら制限的な意味を有するものではない。
 ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。
 また、ソフトウェア、命令、情報などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術(同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線(DSL:Digital Subscriber Line)など)及び無線技術(赤外線、マイクロ波など)の少なくとも一方を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び無線技術の少なくとも一方は、伝送媒体の定義内に含まれる。
 本開示において使用する「システム」及び「ネットワーク」という用語は、互換的に使用される。
 また、本開示において説明した情報、パラメータなどは、絶対値を用いて表されてもよいし、所定の値からの相対値を用いて表されてもよいし、対応する別の情報を用いて表されてもよい。
 本開示で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up、search、inquiry)(例えば、テーブル、データベース又は別のデータ構造での探索)、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。また、「判断(決定)」は、「想定する(assuming)」、「期待する(expecting)」、「みなす(considering)」などで読み替えられてもよい。
 「接続された(connected)」、「結合された(coupled)」という用語、又はこれらのあらゆる変形は、2又はそれ以上の要素間の直接的又は間接的なあらゆる接続又は結合を意味し、互いに「接続」又は「結合」された2つの要素間に1又はそれ以上の中間要素が存在することを含むことができる。要素間の結合又は接続は、物理的なものであっても、論理的なものであっても、或いはこれらの組み合わせであってもよい。例えば、「接続」は「アクセス」で読み替えられてもよい。本開示で使用する場合、2つの要素は、1又はそれ以上の電線、ケーブル及びプリント電気接続の少なくとも一つを用いて、並びにいくつかの非限定的かつ非包括的な例として、無線周波数領域、マイクロ波領域及び光(可視及び不可視の両方)領域の波長を有する電磁エネルギーなどを用いて、互いに「接続」又は「結合」されると考えることができる。
 本開示において使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。
 本開示において使用する「第1の」、「第2の」などの呼称を使用した要素へのいかなる参照も、それらの要素の量又は順序を全般的に限定しない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本開示において使用され得る。したがって、第1及び第2の要素への参照は、2つの要素のみが採用され得ること、又は何らかの形で第1の要素が第2の要素に先行しなければならないことを意味しない。
 本開示において、「含む(include)」、「含んでいる(including)」及びそれらの変形が使用されている場合、これらの用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本開示において使用されている用語「又は(or)」は、排他的論理和ではないことが意図される。
 本開示において、例えば、英語でのa, an及びtheのように、翻訳により冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。
 本開示において、「AとBが異なる」という用語は、「AとBが互いに異なる」ことを意味してもよい。なお、当該用語は、「AとBがそれぞれCと異なる」ことを意味してもよい。「離れる」、「結合される」などの用語も、「異なる」と同様に解釈されてもよい。
 1…パラメータ設定システム、10…サーバ、11…音声認識部、12…決定部、13…サーバ側設定部、20…クライアント、21…提示部、22…入力部、23…検出部、24…クライアント側設定部、1001…プロセッサ、1002…メモリ、1003…ストレージ、1004…通信装置、1005…入力装置、1006…出力装置、1007…バス。

Claims (6)

  1.  ユーザとの間で対話を行う対話システムに含まれるパラメータ設定システムであって、
     前記対話システムは、
     対話に係る情報をユーザに提示する提示部と、
     前記提示部によるユーザへの情報の提示に応じて、ユーザからの対話に係る音声を入力する入力部と、
     前記入力部によって入力された音声から音声認識を行う音声区間を検出する検出部と、
     前記検出部によって検出された音声区間の音声に対して音声認識を行う音声認識部と、を備え、
     前記パラメータ設定システムは、
     前記提示部によってユーザに提示される情報を決定する決定部と、
     前記決定部によってユーザに提示される情報が決定されるタイミングで、当該情報に基づいて前記音声区間の検出に用いるパラメータを設定する設定部と、
    を備えるパラメータ設定システム。
  2.  前記設定部は、前記提示部によってユーザに提示される情報に対してユーザが発話すべき情報の種別に基づいて、前記パラメータを設定する請求項1に記載のパラメータ設定システム。
  3.  前記設定部は、前記提示部によってユーザに提示される情報に対するユーザの回答の想定長及び難易度の少なくとも何れかに基づいて、前記パラメータを設定する請求項1又は2に記載のパラメータ設定システム。
  4.  前記設定部は、前記パラメータとして、前記音声区間の終端を決めるための、ユーザの発話がなされていない時間の閾値を設定する請求項1~3の何れか一項に記載のパラメータ設定システム。
  5.  前記設定部は、前記パラメータとして、前記音声区間の最大の長さを設定する請求項1~4の何れか一項に記載のパラメータ設定システム。
  6.  前記設定部は、前記入力部によって入力された音声からユーザの話速を検出し、検出した話速にも基づいて前記パラメータを設定する請求項1~5の何れか一項に記載のパラメータ設定システム。
PCT/JP2021/032707 2020-09-29 2021-09-06 パラメータ設定システム WO2022070792A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022553728A JPWO2022070792A1 (ja) 2020-09-29 2021-09-06

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-163294 2020-09-29
JP2020163294 2020-09-29

Publications (1)

Publication Number Publication Date
WO2022070792A1 true WO2022070792A1 (ja) 2022-04-07

Family

ID=80950136

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/032707 WO2022070792A1 (ja) 2020-09-29 2021-09-06 パラメータ設定システム

Country Status (2)

Country Link
JP (1) JPWO2022070792A1 (ja)
WO (1) WO2022070792A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002268683A (ja) * 2001-03-09 2002-09-20 Canon Inc 情報処理方法及び装置
JP2017097330A (ja) * 2015-11-19 2017-06-01 パナソニック株式会社 音声認識方法及び音声認識装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002268683A (ja) * 2001-03-09 2002-09-20 Canon Inc 情報処理方法及び装置
JP2017097330A (ja) * 2015-11-19 2017-06-01 パナソニック株式会社 音声認識方法及び音声認識装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KAWASE, TOMOKO: "2-1-4 Examination of noise environment adaptation of speech recognition parameters including sound pickup processing", PROCEEDINGS OF THE 2015 SPRING MEETING OF THE ACOUSTICAL SOCIETY OF JAPAN; TOKYO, JAPAN; MARCH 16-18, 2015, 3 March 2015 (2015-03-03) - 18 March 2015 (2015-03-18), pages 47 - 50, XP009535678 *

Also Published As

Publication number Publication date
JPWO2022070792A1 (ja) 2022-04-07

Similar Documents

Publication Publication Date Title
US20230267921A1 (en) Systems and methods for determining whether to trigger a voice capable device based on speaking cadence
US11735173B2 (en) Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface
US11887604B1 (en) Speech interface device with caching component
US20210201932A1 (en) Method of and system for real time feedback in an incremental speech input interface
US10832682B2 (en) Methods and apparatus for reducing latency in speech recognition applications
KR102373905B1 (ko) 어시스턴트 애플리케이션을 위한 음성 사용자 인터페이스 단축
CN112262430B (zh) 自动确定经由自动助理界面接收到的口头话语的语音识别的语言
US9983849B2 (en) Voice command-driven database
US10559303B2 (en) Methods and apparatus for reducing latency in speech recognition applications
KR20210088467A (ko) 음성 인터랙션 제어 방법, 장치, 전자기기, 저장매체 및 시스템
CN112466302A (zh) 语音交互的方法、装置、电子设备和存储介质
JP2020003925A (ja) 対話システムの制御方法、対話システム及びプログラム
KR20150077580A (ko) 음성 인식 기반 서비스 제공 방법 및 그 장치
US20220254346A1 (en) Interaction device
US20230223021A1 (en) Enhancing signature word detection in voice assistants
WO2022070792A1 (ja) パラメータ設定システム
US20210327419A1 (en) Enhancing signature word detection in voice assistants
JP7348818B2 (ja) 対話装置
JP7429194B2 (ja) 対話装置及び対話プログラム
WO2020195022A1 (ja) 音声対話システム、モデル生成装置、バージイン発話判定モデル及び音声対話プログラム
JP2019109424A (ja) 計算機、言語解析方法、及びプログラム
US11893996B1 (en) Supplemental content output
EP4139916A1 (en) Enhancing signature word detection in voice assistants
CN114999470A (zh) 人机语音对话的控制方法、装置及电子设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21875094

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022553728

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21875094

Country of ref document: EP

Kind code of ref document: A1