WO2021153427A1 - 情報処理装置及び情報処理方法 - Google Patents

情報処理装置及び情報処理方法 Download PDF

Info

Publication number
WO2021153427A1
WO2021153427A1 PCT/JP2021/002112 JP2021002112W WO2021153427A1 WO 2021153427 A1 WO2021153427 A1 WO 2021153427A1 JP 2021002112 W JP2021002112 W JP 2021002112W WO 2021153427 A1 WO2021153427 A1 WO 2021153427A1
Authority
WO
WIPO (PCT)
Prior art keywords
utterance
user
information
information processing
processing system
Prior art date
Application number
PCT/JP2021/002112
Other languages
English (en)
French (fr)
Inventor
広 岩瀬
泰生 可部
祐平 滝
邦仁 澤井
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to US17/794,631 priority Critical patent/US20230072727A1/en
Priority to JP2021573981A priority patent/JPWO2021153427A1/ja
Priority to EP21747477.4A priority patent/EP4099318A4/en
Publication of WO2021153427A1 publication Critical patent/WO2021153427A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Definitions

  • This disclosure relates to an information processing device and an information processing method.
  • Patent Document 1 a technique for determining an utterance timing in a voice dialogue system is known (for example, Patent Document 1).
  • the utterance timing of the voice dialogue system is determined based on the timing when the user's breathing changes from exhalation to inspiration.
  • the system side only determines the timing at which the user speaks. For example, when the user's utterance is intermittently performed due to the user's breathing disorder or the like, the user's utterance is interrupted. The contents may not be recognized correctly. Therefore, it is desired that a plurality of user utterances can be appropriately connected.
  • this disclosure proposes an information processing device and an information processing method capable of appropriately connecting a plurality of user utterances.
  • the information processing apparatus of one form according to the present disclosure has a first utterance information indicating a first utterance by a user and a second utterance by the user after the first utterance.
  • the acquisition unit for acquiring the two utterance information and the breathing information related to the user's breathing, and the voice dialogue control according to the user's breathing state based on the breathing information acquired by the acquisition unit the first It includes an execution unit that executes a process of connecting the utterance and the second utterance.
  • First Embodiment 1-1 Outline of information processing according to the first embodiment of the present disclosure 1-1-1. Background and effects 1-1-2. Sensor example 1-1-2-1. Contact type 1-1-2-2. Non-contact type 1-1-3. Processing example that takes into account the effect on utterance 1-1-3-1. Voice utterance influence 1-1-4. Voice dialogue control example 1-1-4-1. Concatenation of OOD utterances 1-1-4-2. Utterance connection based on co-occurrence relationship 1-2. Configuration of Information Processing System According to First Embodiment 1-3. Configuration of Information Processing Device According to First Embodiment 1-4. Configuration of the terminal device according to the first embodiment 1-5. Information processing procedure according to the first embodiment 1-5-1.
  • Second Embodiment 2-1. Outline of information processing according to the second embodiment 2-1-1. Processing example that takes into account the effect on utterance 2-1-1-1.
  • Voice utterance influence 2-2. Configuration of Information Processing Device According to Second Embodiment 2-3. Information processing procedure according to the second embodiment 2-3-1. Effects, etc. 2-4.
  • Respiratory state vector related 3-2-1. Example of observation target time in respiratory state vector detection 3-2-2. Examples of observed values in respiratory state vector detection 3-2-3.
  • Example of the relationship between each element of the respiratory state vector and the user's respiratory state 3-2-4-1 An example of the relationship with speed 3-2-4-2. An example of the relationship with frequency 3-2-4-3. An example of the relationship with depth 3-3.
  • Processing example 1 3-3-1.
  • Processing example 2 3-4-1.
  • Modification example 4-1-1 Example when the user's attention is taken elsewhere 4-1-2.
  • Others Effect of this disclosure 6.
  • FIG. 1 is a diagram showing an example of information processing according to the first embodiment of the present disclosure.
  • the information processing according to the first embodiment of the present disclosure is realized by the information processing system 1 (see FIG. 2) including the server device 100 (see FIG. 3) and the terminal device 10 (see FIG. 5).
  • the server device 100 is an information processing device that executes information processing according to the first embodiment.
  • the server device 100 executes control according to the user's respiratory state based on respiratory information (hereinafter, also referred to as “voice dialogue control”). Further, in the example of FIG. 1, the server device 100 executes the voice dialogue control to show the first utterance information indicating the first utterance by the user and the second utterance information indicating the second utterance by the user after the first utterance. The case where the process of concatenating with and is executed is shown.
  • an index value “H b ” (hereinafter, also referred to as “roughness degree“ H b ”) indicating the degree of roughness of the user's breathing is used.
  • the degree of roughness "H b " is a scalar value indicating the respiratory state of the user.
  • the information indicating the user's respiratory state is not limited to the degree of roughness "H b".
  • the information indicating the user's respiratory state is various information indicating the user's respiratory state, such as a vector "Hv " indicating the user's respiratory state (hereinafter, also referred to as “respiratory state vector” Hv ").
  • Hv vector
  • the first utterance and the second utterance are relative concepts. For example, one utterance by the user becomes the first utterance with respect to the utterance by the user after the one utterance.
  • the second utterance is made for the user's utterance before the utterance.
  • the first utterance and the second utterance are relative concepts, and the first utterance becomes the second utterance with respect to the utterance before itself.
  • the second utterance is the first utterance for utterances after itself. That is, the first utterance and the second utterance referred to here are names for distinguishing and expressing utterances based on the context of the utterance of a certain user.
  • the utterance after the second utterance is referred to as the third utterance
  • the utterance after the third utterance is referred to as the third utterance. It may be called 4 utterances.
  • FIG. 1 shows a case where the timeout time is extended as an example of the voice dialogue control, but the voice dialogue control is not limited to the extension of the time-out time.
  • the voice dialogue control may be various controls related to the connection of a plurality of user utterances, such as the connection of OOD (Out-of-Domain) utterances and the connection of utterances based on a co-occurrence relationship. Details of this point will be described later.
  • FIG. 1 a case where the sensor information detected by the respiration sensor 171 (see FIG. 5) of the terminal device 10 used by the user is used as the respiration information is shown. In the example of FIG.
  • the respiration sensor 171 using the millimeter-wave radar detects the respiration information indicating the user's respiration is shown, but it is not limited to the millimeter-wave radar and if the respiration information of the user can be detected. , Any sensor may be used. This point will be described later.
  • FIG. 1 Each process shown in FIG. 1 may be performed by either the server device 100 or the terminal device 10 of the information processing system 1. Any device included in the information processing system 1 may perform the processing in which the information processing system 1 is described as the main body of the processing.
  • the server device 100 executes a process of connecting the first utterance and the second utterance by the user U1 by executing the voice dialogue control using the respiration information indicating the respiration of the user U1 detected by the terminal device 10.
  • the case of performing the processing (consolidation processing) to be performed will be described as an example.
  • the terminal device 10 may perform the determination process (information processing). This point will be described later.
  • the information processing system 1 acquires respiration information regarding the respiration of the user U1.
  • the server device 100 acquires respiration information indicating the respiration of the user U1 from the terminal device 10 used by the user U1.
  • the server device 100 calculates the degree of roughness "H b " indicating the respiratory state of the user U1 by using the acquired respiratory information.
  • Respiratory information includes various information about the user's respiration.
  • Respiratory information includes information about the user's inspiratory volume.
  • the respiration information includes information such as the displacement amount, period, and speed of the user's respiration.
  • the respiration information of the user U1 includes information such as the displacement amount, period, and speed of the respiration of the user U1.
  • the server device 100 calculates the degree of roughness "H b" from the displacement amount and period of respiration. For example, the server device 100 calculates the degree of roughness "H b " indicating the respiratory state of the user U1 using the following equation (1).
  • V b in the above equation (1) (hereinafter, also referred to as “displacement amount“ V b ”) indicates the displacement amount of respiration performed in the latest unit time T (for example, 10 seconds or the like).
  • the server device 100 calculates the displacement amount “V b” using the following equation (2).
  • sample number indicates the number of samples of the respiratory sensor in the unit time T.
  • sample number indicates the number of sensor information (for example, the number of detections) detected by the respiratory sensor 171 in the unit time T.
  • S i in the above equation (2) (hereinafter, also referred to as "observed value” S i ") indicates an observed value of each sample of the respiratory sensor.
  • S i indicates an observed value (for example, inspiratory volume) of the sensor information detected by the respiratory sensor 171.
  • S m (hereinafter, also referred to as "average observed value” S m ”) in the above equation (2) indicates the average observed value of the respiratory sensor of the latest n samples.
  • Sm indicates an average observed value (for example, average inspiratory volume) of the number of samples "n” detected by the respiratory sensor 171.
  • the server device 100 calculates the average observed value “Sm” using the following equation (3).
  • ⁇ b (hereinafter, also referred to as “period“ ⁇ b ””) in the above equation (1) indicates the respiratory cycle of the latest n samples.
  • the server device 100 calculates the period “ ⁇ b ” from the number of intersections of the observed value “S i ” with the average observed value “S m ” and the reciprocal of the number of peaks.
  • the server device 100 may calculate the period “ ⁇ b " by appropriately using various methods such as autocorrelation pitch detection and cepstrum analysis.
  • the degree of roughness "H b " calculated by the equation (1) becomes higher as the displacement amount "V b " of respiration per unit time is larger and the number of times is larger, that is, the period " ⁇ b " is shorter.
  • the degree of roughness "H b " is a low value when deep breathing is performed.
  • the server device 100 may calculate the degree of roughness "H b" by another method.
  • the server device 100 may calculate the degree of roughness "H b” from the respiration rate.
  • the server device 100 may calculate the degree of roughness "H b " from the RMS (Root Mean Square) of the respiratory rate.
  • the server device 100 may calculate the degree of roughness "H b " indicating the respiratory state of the user U1 using the following equation (4).
  • the “n” in the above equation (4) is the same as the “n” in the equation (2).
  • “ ⁇ S i ” in the above equation (4) indicates a difference value with respect to the observed value one sample before the respiratory sensor.
  • the difference value “ ⁇ S i ” indicates a difference value with respect to the observed value one sample before among the observed values of the sensor information detected by the respiratory sensor 171.
  • the server device 100 calculates the difference value “ ⁇ S i ” using the following equation (5).
  • the server device 100 may calculate the degree of roughness "H b" by machine learning.
  • the server device 100 performs machine learning from a plurality of observation data of the respiratory sensor in which the degree of roughness of respiration is labeled stepwise, and obtains (calculates) the degree of roughness "H b" by regression analysis. May be good.
  • the server device 100 detects (calculates) the degree of roughness of respiration indicating the respiration state of the user by using the displacement value of the respiration volume observed by the respiration sensor 171 in the voice dialogue system. For example, the server device 100 calculates the displacement amount, period, speed, and the like of respiration in a unit time, and calculates the degree of respiration roughness “H b ” from these values. The above is an example, and the server device 100 may calculate the degree of roughness "H b" by appropriately using various information.
  • the server device 100 performs the voice dialogue control process using the roughness degree “H b” calculated by the equation (1).
  • the server device 100 makes a determination using the degree of roughness "H b” indicating the respiratory state.
  • the server device 100 executes voice dialogue control when the degree of roughness "H b" satisfies the condition.
  • the degree of roughness "H b " is a scalar value that takes a larger value as the breathing becomes rougher, and the larger the degree of roughness "H b ", the more likely it is that the person will be out of breath and it will be difficult to speak by voice as desired. ..
  • the server device 100 uses a threshold value of the degree of roughness of respiration (hereinafter, also referred to as “specified threshold value“ H th ”).
  • the server device 100 executes voice dialogue control when the comparison result between the roughness degree “H b ” and the threshold value (specified threshold value “H th”) satisfies the condition.
  • the degree of roughness "H b " is a scalar value that takes a larger value as the breathing becomes rougher.
  • the server device 100 executes voice dialogue control when the degree of roughness “H b ” becomes equal to or higher than the specified threshold value “H th”.
  • the server device 100 may execute voice dialogue control when the degree of roughness “H b ” becomes larger than the specified threshold value “H th”.
  • the server device 100 acquires the respiration information of the user U1 at the time t10, and calculates the degree of roughness "H b" by using the respiration information and the equation (1). Then, the server device 100 compares the calculated roughness degree “H b ” with the specified threshold value “H th ”. Since the degree of roughness “H b ” is smaller than the specified threshold value “H th ”, the server device 100 determines that the respiratory state of the user U1 at time t10 is normal.
  • the voice dialogue control is not executed during the time t10 to the time t12, and the silent time-out time “ tr ” of the voice recognition end-of-call determination, which is an example of the time-out time, is not extended.
  • " tr " indicates the silence timeout time of the voice recognition end-of-call determination.
  • the silent time-out time “ tr ” of the voice recognition end call determination may be described as “voice recognition time-out time“ tr ””, “silence time-out time“ tr ””, or the like.
  • the user U1 makes an utterance UT1 of "playing music" at time t11.
  • processing such as voice recognition is executed.
  • the information processing system 1 generates information on the intention (Intent) of the user's utterance UT1 and the attribute information (Entity) of the user's utterance UT1 from the user's utterance UT1 by natural language understanding (NLU).
  • NLU natural language understanding
  • the information processing system 1 may use any technique related to natural language understanding as long as information on its intention (Intent) and attribute information (Entity) can be obtained from the user's utterance. In the example of FIG.
  • the information processing system 1 executes a function corresponding to the utterance UT1. For example, the information processing system 1 causes the terminal device 10 of the user U1 to play music.
  • the server device 100 acquires the respiration information of the user U1 at the time t12, and calculates the degree of roughness "H b" by using the respiration information and the equation (1). Then, the server device 100 compares the calculated roughness degree “H b ” with the specified threshold value “H th ”. Since the degree of roughness “H b ” is equal to or greater than the specified threshold value “H th”, the server device 100 determines that the respiratory state of the user U1 at time t12 is abnormal. That is, the case where the respiratory state of the user U1 changes from the normal state to the non-normal state at time t12 is shown.
  • the case where the respiratory state of the user U1 is determined to be abnormal is shown after the time t12. Specifically, the case where the user U1 is exercising after the time t12 and is in a state of being out of breath and the respiratory state is determined to be abnormal is shown. Therefore, the voice dialogue control is executed after the time t12, and the voice recognition timeout time “ tr ” is extended.
  • the server device 100 executes voice dialogue control and extends the voice recognition timeout time “tr”. In the example of FIG. 1, the server device 100, extending the time length TL2 of the length of the speech recognition timeout time "t r" from the duration TL1.
  • the server device 100 may extend the length of the voice recognition timeout time “tr ” by a predetermined length, or may vary the lengthening time in consideration of the influence on the utterance. For example, the server device 100 may determine the extension time using the voice utterance influence degree “Eu ” indicating the degree of influence on the utterance. The extension of time using the voice utterance influence degree " Eu" will be described later.
  • the information processing system 1 outputs the system "A message has arrived from Mr. XX. Do you want to read it aloud?" Immediately before the time t13. Accordingly, the user U1 makes an utterance UT11 called "reading” at time t13. Then, the user U1 makes an utterance UT12 of "raise” at time t14. In this case, the utterance UT11 "reading” corresponds to the first utterance, and the utterance UT12 "raise” corresponds to the second utterance.
  • the time length between the time when the utterance UT11 "reading” ends and the time when the utterance UT12 "raise” starts is longer than the time length TL1 and longer than the time length TL2. short. Therefore, without being extended speech recognition timeout period "t r", if the speech recognition timeout period "t r" was the length of time TL1, speech recognition timeout period before the speech UT12 of "up to", "t r Is finished. In this case, the voice recognition process is performed only by the utterance UT11 called "reading".
  • the information processing system 1 since the utterance UT11 of "reading" is not an utterance that can interpret the intention of the user U1, the information processing system 1 considers the utterance UT11 to be an utterance in which the intention cannot be interpreted (OOD utterance). As described above, when the voice recognition timeout time " tr " is not extended, the information processing system 1 cannot properly interpret the utterance of the user U1.
  • the server device 100 connects the speech UT11 and speech UT12 do.
  • the server device 100 connects the utterance UT11 "read” and the utterance UT12 "raise”, and performs processing such as voice recognition as the utterance UT13 "read”.
  • the information processing system 1 executes the function corresponding to the utterance UT13.
  • the information processing system 1 causes the terminal device 10 of the user U1 to output a message from Mr. XX by voice.
  • the information processing system 1 can appropriately connect a plurality of utterances of the user by executing the voice dialogue control for extending the timeout time.
  • the information processing system 1 executes voice dialogue control for extending the timeout time based on the roughness of the user's breathing.
  • the information processing system 1 can appropriately connect a plurality of user utterances by executing voice dialogue control that extends the timeout time based on the roughness of breathing.
  • examples of respiratory conditions that make it difficult to speak voice other than shortness of breath due to exercise include cases where breathing becomes shallow due to tension, stress, concentration, etc., cases where breathing is absent or hyperventilation, cases where the number of breaths decreases due to drowsiness, coughing, etc. There are cases where breathing stops (becomes shallow) for a short period of time due to respiratory physiological phenomena such as squeezing, surprise or force. Even in such a case, the information processing system 1 can appropriately connect a plurality of utterances of the user by executing the voice dialogue control, and the details of this point will be described later.
  • the end of the user's utterance and the end determination of the dialogue session in the voice dialogue system are performed by a time-out process due to the passage of a certain period of silence in which the user does not speak.
  • this timeout process prevents the utterance from being accepted by the system.
  • the timeout time is extended, the reception time at the time of shortness of breath will be extended, but the system response speed in normal times will be slowed down, so a technique for eliminating this trade-off is required.
  • the information processing system 1 executes voice dialogue control for extending the timeout time based on the roughness of the user's breathing.
  • the information processing system 1 can suppress the extension of the timeout time when the user is in a normal state, that is, when it is not necessary to extend the timeout time.
  • the information processing system 1 can eliminate the trade-off that if the timeout time is extended, the reception time at the time of shortness of breath is extended, but the system response speed in normal times is slowed down. That is, the information processing system 1 can appropriately extend the timeout time by extending the timeout time only when it is necessary to extend the timeout time.
  • the information processing system 1 maintains the natural system response performance of voice dialogue in normal times, and even in a situation where the user is out of breath such as during exercise, the user can endure breathing and speak by voice without forcibly speaking. The operation becomes possible.
  • the information processing system 1 is expected to be effective in a wearable device or the like that is supposed to be operated by voice without using hands while exercising.
  • the information processing system 1 introduces the above-mentioned voice dialogue control into the voice dialogue control at the time of notification from the system to the user, so that the voice dialogue started by the system is performed in consideration of the breathing state of the user at that time. The effect is great.
  • respiration sensor 171 using the millimeter-wave radar that is, the detection of respiration information using a non-contact type sensor has been described as an example, but the sensor used for detecting (acquiring) respiration information is non-contact.
  • the type is not limited to the contact type. An example of the contact type sensor will be described below.
  • the respiration sensor 171 may be a wearable sensor.
  • contact type sensors of various modes such as a band type, a jacket type, and a mask type may be used.
  • the information processing system 1 acquires the displacement amount of breathing from the expansion and contraction of the band wrapped around the user's chest or abdomen.
  • the information processing system 1 embeds a band in a jacket worn by the user.
  • the accuracy of respiration detection can be improved by equipping sensors at a plurality of locations (directions).
  • the information processing system 1 When an acceleration sensor is used for the breathing sensor 171, the information processing system 1 observes the movement of the chest by an acceleration sensor mounted on a wearable device such as a neck-hanging device or a smartphone worn on the user's upper body, and breathes. The amount may be estimated. When a mask type sensor is used for the breathing sensor 171, the information processing system 1 detects the exhalation and inspiration speeds by the air volume sensor or the pressure sensor mounted on the mask, and calculates the depth and period from the accumulated displacement amount. presume.
  • a VR (Virtual Reality) headset that covers the user's mouth may be used for the breathing sensor 171.
  • the information processing system 1 recognizes the sound of exhaled breath by the proximity microphone, recognizes the amount of time change in exhalation, and estimates the depth and speed of breathing.
  • the information processing system 1 recognizes the sound of noise generated when the exhaled breath hits the microphone by the proximity microphone, recognizes the amount of time change of exhalation, and estimates the depth and speed of breathing.
  • non-contact type sensor is not limited to the millimeter wave radar, and various non-contact type sensors may be used for the respiration sensor 171.
  • An example of a non-contact type sensor other than the millimeter wave radar will be described below.
  • a radar other than an image sensing method a respiration detection method from the temperature around the nose, a proximity sensor, and a millimeter wave radar may be used.
  • the information processing system 1 When image sensing is used for the respiration sensor 171, the information processing system 1 recognizes the amount of time change between exhalation and inspiration at different temperatures with a thermo camera, and estimates the depth, cycle, and speed of respiration. Further, the information processing system 1 may perform image sensing of the exhaled breath that becomes white when it is cold, recognize the amount of time change of the exhaled breath, and estimate the depth, cycle, and speed of the breath.
  • ⁇ Capacitive film-like proximity sensor that monitors human movement and breathing ⁇ https://www.aist.go.jp/aist_j/press_release/pr2016/pr20160125/pr20160125.html>
  • Heart rate / respiration detection sensor "GZS-350 series” https://www.ipros.jp/product/detail/2000348329/>
  • the information processing system 1 detects the movement of the user's chest by the phase difference of the received signal of the millimeter-wave radar and estimates the respiratory volume.
  • the terminal device 10 uses the sensor information detected by the respiration sensor 171 to detect the movement of the user's chest by the phase difference of the received signal of the millimeter wave radar, and estimates the respiration volume to respire the user. Generate information. Then, the terminal device 10 transmits the generated user's breathing information to the server device 100.
  • the server device 100 may generate the user's breathing information.
  • the terminal device 10 transmits the sensor information detected by the respiration sensor 171 to the server device 100. Then, using the sensor information received by the server device 100 that has received the sensor information, the movement of the user's chest is detected by the phase difference of the received signal of the millimeter wave radar, and the respiration amount is estimated to obtain the respiration information of the user. May be generated.
  • the above sensor is merely an example of a sensor used for acquiring respiratory information, and any sensor may be used as long as it can acquire respiratory information.
  • the information processing system 1 may use any sensor to detect the respiration information as long as it can detect the respiration information indicating the user's respiration.
  • the sensor unit 17 of the terminal device 10 has at least one of the above-mentioned sensors, and the sensor detects respiratory information.
  • the information processing system 1 may generate respiration information using the sensor information detected by the sensor of the sensor unit 17.
  • the terminal device 10 or the server device 100 may generate respiration information using sensor information (point group data) detected by the respiration sensor 171 (millimeter wave radar).
  • the terminal device 10 and the server device 100 may generate respiration information from the sensor information (point group data) detected by the respiration sensor 171 (millimeter wave radar) by appropriately using various techniques.
  • the information processing system 1 may vary the extension time in consideration of the influence on the utterance. In this way, the information processing system 1 may perform the process of voice dialogue control using the degree of influence on the utterance. This point will be described below.
  • the information processing system 1 performs voice dialogue control when the detected respiratory state affects the utterance. For example, the information processing system 1 determines that the user's respiratory state affects utterance when the degree of respiratory roughness "H b " becomes equal to or higher than the specified threshold value "H th", and performs voice dialogue control. ..
  • the information processing system 1 when later breathing state vector "H v" becomes normal range "R N" outer described later, it is determined that the breathing state of the user is in a state that affects the speech, the speech dialogue Control may be performed. For example, the information processing system 1 performs voice dialogue control when the degree of roughness "H b " of breathing becomes equal to or higher than the specified threshold value "H th".
  • the information processing system 1 suspends a voice dialogue session (voice dialogue session) when the meaning understanding result of the user's utterance cannot be interpreted, and the degree of roughness "H b " is equal to or less than the specified threshold "H th " (or less than). ), And then restart the voice dialogue session.
  • the information processing system 1 interrupts the dialogue session when the meaning understanding processing result of the user's utterance is OOD (uninterpretable), waits until the respiratory state becomes a state where normal voice utterance can be performed, and then restarts. do.
  • the information processing system 1 saves the state of the voice dialogue session and suspends it when the degree of roughness "H b " is equal to or higher than the specified threshold value "H th" and the information from the NLU is OOD. ..
  • the information processing system 1 detects that the degree of roughness "H b " becomes smaller than the specified threshold value "H th ", the information processing system 1 resumes from the state of the saved voice dialogue session. Details of the control flow in which the information processing system 1 suspends / resumes the dialogue session after the OOD utterance during exercise and the dialogue session settles down after a while will be described in FIGS. 23A and 23B.
  • the information processing system 1 For example, the information processing system 1, the silence timeout period of the end of the session the determination of the final story judgment and voice interaction of voice recognition "t r", the “t s", roughness degree of breathing "H b" to extend about increases.
  • the information processing system 1 increases the length of time to be extended as the degree of roughness "H b" increases.
  • the information processing system 1 may determine the time to be extended by using the voice utterance influence degree “Eu” indicating the degree of influence on the utterance.
  • the information processing system 1 by using the roughness degree of breathing "H b", and calculates the voice utterance influence "E u”.
  • the information processing system 1 calculates the voice utterance influence degree "Eu " using the following equation (6). For example, the information processing system 1 determines that it is a respiratory state that affects utterance when the degree of roughness "H b " becomes equal to or higher than the specified threshold value "H th ", and uses the equation (6) to determine the degree of influence of voice utterance "E". u ”is calculated.
  • the value of the degree of roughness "H b " is used as the value of the degree of voice utterance influence " Eu".
  • the calculation of the voice utterance influence degree " Eu " is not limited to the formula (6).
  • the information processing system 1 calculates the voice utterance influence degree " Eu " using the following formula (7). You may.
  • the difference between the degree of roughness “H b ” and the specified threshold value “H th ” is used as the voice utterance influence degree “ Eu”.
  • the equations (6) and (7) are merely examples, and the information processing system 1 may calculate the voice utterance influence degree "Eu" by using various equations.
  • the information processing system 1 determines the length of time to be extended by using the calculated voice utterance influence degree “Eu”. For example, the information processing system 1, by increasing the time to extend as the voice utterance degree of influence "E u" is large, silent time-out period "t r", to extend the "t s". For example, the information processing system 1 may be used as a time length to extend the value of the speech utterance impact "E u", the time to extend the value obtained by multiplying a predetermined coefficient to the speech utterance impact "E u ' It may be used as a length.
  • the first value obtained by multiplying the voice utterance influence degree “ Eu ” by the first coefficient may be used as the time length for extending the silence timeout time “tr”.
  • the second value obtained by multiplying the second coefficient to the speech utterance impact "E u” may be used as a time length to extend the silence timeout time "t s”.
  • the information processing system 1 may use a predetermined function having the voice utterance influence degree "Eu " as an input (variable) and use it as a time length for extending the value output by the function.
  • the output value of the first function with the voice utterance influence degree “ Eu ” as an input (variable) may be used as the time length for extending the silence timeout time “tr”.
  • the output value of the second function that receives the audio speech influence "E u" (variable) may be used as the length of time to extend the silence timeout time "t s".
  • the information processing system 1 may determine the length for extending each timeout time by appropriately using various information.
  • the information processing system 1 will be extended depending on the silence timeout time "t s" breathing state of silence time-out period "t r" and the voice interactive session the end of the speech recognition final story decision.
  • Information processing system 1 the silence timeout period "t r”, to extend “t s”
  • the information processing system 1 voice utterance degree of influence "E u” only time that is proportional to the silence timeout period "t r”, to extend the "t s”.
  • Normal times silence timeout during exercise time "t r" the details of the control flow of "t s", FIG. 22A, will be described with reference to FIG 22B.
  • the voice dialogue control is not limited to the extension of the timeout time.
  • voice dialogue control other than the extension of the timeout time will be described.
  • the information processing system 1 determines that the user's respiratory state affects utterance when the degree of respiratory roughness "H b " becomes equal to or higher than the specified threshold value "H th”, and performs voice dialogue control. ..
  • the information processing system 1 when later breathing state vector "H v" becomes normal range "R N" outer described later, it is determined that the breathing state of the user is in a state that affects the speech, the speech dialogue Control may be performed. Further, the information processing system 1 does not perform voice dialogue control when the user's breathing is normal.
  • the voice dialogue control may be a concatenation of OOD utterances.
  • the information processing system 1 executes the connection of OOD utterances as voice dialogue control.
  • the meaning understanding processing result of the user utterance is OOD (uninterpretable) and the meaning understanding processing result of the previous user utterance is also OOD
  • the previous utterance first utterance
  • One utterance and the user utterance text of the current utterance second utterance
  • the concatenated utterance text may be input to the NLU to obtain an intent or an entry.
  • the information processing system 1 can obtain the Intent "ReadOut” by inputting "read aloud” (speech UT13), which is a concatenation of these two utterances, into the NLU as the concatenated utterance text.
  • the server device 100 executes the above-mentioned concatenation process of concatenating OOD utterances.
  • the server device 100 executes a voice dialogue control for connecting the first utterance and the second utterance according to the meaning understanding processing result of the first utterance.
  • the process of connecting the first utterance and the second utterance is executed.
  • the server device 100 performs the first utterance and the second utterance by executing the voice dialogue control that connects the first utterance in which the meaning understanding processing result is uninterpretable and the second utterance in which the meaning understanding processing result is uninterpretable. Executes the process of concatenating.
  • the server device 100 can generate the interpretable utterance UT13 "read aloud" by connecting the uninterpretable utterance UT11 and the uninterpretable utterance UT12.
  • the information processing system 1 may connect all the first OOD utterances to the current OOD utterances when three or more user utterances become OOD in succession. Then, the information processing system 1 may input into the NLU as a concatenated utterance text of the concatenated utterances to obtain an intent or an entity. For example, the server device 100 connects the first utterance in which the meaning understanding processing result is uninterpretable and the second utterance in which the meaning understanding processing result is uninterpretable.
  • the server device 100 acquires the third utterance information indicating the third utterance by the user after the second utterance, and when the meaning understanding processing result of the third utterance is uninterpretable, the second utterance and the third utterance Executes the process of concatenating with.
  • the server device 100 can generate information on utterances (concatenated utterances) in which the first utterance, the second utterance, and the third utterance are connected in this order.
  • voice dialogue control may be a concatenation of utterances based on co-occurrence relationships.
  • the information processing system 1 executes the connection of utterances based on the co-occurrence relationship as voice dialogue control.
  • the information processing system 1 when the first word or phrase (hereinafter, also referred to as "component") of the user utterance text and the last word (or segment) of the previous user utterance text have a co-occurrence relationship, the information processing system 1 has a co-occurrence relationship.
  • the previous user's utterance text and the current user's utterance text may be concatenated, and the concatenated utterance text (concatenated utterance text) may be input to the NLU to obtain Intent or Entry.
  • the information processing system 1 sets the first word (or segment) of the current utterance text after the last word (or segment) of the previous user utterance text on the large-scale utterance corpus. Or calculate the probability that a clause) will appear. Then, the information processing system 1 determines that there is a co-occurrence relationship when the appearance probability is equal to or higher than a specified value (for example, a value such as 0.1 or 30%). Further, the information processing system 1 determines that there is no co-occurrence relationship when the appearance probability is smaller than the specified value.
  • a specified value for example, a value such as 0.1 or 30%
  • the information processing system 1 has the information processing system 1 next to the last word (or segment) of the previous user's utterance text in the past user's utterance text (history). Calculate the probability that the first word (or phrase) of the current spoken text will appear. Then, the information processing system 1 determines that there is a co-occurrence relationship when the appearance probability is equal to or higher than the specified value. Further, the information processing system 1 determines that there is no co-occurrence relationship when the appearance probability is smaller than the specified value.
  • the information processing system 1 can obtain the INT "ReadOut” by inputting "read aloud” (speech UT13), which is a concatenation of these two utterances UT11 and UT12, into the NLU as a concatenated utterance text.
  • the server device 100 executes the utterance concatenation process based on the co-occurrence relationship described above.
  • the first component (word or phrase) uttered last in the first utterance and the second component (word or phrase) uttered first in the second utterance relate to co-occurrence.
  • the process of connecting the first utterance and the second utterance is executed by executing the voice dialogue control that connects the first utterance and the second utterance.
  • the server device 100 causes the first utterance and the second utterance by executing the voice dialogue control that connects the first utterance and the second utterance.
  • the process of connecting with the second utterance is executed.
  • the server device 100 can generate the utterance UT13 "read aloud" by connecting the utterance UT11 and the utterance UT12 as described above.
  • the information processing system 1 when three or more user utterances are in a co-occurrence relationship in a row, even if all the utterances determined to be in the first co-occurrence relationship to the current utterance are connected. good.
  • the information processing system 1 is determined to have the first co-occurrence relationship when the appearance probabilities of the last word of the previous utterance and the first word of the next utterance are equal to or higher than the specified value. You may connect everything from the utterance to the current utterance. Then, the information processing system 1 may input into the NLU as a concatenated utterance text of the concatenated utterances to obtain an intent or an entity.
  • the server device 100 connects the first utterance and the second utterance that satisfy the co-occurrence condition. Then, the server device 100 acquires the third utterance information indicating the third utterance by the user after the second utterance, and the last uttered component of the second utterance and the first utterance of the third utterance. When the resulting components satisfy the conditions for co-occurrence, the process of connecting the second utterance and the third utterance is executed. As a result, the server device 100 can generate information on utterances (concatenated utterances) in which the first utterance, the second utterance, and the third utterance are connected in this order.
  • each of the above-mentioned processes is an example of voice dialogue control, and the information processing system 1 may execute any control as voice dialogue control as long as it is a control that enables appropriate connection.
  • the information processing system 1 shown in FIG. 2 will be described.
  • the information processing system 1 includes a terminal device 10, a server device 100, and a plurality of devices 50-1, 50-2, and 50-3.
  • devices 50-1 to 50-3 and the like when devices 50-1 to 50-3 and the like are not distinguished, they may be referred to as device 50.
  • the information processing system 1 has a number of devices 50 that is larger than three (for example, 20 or 100 or more). May be included.
  • the terminal device 10, the server device 100, and the device 50 are connected to each other via a predetermined communication network (network N) so as to be communicable by wire or wirelessly.
  • FIG. 2 is a diagram showing a configuration example of the information processing system according to the first embodiment.
  • the information processing system 1 shown in FIG. 2 may include a plurality of terminal devices 10 and a plurality of server devices 100.
  • the server device 100 is a process of connecting the first utterance by the user and the second utterance by the user after the first utterance by executing the voice dialogue control according to the user's breathing state based on the breathing information about the user's breathing. Is a computer that runs.
  • the server device 100 is an information processing device that extends the timeout time as voice dialogue control according to the user's respiratory state based on the user's respiratory information.
  • the server device 100 executes a connection process for connecting the first utterance by the user and the second utterance by the user after the first utterance. Further, the server device 100 is a computer that transmits various information to the terminal device 10.
  • the server device 100 is a server device used to provide services related to various functions.
  • the server device 100 may have software modules such as voice signal processing, voice recognition, utterance semantic analysis, and dialogue control.
  • the server device 100 may have a voice recognition function.
  • the server device 100 may have functions of natural language understanding (NLU) and automatic speech recognition (ASR: Automatic Speech Recognition).
  • NLU natural language understanding
  • ASR Automatic Speech Recognition
  • the server device 100 may estimate information about a user's intent (intention) or entity (target) from input information uttered by the user.
  • the server device 100 functions as a voice recognition server having functions of natural language understanding and automatic voice recognition.
  • the terminal device 10 is a terminal device that detects breathing information indicating the user's breathing by a sensor. For example, the terminal device 10 detects respiration information indicating the user's respiration by the respiration sensor 171.
  • the terminal device 10 is an information processing device that transmits the user's breathing information to a server device such as the server device 100.
  • the terminal device 10 may have a voice recognition function such as natural language understanding and automatic voice recognition. For example, the terminal device 10 may estimate information about a user's intent (intention) or entity (target) from input information uttered by the user.
  • the terminal device 10 is a device device used by the user.
  • the terminal device 10 accepts input by the user.
  • the terminal device 10 accepts voice input by the user's utterance and input by the user's operation.
  • the terminal device 10 displays information according to the input of the user.
  • the terminal device 10 may be any device as long as the processing in the embodiment can be realized.
  • the terminal device 10 may be any device as long as it has a function of detecting the user's breathing information and transmitting it to the server device 100.
  • the terminal device 10 is a device such as a smartphone, a smart speaker, a television, a tablet terminal, a notebook PC (Personal Computer), a desktop PC, a mobile phone, or a PDA (Personal Digital Assistant). You may.
  • the terminal device 10 may be a wearable terminal (Wearable Device) or the like that the user can wear.
  • the terminal device 10 may be a wristwatch-type terminal, a glasses-type terminal, or the like.
  • the device 50 is various devices used by the user.
  • the device 50 is various devices such as IoT (Internet of Things) devices.
  • the device 50 is an IoT device such as a home electric appliance.
  • the device 50 is any device as long as it has a communication function, communicates with the server device 100 and the terminal device 10, and can process according to an operation request from the server device 100 and the terminal device 10. May be good.
  • the device 50 may be a so-called home electric appliance such as a lighting fixture (lighting device), a music player, a television, a radio, an air conditioner (air conditioner), a washing machine, a refrigerator, or is installed in a house such as a ventilation fan or floor heating. It may be a product that has been made.
  • the device 50 may be, for example, an information processing device such as a smartphone, a tablet terminal, a notebook PC, a desktop PC, a mobile phone, or a PDA. Further, for example, the device 50 may be any device as long as the processing in the embodiment can be realized.
  • the device 50 may include the terminal device 10. That is, the device to be operated using the user's breathing may be the terminal device 10.
  • FIG. 3 is a diagram showing a configuration example of the server device according to the first embodiment of the present disclosure.
  • the server device 100 includes a communication unit 110, a storage unit 120, and a control unit 130.
  • the server device 100 has an input unit (for example, a keyboard, a mouse, etc.) that receives various operations from the administrator of the server device 100, and a display unit (for example, a liquid crystal display, etc.) for displaying various information. You may.
  • the communication unit 110 is realized by, for example, a NIC (Network Interface Card) or the like. Then, the communication unit 110 is connected to the network N (see FIG. 2) by wire or wirelessly, and transmits / receives information to / from another information processing device such as the terminal device 10. Further, the communication unit 110 may send and receive information to and from a user terminal (not shown) used by the user.
  • a NIC Network Interface Card
  • the storage unit 120 is realized by, for example, a semiconductor memory element such as a RAM (Random Access Memory) or a flash memory (Flash Memory), or a storage device such as a hard disk or an optical disk. As shown in FIG. 3, the storage unit 120 according to the first embodiment includes a respiratory information storage unit 121, a user information storage unit 122, a threshold information storage unit 123, and a functional information storage unit 124.
  • the storage unit 120 stores various information other than the above.
  • the storage unit 120 stores information of a voice recognition application (program) that realizes a voice recognition function.
  • the server device 100 can execute voice recognition by activating a voice recognition application (also simply referred to as "voice recognition").
  • the storage unit 120 stores various information used for voice recognition.
  • the storage unit 120 stores the information of the dictionary (speech recognition dictionary) used for the voice recognition dictionary.
  • the storage unit 120 stores information from a plurality of voice recognition dictionaries.
  • the storage unit 120 stores information such as a voice recognition dictionary for long sentences (dictionary for long sentences), a voice recognition dictionary for Chinese sentences (dictionary for Chinese sentences), and a voice recognition dictionary for short sentences (dictionary for words / phrases).
  • the respiratory information storage unit 121 stores various information related to the user's respiration.
  • the respiration information storage unit 121 stores various information such as respiration information of each user in association with the identification information (user ID) of each user.
  • the respiration information storage unit 121 stores respiration information indicating the user's respiration.
  • the respiration information storage unit 121 stores respiration information including the displacement amount of the user's respiration.
  • the respiratory information storage unit 121 stores respiratory information including the user's respiratory cycle.
  • the respiratory information storage unit 121 stores respiratory information including the speed of the user's breathing.
  • the respiratory information storage unit 121 stores respiratory information including the amount of inspiration of the user.
  • the respiratory information storage unit 121 is not limited to the above, and may store various information depending on the purpose.
  • the respiratory information storage unit 121 may store various types of information necessary for generating the graphs GR1 to GR6.
  • the respiratory information storage unit 121 may store various types of information shown in the graphs GR1 to GR6.
  • the user information storage unit 122 stores various information about the user.
  • the user information storage unit 122 stores various information such as attribute information of each user.
  • the user information storage unit 122 stores information about the user such as the user ID, age, gender, and place of residence.
  • the user information storage unit 122 stores information about the user U1 such as the age, gender, and place of residence of the user U1 in association with the user ID "U1" that identifies the user U1.
  • the user information storage unit 122 stores information for identifying a device (television, smartphone, etc.) used by each user in association with the user.
  • the user information storage unit 122 stores information (terminal ID, etc.) that identifies the terminal device 10 used by each user in association with the user.
  • the user information storage unit 122 is not limited to the above, and may store various information depending on the purpose.
  • the user information storage unit 122 may store other demographic attribute information and psychographic attribute information regardless of age and gender.
  • the user information storage unit 122 may store information such as a name, a home, a place of work, an interest, a family structure, an income, and a lifestyle.
  • the threshold information storage unit 123 stores various information related to the threshold value.
  • the threshold information storage unit 123 stores various information related to the threshold value used for determining whether to execute the voice dialogue control.
  • FIG. 4 is a diagram showing an example of the threshold information storage unit according to the first embodiment.
  • the threshold information storage unit 123 shown in FIG. 4 includes items such as "threshold ID”, “use”, “threshold name”, and "value”.
  • Theshold ID indicates identification information for identifying the threshold value.
  • Use indicates the use of the threshold.
  • the “threshold name” indicates the name (character string) of the threshold (variable) used as the threshold identified by the corresponding threshold ID.
  • the “value” indicates a specific value of the threshold value identified by the corresponding threshold ID.
  • the use of the threshold value (threshold value TH1) identified by the threshold value ID “TH1” is the threshold value used for determining the roughness of breathing.
  • the threshold value TH1 indicates that the threshold value is used for comparison with an index value indicating the roughness of breathing.
  • the threshold TH1 indicates that it is used as the threshold name “H th”.
  • the value of the threshold TH1 indicates that it is "VL1".
  • the value is indicated by an abstract code such as "VL1", but the value is assumed to be a specific numerical value such as "0.5” or "1.8".
  • the threshold information storage unit 123 is not limited to the above, and may store various information depending on the purpose.
  • the functional information storage unit 124 stores various information related to the function.
  • the function information storage unit 124 stores information about each function executed in response to user input.
  • the function information storage unit 124 stores information regarding inputs required for executing the function.
  • the function information storage unit 124 stores input items necessary for executing each function.
  • the functional information storage unit 124 may store various information related to the device.
  • the function information storage unit 124 stores various information related to the device corresponding to each function.
  • the functional information storage unit 124 can communicate with the server device 100 and stores various information of devices that can be operated.
  • the function information storage unit 124 may store a device ID indicating identification information for identifying a device and device type information indicating the type of the corresponding device.
  • the function information storage unit 124 stores the functions and parameters of each device in association with each device.
  • the functional information storage unit 124 stores information indicating the state of the device in association with each device.
  • the functional information storage unit 124 stores various information such as parameter values at that time of each device in association with each device.
  • the functional information storage unit 124 stores various information such as parameter values at the present time (when the information is last acquired) of each device in association with each device.
  • the function information storage unit 124 stores the current on / off state, volume, brightness, channel, etc. in association with the device ID.
  • the function information storage unit 124 stores the current on / off state, brightness, color, etc. in association with the device ID.
  • the functional information storage unit 124 is not limited to the above, and may store various information depending on the purpose.
  • control unit 130 for example, a program (for example, an information processing program according to the present disclosure) stored inside the server device 100 by a CPU (Central Processing Unit), an MPU (Micro Processing Unit), or the like is stored in a RAM (Random Access Memory). ) Etc. are executed as a work area. Further, the control unit 130 is realized by, for example, an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array).
  • ASIC Application Specific Integrated Circuit
  • FPGA Field Programmable Gate Array
  • the control unit 130 includes an acquisition unit 131, a calculation unit 132, a determination unit 133, an execution unit 134, and a transmission unit 135, and functions and operations of information processing described below. To realize or execute.
  • the internal configuration of the control unit 130 is not limited to the configuration shown in FIG. 3, and may be another configuration as long as it is a configuration for performing information processing described later.
  • the connection relationship of each processing unit included in the control unit 130 is not limited to the connection relationship shown in FIG. 3, and may be another connection relationship.
  • the acquisition unit 131 acquires various information.
  • the acquisition unit 131 acquires various information from an external information processing device.
  • the acquisition unit 131 acquires various information from the terminal device 10.
  • the acquisition unit 131 acquires various information from the terminal device 10 from the information detected by the sensor unit 17 of the terminal device 10.
  • the acquisition unit 131 acquires various information from the terminal device 10 from the information detected by the breathing sensor 171 of the sensor unit 17.
  • the acquisition unit 131 acquires various information from the storage unit 120.
  • the acquisition unit 131 acquires various information from the respiratory information storage unit 121, the user information storage unit 122, the threshold information storage unit 123, and the functional information storage unit 124.
  • the acquisition unit 131 acquires various information calculated by the calculation unit 132.
  • the acquisition unit 131 acquires various information determined by the determination unit 133.
  • the acquisition unit 131 acquires the first utterance information indicating the first utterance by the user, the second utterance information indicating the second utterance by the user after the first utterance, and the breathing information regarding the user's breathing.
  • the acquisition unit 131 acquires the third utterance information indicating the third utterance by the user after the second utterance.
  • the acquisition unit 131 acquires respiration information including the displacement amount of the user's respiration.
  • the acquisition unit 131 acquires respiratory information including the user's respiratory cycle.
  • the acquisition unit 131 acquires respiration information including the respiration rate of the user.
  • the acquisition unit 131 acquires respiration information indicating the respiration of the user U1 from the terminal device 10 used by the user U1.
  • the calculation unit 132 calculates various types of information. For example, the calculation unit 132 calculates various types of information based on information from an external information processing device and information stored in the storage unit 120. The calculation unit 132 calculates various types of information based on information from other information processing devices such as the terminal device 10. The calculation unit 132 calculates various types of information based on the information stored in the respiratory information storage unit 121, the user information storage unit 122, the threshold information storage unit 123, and the functional information storage unit 124.
  • the calculation unit 132 calculates various information based on the various information acquired by the acquisition unit 131.
  • the calculation unit 132 calculates various information based on various information determined by the determination unit 133.
  • the calculation unit 132 calculates an index value indicating the user's respiratory state using the respiratory information.
  • the calculation unit 132 calculates the roughness degree “H b ” which is an index value by using the equation (1), the equation (4), or the like.
  • the calculation unit 132 calculates the displacement amount “V b ” using the equation (2).
  • the calculation unit 132 calculates the average observed value “ Sm ” using the equation (3).
  • the calculation unit 132 calculates the period “ ⁇ b ” by the reciprocal of the number of intersections and the number of peaks of the observed value “S i ” with the average observed value “S m”.
  • the calculation unit 132 calculates the difference value “ ⁇ S i ” using the equation (5).
  • the decision unit 133 decides various information.
  • the determination unit 133 determines various information.
  • the determination unit 133 makes various judgments.
  • the determination unit 133 predicts various types of information.
  • the determination unit 133 classifies various types of information.
  • the determination unit 133 extracts various information.
  • the determination unit 133 identifies various types of information.
  • the determination unit 133 selects various types of information.
  • the determination unit 133 determines various information based on the information from the external information processing device and the information stored in the storage unit 120.
  • the determination unit 133 determines various types of information based on information from other information processing devices such as the terminal device 10.
  • the determination unit 133 determines various information based on the information stored in the respiratory information storage unit 121, the user information storage unit 122, the threshold information storage unit 123, and the functional information storage unit 124.
  • the determination unit 133 determines various information based on the various information acquired by the acquisition unit 131.
  • the determination unit 133 determines various information based on the various information calculated by the calculation unit 132.
  • the determination unit 133 determines various information based on the processing executed by the execution unit 134.
  • the determination unit 133 determines whether or not to execute the voice dialogue control by comparing the information calculated by the calculation unit 132 with the threshold value.
  • the determination unit 133 uses the threshold value to determine whether or not to execute the voice dialogue control.
  • the determination unit 133 determines whether or not to execute the voice dialogue control by comparing the roughness degree “H b” with the threshold value.
  • the determination unit 133 determines that the voice dialogue control is executed when the degree of roughness “H b ” is equal to or greater than the specified threshold value “H th”.
  • the determination unit 133 compares the degree of roughness “H b ” with the specified threshold value “H th”.
  • the determination unit 133 determines that the user's respiratory state is normal.
  • the degree of roughness "H b " is equal to or higher than the specified threshold value "H th ", the determination unit 133 determines that the user's respiratory state is abnormal.
  • Execution unit 134 executes various processes.
  • the execution unit 134 determines the execution of various processes.
  • the execution unit 134 executes various processes based on information from an external information processing device.
  • the execution unit 134 executes various processes based on the information stored in the storage unit 120.
  • the execution unit 134 executes various processes based on the information stored in the respiratory information storage unit 121, the user information storage unit 122, the threshold information storage unit 123, and the functional information storage unit 124.
  • the execution unit 134 executes various processes based on various information acquired by the acquisition unit 131.
  • the execution unit 134 executes various processes based on various information calculated by the calculation unit 132.
  • the execution unit 134 executes various processes based on various information determined by the determination unit 133.
  • Execution unit 134 generates various information.
  • the execution unit 134 generates various information based on the information from the external information processing device and the information stored in the storage unit 120.
  • the execution unit 134 generates various information based on information from other information processing devices such as the terminal device 10.
  • the execution unit 134 generates various information based on the information stored in the respiratory information storage unit 121, the user information storage unit 122, the threshold information storage unit 123, and the functional information storage unit 124.
  • the execution unit 134 executes processing according to the calculation result by the calculation unit 132.
  • the execution unit 134 executes the process according to the determination by the determination unit 133.
  • the execution unit 134 executes the voice dialogue control when the determination unit 133 determines to execute the voice dialogue control.
  • the execution unit 134 executes a process of connecting the first utterance and the second utterance by executing the voice dialogue control according to the user's breathing state based on the breathing information acquired by the acquisition unit 131.
  • the execution unit 134 executes a process of connecting the first utterance and the second utterance by executing the voice dialogue control.
  • the execution unit 134 executes a process of connecting the first utterance and the second utterance by executing the voice dialogue control.
  • the execution unit 134 executes a process of extending the timeout time as voice dialogue control.
  • the execution unit 134 executes a process of connecting the first utterance and the second utterance by executing the voice dialogue control for extending the timeout time for the voice dialogue.
  • the execution unit 134 executes a process of connecting the first utterance and the second utterance by executing the voice dialogue control for extending the timeout time used for the voice recognition end call determination.
  • the execution unit 134 executes the voice dialogue control that extends the timeout time to the extended timeout time, so that the second utterance information and the first utterance indicating the second utterance by the user before the extended timeout time elapses from the first utterance. Execute the process of concatenating.
  • the execution unit 134 executes a process of connecting the utterances for which OOD is determined as voice dialogue control.
  • the execution unit 134 executes a voice dialogue control for connecting the first utterance and the second utterance according to the meaning understanding processing result of the first utterance.
  • the process of connecting the first utterance and the second utterance is executed.
  • the execution unit 134 performs the first utterance and the second utterance by executing the voice dialogue control that connects the first utterance in which the meaning understanding processing result is uninterpretable and the second utterance in which the meaning understanding processing result is uninterpretable. Executes the process of concatenating.
  • the execution unit 134 executes a process of connecting the second utterance and the third utterance.
  • Execution unit 134 executes a process of connecting utterances in which components (words or segments) in the utterance have a predetermined co-occurrence relationship as voice dialogue control.
  • the execution unit 134 makes the first utterance and the first utterance.
  • the execution unit 134 sets the first utterance and the second utterance by executing the voice dialogue control that connects the first utterance and the second utterance.
  • the process of connecting with the second utterance is executed.
  • the execution unit 134 executes voice dialogue control for connecting the first utterance and the second utterance when the probability that the second component appears next to the first component in the user's utterance history is greater than or equal to the specified value.
  • the process of connecting the first utterance and the second utterance is executed.
  • the execution unit 134 sets the second utterance and the third utterance. Execute the process of concatenating.
  • the execution unit 134 does not execute voice dialogue control when the user's breathing state is in the normal state.
  • the execution unit 134 executes the normal voice dialogue control (normal voice dialogue control).
  • the execution unit 134 executes voice dialogue control when the degree of roughness "H b" satisfies the condition.
  • the execution unit 134 executes voice dialogue control when the comparison result between the roughness degree “H b ” and the specified threshold value “H th” satisfies the condition.
  • the execution unit 134 executes voice dialogue control when the degree of roughness “H b ” becomes equal to or higher than the specified threshold value “H th”.
  • the execution unit 134 connects the utterance UT11 and the utterance UT12.
  • the server device 100 connects the utterance UT11 "read” and the utterance UT12 "raise” to generate the utterance UT13 "read aloud”.
  • the transmission unit 135 transmits various information.
  • the transmission unit 135 transmits various information to an external information processing device.
  • the transmission unit 135 provides various information to an external information processing device.
  • the transmission unit 135 transmits various information to another information processing device such as the terminal device 10.
  • the transmission unit 135 provides the information stored in the storage unit 120.
  • the transmission unit 135 transmits the information stored in the storage unit 120.
  • the transmission unit 135 provides various types of information based on information from other information processing devices such as the terminal device 10.
  • the transmission unit 135 provides various types of information based on the information stored in the storage unit 120.
  • the transmission unit 135 provides various information based on the information stored in the respiratory information storage unit 121, the user information storage unit 122, the threshold information storage unit 123, and the functional information storage unit 124.
  • the transmission unit 135 transmits information indicating a function to be executed by the terminal device 10 to the terminal device 10.
  • the transmission unit 135 transmits information indicating the function determined to be executed by the execution unit 134 to the terminal device 10.
  • the transmission unit 135 transmits various types of information to the terminal device 10 in response to an instruction from the execution unit 134.
  • the transmission unit 135 transmits information instructing the terminal device 10 to start the voice recognition application.
  • the transmission unit 154 transmits information to be output to the user's terminal device 10 to the terminal device 10.
  • the transmission unit 154 transmits information to be output to the terminal device 10 of the user U1 to the terminal device 10.
  • the transmission unit 154 transmits the information of the message to be output to the terminal device 10 of the user U1 by voice to the terminal device 10.
  • the transmission unit 154 transmits the information of the message from Mr. XX to the user U1 to the terminal device 10 of the user U1.
  • FIG. 5 is a diagram showing a configuration example of a terminal device according to the first embodiment of the present disclosure.
  • the terminal device 10 includes a communication unit 11, an input unit 12, an output unit 13, a storage unit 14, a control unit 15, a display unit 16, and a sensor unit 17.
  • the communication unit 11 is realized by, for example, a NIC or a communication circuit.
  • the communication unit 11 is connected to the network N (Internet or the like) by wire or wirelessly, and transmits / receives information to / from other devices such as the server device 100 via the network N.
  • the input unit 12 accepts various inputs.
  • the input unit 12 receives the detection by the sensor unit 17 as an input.
  • the input unit 12 receives input of respiration information indicating the user's respiration.
  • the input unit 12 receives the input of the respiratory information detected by the sensor unit 17.
  • the input unit 12 receives the input of the respiration information detected by the respiration sensor 171.
  • the input unit 12 receives input of respiratory information based on the point cloud data detected by the respiratory sensor 171.
  • the input unit 12 accepts the input of the user's utterance information.
  • the input unit 12 receives the input of the respiratory information of the user who inputs by the body movement.
  • the input unit 12 accepts the user's gesture and line of sight as input.
  • the input unit 12 receives sound as input by a sensor unit 17 having a function of detecting voice.
  • the input unit 12 receives the voice information detected by the microphone (sound sensor) that detects the voice as the input information.
  • the input unit 12 receives the voice spoken by the user as input information.
  • the input unit 12 receives the utterance UT1 of the user U1.
  • the input unit 12 receives the utterance UT11 of the user U1.
  • the input unit 12 receives the utterance UT12 of the user U1.
  • the input unit 12 may accept an operation (user operation) on the terminal device 10 used by the user as an operation input by the user.
  • the input unit 12 may receive information regarding the operation of the user using the remote controller (remote controller) via the communication unit 11.
  • the input unit 12 may have a button provided on the terminal device 10 or a keyboard or mouse connected to the terminal device 10.
  • the input unit 12 may have a touch panel capable of realizing functions equivalent to those of a remote controller, a keyboard, and a mouse.
  • various information is input to the input unit 12 via the display unit 16.
  • the input unit 12 receives various operations from the user via the display screen by the function of the touch panel realized by various sensors. That is, the input unit 12 receives various operations from the user via the display unit 16 of the terminal device 10.
  • the input unit 12 receives an operation such as a user's designated operation via the display unit 16 of the terminal device 10.
  • the input unit 12 functions as a reception unit that receives a user's operation by the function of the touch panel.
  • the input unit 12 and the reception unit 153 may be integrated.
  • the capacitance method is mainly adopted in the tablet terminal, but other detection methods such as the resistance film method, the surface acoustic wave method, the infrared method, and the electromagnetic induction method are used. Any method may be adopted as long as the user's operation can be detected and the touch panel function can be realized.
  • the input unit 12 accepts the utterance of the user U1 as an input.
  • the input unit 12 receives the utterance of the user U1 detected by the sensor unit 17 as an input.
  • the input unit 12 receives the utterance of the user U1 detected by the sound sensor of the sensor unit 17 as an input.
  • the output unit 13 outputs various information.
  • the output unit 13 has a function of outputting audio.
  • the output unit 13 has a speaker that outputs sound.
  • the output unit 13 outputs various information by voice according to the control by the execution unit 152.
  • the output unit 13 outputs information by voice to the user.
  • the output unit 13 outputs the information displayed on the display unit 16 by voice.
  • the storage unit 14 is realized by, for example, a semiconductor memory element such as a RAM or a flash memory, or a storage device such as a hard disk or an optical disk.
  • the storage unit 14 stores information of a voice recognition application (program) that realizes the voice recognition function.
  • the terminal device 10 can execute voice recognition by activating a voice recognition application.
  • the storage unit 14 stores various information used for displaying the information.
  • the storage unit 14 stores various information used for voice recognition.
  • the storage unit 14 stores the information of the dictionary (speech recognition dictionary) used for the voice recognition dictionary.
  • the control unit 15 is realized by, for example, a CPU, an MPU, or the like executing a program stored inside the terminal device 10 (for example, an information processing program according to the present disclosure) using a RAM or the like as a work area. Further, the control unit 15 may be realized by an integrated circuit such as an ASIC or FPGA.
  • control unit 15 includes a reception unit 151, an execution unit 152, a reception unit 153, and a transmission unit 154, and realizes or executes the functions and operations of information processing described below. ..
  • the internal configuration of the control unit 15 is not limited to the configuration shown in FIG. 5, and may be another configuration as long as it is a configuration for performing information processing described later.
  • the receiving unit 151 receives various information.
  • the receiving unit 151 receives various information from an external information processing device.
  • the receiving unit 151 receives various information from other information processing devices such as the server device 100.
  • the receiving unit 151 receives information instructing the activation of voice recognition from the server device 100.
  • the receiving unit 151 receives information instructing the start of the voice recognition application from the server device 100.
  • the receiving unit 151 receives execution instructions of various functions from the server device 100. For example, the receiving unit 151 receives information specifying a function from the server device 100 as a function execution instruction. The receiving unit 151 receives the content. The receiving unit 151 receives the content to be displayed from the server device 100. The receiving unit 151 receives the information output by the output unit 13 from the server device 100. The receiving unit 151 receives the information displayed by the display unit 16 from the server device 100.
  • Execution unit 152 executes various processes.
  • the execution unit 152 determines the execution of various processes.
  • the execution unit 152 executes various processes based on information from an external information processing device.
  • the execution unit 152 executes various processes based on the information from the server device 100.
  • the execution unit 152 executes various processes in response to an instruction from the server device 100.
  • the execution unit 152 executes various processes based on the information stored in the storage unit 14.
  • the execution unit 152 activates voice recognition.
  • the execution unit 152 controls various outputs.
  • the execution unit 152 controls the audio output by the output unit 13.
  • the execution unit 152 controls various displays.
  • the execution unit 152 controls the display of the display unit 16.
  • the execution unit 152 controls the display of the display unit 16 in response to the reception by the reception unit 151.
  • the execution unit 152 controls the display of the display unit 16 based on the information received by the reception unit 151.
  • the execution unit 152 controls the display of the display unit 16 based on the information received by the reception unit 153.
  • the execution unit 152 controls the display of the display unit 16 in response to the reception by the reception unit 153.
  • Reception department 153 receives various information.
  • the reception unit 153 receives input by the user via the input unit 12.
  • the reception unit 153 accepts the utterance by the user as an input.
  • the reception unit 153 accepts operations by the user.
  • the reception unit 153 accepts the user's operation on the information displayed by the display unit 16.
  • the reception unit 153 accepts character input by the user.
  • the transmission unit 154 transmits various information to an external information processing device.
  • the transmission unit 154 transmits various information to another information processing device such as the terminal device 10.
  • the transmission unit 154 transmits the information stored in the storage unit 14.
  • the transmission unit 154 transmits various types of information based on information from other information processing devices such as the server device 100.
  • the transmission unit 154 transmits various types of information based on the information stored in the storage unit 14.
  • the transmission unit 154 transmits the sensor information detected by the sensor unit 17 to the server device 100.
  • the transmission unit 154 transmits the respiration information of the user U1 detected by the respiration sensor 171 of the sensor unit 17 to the server device 100.
  • the transmission unit 154 transmits the input information input by the user to the server device 100.
  • the transmission unit 154 transmits the input information voice-input by the user to the server device 100.
  • the transmission unit 154 transmits the input information input by the user's operation to the server device 100.
  • the transmission unit 154 transmits the first utterance information indicating the first utterance by the user to the server device 100.
  • the transmission unit 154 transmits the second utterance information indicating the second utterance by the user after the first utterance to the server device 100.
  • the transmission unit 154 transmits the respiration information regarding the user's respiration to the server device 100.
  • the transmission unit 154 transmits the third utterance information indicating the third utterance by the user after the second utterance to the server device 100.
  • the transmission unit 154 transmits the respiration information including the displacement amount of the respiration of the user to the server device 100.
  • the transmission unit 154 transmits the respiration information including the respiration cycle of the user to the server device 100.
  • the transmission unit 154 transmits respiration information including the respiration rate of the user to the server device 100.
  • the display unit 16 is provided on the terminal device 10 and displays various information.
  • the display unit 16 is realized by, for example, a liquid crystal display, an organic EL (Electro-Luminescence) display, or the like.
  • the display unit 16 may be realized by any means as long as the information provided by the server device 100 can be displayed.
  • the display unit 16 displays various information according to the control by the execution unit 152.
  • the display unit 16 displays various information based on the information from the server device 100.
  • the display unit 16 displays the information received from the server device 100.
  • the display unit 16 displays the content.
  • the display unit 16 displays the content received by the reception unit 151.
  • the sensor unit 17 detects predetermined information.
  • the sensor unit 17 detects the user's respiratory information.
  • the sensor unit 17 has a respiration sensor 171 as a means for detecting respiration information indicating the user's respiration.
  • the sensor unit 17 detects respiration information by the respiration sensor 171.
  • the sensor unit 17 detects respiration information by the respiration sensor 171.
  • the sensor unit 17 detects respiration information by a respiration sensor 171 using a millimeter-wave radar. Further, the sensor unit 17 is not limited to the millimeter wave radar, and may have a respiration sensor 171 having any configuration as long as it can detect the respiration information of the user.
  • the respiration sensor 171 may be an image sensor.
  • the respiration sensor 171 may be a wearable sensor. As the respiration sensor 171, either a contact type sensor or a non-contact type sensor may be used.
  • the sensor unit 17 is not limited to the above, and may have various sensors.
  • the sensor unit 17 may have a sensor (position sensor) that detects position information such as a GPS (Global Positioning System) sensor.
  • the sensor unit 17 is not limited to the above, and may have various sensors.
  • the terminal device 10 may have a light source (light source unit) such as an LED (Light Emitting Diode) for notifying the user by light. For example, the light source unit blinks according to the control by the execution unit 152.
  • FIG. 6 is a flowchart showing a processing procedure of the information processing apparatus according to the first embodiment of the present disclosure. Specifically, FIG. 6 is a flowchart showing a procedure of information processing by the server device 100.
  • the server device 100 acquires the first utterance information indicating the first utterance by the user (step S101).
  • the server device 100 acquires the second utterance information indicating the second utterance by the user after the first utterance (step S102).
  • the server device 100 acquires respiration information regarding the user's respiration (step S103). Then, the server device 100 executes a process of connecting the first utterance and the second utterance by executing the voice dialogue control according to the user's breathing state based on the breathing information (step S104).
  • FIG. 7 is a sequence diagram showing a processing procedure of the information processing system according to the first embodiment of the present disclosure.
  • the terminal device 10 detects the respiration information indicating the user's utterance and the user's respiration (step S201). For example, the terminal device 10 acquires the first utterance information indicating the first utterance by the user detected by the microphone (sound sensor). For example, the terminal device 10 acquires the second utterance information indicating the second utterance by the user after the first utterance detected by the microphone (sound sensor). For example, the terminal device 10 acquires the user's respiration information detected by the respiration sensor 171. Then, the terminal device 10 transmits the respiration information indicating the user's respiration to the server device 100 (step S202). The terminal device 10 may individually transmit each information to the server device 100. The terminal device 10 may transmit each information to the server device 100 at the timing when each information is acquired.
  • the server device 100 executes a process of concatenating utterances using the information acquired from the terminal device 10 (step S203).
  • the server device 100 executes a process of connecting the first utterance and the second utterance by executing the voice dialogue control according to the user's breathing state based on the breathing information.
  • the server device 100 executes processing such as voice recognition using the post-connection utterance information in which the first utterance and the second utterance are connected (step S204). Then, the server device 100 instructs the terminal device 10 to execute a function based on the result of voice recognition or the like (step S205). The server device 100 instructs the terminal device 10 to execute the function by transmitting information indicating the function to the terminal device 10. Then, the terminal device 10 executes a function in response to an instruction from the server device 100 (step S206).
  • FIGS. 8A and 8B are flowcharts showing the processing of the information processing system according to the first embodiment of the present disclosure. Specifically, FIGS. 8A and 8B are flowcharts relating to a voice dialogue session. 8A and 8B show a voice dialogue control flowchart according to the degree of respiratory roughness "H b".
  • FIGS. 8A and 8B show a voice dialogue control flowchart according to the degree of respiratory roughness "H b".
  • the information processing system 1 determines whether or not the degree of respiratory roughness “H b ” is equal to or greater than the specified threshold value “H th” (step S301).
  • the information processing system 1, if the roughness degree of breathing "H b" is designated threshold “H th" or more (step S301: Yes), and calculates the voice utterance influence "E u 'from roughness degree” H b " (Step S302).
  • the information processing system 1 extends the silent timeout time “ tr ” (voice recognition timeout time “ tr ”) of the voice recognition end-of-speech determination in proportion to the voice utterance influence degree “ Eu ” (step S303). ..
  • the information processing system 1 is extended silence timeout of the speech dialogue session end "t s" time is proportional to (Session Timeout "t s") in the voice utterance impact "E u" (step S304). Then, the information processing system 1 performs the process of step S305.
  • the case where the information processing system 1 extends the timeout time as the voice dialogue control is shown as an example.
  • step S301 when the degree of breathing roughness "H b " is not equal to or higher than the specified threshold value "H th " (step S301: No), the information processing system 1 executes the process of step S305 without performing the processes of steps S302 to S304. do. For example, when the degree of roughness "H b " of breathing is less than the specified threshold value "H th ", the information processing system 1 executes the process of step S305 without performing the processes of steps S302 to S304.
  • step S305: No The information processing system 1, if the user was not spoken in the session timeout time "t s" of time (step S305: No), the process ends.
  • the information processing system 1 when a user in the session timeout time "t s" of time was uttered (step S305: Yes), whether the intention understanding of the results of the user utterance (Intent) can be interpreted Determine (step S306). For example, the information processing system 1 determines whether or not the result (Intent) of understanding the intention of the user's utterance is OOD.
  • step S306 When the result of understanding the intention of the user's utterance (Intent) is interpretable (step S306: Yes), the information information system 1 determines whether or not the dialogue scenario of the voice dialogue session is completed (step S307). For example, the information processing system 1 performs the process of step S307 when the result (Intent) of understanding the intention of the user's utterance is other than OOD.
  • the information processing system 1 ends the process when the dialogue scenario of the voice dialogue session is completed (step S307: Yes).
  • step S307 No
  • the information processing system 1 returns to step S301 and repeats the process.
  • step S306 when the result (Intent) of understanding the intention of the user's utterance is not interpretable (step S306: No), as shown in FIG. 8B, the degree of breathing roughness "H b " is the defined threshold value "H b". It is determined whether or not it is “H th” or more (step S308).
  • the information processing system 1 performs the process of step S308 when the result (Intent) of understanding the intention of the user's utterance is OOD.
  • the information processing system 1 saves the state of the voice dialogue session when the degree of breathing roughness “H b ” is equal to or higher than the specified threshold value “H th ” (step S308: Yes) (step S309). Then, the information processing system 1 interrupts the voice dialogue session (step S310).
  • the information processing system 1 determines whether or not the degree of roughness "H b " of breathing is smaller than the specified threshold value "H th " (step S311). That is, the information processing system 1 determines whether or not the degree of roughness "H b " of breathing is less than the specified threshold value "H th”.
  • the information processing system 1 repeats the process of step S311 when the degree of roughness "H b " of breathing is not smaller than the specified threshold value "H th" (step S311: No).
  • step S311 No
  • the degree of breathing roughness “H b ” is not less than the specified threshold value “H th ”
  • the degree of breathing roughness “H b ” is less than the specified threshold value “H th ” that is, the user. Wait until your breathing calms down.
  • step S311 When the degree of breathing roughness “H b ” is smaller than the specified threshold value “H th ” (step S311: Yes), the information processing system 1 restarts the voice dialogue session from the saved state (step S312). Then, the information processing system 1 executes the process of step S305 in FIG. 8A.
  • step S308 when the degree of breathing roughness "H b " is not equal to or higher than the specified threshold value "H th " (step S308: No), the information processing system 1 re-listens to the utterance in which the user's Intent is OOD. (Step S313). For example, the information processing system 1 re-listens to an utterance in which the user's utterance intention is uninterpretable when the degree of breathing roughness "H b " is less than the specified threshold value "H th", that is, when the user's breathing is calm. Make an utterance (for example, "Please say it again”). Then, the information processing system 1 executes the process of step S305 in FIG. 8A.
  • FIG. 9 is a diagram showing an example of information processing according to the second embodiment of the present disclosure.
  • the information processing according to the second embodiment of the present disclosure is realized by the information processing system 1 including the server device 100A and the terminal device 10 shown in FIG.
  • FIG. 9 a case where the respiratory state vector “H v ” indicating the respiratory state of the user is used as the information indicating the respiratory state of the user is shown.
  • Each process shown in FIG. 9 may be performed by either the server device 100A or the terminal device 10 of the information processing system 1 according to the second embodiment.
  • the processing in which the information processing system 1 according to the second embodiment is described as the main body of the processing may be performed by any device included in the information processing system 1 according to the second embodiment.
  • the server device 100A executes a process of connecting the first utterance and the second utterance by the user U1 by executing the voice dialogue control using the respiration information indicating the respiration of the user U1 detected by the terminal device 10.
  • the case of performing the processing (consolidation processing) to be performed will be described as an example. Note that the same points as in FIG. 1 in FIG. 9 will be omitted as appropriate.
  • the information processing system 1 acquires respiration information regarding the respiration of the user U1.
  • the server device 100A acquires respiration information indicating the respiration of the user U1 from the terminal device 10 used by the user U1.
  • the server device 100A calculates the respiratory state vector “Hv ” indicating the respiratory state of the user U1 by using the acquired respiratory information.
  • the server device 100A calculates a three-dimensional vector that generalizes and expresses the respiratory state that affects voice utterance.
  • the server device 100A uses both the respiratory sensor observation value of the latest long span time T l (for example, 10 seconds, etc.) and the respiratory sensor observation value of the latest short span time T s (for example, 0.5 seconds, etc.). Calculate the elements of the vector.
  • the number of samples of the respiratory sensor at the long span time T l is “n l ” (hereinafter, also referred to as “the number of samples“ n l ”).
  • “n l " indicates the number of sensor information (for example, the number of detections) detected by the respiratory sensor 171 in the long span time T l.
  • the number of samples of the respiratory sensor at the short span time T s is "ns " (hereinafter, also referred to as “the number of samples” n s ").
  • “ ns” indicates the number of sensor information (for example, the number of detections) detected by the respiratory sensor 171 in the short span time T s.
  • n l is much greater than n s (a n l »n s) is, for more information about the observation target time such as n l and n s is described in Figure 16.
  • the server device 100A calculates the respiratory state vector “H v ” indicating the respiratory state of the user U1 using the following equation (8).
  • D b (hereinafter “depth” d b ",” also referred to) in the above formula (8) shows the depth of the user's breathing.
  • the server device 100A calculates the "d b" deep using the following equation (9).
  • “S m ” in the above equation (9) indicates the average observed value of the respiratory sensor of the n l sample at the latest long span time T l.
  • “ Sm” indicates an average observed value (for example, average inspiratory volume) of the number of samples "n l " detected by the respiratory sensor 171 at the latest long span time T l.
  • the server device 100A calculates the average observed value “Sm” using the following equation (10).
  • “S i ” in the above equation (10) indicates the observed value of each sample of the respiratory sensor.
  • “S i ” indicates an observed value (for example, inspiratory volume) of the sensor information detected by the respiratory sensor 171.
  • n l in the above formula (10) indicates an n l sample at the latest long span time T l.
  • n l indicates the number of sensor information (for example, the number of detections) detected by the respiratory sensor 171 in the long span time T l.
  • S pi (hereinafter "peak observed value” S pi '"also referred to) in the above formula (9) shows each peak observed value of the respiratory sensor.
  • the server device 100A detects a peak based on the maximum value or the minimum value between the intersections with "Sm".
  • Spi indicates the value at the time when each respiration becomes the maximum or the value at the time when it becomes the minimum in the observed value (for example, the amount of inspiration) of the sensor information detected by the respiration sensor 171.
  • N lp in the above equation (9) (hereinafter, also referred to as “peak observation number“ N lp ””) indicates the number of peak observation values included in the n l sample at the latest long span time T l. .. The details of each element using illustrations will be described with reference to FIG.
  • the “f b " (hereinafter, also referred to as "frequency” f b ”) in the above equation (8) indicates the frequency of the user's breathing.
  • the server device 100A calculates the frequency “f b ” based on the number of intersections of the observed value “S i ” with the average observed value “S m ” and the number of peaks “N lp”.
  • the server device 100A may calculate the frequency "f b " by appropriately using various methods such as autocorrelation pitch detection and cepstrum analysis. Calculating the depth of the aforementioned "d b" and frequency depth "f b" shows an example of a calculation from observations of long-span time.
  • v b (hereinafter, also referred to as "velocity" v b ”) in the above equation (8) indicates the respiratory velocity of the user.
  • the server device 100A calculates the difference absolute value average of the observed values at n s samples in most recent short-span time T s as the speed "v b".
  • the server device 100A calculates the speed "v b” using the following equation (11).
  • N s in the above formula (11) indicates an n s sample at the latest short span time T s.
  • ns indicates the number of sensor information (for example, the number of detections) detected by the respiratory sensor 171 in the short span time T s.
  • ⁇ S i in the above equation (11) (hereinafter, also referred to as “difference value“ ⁇ S i ”) indicates a difference value with respect to the observed value one sample before the respiratory sensor.
  • the difference value “ ⁇ S i ” indicates a difference value with respect to the observed value one sample before among the observed values of the sensor information detected by the respiratory sensor 171.
  • the server device 100A calculates the difference value “ ⁇ S i ” using the following equation (12).
  • the server device 100A detects (calculates) the respiratory state vector indicating the user's respiratory state by using the displacement value of the respiratory volume observed by the respiratory sensor 171 in the voice dialogue system.
  • the server device 100A detects (calculates) a generalized respiratory state vector. For example, the server device 100A calculates the breathing depth / frequency of the long-span time and the breathing speed of the short-span time as elements of the respiratory state vector “Hv”. The above is an example, and the server device 100A may calculate the respiratory state vector “Hv” by appropriately using various information.
  • the server device 100A performs the voice dialogue control process using the respiratory state vector “Hv” calculated by the equation (8).
  • the server device 100A makes a determination using the respiratory state vector “Hv ” of breathing indicating the respiratory state.
  • the server device 100A executes voice dialogue control when the respiratory state vector “ Hv” satisfies the condition.
  • Respiratory status vector "H v" is enough different from the time breathing normal, normal time range (hereinafter, also referred to as "normal range” R N "") is a vector deviates from a normal breathing state vector "H v” range as "R N" out of the "(with distance), is likely to be difficult to perform at will the speech by voice out of breath.
  • the server device 100A uses the information of the range (normal range “RN ”) corresponding to the normal time of the respiratory state vector.
  • the server device 100A executes voice dialogue control when the comparison result between the respiratory state vector “H v ” and the normal range “ RN” satisfies the condition.
  • the respiratory state vector "H v " defines a normal range "RN " indicating a normal range (space) that is a respiratory state in which voice speech can be normally performed, and the respiratory state vector "H v ".
  • the server device 100A acquires the respiration information of the user U1 at time t10, and calculates the respiration state vector “H v” by using the respiration information and the equation (8). Then, the server device 100A compares the calculated respiratory state vector “H v ” with the normal range “ RN ”. Since the respiratory state vector "H v " is within the normal range " RN ", the server device 100A determines that the respiratory state of the user U1 at time t10 is normal.
  • the voice dialogue control is not executed during the time t10 to the time t12, and the silent time-out time “ tr ” of the voice recognition end-of-call determination, which is an example of the time-out time, is not extended.
  • the user U1 makes an utterance UT1 of "playing music" at time t11.
  • processing such as voice recognition is executed.
  • the information processing system 1 generates information on the intention of the user's utterance UT1 and the entity of the utterance UT1 from the user's utterance UT1 by natural language understanding (NLU).
  • NLU natural language understanding
  • the information processing system 1 may use any technique related to natural language understanding as long as information on its intention (Intent) and attribute information (Entity) can be obtained from the user's utterance. In the example of FIG.
  • the information processing system 1 executes the function corresponding to the utterance UT1. For example, the information processing system 1 causes the terminal device 10 of the user U1 to play music.
  • the server device 100A acquires the respiration information of the user U1 at time t12, and calculates the respiration state vector “H v” by using the respiration information and the equation (8). Then, the server device 100A compares the calculated respiratory state vector “H v ” with the normal range “ RN ”. Since the respiratory state vector "H v " is outside the normal range " RN ", the server device 100A determines that the respiratory state of the user U1 at time t12 is unusual. That is, the case where the respiratory state of the user U1 changes from the normal state to the non-normal state at time t12 is shown.
  • the case where the respiratory state of the user U1 is determined to be abnormal is shown after the time t12. Specifically, the case where the user U1 is exercising after the time t12 and is in a state of being out of breath and the respiratory state is determined to be abnormal is shown. Therefore, the voice dialogue control is executed after the time t12, and the voice recognition timeout time “ tr ” is extended.
  • the server device 100A executes voice dialogue control and extends the voice recognition timeout time “tr”. In the example of FIG. 9, the server device 100A extending duration TL2 the length of the speech recognition timeout time "t r" from the duration TL1.
  • the information processing system 1 outputs the system "A message has arrived from Mr. XX. Do you want to read it aloud?" Immediately before the time t13. Accordingly, the user U1 makes an utterance UT11 called "reading” at time t13. Then, the user U1 makes an utterance UT12 of "raise” at time t14. In this case, the utterance UT11 "reading” corresponds to the first utterance, and the utterance UT12 "raise” corresponds to the second utterance.
  • the time length between the time when the utterance UT11 "reading” ends and the time when the utterance UT12 "raise” starts is longer than the time length TL1 and longer than the time length TL2. short. Therefore, without being extended speech recognition timeout period "t r", if the speech recognition timeout period "t r" was the length of time TL1, speech recognition timeout period before the speech UT12 of "up to", "t r Is finished. In this case, the voice recognition process is performed only by the utterance UT11 called "reading".
  • the information processing system 1 since the utterance UT11 of "reading" is not an utterance that can interpret the intention of the user U1, the information processing system 1 considers the utterance UT11 to be an utterance in which the intention cannot be interpreted (OOD utterance). As described above, when the voice recognition timeout time " tr " is not extended, the information processing system 1 cannot properly interpret the utterance of the user U1.
  • the server device 100A connecting the speech UT11 and speech UT12 do.
  • the server device 100A connects the utterance UT11 "read” and the utterance UT12 "raise”, and performs processing such as voice recognition as the utterance UT13 "read”.
  • the information processing system 1 executes the function corresponding to the utterance UT13.
  • the information processing system 1 causes the terminal device 10 of the user U1 to output a message from Mr. XX by voice.
  • the information processing system 1 can appropriately connect a plurality of utterances of the user by executing the voice dialogue control for extending the timeout time.
  • the information processing system 1 may vary the extension time in consideration of the influence on the utterance. In this way, the information processing system 1 may perform the process of voice dialogue control using the degree of influence on the utterance. This point will be described below.
  • the information processing system 1 performs voice dialogue control when the detected respiratory state affects the utterance. For example, the information processing system 1 performs voice dialogue control when the respiratory state vector “H v ” is out of the normal range “ RN”.
  • the information processing system 1 suspends the voice dialogue session (voice dialogue session) when the meaning understanding result of the user's utterance cannot be interpreted, and the respiratory state vector "H v " is within the normal range " RN ". Wait until then resume the voice dialogue session. In this way, the information processing system 1 interrupts the dialogue session when the meaning understanding processing result of the user's utterance is OOD (uninterpretable), waits until the respiratory state becomes a state where normal voice utterance can be performed, and then restarts. do.
  • OOD uninterpretable
  • the information processing system 1 when the Intent from NLU was OOD breathing state vector "H v" is the normal range "R N" out of the state, suspend to keep the state of the voice interaction session do.
  • the information processing system 1 resumes the state of the voice dialogue sessions respiratory state vector "H v" is a saved and detects that it is now in the normal range "R N". Details of the control flow in which the information processing system 1 suspends / resumes the dialogue session after the OOD utterance during exercise and the dialogue session settles down after a while will be described in FIGS. 23A and 23B.
  • the information processing system 1 the silence timeout period "t r" the end of the session the determination of the final story judgment and voice interaction of voice recognition, the "t s", the normal range of the breathing state vector "H v", “R N” It extends as the vector distance from is increased.
  • the information processing system 1 may determine the time to be extended by using the voice utterance influence degree “Eu” indicating the degree of influence on the utterance.
  • the information processing system 1 uses the breathing state vector "H v", and calculates the voice utterance influence "E u”.
  • the respiratory state vector "H v " when used, it means that the information processing system 1 is in a respiratory state in which voice speech can be normally performed in the three-dimensional vector space represented by the respiratory state vector "H v".
  • the normal range " RN " to be performed is specified.
  • the information processing system 1 defines the point where the center of the normal range "R N" as the normal breathing origin "O N”. For example, the information processing system 1 is calculated using the normal breathing origin "O N" the following equation (13).
  • the depth “d 0 " in the above equation (13) indicates the depth at the center of the normal range " RN”. Further, the frequency “f 0 " in the above equation (13) indicates the frequency at the center of the normal range " RN”. Further, the speed “v 0 “ in the above equation (13) indicates the speed at the center of the normal range " RN”.
  • the information processing system 1 is not limited to equation (13), using a variety of information as appropriate, may calculate the normal breathing origin "O N".
  • the information processing system 1 also defines a normal range "R N” and normal breathing origin "O N", as a preset fixed value based on the depth, frequency and speed at the time of general normal breathing good.
  • the information processing system 1 may use a preset normal range "R N” and normal breathing origin "O N".
  • the information processing system 1 may be defined as a value learned in a modified example by personalized learning described later.
  • the information processing system 1 by using the information of the normal breathing origin "O N", calculates the speech utterance influence "E u". For example, the information processing system 1 calculates the voice utterance influence degree "Eu " using the following equation (14). For example, the information processing system 1 determines that the respiratory state vector “H v ” is out of the normal range “ RN ” and affects the utterance, and uses the equation (14) to determine the voice utterance influence degree “ E u ”is calculated.
  • the information processing system 1 determines the length of time to be extended by using the calculated voice utterance influence degree “Eu”. Since this point is the same as that of the first embodiment, the description thereof will be omitted.
  • the information processing system 1 will be extended depending on the silence timeout time "t s" breathing state of silence time-out period "t r" and the voice interactive session the end of the speech recognition final story decision.
  • Information processing system 1 the silence timeout period "t r”, to extend "t s”
  • the information processing system 1 voice utterance degree of influence "E u" only time that is proportional to the silence timeout period "t r", to extend the "t s”. Normal times silence timeout during exercise time "t r", the details of the control flow of "t s", FIG. 22A, will be described with reference to FIG 22B.
  • the information processing system when the detection of the breathing state vector "H v ', d b ⁇ d 0 or f b ⁇ f conditions in instantaneous velocity of breathing 0" v b "threshold," When it is greater than or equal to v f "(faster), the silent timeout times" tr “and” t s "are extended until the speed" v b "is smaller than the threshold value” v f ".
  • the information processing system 1 when d b ⁇ d 0 or f b ⁇ conditions at a rate of f 0 "v b" threshold “v s" or less, (slow), the speed "v b" There threshold “v s” big silence timeout period until than "t r", to extend the "t s".
  • the information processing system 1 temporarily speaks when the breathing speed is momentarily increased due to a physiological phenomenon of the respiratory organs, or when the breathing speed is momentarily slowed (stopped) due to surprise or force. If it is not possible, the timeout time will be extended by that period.
  • FIG. 10 is a diagram showing a configuration example of the server device according to the second embodiment of the present disclosure.
  • the server device 100A includes a communication unit 110, a storage unit 120A, and a control unit 130A.
  • the storage unit 120A is realized by, for example, a semiconductor memory element such as a RAM or a flash memory, or a storage device such as a hard disk or an optical disk. As shown in FIG. 10, the storage unit 120A according to the second embodiment includes a respiratory information storage unit 121, a user information storage unit 122, a determination information storage unit 123A, and a functional information storage unit 124.
  • the determination information storage unit 123A stores various information related to the information used for determination (determination information).
  • the determination information storage unit 123A stores various information used for determining whether to execute voice dialogue control.
  • FIG. 11 is a diagram showing an example of a determination information storage unit according to the second embodiment of the present disclosure.
  • the determination information storage unit 123A shown in FIG. 11 includes items such as "determination information ID”, "use”, "name", and "content”.
  • “Judgment information ID” indicates identification information for identifying the judgment information. “Use” indicates the use of the determination information. The "name” indicates the name (character string) of the judgment information (variable) identified by the corresponding judgment information ID. “Content” indicates a specific content (value or the like) of the determination information identified by the corresponding determination information ID.
  • determination information JD1 is the determination information used for the determination of the normal range.
  • Judgment information JD1 indicates that it is judgment information (normal range) used for comparison with the respiratory state vector.
  • Determination information JD1 indicates that used as the name "R N”.
  • the field content of the determination information JD1 indicates that it is "range information AINF1".
  • the content is indicated by an abstract code such as “range information AINF1”, but the content is specific such as "(1.2, 32, 2.8 ...)" or "2.6”.
  • Information vectors, numerical values, etc.).
  • “range information AINF1” may be the origin (e.g., O N) information indicating the distance from (numerical value), or may be vector data N-dimensional for the range.
  • the determination information storage unit 123A is not limited to the above, and may store various information depending on the purpose.
  • the control unit 130A includes an acquisition unit 131, a calculation unit 132A, a determination unit 133A, an execution unit 134, and a transmission unit 135, and has information processing functions and operations described below. To realize or execute.
  • the acquisition unit 131 acquires information from the determination information storage unit 123A.
  • the calculation unit 132A calculates various information in the same manner as the calculation unit 132.
  • the calculation unit 132A calculates various types of information based on the information of the determination information storage unit 123A.
  • the calculation unit 132A calculates a vector indicating the user's respiratory state using the respiratory information.
  • the calculation unit 132A calculates the respiratory state vector “H v ” which is a vector by using the equation (8) or the like.
  • Calculator 132A calculates the "d b" deep using Equation (9).
  • the calculation unit 132A calculates the average observed value “ Sm ” using the equation (10).
  • Calculator 132A detects the peak due maximum or minimum value between the intersections of the "S m", to calculate the peak observed value "S pi".
  • the calculation unit 132A calculates (counts) the number of observed peaks “N lp”.
  • the calculation unit 132A calculates the velocity “v b ” using the equation (11) of.
  • the calculation unit 132A calculates the difference value “ ⁇ S i ” using the equation (12).
  • the determination unit 133A determines various information in the same manner as the determination unit 133.
  • the determination unit 133A determines various information based on the information of the determination information storage unit 123A.
  • the determination unit 133A determines whether or not to execute the voice dialogue control by comparing the information calculated by the calculation unit 132 with the normal range.
  • the determination unit 133A determines whether or not to execute the voice dialogue control by using the information in the normal range.
  • the determination unit 133A determines whether or not to execute the voice dialogue control by comparing the respiratory state vector “Hv” with the normal range.
  • the determination unit 133A determines that the voice dialogue control is executed when the respiratory state vector “H v ” is outside the normal range “ RN”.
  • the determination unit 133A determines whether or not to execute the voice dialogue control by comparing the information calculated by the calculation unit 132 with the normal range. The determination unit 133A determines whether or not to execute the voice dialogue control using the normal range. The determination unit 133A determines whether or not to execute the voice dialogue control by comparing the respiratory state vector “Hv” with the normal range. The determination unit 133A determines that the voice dialogue control is executed when the respiratory state vector “H v ” is outside the normal range “ RN”. The determination unit 133A compares the respiratory state vector "H v " with the normal range " RN”. Determination unit 133A determines that if respiration state vector "H v" is within the normal range "R N", a normal breathing state of the user. Determination unit 133A determines if the breathing state vector "H v" is the normal range "R N" outer, respiratory state of the user to be non-normal.
  • the execution unit 134 executes various processes in the same manner as the execution unit 134 according to the first embodiment.
  • the execution unit 134 executes various processes based on the information of the determination information storage unit 123A.
  • the execution unit 134 executes the voice dialogue control when the determination unit 133A determines to execute the voice dialogue control.
  • the execution unit 134 executes a process of connecting the first utterance and the second utterance by executing the voice dialogue control.
  • the execution unit 134 executes a process of connecting the first utterance and the second utterance by executing the voice dialogue control.
  • the execution unit 134 executes voice dialogue control when the respiratory state vector “Hv ” satisfies the condition.
  • the execution unit 134 executes voice dialogue control when the comparison result between the respiratory state vector “H v ” and the normal range “ RN” satisfies the condition.
  • the execution unit 134 executes voice dialogue control when the respiratory state vector “H v ” is out of the normal range “ RN”.
  • FIGS. 12A, 12B and 13 are flowcharts showing the processing of the information processing system according to the second embodiment of the present disclosure.
  • FIGS. 12A, 12B and 13 are flowcharts relating to a voice dialogue session.
  • 12A, 12B and 13 show a voice dialogue control flowchart by the respiratory state vector "H v " including the extension of the silence timeout time by the speed "v b".
  • the information processing system 1 according to the second embodiment performs processing will be described as an example, but the processes shown in FIGS. 12A, 12B and 13 are information processing according to the second embodiment. Any device of the server device 100A and the terminal device 10 included in the system 1 may perform the operation.
  • the information processing system 1 determines whether or not the respiratory state vector “H v ” of respiration is out of the normal range “ RN ” (step S401).
  • the information processing system 1 when the breathing state vector breathing "H v" is outside of the normal range "R N" (step S401: Yes), the breathing state vector "H v” and normal breathing origin "O N" The degree of influence of voice speech " Eu " is calculated from (step S402).
  • the information processing system 1 extends the voice recognition timeout time “ tr ” by a time proportional to the voice utterance influence degree “ Eu” (step S403).
  • the information processing system 1, the session timeout time "t s" extended time is proportional to the speech utterance impact "E u” (step S404).
  • the information processing system 1 performs the process of step S405 shown in FIG.
  • the information processing system 1 shows a case where the timeout time is extended as the voice dialogue control as an example.
  • step S401: No when the respiratory state vector “H v ” of respiration is not outside the range of the normal range “ RN ” (step S401: No), the processing of steps S402 to S404 is not performed, and FIG. 13 The process of step S405 shown in the above is executed.
  • the process of step S405 shown in FIG. 13 is performed without performing the processes of steps S402 to S404. To execute.
  • the information processing system 1 is less deep breathing state vector "H v" "d b" is the depth of the normal breathing "d 0", or the frequency "f b" is It is determined whether or not the condition that the frequency is "f 0" or less during normal respiration is satisfied (step S405).
  • the information processing system 1, the breathing state depth of the vector "H v" "d b” is the depth of the normal breathing "d 0" or less, or, the frequency “f b” is the normal breathing frequency "f If the condition of "0 " or less is not satisfied (step S405: No), the process of step S407 is executed without performing the process of step S406.
  • the information processing system 1 the breathing state vector "H v" depth “d b” is normal breathing origin depth "O N" "d 0" or less Not, and the normal frequency “f b" is If breathing origin "O N" of not less than the frequency "f 0", the processing of step S407 to execute without executing step S406.
  • the information processing system 1 the breathing state depth of the vector "H v" "d b” is the depth of the normal breathing “d 0" or less, or, the frequency “f b” is the frequency of normal breathing
  • it is “f 0 " or less it is determined whether or not the speed "v b " of the respiratory state vector "H v " is smaller than the threshold value "v f" (step S406).
  • the information processing system 1 when the speed of the breathing state vector "H v" "v b" threshold “v f" is smaller than (Step S406: Yes), the depth of breathing state vector "H v" "d b" Determines whether or not satisfies the condition that the depth “d 0 ” or more during normal breathing or the frequency “f b ” is equal to or higher than the frequency “f 0” during normal breathing (step S407).
  • the information processing system 1 the breathing state is vector "H v" depth "d b” is the depth of the normal breathing “d 0" or more, or a frequency “f b” is the normal breathing frequency "f If the condition of "0 " or more is not satisfied (step S407: No), the process of step S409 is executed without performing the process of step S408.
  • the information processing system 1, the breathing state vector "H v" depth "d b” is normal breathing origin depth "O N" "d 0" or Not, and the normal frequency “f b” is If not the frequency "f 0" or respiratory origin “O N", the process of step S409 to execute without performing the processing in step S408.
  • the information processing system 1 the depth of breathing state vector "H v" "d b” is normal breathing during depth “d 0" or more, or a frequency “f b” is the frequency of normal breathing
  • it is “f 0 ” or more (step S407: Yes)
  • step S408 When the speed "v b " of the respiratory state vector "H v " is larger than the threshold value "v s " (step S408: Yes), the information processing system 1 performs the process of step S409.
  • the information processing system 1 is determined, the time course of the session time-out period with no speech "t s", or, whether the time course of the speech recognition timeout period "t r" in there speech (step S409).
  • the information processing system 1, the time course of the session time-out period with no speech "t s", or, the condition that the time course of the speech recognition timeout time there utterance "t r" (hereinafter referred to as the "final story determination condition" both It is determined whether or not the condition is satisfied.
  • step S410 the information processing system 1, the time course of the session time-out period with no speech "t s", or, if that does not satisfy the condition that the time course of the speech recognition timeout period "t r" in there speech (step S409: No ), The process of step S410 is performed. If the information processing system 1 does not satisfy the end-of-call determination condition, the information processing system 1 performs the process of step S410. For example, the information processing system 1 has no time course of the session timeout time "t s" without speech, and, if there is no time course of the speech recognition timeout time "t r" in there utterance, it executes the process of step S410 do.
  • Information processing system 1 short-span time waiting for the "T s", wait for the update of the breathing state vector "H v" (step S410). After that, the information processing system 1 returns to step S405 and repeats the process.
  • step S406 when the speed "v b " of the respiratory state vector "H v " is not smaller than the threshold value "v f " (step S406: No), the speed “v b “ is the threshold value "v f". Wait until it becomes smaller than "(step S411).
  • the information processing system 1 waits until the speed "v b " becomes smaller than the threshold value "v f". After that, the information processing system 1 returns to step S401 in FIG. 12A and repeats the process.
  • step S408 when the speed "v b " of the respiratory state vector "H v " is not larger than the threshold value "v s " (step S408: No), the speed “v b “ is the threshold value "v s”. Wait until it becomes larger (step S412).
  • step S412 When the speed “v b “ of the respiratory state vector "H v " is equal to or less than the threshold value "v s ", the information processing system 1 waits until the speed "v b " becomes larger than the threshold value "v s". After that, the information processing system 1 returns to step S401 in FIG. 12A and repeats the process.
  • Step S413 in FIG. 12A is performed.
  • the information processing system 1 performs the process of step S413 in FIG. 12A.
  • the information processing system 1 determines whether the user was not uttered in the session time-out period "t s" of time (step S413). The information processing system 1, if the user was not spoken in the session timeout time "t s" of time (step S413: No), the process ends.
  • the information processing system 1 when a user in the session timeout time "t s" of time was uttered (step S413: Yes), whether the intention understanding of the results of the user utterance (Intent) can be interpreted Determine (step S414). For example, the information processing system 1 determines whether or not the result (Intent) of understanding the intention of the user's utterance is OOD.
  • step S414 When the result of understanding the intention of the user's utterance (Intent) is interpretable (step S414: Yes), the information information system 1 determines whether or not the dialogue scenario of the voice dialogue session is completed (step S415). For example, the information processing system 1 performs the process of step S415 when the result (Intent) of understanding the intention of the user's utterance is other than OOD.
  • the information processing system 1 ends the process when the dialogue scenario of the voice dialogue session is completed (step S415: Yes).
  • step S415 No
  • the information processing system 1 returns to step S401 and repeats the process.
  • step S414 when the result (Intent) of understanding the intention of the user's utterance is not interpretable (step S414: No), as shown in FIG. 12B, the respiratory state vector “H v ” of respiration is in the normal range. It is determined whether or not it is out of the range of “ RN” (step S416). For example, the information processing system 1 performs the process of step S416 in FIG. 12B when the result (Intent) of understanding the intention of the user's utterance is OOD.
  • the information processing system 1 determines whether or not the respiratory state vector “H v ” of respiration is outside the range of the normal range “ RN” (step S416).
  • the information processing system 1 saves the state of the voice dialogue session when the respiratory state vector “H v ” of respiration is out of the range of the normal range “ RN ” (step S416: Yes) (step S417). Then, the information processing system 1 interrupts the voice dialogue session (step S418).
  • the information processing system 1 determines whether or not the respiratory state vector “H v ” of respiration is within the range of the normal range “ RN ” (step S419). That is, the information processing system 1 determines whether or not the respiratory state vector “H v ” of respiration is outside the normal range “ RN”.
  • step S419: No When the respiratory state vector "H v " of respiration is not within the normal range " RN “ (step S419: No), the information processing system 1 repeats the process of step S419. For example, in the information processing system 1, when the respiratory state vector "H v " of respiration is not within the range of the normal range " RN “, the respiratory state vector "H v “ of respiration is within the range of the normal range " RN “. Wait until, that is, until the user's breathing calms down.
  • step S419: Yes When the respiratory state vector "H v " of respiration is within the normal range " RN " (step S419: Yes), the information processing system 1 resumes the voice dialogue session from the saved state (step S420). ). Then, the information processing system 1 executes the process of step S413 in FIG. 12A.
  • the information processing system 1 is a system for re-listening to an utterance in which the user's Intent is OOD when the respiratory state vector “H v ” of respiration is not outside the range of the normal range “ RN” (step S416: No).
  • Speak step S421.
  • the information processing system 1 when the respiratory state vector “H v ” of respiration is within the normal range “ RN ”, that is, when the user's respiration is calm, the utterance intention of the user is uninterpretable. Re-listen to the utterance (for example, "Please say it again"). Then, the information processing system 1 executes the process of step S413.
  • examples of respiratory conditions that make it difficult to speak voice other than shortness of breath due to exercise include cases where breathing becomes shallow due to tension, stress, concentration, etc., cases where breathing is absent or hyperventilation, cases where the number of breaths decreases due to drowsiness, coughing, etc. There are cases where breathing stops (becomes shallow) for a short period of time due to respiratory physiological phenomena such as squeezing, surprise or force. Even in such a case, the information processing system 1 can appropriately connect a plurality of user's utterances by the above-described processing.
  • the information processing system 1 when the voice recognition rate decreases due to shortness of breath (at the time of OOD utterance), the information processing system 1 resumes the dialogue session after recovering until the breathing reaches a normal voice recognition rate. Therefore, the information processing system 1 can suppress unnecessary rephrasing such as when the person is out of breath and voice recognition cannot be performed.
  • the information processing system 1 has an effect other than shortness of breath due to exercise.
  • the information processing system 1 uses voice dialogue control using a generalized respiratory state vector to speak by physiological phenomena such as tension / stress, concentration / apnea, hyperventilation, drowsiness, coughing and squeezing, and surprise / force. Even in difficult situations, it is possible to obtain the same effect as in the case of shortness of breath due to exercise.
  • FIG. 14 is a diagram showing an example of the relationship between the respiratory state and voice dialogue control.
  • FIG. 14 shows the effect of the instantaneous speed “v b ” of breathing on speech utterance and the dialogue control method.
  • speech recognition timeout in the utterance "t r" and utterances previous session timeout time "t s" indicates that it is controlled by the response priority.
  • a normal or depth "d b" is deep is a normal or frequency "f b" is high
  • state-behavior of the user Indicates a respiratory physiological phenomenon such as coughing, sneezing, yawning, or presumed sighing.
  • speech recognition timeout in the utterance "t r" and utterances previous session timeout time "t s" indicates that it is proportional extension to the voice utterance impact "E u ' ..
  • the speech recognition timeout period in the utterance "t r" and the speech before the session time-out time “t s" is, that the speed "v b" is the threshold value "v f" or more of the period extension show.
  • the speech recognition timeout in the utterance "t r" and utterances previous session timeout time "t s" indicates that the velocity "v b" is an extension for more than a threshold value "v f".
  • a normal or depth "d b" is shallow
  • a normal or frequency "f b” is low
  • state-behavior of the user Indicates that it is presumed that he held his breath or became shallow due to surprise or force.
  • speech recognition timeout in the utterance "t r" and utterances previous session timeout time "t s" indicates that it is proportional extension to the voice utterance impact "E u ' ..
  • the speech recognition timeout period in the utterance "t r" and the speech before the session time-out time “t s" is, that the speed "v b" is the threshold “v s” following extension of time show.
  • the speech recognition timeout in the utterance "t r" and utterances previous session timeout time “t s” indicates that the velocity "v b" is the threshold value "v s" following during extension.
  • FIG. 15 is a diagram showing a functional configuration example of the information processing system.
  • the left side of the broken line BS corresponds to the component on the terminal device 10 side
  • the right side of the broken line BS corresponds to the component on the server device 100 side.
  • the broken line BS shows an example of the distribution of functions between the terminal device 10 and the server device 100 in the information processing system 1.
  • each component shown on the left side of the broken line BS is realized by the terminal device 10.
  • each component shown on the right side of the broken line BS is realized by the server device 100.
  • the boundary (interface) of the device configuration in the information processing system 1 is not limited to the broken line BS, and the functions assigned to the terminal device 10 and the server device 100 may be any combination.
  • the user's utterance voice is input to the system through a voice input device such as a microphone, and the utterance section is detected by voice section detection (VAD: Voice Activity Detection).
  • VAD Voice Activity Detection
  • the signal detected as the utterance section by VAD is subjected to automatic speech recognition (ASR) processing and converted into text.
  • ASR automatic speech recognition
  • the textualized user utterance is estimated by the meaning understanding process (NLU) as the utterance intention (Intent) and the attribute information (Entity) to be uttered, and is input to the voice dialogue session control.
  • NLU meaning understanding process
  • the Intent when the utterance intention cannot be interpreted by NLU, the Intent is input to the voice dialogue session control as OOD (Out Of Domain).
  • the user's respiration is observed by the respiration sensor as a displacement value of the respiration volume.
  • the respiratory state is detected by the respiratory state detection from the observed displacement value of the respiratory volume and input to the voice dialogue session control.
  • the degree of roughness “H b ” and the respiratory state vector “H v ” are input to the voice dialogue session control.
  • the user-spoken text from the ASR is also input to the voice dialogue session control.
  • a plurality of user utterance texts are concatenated according to the respiratory state and input to the NLU as the concatenated utterance texts.
  • a plurality of user utterance texts are concatenated according to the degree of roughness "H b " and the respiratory state vector "H v ", and are input to the NLU as the concatenated utterance texts.
  • the intent and entry are estimated for the connected utterance text input from the voice dialogue session control and input to the voice dialogue session control.
  • the response generation generates the system utterance text according to the instruction from the voice dialogue session control.
  • the system utterance text is subjected to voice synthesis processing, synthesized into a system utterance voice signal, and then voice is uttered to the user through an output device such as a speaker.
  • voice synthesis processing synthesized into a system utterance voice signal
  • voice is uttered to the user through an output device such as a speaker.
  • FIG. 16 is a diagram showing an example of the observation target time in the respiratory state vector detection.
  • FIG. 16 shows the observation target time in the respiratory state vector detection.
  • the calculation of the four respiratory state vectors “H v ” is shown as H v calculation # 1 to # 4.
  • the bars corresponding to each of the Hv calculations # 1 to # 4 abstractly indicate the observation target samples corresponding to each calculation.
  • each calculation of Hv calculation # 1 to # 4 is continuously performed by shifting the short span time T s. That is, the information processing system 1 repeats the calculation of the respiratory state vector “H v ” in a cycle of the short span time T s.
  • Long span time in FIG. 16 T l and "n l" and “n s" is omitted because it is similar to that described above.
  • the respiratory state vector “H v ” is calculated for each short span time T s (number of observed samples n s). In this way, the number of observed samples n l with a long span time T l is calculated by overlapping n l ⁇ n s samples.
  • FIG. 17 is a diagram showing an example of observed values in respiratory state vector detection.
  • Graph GR1 in FIG. 17 shows an example of various observed values at a certain long span time T l.
  • the average observed value “Sm” is shown by a solid line extending in the lateral direction within the long span time T l.
  • each observation peak value "S p1" ⁇ “S p7" shows a peak observed value of the maximum value and the minimum value between the intersections of the "S m". Extending in the longitudinal direction towards the mean observed value from “Sm” to the maximum value and the minimum value of the waveform arrows indicate the section which is the target for calculating the RMS by the formula (9) "S pi -S m”. Further, in FIG. 17, since there are seven observed peak values “Sp1 ” to “ Sp7 ”, the number of peaks “N lp ” is seven. For example, the information processing system 1 calculates the average of the absolute peak values of the n l samples at the latest long span time T l as the respiration depth. The information processing system 1 calculates the respiratory state vector “Hv ” using such user's respiratory information.
  • FIG. 18 is a diagram showing an example of a normal range by a long span time observation element.
  • the axis corresponding to the horizontal direction (lateral direction) of the depth "d b" indicates the case where the axis corresponding to the vertical direction (vertical direction) to the frequency "f b".
  • the depth direction of the paper surface in FIG. 18 is the axis corresponding to the speed "v b". That is, FIG. 18, the depth “d b", the frequency “f b", the three-dimensional space having axes the velocity "v b", as seen from the axial direction (depth direction) corresponding to the velocity "v b"
  • the cross-sectional view of the case is shown.
  • FIG. 18 shows a cross section at a position where the velocity “v b ” is the velocity “v 0”.
  • Figure 18 shows an example of provision of long-span time observation element of the breathing state vector "H v" (depth “d b", the frequency "f b") normal range by "R N".
  • the central portion of FIG. 18 is the range corresponding to the normal range “RN”.
  • the normal range " RN” corresponds to the normal state of the user.
  • the normal range " RN " corresponds to a state in which the user can speak normally.
  • the depth "d b" and the frequency "f b" is larger, a state of motion or during hyperventilation, inability utterance expired breath shows like that speech is interrupted.
  • the frequency "f b" is large, the depth "d b" is smaller, is a state of tension and stress, voice is small, the voice is easily muffled, difficult to hear what you saying? Voice It shows that it becomes.
  • the depth "d b" and the frequency "f b" are smaller, a state of concentration and apnea, the attention unsuitable shows like that is concentration itself is decreased. Also, if the depth "d b" is large, the frequency "f b" is smaller, a state of drowsiness and sleep, is a state that is suitable for speech, hardly uttered by overshooting the drowsiness Indicates that.
  • FIGS. 19A to 21C show points related to short span time observation elements.
  • FIGS. 19A to 19C are diagrams showing an example of the relationship between each element of the respiratory state vector and the respiratory state of the user.
  • 19A-19C show cross sections orthogonal to the velocity "v b " (depth of paper) direction of FIG.
  • FIG. 19A shows the provision of a velocity "v b" short-span time observation element of the breathing state vector "H v" when slow (speed "v b") by the normal range "R N". That is, FIG. 19A shows a cross section on the front side of the paper surface of FIG. In the cross section shown in FIG. 19A, it is possible to distinguish between the areas showing that the person has held his / her breath due to surprise, squeezing, etc. (for example, the first, second, fourth quadrants, etc.) and the state of concentration or apnea. Areas that do not exist (eg, third quadrant, etc.) are included.
  • the information processing system 1 when the speed of the instantaneous breathing slows down (the threshold value "v s" and less than or equal to), it can be estimated to have become shallow, stopped the breath due to surprise and strained rough.
  • the range of f b ⁇ f 0 and d b ⁇ d 0 is a region indistinguishable from concentration / apnea.
  • FIG. 19B shows the provision of a velocity "v b" is short-span time observation element of the breathing state vector when the normal "H v" (speed “v b") by the normal range "R N". That is, FIG. 19B shows a cross section on the paper surface of FIG. The cross section shown in FIG. 19B is the same as in FIG. 18 when the instantaneous respiration rate is normal.
  • FIG. 19C shows the provision of a velocity "v b" short-span time observation element of the breathing state vector "H v" when fast (speed “v b") by the normal range "R N". That is, FIG. 19C shows a cross section on the back side of the paper surface of FIG. In the cross section shown in FIG. 19C, it is possible to distinguish between areas showing respiratory physiological phenomena such as coughing, sneezing, and hiccups (for example, the second, third, and fourth quadrants) and the state of exercise or hyperventilation. Areas that do not exist (eg, first quadrant, etc.) are included.
  • the information processing system 1 can be presumed to be a physiological phenomenon such as coughing, sneezing, hiccups, yawning, and sighing when the instantaneous breathing speed becomes faster (when the threshold value becomes “v f” or more).
  • the range of f b > f 0 and d b > d 0 is a region indistinguishable from exercise / hyperventilation.
  • FIGS. 20A to 20C are diagrams showing an example of the relationship between each element of the respiratory state vector and the respiratory state of the user.
  • 20A-20C show cross sections orthogonal to the frequency "bb" direction of FIG. That is, FIGS. 20A to 20C show a cross section when FIG. 18 is viewed from the vertical direction (vertical direction).
  • FIG. 20A shows a predetermined frequency short-span time observation element of the breathing state vector if "f b" is low “H v" (frequency “f b") by the normal range "R N". That is, FIG. 20A shows a cross section at a position smaller than the frequency "f 0 " on the axis of the frequency "f b".
  • the information processing system 1 can be presumed to be a physiological phenomenon such as coughing, sneezing, hiccups, yawning, and sighing.
  • FIG. 20B shows a predetermined frequency "f b" is short-span time observation element of the breathing state vector "H v 'in the case of normal (frequency” f b ") by the normal range" R N ". That is, FIG. 20A shows a cross section at a position where the frequency “f b ” is the frequency “f 0”.
  • the information processing system 1 can be presumed to be a physiological phenomenon such as coughing, sneezing, hiccups, yawning, and sighing.
  • Figure 20C shows a predetermined frequency short-span time observation element of the breathing state vector if "f b" is high “H v" (frequency “f b") by the normal range "R N”. That is, FIG. 20C shows a cross section at a position larger than the frequency “f 0 ” on the axis of the frequency “f b”.
  • the information processing system 1 the cross-section shown in FIG. 20C, except for the direction of movement in - hyperventilation (d b> d 0), becomes a v b ⁇ v f, coughing, sneezing, hiccups, yawning, such sigh It can be presumed to be a physiological phenomenon.
  • the information processing system 1, the cross-section shown in FIG. 20C, v b ⁇ v becomes the s, it can be estimated that the shallow-stopped breathing due surprise and strained rough.
  • FIGS. 21A to 21C are diagrams showing an example of the relationship between each element of the respiratory state vector and the respiratory state of the user.
  • Figure 21A ⁇ FIG. 21C shows a cross section perpendicular to the depth "d b" direction in FIG. 18. That is, FIGS. 21A to 21C show a cross section when FIG. 18 is viewed from the lateral direction (horizontal direction).
  • FIG. 21A shows the provision of a short-span time observation element (depth "d b") by the normal range of breathing state vector "H v" when the depth "d b" shallow “R N”. That is, FIG. 21A shows a cross section at smaller position than the depth of the shaft "d 0" depth "d b".
  • the information processing system 1 can be presumed to be a physiological phenomenon such as coughing, sneezing, hiccups, yawning, and sighing.
  • FIG. 21B shows the provision of the normal range "R N" by short-span time observation element of the breathing state vector "H v" when the depth "d b" is normal (depth “d b"). That is, FIG. 21A shows a cross section in the depth “d b” is the depth "d 0" position.
  • the information processing system 1 can be presumed to be a physiological phenomenon such as coughing, sneezing, hiccups, yawning, and sighing.
  • FIG. 21C shows the provision of a short-span time observation element (depth "d b") by the normal range of breathing state vector "H v" when the depth "d b" deep “R N”. That is, FIG. 21C shows a cross section at position greater than the depth of the shaft "d 0" depth "d b".
  • the information processing system 1 causes coughing, sneezing, hiccups, yawning, sighing, etc. when v b ⁇ v f except for the direction of exercise / hyperventilation (f b > f 0). It can be presumed to be a physiological phenomenon.
  • FIG. 22A is a diagram showing an example of processing in normal times.
  • FIG. 22A shows an example in which the degree of roughness “H b ” is less than the specified threshold value “H th ” or the respiratory state vector “H v ” is within the normal range “ RN ”. That is, FIG. 22A shows the case where the silence time-out period "t r", "t s" has not been extended.
  • the information processing system 1 outputs a system such as "A message has arrived from Mr. XX. Do you want to read it aloud?"
  • the user U1 performs an utterance of "read-aloud” before the lapse of silence timeout time "t s" from the later of the system output end an interactive session timeout period.
  • the information processing system 1 executes processing such as voice recognition.
  • the information processing system 1 recognizes (estimates) that the Int that indicates the utterance intention of the user U1 is "Read Out".
  • the information processing system 1 outputs a message of Mr. XX to the user U1 by voice according to the result of voice recognition.
  • the information processing system 1 outputs a voice message of Mr. XX to the user U1 asking "Can you come here right now?". Then, the information processing system 1 makes an utterance "Do you want to reply?”.
  • the user U1 performs an utterance of "reply” before the lapse of silence timeout time "t s" from the later of the system output end an interactive session timeout period. Then, after the voice recognition timeout time " tr " has elapsed, the information processing system 1 executes processing such as voice recognition. The information processing system 1 recognizes (estimates) the Int that indicates the utterance intention of the user U1 as "Reply”.
  • the information processing system 1 speaks according to the result of voice recognition.
  • the information processing system 1 makes an utterance "Please give me a reply message".
  • the user U1 performs a speech that "right now are'm impossible" before the system output of the dialogue from after the end of the session time-out silence timeout period is the time “t s" has elapsed. Then, after the voice recognition timeout time " tr " has elapsed, the information processing system 1 determines (estimates) that it is "Dictation End (end of instruction)". For example, the information processing system 1 transmits the character information "I can't do it right now" to Mr. XX's terminal device 10.
  • the information processing system 1 speaks according to the processing.
  • the information processing system 1 makes an utterance of "replying".
  • the information processing system 1 does not extend the time-out time of the voice recognition and dialogue session when the user's breathing is normal. Therefore, in the information processing system 1, the system can make a response utterance without generating an unnecessary waiting time after the user's utterance. As a result, the information processing system 1 can provide the service in normal times without impairing the existing dialogue response performance.
  • FIG. 22B is a diagram showing an example of processing during exercise.
  • FIG. 22B is a diagram showing an example of processing in which the user U1 is riding a bicycle and moving (exercising).
  • FIG. 22B shows an example in which the degree of roughness “H b ” is equal to or higher than the specified threshold value “H th ” or the respiratory state vector “H v ” is outside the normal range “ RN”. That is, FIG. 22B shows a case where silence timeout time "t r", "t s" is extended.
  • the information processing system 1 outputs a system such as "A message has arrived from Mr. XX. Do you want to read it aloud?"
  • the user U1 performs the speech as "reading” before the system output of silence timeout period, which was extended from after the end of "t s" has elapsed, the extended silence timeout period "t r" has elapsed Make the utterance "Raise” before.
  • the utterance "reading” corresponds to the first utterance
  • the utterance "raise” corresponds to the second utterance.
  • the information processing system 1 extends the silent time-out time “tr ”, which is the voice recognition time-out time, for a longer time as the voice utterance influence degree “Eu” becomes larger.
  • the silent time-out time “ tr ” which is the voice recognition timeout time
  • Eu the voice utterance influence degree
  • the information processing system 1 executes processing such as voice recognition.
  • the information processing system 1 executes processing such as voice recognition by using the utterance "reading" of the user U1 and the utterance "raising” of the user U1 connected to one utterance. Then, the information processing system 1 recognizes (estimates) that the Int that indicates the utterance intention of the user U1 is "Read Out”.
  • the information processing system 1 outputs a message of Mr. XX to the user U1 by voice according to the result of voice recognition.
  • the information processing system 1 outputs a voice message of Mr. XX to the user U1 asking "Can you come here right now?". Then, the information processing system 1 makes an utterance "Do you want to reply?”.
  • FIG. 22B the user U1 is exercising and is out of sigh, so that he cannot respond for a while.
  • the information processing system 1 as the voice utterance degree of influence "E u" is large, extended silence time-out time, which is the interactive session time-out period "t s" a long time.
  • the silence time-out time which is a dialogue session time-out period "t s" is extended time in accordance with the value of the speech utterance impact "E u”. Therefore, the information processing system 1 suppresses the end of the dialogue session during the time when the user cannot start the utterance as desired due to the shortness of breath of the user, and the user's utterance can be accepted in the session.
  • the user U1 performs the speech as a "reply” before the system output of silence timeout period, which was extended from after the end of "t s" has elapsed, the extended silence timeout period "t r" has elapsed Make the utterance "to do” before.
  • the utterance "reply” corresponds to the first utterance
  • the utterance "to” corresponds to the second utterance.
  • the information processing system 1 executes processing such as voice recognition.
  • the information processing system 1 executes processing such as voice recognition by using the utterance "reply” of the user U1 and the “reply” in which the utterance of the user U1 "do" is linked to one utterance.
  • the information processing system 1 recognizes (estimates) the Int that indicates the utterance intention of the user U1 as "Reply”.
  • the information processing system 1 speaks according to the result of voice recognition.
  • the information processing system 1 makes an utterance "Please give me a reply message".
  • the user U1 performs the speech as "now” before the lapse of silence timeout time "t s" from the later of the system output end an interactive session timeout period, extended silence timeout period "t r" Speak “immediately” before the passage of time. Then, the user U1 performs a speech called “impossible” before the extended silence timeout period "t r” has elapsed, the utterance of "I'm” before the extended silence timeout period "t r” has elapsed I do.
  • the utterance "now” corresponds to the first utterance
  • the utterance "immediately” corresponds to the second utterance
  • the utterance "impossible” corresponds to the third utterance
  • the utterance “dayo” Corresponds to the 4th utterance.
  • the utterance "impossible” is the second utterance for the utterance “immediately”.
  • the utterance "dayo" is the third utterance for the utterance "immediately” and the second utterance for the utterance "impossible”.
  • the information processing system 1 determines (estimates) that it is "Dictation End (end of instruction)".
  • the information processing system 1 connects the utterance "now”, the utterance "immediately”, the utterance "impossible”, and the utterance "dayo” by the user U1 into one utterance "Immediately impossible”.
  • the character information "Dayo” is transmitted to Mr. XX's terminal device 10.
  • the voice recognition timeout time " tr " is also extended at the time of transcribing the free utterance (Dictation), so that the unintended position in the middle due to the utterance in which the message input is interrupted. It is possible to prevent it from being cut off by.
  • the information processing system 1 speaks according to the processing. For example, the information processing system 1 utters "replied".
  • FIGS. 23A and 23B are diagrams showing an example of processing in which the user U1 is riding a bicycle and moving. Note that, in FIGS. 23A and 23B, the same points as those in FIGS. 1 and 9 will not be described.
  • FIG. 23A is a diagram showing an example of processing during exercise.
  • FIG. 23A shows an example in which the degree of roughness “H b ” is equal to or higher than the specified threshold value “H th ” or the respiratory state vector “H v ” is outside the normal range “ RN”. That is, FIG. 23A shows a case where silence timeout time "t r", "t s" is extended.
  • the information processing system 1 outputs a system such as "A message has arrived from Mr. XX. Do you want to read it aloud?"
  • the user U1 performs the speech as "reading” before the system output of silence timeout period, which was extended from after the end of "t s" has elapsed, the extended silence timeout period "t r" has elapsed Make the utterance "Raise” before.
  • the utterance "reading” corresponds to the first utterance
  • the utterance "raise” corresponds to the second utterance.
  • FIG. 23A shows a case where the user U1 is exercising and the user U1 is out of breath, and the information processing system 1 cannot recognize the utterance of the user U1.
  • the information processing system 1 executes processing such as voice recognition. As described above, since the information processing system 1 could not recognize the utterance of the user U1, the Intent indicating the utterance intention of the user U1 is recognized (estimated) as "OOD”. That is, since the information processing system 1 could not recognize the utterance of the user U1, it determines that the utterance of the user U1 is uninterpretable.
  • the information processing system 1 outputs a message of Mr. XX to the user U1 by voice according to the result of voice recognition.
  • the degree of roughness "H b " is equal to or higher than the specified threshold value "H th", or the respiratory state vector "H v " is outside the normal range " RN ", and the user state is normal. It is presumed that the information is other than the above, and the user U1 is notified to notify the user again. In FIG. 23A, the information processing system 1 utters "I will notify you later".
  • the information processing system 1 recognizes (estimates) the meaning understanding result as OOD because the user's breathing is rough and the utterance is disturbed and the voice cannot be recognized correctly, the voice dialogue session is maintained in the state of dialogue. To suspend. Depending on the user's utterance phrase, voice recognition may not be performed correctly when breathing is rough. In this case, it is unlikely that voice recognition will be performed correctly even if it is rephrased. Therefore, the information processing system 1 waits until the user's breathing state returns to the extent that the speech is not disturbed.
  • FIG. 23B is a diagram showing an example of processing after returning to normal from the time of exercise.
  • FIG. 23B is a diagram showing an example of processing when the user returns to normal after a lapse of time from the time of exercise of the user in FIG. 23A.
  • FIG. 23B shows an example in which the degree of roughness “H b ” is less than the specified threshold value “H th ” or the respiratory state vector “H v ” is within the normal range “ RN ”.
  • FIG. 23B shows a case in which the silence time-out period "t r", "t s" has not been extended.
  • the information processing system 1 re-does the notification shown in FIG. 23A.
  • the information processing system 1 outputs a system such as "Do you want to read the message from Mr. XX?".
  • the user U1 performs an utterance of "read-aloud” before the lapse of silence timeout time "t s" from the later of the system output end an interactive session timeout period.
  • the information processing system 1 executes processing such as voice recognition.
  • the information processing system 1 recognizes (estimates) that the Int that indicates the utterance intention of the user U1 is "Read Out”.
  • the information processing system 1 outputs a message of Mr. XX to the user U1 by voice according to the result of voice recognition.
  • the information processing system 1 outputs a voice message of Mr. XX to the user U1 asking "Can you come here right now?".
  • the information processing system 1 makes an utterance "Do you want to reply?”.
  • the information processing system 1 interacts with the user in response to the user's response and provides a service in response to the user's request.
  • the user's respiratory state is calm and the degree of roughness "H b " is less than the specified threshold value "H th ", or the respiratory state vector "H v " is in the normal range "H v”. If it falls within R N "is detected, it resumes the voice interactive session from the state of interaction are retained. As a result, the information processing system 1 can notify the user after the user has become calm, so that the service can be appropriately provided.
  • the information processing system 1 processes as follows.
  • the instantaneous breathing speed "v b " becomes less than or equal to the specified value "v s " (threshold value "v s ”) (correlates with "surprise / force” that makes the breath shallower), so that the information processing system 1, a silent time-out period "t r", the "t s", to extend until it returns to the (speed "v b" is the prescribed value "v s" greater than the value.
  • the information processing system 1 processes as follows. To become a respiratory state vector "H v" depth "d b" normal range due "R N" outer (correlated with breath becomes shallow “concentration / tension"), the information processing system 1, the silence timeout " t r ", is extended in accordance with the" t s "a voice utterance degree of influence" E u ". If there is no utterance of the user be extended silence timeout time "t s" Up to this point, assuming that there is no dialogue intention of the user of the system, the information processing system 1, time-out voice interactive session ends.
  • the information processing system 1 Suspends the voice dialogue session.
  • the information processing system 1 resumes the voice dialogue session when the respiratory state vector "H v " falls within the normal range " RN".
  • the information processing system 1 processes as follows.
  • the utterance to the subject to whom the attention has been taken becomes an OOD utterance, and the information processing system 1 interrupts the interruption of the dialogue session.
  • the information processing system 1 resumes speech dialogue session to wait until breathing state vector "H v" is within the normal range "R N" (attention returns to interact with the system).
  • the information processing system 1 sets the voice utterance influence degree "E u ".
  • the speed of system utterance by TTS Text-To-Speech
  • the volume may be increased, or the pitch may be increased.
  • the information processing system 1 slows down the speed of system utterance by presuming that not only the user speaks but also the cognitive ability to hear and understand is reduced.
  • the utterance mode on the system side is changed by increasing the volume or increasing the pitch.
  • the information processing system 1 includes a set of breathing state vector when the dialogue is established smoothly "H v" (normal range in the label), the silence timeout time “t r", timeouts and OOD speech "t s"
  • the set (label outside the normal range) of the respiratory state vector "H v" at the time of occurrence is stored as learning information.
  • the server device 100A stores the learning information in the storage unit 120. Then, the information processing system 1, by using the learning information, may perform the normal range "R N" determination of the respiratory state vector and class identified by the machine learning "H v".
  • the normal breathing origin "O N" (d 0, f 0, v 0)
  • the information processing system 1 the likelihood of the normal range "R N" ness by the class identified in the values of the neighboring initial value may be updated with the value becomes the maximum.
  • the information processing system 1 the peripheral depth of the initial value “d b", the frequency "f b", waving value of velocity “v b" (set), the class identification generated by the machine learning subjected to machine, the normal range “R N” ness depth “d b” which likelihood is the largest, the frequency "f b", and update the normal breathing origin "O N" in combination velocity "v b" May be good.
  • the information processing system 1 includes a specific phrase P that has become an OOD utterance (the phrase itself is acquired by utterance after the respiratory state vector “H v ” is within the normal range “ RN ”) and respiration at this time.
  • the state vector "H bp " is associated and stored.
  • the server device 100A stores the information in which the specific phrase P and the respiratory state vector “H bp ” are associated with each other in the storage unit 120.
  • the information processing system 1 describes a case where the information processing system 1 gives a system notification in which the user is likely to respond and utter with the stored specific phrase P.
  • the information processing system 1 stores the voice utterance influence degree "E u " calculated from the current respiratory state vector "H v " in association with the specific phrase P, and the respiratory state vector "H vp ".
  • the notification itself may be waited (delayed) until the respiratory state vector “H v ” is within the normal range “ RN”.
  • the information processing system 1, the silence timeout time "t r" may be further extended than when previous OOD utterance "t s".
  • the information processing system 1 can perform dialogue control optimized and adapted to the individual user (difference in the effect of breathing on utterance) so that the user uses the system including the device and the like. It will be possible. As a result, the information processing system 1 can absorb the difference in the influence of respiration on utterance due to the individual's vital capacity and the like by personalized learning.
  • the information processing system 1 processes as follows.
  • an image display device for a user is mounted like a terminal device 10 having a display unit 16
  • the information processing system 1 processes as follows.
  • the information processing system 1 displays roughness degree of breathing "H b", or respiratory state vector "H v" speech utterance degree of influence Karakara calculated the "E u” in the indicator.
  • the information processing system 1, the silence timeout period "t r” may be fed back to the user of the system behavior reason for the suspension and resumption of the extension and dialogue of "t s".
  • the information processing system 1, the silence timeout period "t r” may be presented by the "t s" time countdown display and indicators before timeout.
  • the information processing system 1 processes as follows.
  • the information processing system 1 extended to silence timeout time "t s" times out stores the notification when the voice interactive session has been completed, re-notification from getting to normal breathing May be done. Further, when the voice utterance influence degree " Eu " is higher than the specified value, the information processing system 1 may modify the system utterance so that the user can respond with a simple utterance such as Yes or No.
  • the information processing system 1 processes as follows. For example, when the terminal device 10 used by the user has a line-of-sight detection function, the information processing system 1 processes as follows. In this case, the information processing system 1, when the user of the line-of-sight detection have not seen the speech dialogue equipment, silent time-out period "t r", may be extended to "t s".
  • the terminal device 10 may perform the voice dialogue control process and the like. That is, the terminal device 10 which is a device on the client side may be an information processing device that performs the above-mentioned voice dialogue control processing.
  • the system configuration of the information processing system 1 is not limited to the configuration in which the server devices 100 and 100A, which are the devices on the server side, perform the processing of voice dialogue control, and the terminal device 10 which is the device on the client side is the voice described above. It may be configured to perform dialogue control processing.
  • the information processing system 1 performs the voice dialogue control processing on the client side (terminal device 10). Then, the server side (server devices 100, 100A) acquires various information from the terminal device 10 and performs various processes.
  • the execution unit 152 of the terminal device 10 may have the same function as the execution unit 134 of the server devices 100 and 100A.
  • the terminal device 10 may have a calculation unit that realizes the same function as the calculation unit 132 described above, and a determination unit that realizes the same function as the determination unit 133. Further, in this case, the server devices 100 and 100A do not have to have the calculation units 132 and 132A and the determination units 133 and 133A.
  • the information processing system 1 performs a calculation of the roughness degree of a scalar value on the client side (terminal apparatus 10) "H b” and a vector respiratory state vector "H v", calculated roughness degree "H b” And the processing of voice dialogue control using the information of the degree of roughness "H b " and the respiratory state vector "H v " on the server side (server devices 100, 100A) that received the information of the respiratory state vector "H v" from the client side. It may be a system configuration that performs the above.
  • the terminal device 10 which is a device on the client side is an information processing device that calculates the roughness degree “H b ” and the respiratory state vector “H v ” described above, and the server device 100 which is a device on the server side.
  • the 100A may be an information processing device that performs a voice dialogue control process using the above-mentioned roughness degree “H b ” and the respiratory state vector “H v”.
  • the calculation unit of the terminal device 10 performs the calculation process
  • the execution unit 134 of the server devices 100 and 100A performs the voice dialogue control process.
  • the information processing system 1 may have a system configuration in which either the client-side device (terminal device 10) or the server-side device (server devices 100, 100A) performs each process.
  • server devices 100 and 100A and the terminal device 10 are separate bodies, but these devices may be integrated. Further, the server device (information processing device) may perform processing such as voice dialogue control using both the degree of roughness “H b ” and the respiratory state vector “H v”. In this case, the server device may be an information winning device having the functions of both the server device 100 and the server device 100A.
  • each component of each device shown in the figure is a functional concept, and does not necessarily have to be physically configured as shown in the figure. That is, the specific form of distribution / integration of each device is not limited to the one shown in the figure, and all or part of the device is functionally or physically distributed / physically in arbitrary units according to various loads and usage conditions. Can be integrated and configured.
  • the information processing device (server devices 100, 100A in the embodiment) according to the present disclosure includes an acquisition unit (acquisition unit 131 in the embodiment) and an execution unit (execution unit 134 in the embodiment).
  • the acquisition unit acquires the first utterance information indicating the first utterance by the user, the second utterance information indicating the second utterance by the user after the first utterance, and the breathing information regarding the user's breathing.
  • the execution unit executes a process of connecting the first utterance and the second utterance by executing the voice dialogue control according to the user's breathing state based on the breathing information acquired by the acquisition unit.
  • the information processing apparatus executes a process of connecting the first utterance and the second utterance after the first utterance by executing the voice dialogue control according to the breathing state of the user. With, it is possible to concatenate the user's intermittent utterances. Therefore, the information processing device can appropriately connect a plurality of utterances of the user.
  • the information processing device (server device 100 in the embodiment) according to the present disclosure includes a calculation unit (calculation unit 132 in the embodiment).
  • the calculation unit calculates an index value indicating the user's respiratory state using the respiratory information.
  • the execution unit executes a process of connecting the first utterance and the second utterance by executing the voice dialogue control.
  • the information processing device calculates an index value indicating the respiratory state of the user, and when the calculated index value satisfies the condition, the process of connecting the first utterance and the second utterance by executing the voice dialogue control. By executing, it is possible to appropriately connect multiple utterances of the user.
  • the execution unit executes the process of connecting the first utterance and the second utterance by executing the voice dialogue control.
  • the information processing device executes the process of connecting the first utterance and the second utterance by executing the voice dialogue control, thereby causing the user to execute the process.
  • Multiple utterances can be appropriately linked.
  • the information processing device (server device 100A in the embodiment) according to the present disclosure includes a calculation unit (calculation unit 132A in the embodiment).
  • the calculation unit calculates a vector indicating the user's respiratory state using the respiratory information.
  • the execution unit executes a process of connecting the first utterance and the second utterance by executing the voice dialogue control.
  • the information processing device calculates a vector indicating the respiratory state of the user, and when the calculated vector satisfies the condition, executes a process of connecting the first utterance and the second utterance by executing the voice dialogue control. By doing so, it is possible to appropriately connect multiple utterances of the user.
  • the execution unit executes a process of connecting the first utterance and the second utterance by executing the voice dialogue control.
  • the information processing device appropriately executes a plurality of utterances of the user by executing a process of connecting the first utterance and the second utterance by executing the voice dialogue control. Can be connected to.
  • the execution unit executes a process of connecting the first utterance and the second utterance by executing the voice dialogue control that extends the timeout time related to the voice dialogue.
  • the information processing device extends the time-out time related to the voice dialogue, so that even if the user's utterance is interrupted for a long time due to lack of breath due to exercise or the like, the information processing device appropriately speaks. Can be concatenated. Therefore, the information processing device can appropriately connect a plurality of utterances of the user.
  • the execution unit executes a process of connecting the first utterance and the second utterance by executing the voice dialogue control for extending the timeout time used for the voice recognition end call determination.
  • the information processing device extends the time-out time used for the voice recognition end-of-speech determination, so that even if the user's utterance is interrupted for a long time, such as when the user is out of breath due to exercise or the like. , Since the time for determining the end of voice recognition is extended, the utterances can be connected appropriately. Therefore, the information processing device can appropriately connect a plurality of utterances of the user.
  • the execution unit executes the voice dialogue control that extends the timeout time to the extended timeout time, so that the second utterance information and the first utterance indicating the second utterance by the user before the extended timeout time elapses from the first utterance. Executes the process of concatenating.
  • the information processing device can connect the first utterance and the second utterance made after the first utterance and before the extended time-out time elapses by extending the time-out time related to the voice dialogue. .. Therefore, the information processing device can appropriately connect a plurality of utterances of the user.
  • the execution unit executes voice dialogue control for connecting the first utterance and the second utterance according to the meaning understanding processing result of the first utterance.
  • the process of connecting the first utterance and the second utterance is executed.
  • the information processing apparatus is appropriate by connecting the first utterance and the second utterance according to the meaning understanding processing result of the first utterance. Utterances can be linked to. Therefore, the information processing device can appropriately connect a plurality of user's utterances, and can increase the possibility of making uninterpretable utterances interpretable.
  • the execution unit executes the first utterance in which the meaning understanding processing result is uninterpretable and the second utterance in which the meaning understanding processing result is uninterpretable by executing the voice dialogue control to perform the first utterance and the second utterance. Executes the process of concatenating with.
  • the information processing apparatus can appropriately connect the utterances by connecting the first utterance and the second utterance when the uninterpretable utterances are continuous. Therefore, the information processing device can appropriately connect a plurality of user's utterances, and can increase the possibility of making uninterpretable utterances interpretable.
  • the acquisition unit acquires the third utterance information indicating the third utterance by the user after the second utterance.
  • the execution unit executes a process of connecting the second utterance and the third utterance.
  • the information processing device can appropriately connect the utterances by executing the process of connecting the second utterance and the third utterance. can. Therefore, the information processing device can appropriately connect a plurality of user's utterances, and can increase the possibility of making uninterpretable utterances interpretable.
  • the execution unit determines the first utterance.
  • the voice dialogue control that connects the second utterance
  • the process of connecting the first utterance and the second utterance is executed.
  • the information processing device connects the first utterance and the second utterance when the last component of the first utterance and the first component of the second utterance satisfy the condition regarding co-occurrence. It is possible to appropriately connect utterances that are likely to be continuous in content. Therefore, the information processing device can appropriately connect a plurality of utterances of the user.
  • the execution unit executes the voice dialogue control that connects the first utterance and the second utterance to perform the first utterance.
  • the process of connecting the second utterance and the second utterance is executed.
  • the information processing device executes voice dialogue control that connects the first utterance and the second utterance.
  • the execution unit controls the voice dialogue to connect the first utterance and the second utterance.
  • the process of connecting the first utterance and the second utterance is executed.
  • the information processing device can appropriately connect the utterances by using the utterance history of the user in consideration of the tendency of the user's utterance. Therefore, the information processing device can appropriately connect a plurality of utterances of the user.
  • the acquisition unit acquires the third utterance information indicating the third utterance by the user after the second utterance.
  • the execution unit concatenates the second and third utterances when the last uttered component of the second utterance and the first uttered component of the third utterance satisfy the conditions for co-occurrence. Execute the process to be performed.
  • the information processing device performs a process of connecting the second utterance and the third utterance when the last component of the second utterance and the first component of the third utterance satisfy the condition regarding co-occurrence. By executing it, the utterances can be connected appropriately. Therefore, the information processing device can appropriately connect a plurality of utterances of the user.
  • the acquisition unit acquires respiration information including the displacement amount of the user's respiration.
  • the information processing device can more accurately take into account the user's respiratory state and make it possible to connect a plurality of user's utterances by using the displacement amount of the user's breathing.
  • the acquisition unit acquires respiratory information including the user's respiratory cycle.
  • the information processing device can more accurately take into account the user's respiratory state and make it possible to connect a plurality of user's utterances by using the user's respiratory cycle.
  • the acquisition unit acquires respiration information including the respiration rate of the user.
  • the information processing device can more accurately take into account the user's respiratory state and make it possible to connect a plurality of user's utterances by using the user's respiratory speed.
  • the execution unit does not execute voice dialogue control when the user's breathing state is in the normal state.
  • the information processing device does not execute voice dialogue control when the user's breathing state is in the normal state, and performs normal voice recognition processing when the user's breathing is normal, thereby performing voice. It is possible to suppress the influence of dialogue control on the processing in the normal state. Therefore, the information processing device can appropriately connect a plurality of utterances of the user.
  • FIG. 24 is a hardware configuration diagram showing an example of a computer 1000 that realizes the functions of the information processing device.
  • the computer 1000 includes a CPU 1100, a RAM 1200, a ROM (Read Only Memory) 1300, an HDD (Hard Disk Drive) 1400, a communication interface 1500, and an input / output interface 1600. Each part of the computer 1000 is connected by a bus 1050.
  • the CPU 1100 operates based on the program stored in the ROM 1300 or the HDD 1400, and controls each part. For example, the CPU 1100 expands the program stored in the ROM 1300 or the HDD 1400 into the RAM 1200 and executes processing corresponding to various programs.
  • the ROM 1300 stores a boot program such as a BIOS (Basic Input Output System) executed by the CPU 1100 when the computer 1000 is started, a program that depends on the hardware of the computer 1000, and the like.
  • BIOS Basic Input Output System
  • the HDD 1400 is a computer-readable recording medium that non-temporarily records a program executed by the CPU 1100 and data used by the program.
  • the HDD 1400 is a recording medium for recording an information processing program according to the present disclosure, which is an example of program data 1450.
  • the communication interface 1500 is an interface for the computer 1000 to connect to an external network 1550 (for example, the Internet).
  • the CPU 1100 receives data from another device or transmits data generated by the CPU 1100 to another device via the communication interface 1500.
  • the input / output interface 1600 is an interface for connecting the input / output device 1650 and the computer 1000.
  • the CPU 1100 receives data from an input device such as a keyboard or mouse via the input / output interface 1600. Further, the CPU 1100 transmits data to an output device such as a display, a speaker, or a printer via the input / output interface 1600. Further, the input / output interface 1600 may function as a media interface for reading a program or the like recorded on a predetermined recording medium (media).
  • the media is, for example, an optical recording medium such as a DVD (Digital Versatile Disc) or PD (Phase change rewritable Disk), a magneto-optical recording medium such as an MO (Magneto-Optical disk), a tape medium, a magnetic recording medium, or a semiconductor memory.
  • an optical recording medium such as a DVD (Digital Versatile Disc) or PD (Phase change rewritable Disk)
  • a magneto-optical recording medium such as an MO (Magneto-Optical disk)
  • a tape medium such as a magnetic tape
  • magnetic recording medium such as a magnetic tape
  • semiconductor memory for example, an optical recording medium such as a DVD (Digital Versatile Disc) or PD (Phase change rewritable Disk), a magneto-optical recording medium such as an MO (Magneto-Optical disk), a tape medium, a magnetic recording medium, or a semiconductor memory.
  • the CPU 1100 of the computer 1000 realizes the functions of the control unit 130 and the like by executing the information processing program loaded on the RAM 1200. .. Further, the information processing program according to the present disclosure and the data in the storage unit 120 are stored in the HDD 1400.
  • the CPU 1100 reads the program data 1450 from the HDD 1400 and executes the program, but as another example, these programs may be acquired from another device via the external network 1550.
  • the present technology can also have the following configurations.
  • An acquisition unit that acquires first utterance information indicating the first utterance by the user, second utterance information indicating the second utterance by the user after the first utterance, and breathing information regarding the user's breathing.
  • An execution unit that executes a process of connecting the first utterance and the second utterance by executing voice dialogue control according to the breathing state of the user based on the breathing information acquired by the acquisition unit.
  • Information processing device equipped with (2)
  • a calculation unit that calculates an index value indicating the respiratory state of the user using the respiratory information. With more The execution unit When the index value satisfies the condition, the process of connecting the first utterance and the second utterance is executed by executing the voice dialogue control.
  • the information processing device (1). (3) The execution unit When the comparison result between the index value and the threshold value satisfies the condition, the process of connecting the first utterance and the second utterance is executed by executing the voice dialogue control. The information processing device according to (2). (4) A calculation unit that calculates a vector indicating the respiratory state of the user using the respiratory information. With more The execution unit When the vector satisfies the condition, the process of connecting the first utterance and the second utterance is executed by executing the voice dialogue control. The information processing device according to (1). (5) The execution unit When the vector is out of the normal range, the process of connecting the first utterance and the second utterance is executed by executing the voice dialogue control. The information processing device according to (4).
  • the execution unit By executing the voice dialogue control for extending the timeout time related to the voice dialogue, a process of connecting the first utterance and the second utterance is executed.
  • the information processing device according to any one of (1) to (5).
  • the execution unit By executing the voice dialogue control for extending the time-out time used for the voice recognition end-of-speech determination, a process of connecting the first utterance and the second utterance is executed.
  • the information processing device according to (6).
  • the execution unit By executing the voice dialogue control that extends the timeout time to the extended timeout time, the second utterance information indicating the second utterance by the user and the first utterance before the extended timeout time elapses from the first utterance.
  • the execution unit When the meaning understanding processing result of the second utterance is uninterpretable, the voice dialogue control for connecting the first utterance and the second utterance according to the meaning understanding processing result of the first utterance is executed. Execute the process of connecting the first utterance and the second utterance, The information processing device according to any one of (1) to (8). (10) The execution unit By executing the voice dialogue control that connects the first utterance whose meaning understanding processing result is uninterpretable and the second utterance whose meaning understanding processing result is uninterpretable, the first utterance and the second utterance are obtained. Execute the process of concatenating The information processing device according to (9).
  • the acquisition unit Acquire the third utterance information indicating the third utterance by the user after the second utterance, and obtain the third utterance information.
  • the execution unit When the meaning understanding processing result of the third utterance is uninterpretable, the process of connecting the second utterance and the third utterance is executed.
  • the information processing device according to (9) or (10).
  • (12) The execution unit When the first component uttered last in the first utterance and the second component uttered first in the second utterance satisfy the conditions for co-occurrence, the first utterance and the second utterance By executing the voice dialogue control that connects the utterances, a process of connecting the first utterance and the second utterance is executed.
  • the information processing device according to any one of (1) to (11).
  • the execution unit When the probability that the second component appears next to the first component is equal to or greater than a specified value, the first utterance is executed by executing the voice dialogue control that connects the first utterance and the second utterance. Executes the process of connecting the second utterance and the second utterance.
  • the information processing device (12).
  • the execution unit When the probability that the second component appears next to the first component in the user's utterance history is equal to or greater than a specified value, the voice dialogue control for connecting the first utterance and the second utterance By executing, the process of connecting the first utterance and the second utterance is executed.
  • the information processing apparatus according to (12) or (13).
  • the acquisition unit Acquire the third utterance information indicating the third utterance by the user after the second utterance, and obtain the third utterance information.
  • the execution unit When the last uttered component of the second utterance and the first uttered component of the third utterance satisfy the conditions for co-occurrence, the second utterance and the third utterance are concatenated. Execute the process to The information processing device according to any one of (12) to (14).
  • the acquisition unit Acquires the respiration information including the displacement amount of the respiration of the user.
  • the acquisition unit Acquires the respiration information including the respiration cycle of the user.
  • the acquisition unit Acquires the respiration information including the respiration rate of the user.
  • the information processing device according to any one of (1) to (17).
  • the execution unit When the user's respiratory state is the normal state, the voice dialogue control is not executed.
  • the information processing device according to any one of (1) to (18).
  • (20) The first utterance information indicating the first utterance by the user, the second utterance information indicating the second utterance by the user after the first utterance, and the breathing information regarding the breathing of the user are acquired.
  • voice dialogue control according to the breathing state of the user based on the acquired breathing information, a process of connecting the first utterance and the second utterance is executed.
  • An information processing method that executes processing.
  • Information processing system 100 100A Server device (information processing device) 110 Communication unit 120, 120A Storage unit 121 Respiratory information storage unit 122 User information storage unit 123 Threshold information storage unit 123A Judgment information storage unit 124 Function information storage unit 130, 130A Control unit 131 Acquisition unit 132, 132A Calculation unit 133, 133A Decision unit 134 Execution unit 135 Transmission unit 10 Terminal device 11 Communication unit 12 Input unit 13 Output unit 14 Storage unit 15 Control unit 151 Reception unit 152 Execution unit 153 Reception unit 154 Transmission unit 16 Display unit 17 Sensor unit 171 Breath sensor

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Machine Translation (AREA)

Abstract

ユーザの複数の発話を適切に連結可能にする。本開示に係る情報処理装置は、ユーザによる第1発話を示す第1発話情報と、前記第1発話より後の前記ユーザによる第2発話を示す第2発話情報と、前記ユーザの呼吸に関する呼吸情報とを取得する取得部(131)と、前記取得部により取得された前記呼吸情報に基づく前記ユーザの呼吸状態に応じた音声対話制御の実行により、前記第1発話と前記第2発話とを連結する処理を実行する実行部(134)と、を備える。

Description

情報処理装置及び情報処理方法
 本開示は、情報処理装置及び情報処理方法に関する。
 近年、ユーザと音声によるコミュニケーション(対話)を行う音声対話システムの技術が提供されている。例えば、音声対話システムにおいて発話タイミングを決定する技術が知られている(例えば特許文献1)。
特開2017-211596号公報
 従来技術によれば、ユーザの呼吸が呼気から吸気に変わるタイミングに基づいて音声対話システムの発話タイミングを決定する。
 しかしながら、従来技術では、ユーザの複数の発話を適切に連結可能にすることができるとは限らない。従来技術では、ユーザにシステム側が発話するタイミングを決定しているに過ぎず、例えば、ユーザの発話がユーザの呼吸の乱れなどにより、途切れ途切れに間欠して行われ場合などに、ユーザの発話の内容を正しく認識することができない場合がある。そのため、ユーザの複数の発話を適切に連結可能にすることが望まれている。
 そこで、本開示では、ユーザの複数の発話を適切に連結可能にすることができる情報処理装置及び情報処理方法を提案する。
 上記の課題を解決するために、本開示に係る一形態の情報処理装置は、ユーザによる第1発話を示す第1発話情報と、前記第1発話より後の前記ユーザによる第2発話を示す第2発話情報と、前記ユーザの呼吸に関する呼吸情報とを取得する取得部と、前記取得部により取得された前記呼吸情報に基づく前記ユーザの呼吸状態に応じた音声対話制御の実行により、前記第1発話と前記第2発話とを連結する処理を実行する実行部と、を備える。
本開示の第1の実施形態に係る情報処理の一例を示す図である。 本開示の第1の実施形態に係る情報処理システムの構成例を示す図である。 本開示の第1の実施形態に係るサーバ装置の構成例を示す図である。 本開示の第1の実施形態に係る閾値情報記憶部の一例を示す図である。 本開示の第1の実施形態に係る端末装置の構成例を示す図である。 本開示の第1の実施形態に係る情報処理装置の処理手順を示すフローチャートである。 本開示の第1の実施形態に係る情報処理システムの処理手順を示すシーケンス図である。 本開示の第1の実施形態に係る情報処理システムの処理を示すフローチャートである。 本開示の第1の実施形態に係る情報処理システムの処理を示すフローチャートである。 本開示の第2の実施形態に係る情報処理の一例を示す図である。 本開示の第2の実施形態に係るサーバ装置の構成例を示す図である。 本開示の第2の実施形態に係る判定用情報記憶部の一例を示す図である。 本開示の第2の実施形態に係る情報処理システムの処理を示すフローチャートである。 本開示の第2の実施形態に係る情報処理システムの処理を示すフローチャートである。 本開示の第2の実施形態に係る情報処理システムの処理を示すフローチャートである。 呼吸状態と音声対話制御との関係の一例を示す図である。 情報処理システムの機能的な構成例を示す図である。 呼吸状態ベクトル検出における観測対象時間の一例を示す図である。 呼吸状態ベクトル検出における観測値の一例を示す図である。 ロングスパン時間観測要素による正常範囲の一例を示す図である。 呼吸状態ベクトルの各要素とユーザの呼吸状態との関係の一例を示す図である。 呼吸状態ベクトルの各要素とユーザの呼吸状態との関係の一例を示す図である。 呼吸状態ベクトルの各要素とユーザの呼吸状態との関係の一例を示す図である。 呼吸状態ベクトルの各要素とユーザの呼吸状態との関係の一例を示す図である。 呼吸状態ベクトルの各要素とユーザの呼吸状態との関係の一例を示す図である。 呼吸状態ベクトルの各要素とユーザの呼吸状態との関係の一例を示す図である。 呼吸状態ベクトルの各要素とユーザの呼吸状態との関係の一例を示す図である。 呼吸状態ベクトルの各要素とユーザの呼吸状態との関係の一例を示す図である。 呼吸状態ベクトルの各要素とユーザの呼吸状態との関係の一例を示す図である。 平常時の処理の一例を示す図である。 運動時の処理の一例を示す図である。 運動時の処理の一例を示す図である。 運動時から平常時に戻った後の処理の一例を示す図である。 情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
 以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、この実施形態により本願にかかる情報処理装置及び情報処理方法が限定されるものではない。また、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
 以下に示す項目順序に従って本開示を説明する。
  1.第1の実施形態
   1-1.本開示の第1の実施形態に係る情報処理の概要
    1-1-1.背景及び効果等
    1-1-2.センサ例
     1-1-2-1.接触型
     1-1-2-2.非接触型
    1-1-3.発話への影響を加味した処理例
     1-1-3-1.音声発話影響度
    1-1-4.音声対話制御例
     1-1-4-1.OOD発話の連結
     1-1-4-2.共起関係に基づく発話連結
   1-2.第1の実施形態に係る情報処理システムの構成
   1-3.第1の実施形態に係る情報処理装置の構成
   1-4.第1の実施形態に係る端末装置の構成
   1-5.第1の実施形態に係る情報処理の手順
    1-5-1.情報処理装置に係る処理の手順
    1-5-2.情報処理システムに係る処理の手順
    1-5-3.情報処理システムに係る処理の具体例
  2.第2の実施形態
   2-1.第2の実施形態に係る情報処理の概要
    2-1-1.発話への影響を加味した処理例
     2-1-1-1.音声発話影響度
   2-2.第2の実施形態に係る情報処理装置の構成
   2-3.第2の実施形態に係る情報処理の手順
    2-3-1.効果等
   2-4.呼吸状態と音声対話制御との関係例
  3.情報処理システムの構成及び処理
   3-1.情報処理システムの機能的な構成例
   3-2.呼吸状態ベクトル関連
    3-2-1.呼吸状態ベクトル検出における観測対象時間の例
    3-2-2.呼吸状態ベクトル検出における観測値の例
    3-2-3.ロングスパン時間観測要素による正常範囲の例
    3-2-4.呼吸状態ベクトルの各要素とユーザの呼吸状態との関係の例
     3-2-4-1.速さとの関係の一例
     3-2-4-2.周波数との関係の一例
     3-2-4-3.深さとの関係の一例合
   3-3.処理例その1
    3-3-1.平常時の処理例
    3-3-2.運動時の処理例
   3-4.処理例その2
    3-4-1.運動時の処理例
    3-4-2.落ち着いてからの処理例
  4.その他の実施形態
   4-1.変形例
    4-1-1.ユーザのアテンションが他に取られた場合の例
    4-1-2.システム発話への応用例
    4-1-3.個人化学習による変形例
    4-1-4.その他の変形例
   4-2.クライアント側で音声対話制御の処理等を行う構成例
   4-3.その他の構成例
   4-4.その他
  5.本開示に係る効果
  6.ハードウェア構成
[1.第1の実施形態]
[1-1.本開示の第1の実施形態に係る情報処理の概要]
 図1は、本開示の第1の実施形態に係る情報処理の一例を示す図である。本開示の第1の実施形態に係る情報処理は、サーバ装置100(図3参照)や端末装置10(図5参照)を含む情報処理システム1(図2参照)によって実現される。
 サーバ装置100は、第1の実施形態に係る情報処理を実行する情報処理装置である。図1の例では、サーバ装置100は、呼吸情報に基づくユーザの呼吸状態に応じた制御(以下「音声対話制御」ともいう)を実行する。また、図1の例では、サーバ装置100は、音声対話制御の実行により、ユーザによる第1発話を示す第1発話情報と、第1発話より後のユーザによる第2発話を示す第2発話情報とを連結する処理を実行する場合を示す。
 図1の例では、ユーザの呼吸状態を示す情報として、ユーザの呼吸の荒さ度合いを示す指標値「H」(以下、「荒さ度合い「H」」ともいう)を用いる場合を示す。荒さ度合い「H」は、ユーザの呼吸状態を示すスカラー値である。なお、ユーザの呼吸状態を示す情報は、荒さ度合い「H」に限られない。例えば、ユーザの呼吸状態を示す情報は、ユーザの呼吸状態を示すベクトル「H」(以下、「呼吸状態ベクトル「H」」ともいう)等、ユーザの呼吸状態を示す種々の情報であってもよいが、この点の詳細については後述する。
 また、第1発話及び第2発話は、相対的な概念であって、例えばユーザによる一の発話は、その一の発話の後のユーザによる発話に対しては第1発話になり、その一の発話の前のユーザによる発話に対しては第2発話になる。このように、第1発話や第2発話は、相対的な概念であって、第1発話は、自身より前の発話に対しては第2発話になる。第2発話は、自身より後の発話に対しては第1発話になる。すなわち、ここでいう第1発話や第2発話とは、あるユーザの発話の前後関係を基に発話を区別して表現可能にするための名称である。なお、以下では第1発話との関係を維持したままで第2発話を処理対象とした場合に、第2発話の後の発話を第3発話と称したり、第3発話の後の発話を第4発話と称したりする場合がある。
 また、図1では、音声対話制御の一例として、タイムアウト時間を延長する場合を示すが、音声対話制御は、タイムアウト時間の延長に限られない。例えば、音声対話制御は、OOD(Out-of-Domain)発話の連結や、共起関係に基づく発話の連結等、ユーザの複数の発話の連結に関連する種々の制御であってもよいが、この点の詳細については後述する。また、図1の例では、ユーザが利用する端末装置10の呼吸センサ171(図5参照)により検知されたセンサ情報を呼吸情報として用いる場合を示す。なお、図1の例では、ミリ波レーダを用いた呼吸センサ171によりユーザの呼吸を示す呼吸情報を検知する場合を示すが、ミリ波レーダに限らず、ユーザの呼吸情報を検知可能であれば、どのようなセンサが用いられてもよい。この点については後述する。
 以下、図1について具体的に説明する。図1に示す各処理は、情報処理システム1のサーバ装置100及び端末装置10のいずれの装置が行ってもよい。情報処理システム1が処理の主体として記載されている処理については、情報処理システム1に含まれるいずれの装置が行ってもよい。以下では、端末装置10により検知されたユーザU1の呼吸を示す呼吸情報を用いて、サーバ装置100が音声対話制御の実行により、ユーザU1による第1発話と第2発話とを連結する処理を実行する処理(連結処理)を行う場合を一例として説明する。なお、図1では、サーバ装置100が音声対話制御の処理(情報処理)を行う場合を一例として説明するが、端末装置10が決定処理(情報処理)を行ってもよい。この点については後述する。
 図1の例では、情報処理システム1は、ユーザU1の呼吸に関する呼吸情報を取得する。例えば、サーバ装置100は、ユーザU1が利用する端末装置10からユーザU1の呼吸を示す呼吸情報を取得する。サーバ装置100は、取得した呼吸情報を用いて、ユーザU1の呼吸状態を示す荒さ度合い「H」を算出する。呼吸情報には、ユーザの呼吸に関する種々の情報が含まれる。呼吸情報には、ユーザの吸気量に関する情報が含まれる。呼吸情報には、ユーザの呼吸の変位量、周期、速度等の情報が含まれる。例えば、ユーザU1の呼吸情報には、ユーザU1の呼吸の変位量、周期、速度等の情報が含まれる。
 図1の例では、サーバ装置100は、呼吸の変位量と周期により、荒さ度合い「H」を算出する。例えば、サーバ装置100は、以下の式(1)を用いてユーザU1の呼吸状態を示す荒さ度合い「H」を算出する。
Figure JPOXMLDOC01-appb-M000001
 上記の式(1)中の「V」(以下「変位量「V」」ともいう)は、直近の単位時間T(例えば10秒等)に行われた呼吸の変位量を示す。例えば、サーバ装置100は、以下の式(2)を用いて変位量「V」を算出する。
Figure JPOXMLDOC01-appb-M000002
 上記の式(2)中の「n」(以下「サンプル数「n」」ともいう)は、単位時間Tの呼吸センサのサンプル数を示す。例えば「n」は、単位時間Tにおいて呼吸センサ171により検知されたセンサ情報の数(例えば検知回数)を示す。
 また、上記の式(2)中の「S」(以下「観測値「S」」ともいう)は、呼吸センサの各サンプルの観測値を示す。例えば「S」は、呼吸センサ171により検知されたセンサ情報の観測値(例えば吸気量)を示す。
 また、上記の式(2)中の「S」(以下「平均観測値「S」」ともいう)は、直近nサンプルの呼吸センサの平均観測値を示す。例えば「S」は、呼吸センサ171により検知されたサンプル数「n」の平均観測値(例えば平均吸気量)を示す。例えば、サーバ装置100は、以下の式(3)を用いて平均観測値「S」を算出する。
Figure JPOXMLDOC01-appb-M000003
 また、上記の式(3)中の「n」や「S」は、式(2)中の「n」や「S」と同様である。
 また、上記の式(1)中の「λ」(以下「周期「λ」」ともいう)は、直近nサンプルの呼吸の周期を示す。例えば、サーバ装置100は、観測値「S」の平均観測値「S」との交点数やピーク数の逆数により周期「λ」を算出する。なお、サーバ装置100は、自己相関ピッチ検出やケプストラム分析等の種々の手法を適宜用いて、周期「λ」を算出してもよい。
 式(1)により算出される荒さ度合い「H」は、単位時間当たりの呼吸の変位量「V」が多く、回数が多い、すなわち周期「λ」が短いほど、高い値となる。例えば、荒さ度合い「H」は、深呼吸が行われている場合は低い値となる。
 なお、図1の例では、式(1)を用いる場合を示すが、サーバ装置100は、他の手法により荒さ度合い「H」を算出してもよい。例えば、サーバ装置100は、呼吸速度により、荒さ度合い「H」を算出してもよい。例えば、サーバ装置100は、呼吸速度のRMS(Root Mean Square:二乗平均平方根)により、荒さ度合い「H」を算出してもよい。この場合、サーバ装置100は、以下の式(4)を用いてユーザU1の呼吸状態を示す荒さ度合い「H」を算出してもよい。
Figure JPOXMLDOC01-appb-M000004
 上記の式(4)中の「n」は、式(2)中の「n」と同様である。上記の式(4)中の「ΔS」(以下「差分値「ΔS」」ともいう)は、呼吸センサの1サンプル前の観測値に対する差分値を示す。例えば、差分値「ΔS」は、呼吸センサ171により検知されたセンサ情報の観測値のうち、1サンプル前の観測値に対する差分値を示す。サーバ装置100は、差分値「ΔS」を、以下の式(5)を用いて算出する。
Figure JPOXMLDOC01-appb-M000005
 上記の式(5)中の「S」は、式(2)中の「S」と同様である。上記の式(5)中の「Si-1」は、例えば1サンプル前の観測値を示す。
 また、サーバ装置100は、機械学習により荒さ度合い「H」を算出してもよい。この場合、サーバ装置100は、呼吸の荒さの度合いが段階的にラベル付けされた呼吸センサの複数観測データにより機械学習を行い、回帰分析により荒さ度合い「H」を得て(算出して)もよい。
 このように、サーバ装置100は、音声対話システムにおいて、呼吸センサ171により観測される呼吸量の変位値を用いて、ユーザの呼吸状態を示す呼吸の荒さ度合いを検出(算出)する。例えば、サーバ装置100は、単位時間の呼吸の変位量や周期や速度等を算出し、これらの値から呼吸の荒さ度合い「H」を算出する。なお、上記は一例であり、サーバ装置100は、種々の情報を適宜用いて、荒さ度合い「H」を算出してもよい。
 図1の例では、サーバ装置100は、式(1)により算出した荒さ度合い「H」を用いて、音声対話制御の処理が行われる。サーバ装置100は、呼吸状態を示す呼吸の荒さ度合い「H」を用いて判定を行う。サーバ装置100は、荒さ度合い「H」が条件を満たす場合、音声対話制御を実行する。荒さ度合い「H」は呼吸が荒いほど大きな値をとるスカラー値であり、荒さ度合い「H」が大きい程、息が切れて音声による発話を思い通りに行う事が困難になる可能性が高い。荒さ度合い「H」が大きい程、発話を行うべきタイミングでなかなか開始できなかったり、発話が途中で途切れてしまったりする可能性が高い。そこで、サーバ装置100は、呼吸の荒さ度合いの閾値(以下、「規定閾値「Hth」」ともいう)を用いる。サーバ装置100は、荒さ度合い「H」と閾値(規定閾値「Hth」)との比較結果が条件を満たす場合、音声対話制御を実行する。ここで荒さ度合い「H」は呼吸が荒いほど大きな値をとるスカラー値である。そのため、サーバ装置100は、荒さ度合い「H」が規定閾値「Hth」以上になった場合に音声対話制御を実行する。なお、サーバ装置100は、荒さ度合い「H」が規定閾値「Hth」よりも大きくなった場合に音声対話制御を実行してもよい。上記の点を前提として、以下図1の例について具体的に説明する。
 図1の例では、音声対話制御を実行しなかった場合の処理を示した後、音声対話制御を実行した場合の処理を示す。まず、状態情報ST1に示すように、時間t10にはユーザU1の呼吸状態が平常状態である場合を示す。例えば、サーバ装置100は、時間t10におけるユーザU1の呼吸情報を取得し、呼吸情報と式(1)とを用いて、荒さ度合い「H」を算出する。そして、サーバ装置100は、算出した荒さ度合い「H」を規定閾値「Hth」と比較する。荒さ度合い「H」が規定閾値「Hth」より小さいため、サーバ装置100は、時間t10におけるユーザU1の呼吸状態を平常であると判定する。
 なお、図1の例では、時間t10から時間t12までの間はユーザU1の呼吸状態を平常であると判定された場合を示す。そのため、時間t10から時間t12までの間は音声対話制御を実行されず、タイムアウト時間の一例である音声認識終話判定の無音タイムアウト時間「t」の延長が行われていない場合を示す。このように、以下では「t」は、音声認識終話判定の無音タイムアウト時間を示す。以下、音声認識終話判定の無音タイムアウト時間「t」を「音声認識タイムアウト時間「t」」や「無音タイムアウト時間「t」」等と記載する場合がある。図1の例では、延長が行われていない音声認識タイムアウト時間「t」の長さが時間長TL1である場合を示す。また、タイムアウト時間には他にも、音声対話セッション終了の無音タイムアウト時間「t」等があるがこの点については後述する。このように、以下では「t」は、音声対話セッション終了の無音タイムアウト時間を示す。以下、音声対話セッション終了の無音タイムアウト時間「t」を、「セッションタイムアウト時間「t」」や無音タイムアウト時間「t」等と記載する場合がある。
 ユーザU1は、時間t11に「音楽かけて」という発話UT1を行う。音声認識タイムアウト時間「t」が経過した後、音声認識等の処理が実行される。例えば、情報処理システム1は、自然言語理解(NLU:Natural language understanding)により、ユーザの発話UT1からユーザの発話UT1の意図(Intent)や発話UT1の属性情報(Entity)の情報を生成する。なお、情報処理システム1は、ユーザの発話からその意図(Intent)や属性情報(Entity)の情報が獲得できれば、どのような自然言語理解に関する技術を用いてもよい。図1の例では、「音楽かけて」という発話UT1はユーザU1の意図を解釈可能な発話であるため、情報処理システム1は、発話UT1に対応する機能を実行する。例えば、情報処理システム1は、ユーザU1の端末装置10に音楽を再生させる。
 次に、状態情報ST2に示すように、時間t12にはユーザU1の呼吸状態が平常以外(以下「非平常」ともいう)の状態である場合を示す。例えば、サーバ装置100は、時間t12におけるユーザU1の呼吸情報を取得し、呼吸情報と式(1)とを用いて、荒さ度合い「H」を算出する。そして、サーバ装置100は、算出した荒さ度合い「H」を規定閾値「Hth」と比較する。荒さ度合い「H」が規定閾値「Hth」以上であるため、サーバ装置100は、時間t12におけるユーザU1の呼吸状態を非平常であると判定する。すなわち、時間t12にユーザU1の呼吸状態が平常状態から非平常状態に変わった場合を示す。
 なお、図1の例では、時間t12以降はユーザU1の呼吸状態を非平常であると判定された場合を示す。具体的には、時間t12以降はユーザU1が運動を行っており、息が切れている状態となり、呼吸状態を非平常であると判定された場合を示す。そのため、時間t12以降は音声対話制御を実行され、音声認識タイムアウト時間「t」が延長される。例えば、サーバ装置100は、音声対話制御を実行され、音声認識タイムアウト時間「t」を延長する。図1の例では、サーバ装置100は、音声認識タイムアウト時間「t」の長さを時間長TL1から時間長TL2に延長する。例えば、サーバ装置100は、音声認識タイムアウト時間「t」の長さを所定の長さだけ延長してもよいし、発話への影響を加味して延長する時間を変動させてもよい。例えば、サーバ装置100は、発話への影響度を示す音声発話影響度「E」を用いて延長する時間を決定してもよい。なお、音声発話影響度「E」を用いた時間の延長については後述する。
 図1では、時間t13の直前に情報処理システム1が「○○さんからメッセージが届きました。読み上げますか?」というシステム出力を行っているものとする。それに応じて、ユーザU1は、時間t13に「読み」という発話UT11を行う。そして、ユーザU1は、時間t14に「上げて」という発話UT12を行う。この場合、「読み」という発話UT11が第1発話に対応し、「上げて」という発話UT12が第2発話に対応する。
 ここで、「読み」という発話UT11が終了した時間と、「上げて」という発話UT12を開始した時間(時間t14)との間の時間長は、時間長TL1よりも長く、時間長TL2よりも短い。そのため、音声認識タイムアウト時間「t」が延長されずに、音声認識タイムアウト時間「t」が時間長TL1であった場合、「上げて」という発話UT12の前に音声認識タイムアウト時間「t」が終了する。この場合、「読み」という発話UT11のみで音声認識の処理が行われる。この場合、「読み」という発話UT11はユーザU1の意図を解釈可能な発話ではないため、情報処理システム1は、発話UT11が意図を解釈不能な発話(OOD発話)とする。このように、音声認識タイムアウト時間「t」が延長されていない場合、情報処理システム1は、ユーザU1の発話を適切に解釈することができない。
 一方、図1の例では、音声認識タイムアウト時間「t」が延長され、音声認識タイムアウト時間「t」が時間長TL2である。そのため、「読み」という発話UT11が終了した時間から音声認識タイムアウト時間「t」内に「上げて」という発話UT12が発話されているため、サーバ装置100は、発話UT11と発話UT12とを連結する。例えば、サーバ装置100は、「読み」という発話UT11と「上げて」という発話UT12とを連結し、「読み上げて」という発話UT13として音声認識等の処理を行う。
 この場合、「読み上げて」という発話UT13はユーザU1の意図を解釈可能な発話であるため、情報処理システム1は、発話UT13に対応する機能を実行する。例えば、情報処理システム1は、ユーザU1の端末装置10に○○さんからのメッセージを音声出力させる。このように、情報処理システム1は、タイムアウト時間を延長する音声対話制御の実行により、ユーザの複数の発話を適切に連結可能にすることができる。
[1-1-1.背景及び効果等]
 例えば、音声対話システムを使用する際に、ユーザが運動の最中や直後で息が切れている状態では呼吸をする事と競合して音声による発話を思い通りに行う事が困難になる。このような状況ではユーザは発話を行うべきタイミングでなかなか開始できなかったり、発話が途中で途切れてしまったりすることによりシステムに意図通りに発話が伝わらないことがある。運動中は手が使えず音声による操作が望ましいユースケースが多々あり、平常時のレスポンス性能を落とすことなく運動中においても音声対話による機器操作が可能となる手法が望まれる。
 そこで、図1の例では、情報処理システム1は、ユーザの呼吸の荒さを基にタイムアウト時間を延長する音声対話制御を実行する。これにより、情報処理システム1は、呼吸の荒さを基にタイムアウト時間を延長する音声対話制御の実行により、ユーザの複数の発話を適切に連結可能にすることができる。
 また、運動による息切れ以外で音声発話が困難になる呼吸状態の例として、緊張・ストレス・集中などにより呼吸が浅くなるケース、無呼吸や過呼吸のケース、眠気により呼吸回数が減るケース、咳やくしゃみなど呼吸器の生理現象、驚きや力みにより短期間呼吸が止まる(浅くなる)ケースがあげられる。このような場合であっても、情報処理システム1は、音声対話制御の実行により、ユーザの複数の発話を適切に連結可能にすることができるがこの点の詳細については後述する。
 また、音声対話システムでのユーザ発話の終話検出や対話セッションの終了判定は、ユーザが発話を行わない無音期間が一定時間経過することによるタイムアウト処理により行われている。息が切れている状況で発話が遅れたり途切れたりした時には、このタイムアウト処理により発話がシステムに受け付けられなくなってしまう。一方でタイムアウト時間を延ばすと息切れ時の受付時間は伸びるが平常時のシステム応答速度が遅くなってしまうため、このトレードオフを解消するための技術が必要となる。
 そこで、図1の例では、情報処理システム1は、ユーザの呼吸の荒さを基にタイムアウト時間を延長する音声対話制御を実行する。これにより、情報処理システム1は、ユーザが平常状態、すなわちタイムアウト時間を延長する必要が無い場合に、タイムアウト時間を延長することを抑制することができる。これにより、情報処理システム1は、タイムアウト時間を延ばすと息切れ時の受付時間は伸びるが平常時のシステム応答速度が遅くなってしまうというトレードオフを解消することができる。すなわち、情報処理システム1は、タイムアウト時間を延長する必要がある場合のみタイムアウト時間を延長することで、適切にタイムアウト時間の延長を行うことができる。
 また、情報処理システム1は、平常時には音声対話の自然なシステムレスポンス性能を維持しつつ、運動時など息が切れている状況においてもユーザは呼吸を我慢して無理に発話することなく音声での操作が可能となる。情報処理システム1は、特に運動しながら手を使わず音声により操作することを想定したウェアラブル機器などで効果を発することが見込まれる。情報処理システム1は、システムからユーザへの通知時の音声対話制御に上述の音声対話制御を導入することによって、システム起因で開始する音声対話がその時のユーザの呼吸状態を考慮して行われるため効果が大きい。
[1-1-2.センサ例]
 図1の例では、ユーザの呼吸を示す呼吸情報を検知する呼吸センサ171の一例としてミリ波レーダを用いた場合を説明したが、呼吸センサ171は、ミリ波レーダに限らず、ユーザの呼吸情報を検知可能であれば、どのようなセンサであってもよい。この点について以下、例示を記載する。
[1-1-2-1.接触型]
 図1の例では、ミリ波レーダを用いた呼吸センサ171、すなわち非接触型のセンサを用いた呼吸情報の検知を例として説明したが、呼吸情報の検知(取得)に用いるセンサは、非接触型に限らず接触型であってもよい。以下、接触型のセンサの例示を記載する。
 呼吸センサ171は、ウェアラブルセンサであってもよい。呼吸センサ171は、バンド式、ジャケット式、マスク式等の種々の態様の接触型のセンサが用いられてもよい。
 呼吸センサ171にバンド式のセンサが用いられる場合、情報処理システム1は、ユーザの胸や腹に巻いたバンドの伸縮から呼吸の変位量を取得する。呼吸センサ171にジャケット式のセンサが用いられる場合、情報処理システム1は、ユーザが着用するジャケット内にバンドを埋め込む。また、複数個所(方向)へのセンサを装備することにより呼吸検出の精度を向上させることができる。
 また、呼吸センサ171に加速度センサが用いられる場合、情報処理システム1は、首掛け機器やユーザの上半身に装着したスマートフォンなどのウェアラブル機器に搭載されている加速度センサにより胸部の動きを観測し、呼吸量を推定してもよい。また、呼吸センサ171にマスク式のセンサが用いられる場合、情報処理システム1は、マスクに搭載された風量センサもしくは気圧センサにより呼気及び吸気の速度を検知し、累積した変位量から深さと周期を推定する。
 また、呼吸センサ171にユーザの口まで覆うVR(Virtual Reality)ヘッドセットが用いられてもよい。この場合、ノイズ遮断マイク付きの呼吸センシングを行う呼吸センサ171により、VR使用中なので実世界での不利益は無視することができる。また、呼吸センサ171に近接マイクが用いられる場合、情報処理システム1は、近接マイクにより吐く息の音を認識して、呼気の時間変化量を認識し、呼吸の深さ・速度を推定する。例えば、情報処理システム1は、近接マイクにより吐く息がマイクにあたった時に発生するノイズの音を認識して、呼気の時間変化量を認識し、呼吸の深さ・速度を推定する。
[1-1-2-2.非接触型]
 また、非接触型のセンサもミリ波レーダに限らず、呼吸センサ171には、種々の非接触型のセンサが用いられてもよい。以下、ミリ波レーダ以外の非接触型のセンサの例示を記載する。
 呼吸センサ171は、画像センシングの手法、鼻周辺の温度からの呼吸検出の手法、近接センサ、ミリ波レーダ以外のレーダが用いられてもよい。
 呼吸センサ171に画像センシングが用いられる場合、情報処理システム1は、サーモカメラで温度の異なる呼気と吸気の時間変化量を認識し、呼吸の深さ・周期・速度を推定する。また、情報処理システム1は、寒い時に白くなる吐く息を画像センシングして呼気の時間変化量を認識し、呼吸の深さ・周期・速度を推定してもよい。
 例えば、鼻周辺の温度からの呼吸検出の手法に関しては、下記のような開示がされている。
 ・煩わしさのない呼吸センシング方法<https://shingi.jst.go.jp/past_abst/abst/p/09/919/tama2.pdf>
 例えば、近接センサを用いた呼吸検知に関しては、下記のような開示がされている。
 ・人の動きや呼吸を見守る静電容量型フィルム状近接センサ<https://www.aist.go.jp/aist_j/press_release/pr2016/pr20160125/pr20160125.html>
 例えば、レーダを用いた呼吸検知に関しては、下記のような開示がされている。
 ・心拍・呼吸検出センサー『GZS-350シリーズ』<https://www.ipros.jp/product/detail/2000348329/>
 また、図1のように、呼吸センサ171にミリ波レーダを用いる場合、情報処理システム1は、ユーザの胸部の動きをミリ波レーダの受信信号の位相差で検知し、呼吸量を推定する。例えば、端末装置10は、呼吸センサ171により検知されたセンサ情報を用いて、ユーザの胸部の動きをミリ波レーダの受信信号の位相差で検知し、呼吸量を推定することにより、ユーザの呼吸情報を生成する。そして、端末装置10は、生成したユーザの呼吸情報をサーバ装置100に送信する。
 また、サーバ装置100がユーザの呼吸情報を生成してもよい。この場合、端末装置10は、呼吸センサ171により検知されたセンサ情報をサーバ装置100に送信する。そして、センサ情報を受信したサーバ装置100が受信したセンサ情報を用いて、ユーザの胸部の動きをミリ波レーダの受信信号の位相差で検知し、呼吸量を推定することにより、ユーザの呼吸情報を生成してもよい。
 なお、上記のセンサは、呼吸情報を取得するための用いるセンサの例示に過ぎす、呼吸情報を取得可能であれば、どのようなセンサが用いられてもよい。ユーザの呼吸を示す呼吸情報を検知可能であれば、情報処理システム1は、どのようなセンサを用いて呼吸情報を検知してもよい。
 端末装置10のセンサ部17は、上述したセンサの少なくとも1つを有し、そのセンサにより呼吸情報を検知する。なお、情報処理システム1は、センサ部17のセンサにより検知されたセンサ情報を用いて呼吸情報を生成してもよい。例えば、端末装置10やサーバ装置100は、呼吸センサ171(ミリ波レーダ)により検知されたセンサ情報(点群データ)を用いて、呼吸情報を生成してもよい。この場合、端末装置10やサーバ装置100は、種々の技術を適宜用いて、呼吸センサ171(ミリ波レーダ)により検知されたセンサ情報(点群データ)から呼吸情報を生成してもよい。
[1-1-3.発話への影響を加味した処理例]
 上述したように、情報処理システム1は、発話への影響を加味して延長する時間を変動させてもよい。このように、情報処理システム1は、発話への影響度を用いた音声対話制御の処理を行ってもよい。この点について以下説明する。
 情報処理システム1は、検出した呼吸状態が発話に影響を与える状態になると、音声対話制御を行う。例えば、情報処理システム1は、呼吸の荒さ度合い「H」が規定閾値「Hth」以上になると、ユーザの呼吸状態が発話に影響を与える状態であると判断して、音声対話制御を行う。また、情報処理システム1は、後述する呼吸状態ベクトル「H」が後述する正常範囲「R」外になると、ユーザの呼吸状態が発話に影響を与える状態であると判断して、音声対話制御を行ってもよい。例えば、情報処理システム1は、呼吸の荒さ度合い「H」が規定閾値「Hth」以上になると、音声対話制御を行う。
 例えば、情報処理システム1は、ユーザ発話の意味理解結果が解釈不能時に、音声対話のセッション(音声対話セッション)を一時中断し、荒さ度合い「H」が規定閾値「Hth」以下(または未満)になるまで待ってから、音声対話セッションを再開する。このように、情報処理システム1は、ユーザ発話の意味理解処理結果がOOD(解釈不能)だった場合は対話セッションを中断し、呼吸状態が正常な音声発話を行える状態になるまで待ってから再開する。
 例えば、情報処理システム1は、荒さ度合い「H」が規定閾値「Hth」以上の状態でNLUからのIntentがOODだった場合には、音声対話セッションの状態を保存しておき一時中断する。情報処理システム1は、荒さ度合い「H」が規定閾値「Hth」より小さくなったことを検知すると保存してある音声対話セッションの状態から再開する。情報処理システム1が運動中のOOD発話としばらくして落ち着いてからの対話セッションの中断・再開する制御フローについての詳細は図23A、図23Bで説明する。
 例えば、情報処理システム1は、音声認識の終話判定や 音声対話のセッション終了判定の無音タイムアウト時間「t」、「t」を、呼吸の荒さ度合い「H」が大きくなるほど延長する。情報処理システム1は、荒さ度合い「H」が大きくなるほど、延長する時間長を長くする。
[1-1-3-1.音声発話影響度]
 例えば、情報処理システム1は、発話への影響度を示す音声発話影響度「E」を用いて延長する時間を決定してもよい。情報処理システム1は、呼吸の荒さ度合い「H」を用いて、音声発話影響度「E」を算出する。
 例えば、情報処理システム1は、音声発話影響度「E」を以下の式(6)を用いて算出する。例えば、情報処理システム1は、荒さ度合い「H」が規定閾値「Hth」以上になると発話へ影響を与える呼吸状態であると判定し、式(6)を用いて音声発話影響度「E」を算出する。
Figure JPOXMLDOC01-appb-M000006
 上記の式(6)の場合、荒さ度合い「H」の値が、音声発話影響度「E」の値として用いられる。なお、音声発話影響度「E」の算出は、式(6)に限らず、例えば、情報処理システム1は、音声発話影響度「E」を以下の式(7)を用いて算出してもよい。
Figure JPOXMLDOC01-appb-M000007
 上記の式(7)の場合、荒さ度合い「H」と規定閾値「Hth」との差分が、音声発話影響度「E」として用いられる。なお、式(6)や式(7)は一例に過ぎず、情報処理システム1は、種々の式を用いて、音声発話影響度「E」を算出してもよい。
 そして、情報処理システム1は、算出した音声発話影響度「E」を用いて、延長する時間長を決定する。例えば、情報処理システム1は、音声発話影響度「E」が大きい程延長する時間を長くして、無音タイムアウト時間「t」、「t」を延長する。例えば、情報処理システム1は、音声発話影響度「E」の値を延長する時間長として用いてもよいし、音声発話影響度「E」に所定の係数を乗算した値を延長する時間長として用いてもよい。例えば、音声発話影響度「E」に第1係数を乗算した第1値を、無音タイムアウト時間「t」を延長する時間長として用いてもよい。例えば、音声発話影響度「E」に第2係数を乗算した第2値を、無音タイムアウト時間「t」を延長する時間長として用いてもよい。
 また、情報処理システム1は、音声発話影響度「E」を入力(変数)とする所定の関数を用いて、関数が出力する値を延長する時間長として用いてもよい。例えば、音声発話影響度「E」を入力(変数)とする第1関数の出力値を、無音タイムアウト時間「t」を延長する時間長として用いてもよい。例えば、音声発話影響度「E」を入力(変数)とする第2関数の出力値を、無音タイムアウト時間「t」を延長する時間長として用いてもよい。なお、上記は一例であり、情報処理システム1は、種々の情報を適宜用いて、各タイムアウト時間を延長する長さを決定してもよい。
 このように、情報処理システム1は、音声認識終話判定の無音タイムアウト時間「t」と音声対話セッション終了の無音タイムアウト時間「t」を呼吸状態に応じて延長する。情報処理システム1は、無音タイムアウト時間「t」、「t」を音声発話影響度「E」の値が大きくなるほど長い時間延長する。例えば、情報処理システム1は、音声発話影響度「E」に比例した時間だけ無音タイムアウト時間「t」、「t」を延長する。平常時と運動時における無音タイムアウト時間「t」、「t」の制御フローの詳細は、図22A,図22Bで説明する。
[1-1-4.音声対話制御例]
 上述したように音声対話制御は、タイムアウト時間の延長に限られない。以下では、タイムアウト時間の延長以外の音声対話制御について説明する。例えば、情報処理システム1は、呼吸の荒さ度合い「H」が規定閾値「Hth」以上になると、ユーザの呼吸状態が発話に影響を与える状態であると判断して、音声対話制御を行う。また、情報処理システム1は、後述する呼吸状態ベクトル「H」が後述する正常範囲「R」外になると、ユーザの呼吸状態が発話に影響を与える状態であると判断して、音声対話制御を行ってもよい。また、情報処理システム1は、ユーザの呼吸が正常な状態では場合、音声対話制御は行わない。
[1-1-4-1.OOD発話の連結]
 例えば、音声対話制御は、OOD発話の連結であってもよい。この場合、情報処理システム1は、OOD発話の連結を音声対話制御として実行する。
 例えば、情報処理システム1は、ユーザ発話の意味理解処理結果がOOD(解釈不能)であり、一つ前のユーザ発話の意味理解処理結果もOODであった場合は、一つ前の発話(第1発話)と現在の発話(第2発話)のユーザ発話テキストを連結し、その連結した発話テキスト(連結発話テキスト)をNLUに入力しIntentやEntityを得てもよい。 
 図1の例では、ユーザU1の一つ前の「読み」という発話UT11のIntentがOODとなり、現在の「上げて」という発話UT12のIntentもOODとなる。そのため、情報処理システム1は、この2つの発話を連結した「読み上げて」(発話UT13)を連結発話テキストとしてNLUに入力することで、Intent「ReadOut」を得ることが可能となる。
 サーバ装置100は、上述したOOD発話の連結の連結処理を実行する。サーバ装置100は、第2発話の意味理解処理結果が解釈不能である場合、第1発話の意味理解処理結果に応じた第1発話と第2発話とを連結する音声対話制御の実行により、第1発話と第2発話とを連結する処理を実行する。サーバ装置100は、意味理解処理結果が解釈不能である第1発話と、意味理解処理結果が解釈不能である第2発話とを連結する音声対話制御の実行により、第1発話と第2発話とを連結する処理を実行する。これにより、サーバ装置100は、上述のように、解釈不能な発話UT11と解釈不能な発話UT12とを連結することで、「読み上げて」という解釈可能な発話UT13を生成することができる。
 なお、情報処理システム1は、ユーザ発話が3つ以上連続してOODとなった場合には、最初のOOD発話から現在のOOD発話までを全て連結してもよい。そして、情報処理システム1は、連結した発話の連結発話テキストとしてNLUに入力し、IntentやEntityを得てもよい。例えば、サーバ装置100は、意味理解処理結果が解釈不能である第1発話と、意味理解処理結果が解釈不能である第2発話とを連結する。そして、サーバ装置100は、第2発話より後のユーザによる第3発話を示す第3発話情報を取得し、第3発話の意味理解処理結果が解釈不能である場合、第2発話と第3発話とを連結する処理を実行する。これにより、サーバ装置100は、第1発話、第2発話、第3発話の順で連結された発話(連結発話)の情報を生成することができる。
[1-1-4-2.共起関係に基づく発話連結]
 例えば、音声対話制御は、共起関係に基づく発話の連結であってもよい。この場合、情報処理システム1は、共起関係に基づく発話の連結を音声対話制御として実行する。
 情報処理システム1は、ユーザ発話テキストの最初の単語または文節(以下「構成要素」ともいう)と、一つ前のユーザ発話テキストの最後の単語(または分節)が共起関係にある場合には、一つ前と現在のユーザ発話テキストを連結し、その連結した発話テキスト(連結発話テキスト)をNLUに入力しIntentやEntityを得てもよい。
 共起関係にあるかの判定例として、情報処理システム1は、大規模発話コーパス上で一つ前のユーザ発話テキストの最後の単語(または分節)の次に現在の発話テキストの最初の単語(または文節)が出現する確率を算出する。そして、情報処理システム1は、この出現確率が規定値(例えば0.1や30%等の値)以上であった場合に共起関係にあると判定する。また、情報処理システム1は、出現確率が規定値より小さい場合には共起関係に無いと判定する。
 また、個人化を用いた共起関係判定例として、情報処理システム1は、過去のユーザの発話テキスト(履歴)の中で一つ前のユーザ発話テキストの最後の単語(または分節)の次に現在の発話テキストの最初の単語(または文節)が出現する確率を算出する。そして、情報処理システム1は、この出現確率が規定値以上であった場合に共起関係にあると判定する。また、情報処理システム1は、出現確率が規定値より小さい場合には共起関係に無いと判定する。
 図1の例では、一つ前の発話UT11の最後の単語である「読み」と、現在の発話UT12の最初の単語である「上げ」が共起関係にある。例えば、大規模発話コーパス上もしくはユーザ発話テキスト履歴上で「読み」の次に「上げ」が出現する確率が規定値以上である。そのため、情報処理システム1は、この2つの発話UT11、UT12を連結した「読み上げて」(発話UT13)を連結発話テキストとしてNLUに入力することで、Intent「ReadOut」を得ることが可能となる。
 サーバ装置100は、上述した共起関係に基づく発話の連結処理を実行する。サーバ装置100は、第1発話のうち最後に発話された第1構成要素(単語または文節)と、第2発話のうち最初に発話された第2構成要素(単語または文節)とが共起に関する条件を満たす場合、第1発話と第2発話とを連結する音声対話制御の実行により、第1発話と第2発話とを連結する処理を実行する。サーバ装置100は、第1構成要素の次に第2構成要素が出現する確率が規定値以上である場合、第1発話と第2発話とを連結する音声対話制御の実行により、第1発話と第2発話とを連結する処理を実行する。これにより、サーバ装置100は、上述のように、発話UT11と発話UT12とを連結することで、「読み上げて」という発話UT13を生成することができる。
 なお、情報処理システム1は、ユーザ発話が3つ以上連続して共起関係となった場合には、最初の共起関係にあると判定された発話から現在の発話までを全て連結してもよい。例えば、情報処理システム1は、1つ前の発話の最後の単語と次の発話の最初の単語の出現確率が規定値以上となった場合には、最初の共起関係にあると判定された発話から現在の発話までを全て連結してもよい。そして、情報処理システム1は、連結した発話の連結発話テキストとしてNLUに入力し、IntentやEntityを得てもよい。例えば、サーバ装置100は、共起の条件を満たす第1発話と第2発話とを連結する。そして、サーバ装置100は、第2発話より後のユーザによる第3発話を示す第3発話情報を取得し、第2発話のうち最後に発話された構成要素と、第3発話のうち最初に発話された構成要素とが共起に関する条件を満たす場合、第2発話と第3発話とを連結する処理を実行する。これにより、サーバ装置100は、第1発話、第2発話、第3発話の順で連結された発話(連結発話)の情報を生成することができる。
 なお、上述した各処理は音声対話制御の一例であり、適切に連結することを可能にする制御であれば、情報処理システム1は、どのような制御を音声対話制御として実行してもよい。
[1-2.第1の実施形態に係る情報処理システムの構成]
 図2に示す情報処理システム1について説明する。図2に示すように、情報処理システム1は、端末装置10と、サーバ装置100と、複数の機器50-1、50-2、50-3とが含まれる。以下では、機器50-1~50-3等を区別しない場合、機器50と記載する場合がある。なお、図2では、3個の機器50-1、50-2、50-3を図示するが、情報処理システム1には、3個より多い数(例えば20個や100個以上)の機器50が含まれてもよい。端末装置10と、サーバ装置100と、機器50とは所定の通信網(ネットワークN)を介して、有線または無線により通信可能に接続される。図2は、第1の実施形態に係る情報処理システムの構成例を示す図である。なお、図2に示した情報処理システム1には、複数台の端末装置10や、複数台のサーバ装置100が含まれてもよい。
 サーバ装置100は、ユーザの呼吸に関する呼吸情報に基づくユーザの呼吸状態に応じた音声対話制御の実行により、ユーザによる第1発話と、第1発話より後のユーザによる第2発話とを連結する処理を実行するコンピュータである。サーバ装置100は、ユーザの呼吸に関する呼吸情報に基づくユーザの呼吸状態に応じた音声対話制御として、タイムアウト時間の延長を実行する情報処理装置である。サーバ装置100は、ユーザによる第1発話と、第1発話より後のユーザによる第2発話とを連結する連結処理を実行する。また、サーバ装置100は、各種情報を端末装置10に送信するコンピュータである。サーバ装置100は、各種機能に関するサービスを提供するために用いられるサーバ装置である。
 また、サーバ装置100は、音声信号処理や音声認識や発話意味解析や対話制御等のソフトウェアモジュールを有してもよい。サーバ装置100は、音声認識の機能を有してもよい。例えば、サーバ装置100は、自然言語理解(NLU)や自動音声認識(ASR:Automatic Speech Recognition)の機能を有してもよい。例えば、サーバ装置100は、ユーザの発話による入力情報からユーザのインテント(意図)やエンティティ(対象)に関する情報を推定してもよい。サーバ装置100は、自然言語理解や自動音声認識の機能を有する音声認識サーバとして機能する。
 端末装置10は、センサによりユーザの呼吸を示す呼吸情報を検知する端末装置である。例えば、端末装置10は、呼吸センサ171によりユーザの呼吸を示す呼吸情報を検知する。端末装置10は、ユーザの呼吸情報をサーバ装置100等のサーバ装置へ送信する情報処理装置である。また、端末装置10は、自然言語理解や自動音声認識等の音声認識の機能を有してもよい。例えば、端末装置10は、ユーザの発話による入力情報からユーザのインテント(意図)やエンティティ(対象)に関する情報を推定してもよい。
 端末装置10は、ユーザによって利用されるデバイス装置である。端末装置10は、ユーザによる入力を受け付ける。端末装置10は、ユーザの発話による音声入力や、ユーザの操作による入力を受け付ける。端末装置10は、ユーザの入力に応じた情報を表示する。端末装置10は、実施形態における処理を実現可能であれば、どのような装置であってもよい。端末装置10は、ユーザの呼吸情報を検知し、サーバ装置100へ送信する機能を有する構成であれば、どのような装置であってもよい。例えば、端末装置10は、スマートフォンや、スマートスピーカや、テレビや、タブレット型端末や、ノート型PC(Personal Computer)や、デスクトップPCや、携帯電話機や、PDA(Personal Digital Assistant)等の装置であってもよい。端末装置10は、ユーザが身に着けるウェアラブル端末(Wearable Device)等であってもよい。例えば、端末装置10は、腕時計型端末やメガネ型端末等であってもよい。
 機器50は、ユーザによって利用される各種装置である。機器50は、IoT(Internet of Things)機器等の各種装置である。機器50は、家電製品等のIoT機器である。例えば、機器50は、通信機能を有し、サーバ装置100や端末装置10と通信し、サーバ装置100や端末装置10からの操作要求に応じた処理が可能であればどのような装置であってもよい。例えば、機器50は、照明器具(照明装置)、音楽プレイヤ、テレビ、ラジオ、エアコン(空調機器)、洗濯機、冷蔵庫等のいわゆる家電製品であってもよいし、換気扇や床暖房など住宅に設置された製品であってもよい。
 また、機器50は、例えば、スマートフォンや、タブレット型端末や、ノート型PCや、デスクトップPCや、携帯電話機や、PDA等の情報処理装置であってもよい。また、例えば、機器50は、実施形態における処理を実現可能であれば、どのような装置であってもよい。なお、機器50には、端末装置10が含まれてもよい。すなわち、ユーザの呼吸を用いた操作対象となる機器は、端末装置10であってもよい。
[1-3.第1の実施形態に係る情報処理装置の構成]
 次に、第1の実施形態に係る情報処理を実行する情報処理装置の一例であるサーバ装置100の構成について説明する。図3は、本開示の第1の実施形態に係るサーバ装置の構成例を示す図である。
 図3に示すように、サーバ装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、サーバ装置100は、サーバ装置100の管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
 通信部110は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部110は、ネットワークN(図2参照)と有線または無線で接続され、端末装置10等の他の情報処理装置との間で情報の送受信を行う。また、通信部110は、ユーザが利用するユーザ端末(図示省略)との間で情報の送受信を行ってもよい。
 記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。第1の実施形態に係る記憶部120は、図3に示すように、呼吸情報記憶部121と、ユーザ情報記憶部122と、閾値情報記憶部123と、機能情報記憶部124とを有する。
 記憶部120は、上記以外にも各種情報を記憶する。記憶部120は、音声認識機能を実現する音声認識アプリケーション(プログラム)の情報を記憶する。例えば、サーバ装置100は、音声認識アプリケーション(単に「音声認識」ともいう)を起動することにより、音声認識が実行可能になる。記憶部120は、音声認識に用いる各種情報を記憶する。記憶部120は、音声認識辞書に用いる辞書(音声認識辞書)の情報を記憶する。記憶部120は、複数の音声認識辞書の情報を記憶する。記憶部120は、長文用の音声認識辞書(長文用辞書)や中文用の音声認識辞書(中文用辞書)や短文用の音声認識辞書(単語・語句用辞書)等の情報を記憶する。
 第1の実施形態に係る呼吸情報記憶部121は、ユーザの呼吸に関する各種情報を記憶する。呼吸情報記憶部121は、各ユーザの識別情報(ユーザID)に対応付けて各ユーザの呼吸情報等の各種情報を記憶する。呼吸情報記憶部121は、ユーザの呼吸を示す呼吸情報を記憶する。呼吸情報記憶部121は、ユーザの呼吸の変位量を含む呼吸情報を記憶する。呼吸情報記憶部121は、ユーザの呼吸の周期を含む呼吸情報を記憶する。呼吸情報記憶部121は、ユーザの呼吸の速度を含む呼吸情報を記憶する。呼吸情報記憶部121は、ユーザの吸気量を含む呼吸情報を記憶する。
 なお、呼吸情報記憶部121は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、呼吸情報記憶部121は、グラフGR1~GR6の生成に必要な各種の情報を記憶してもよい。例えば、呼吸情報記憶部121は、グラフGR1~GR6に示す各種の情報を記憶してもよい。
 第1の実施形態に係るユーザ情報記憶部122は、ユーザに関する各種情報を記憶する。例えば、ユーザ情報記憶部122は、各ユーザの属性情報等の種々の情報を記憶する。
 ユーザ情報記憶部122は、ユーザID、年齢、性別、居住地といったユーザに関する情報を記憶する。例えば、ユーザ情報記憶部122は、ユーザU1を識別するユーザID「U1」に対応付けて、ユーザU1の年齢、性別、居住地といったユーザU1に関する情報を記憶する。
 また、ユーザ情報記憶部122は、各ユーザが利用する装置(テレビやスマートフォン等)を識別する情報をユーザに対応付けて記憶する。ユーザ情報記憶部122は、各ユーザが利用する端末装置10を識別する情報(端末ID等)をユーザに対応付けて記憶する。
 なお、ユーザ情報記憶部122は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、ユーザ情報記憶部122は、年齢や性別に限らず他のデモグラフィック属性情報やサイコグラフィック属性情報を記憶してもよい。例えば、ユーザ情報記憶部122は、氏名、自宅、勤務地、興味、家族構成、収入、ライフスタイル等の情報を記憶してもよい。
 第1の実施形態に係る閾値情報記憶部123は、閾値に関する各種情報を記憶する。閾値情報記憶部123は、音声対話制御を実行するかの判定に用いる閾値に関する各種情報を記憶する。図4は、第1の実施形態に係る閾値情報記憶部の一例を示す図である。図4に示す閾値情報記憶部123には、「閾値ID」、「用途」、「閾値名」、「値」といった項目が含まれる。
 「閾値ID」は、閾値を識別するための識別情報を示す。「用途」は、閾値の用途を示す。「閾値名」は、対応する閾値IDにより識別される閾値として用いられる閾値(変数)の名称(文字列)を示す。「値」は、対応する閾値IDにより識別される閾値の具体的な値を示す。
 図4の例では、閾値ID「TH1」により識別される閾値(閾値TH1)の用途は、呼吸の荒さの判定に用いる閾値であることを示す。閾値TH1は、呼吸の荒さを示す指標値との比較に用いる閾値であることを示す。閾値TH1は、閾値名「Hth」として用いられることを示す。閾値TH1の値は、「VL1」であることを示す。なお、図4では、値を「VL1」等の抽象的な符号で示すが、値は、「0.5」や「1.8」等の具体的な数値であるものとする。
 なお、閾値情報記憶部123は、上記に限らず、目的に応じて種々の情報を記憶してもよい。
 第1の実施形態に係る機能情報記憶部124は、機能に関する各種情報を記憶する。機能情報記憶部124は、ユーザの入力に応じて実行される各機能に関する情報を記憶する。機能情報記憶部124は、機能の実行に必要な入力に関する情報を記憶する。機能情報記憶部124は、各機能の実行に必要な入力項目を記憶する。
 また、機能情報記憶部124は、機器に関する各種情報を記憶してもよい。機能情報記憶部124は、各機能に対応する機器に関する各種情報を記憶する。例えば、機能情報記憶部124は、サーバ装置100と通信可能であり、操作対象となり得る機器の各種情報を記憶する。機能情報記憶部124には、機器を識別するための識別情報を示す機器IDや、対応する機器の種別を示す機器種別情報が記憶されてもよい。機能情報記憶部124は、各機器に対応付けて各機器が有する機能やパラメータを記憶する。機能情報記憶部124は、各機器に対応付けて機器の状態を示す情報を記憶する。例えば、機能情報記憶部124は、各機器に対応付けて各機器のその時点でのパラメータの値等の各種情報を記憶する。例えば、機能情報記憶部124は、各機器に対応付けて各機器の現時点(最後に情報を取得した時点)でのパラメータの値等の各種情報を記憶する。機能情報記憶部124は、機器がテレビである場合、現時点でのオンオフの状態や音量や明るさやチャンネル等を機器IDに対応付けて記憶する。また、機能情報記憶部124は、機器が照明器具である場合、現時点でのオンオフの状態や明るさや色味等を機器IDに対応付けて記憶する。
 なお、機能情報記憶部124は、上記に限らず、目的に応じて種々の情報を記憶してもよい。
 図3に戻り、説明を続ける。制御部130は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、サーバ装置100内部に記憶されたプログラム(例えば、本開示に係る情報処理プログラム等)がRAM(Random Access Memory)等を作業領域として実行されることにより実現される。また、制御部130は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
 図3に示すように、制御部130は、取得部131と、算出部132と、決定部133と、実行部134と、送信部135とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図3に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部130が有する各処理部の接続関係は、図3に示した接続関係に限られず、他の接続関係であってもよい。
 取得部131は、各種情報を取得する。取得部131は、外部の情報処理装置から各種情報を取得する。取得部131は、端末装置10から各種情報を取得する。取得部131は、端末装置10のセンサ部17が検知した情報を端末装置10から各種情報を取得する。取得部131は、センサ部17の呼吸センサ171が検知した情報を端末装置10から各種情報を取得する。
 取得部131は、記憶部120から各種情報を取得する。取得部131は、呼吸情報記憶部121やユーザ情報記憶部122や閾値情報記憶部123や機能情報記憶部124から各種情報を取得する。取得部131は、算出部132が算出した各種情報を取得する。取得部131は、決定部133が決定した各種情報を取得する。
 取得部131は、ユーザによる第1発話を示す第1発話情報と、第1発話より後のユーザによる第2発話を示す第2発話情報と、ユーザの呼吸に関する呼吸情報とを取得する。取得部131は、第2発話より後のユーザによる第3発話を示す第3発話情報を取得する。取得部131は、ユーザの呼吸の変位量を含む呼吸情報を取得する。取得部131は、ユーザの呼吸の周期を含む呼吸情報を取得する。取得部131は、ユーザの呼吸の速度を含む呼吸情報を取得する。取得部131は、ユーザU1が利用する端末装置10からユーザU1の呼吸を示す呼吸情報を取得する。
 算出部132は、各種情報を算出する。例えば、算出部132は、外部の情報処理装置からの情報や記憶部120に記憶された情報に基づいて、各種情報を算出する。算出部132は、端末装置10等の他の情報処理装置からの情報に基づいて、各種情報を算出する。算出部132は、呼吸情報記憶部121やユーザ情報記憶部122や閾値情報記憶部123や機能情報記憶部124に記憶された情報に基づいて、各種情報を算出する。
 算出部132は、取得部131により取得された各種情報に基づいて、各種情報を算出する。算出部132は、決定部133により決定された各種情報に基づいて、各種情報を算出する。
 算出部132は、呼吸情報を用いてユーザの呼吸状態を示す指標値を算出する。算出部132は、式(1)や式(4)等を用いて指標値である荒さ度合い「H」を算出する。算出部132は、式(2)を用いて変位量「V」を算出する。算出部132は、式(3)を用いて平均観測値「S」を算出する。算出部132は、観測値「S」の平均観測値「S」との交点数やピーク数の逆数により周期「λ」を算出する。算出部132は、差分値「ΔS」を、式(5)を用いて算出する。
 決定部133は、各種情報を決定する。決定部133は、各種情報を判定する。決定部133は、各種の判断を行う。決定部133は、各種情報を予測する。決定部133は、各種情報を分類する。決定部133は、各種情報を抽出する。決定部133は、各種情報を特定する。決定部133は、各種情報を選択する。決定部133は、外部の情報処理装置からの情報や記憶部120に記憶された情報に基づいて、各種情報を決定する。決定部133は、端末装置10等の他の情報処理装置からの情報に基づいて、各種情報を決定する。決定部133は、呼吸情報記憶部121やユーザ情報記憶部122や閾値情報記憶部123や機能情報記憶部124に記憶された情報に基づいて、各種情報を決定する。
 決定部133は、取得部131により取得された各種情報に基づいて、各種情報を決定する。決定部133は、算出部132により算出された各種情報に基づいて、各種情報を決定する。決定部133は、実行部134により実行された処理に基づいて、各種情報を決定する。
 決定部133は、算出部132により算出された情報と、閾値とを比較することにより、音声対話制御を実行するかどうかを決定する。決定部133は、閾値を用いて、音声対話制御を実行するかどうかを判定する。決定部133は、荒さ度合い「H」と、閾値とを比較することにより、音声対話制御を実行するかどうかを決定する。決定部133は、荒さ度合い「H」が規定閾値「Hth」以上である場合、音声対話制御を実行すると決定する。決定部133は、荒さ度合い「H」を規定閾値「Hth」と比較する。決定部133は、荒さ度合い「H」が規定閾値「Hth」より小さい場合、ユーザの呼吸状態を平常であると判定する。決定部133は、荒さ度合い「H」が規定閾値「Hth」以上である場合、ユーザの呼吸状態を非平常であると判定する。
 実行部134は、各種処理を実行する。実行部134は、各種処理の実行を決定する。実行部134は、外部の情報処理装置からの情報に基づいて、各種処理を実行する。実行部134は、記憶部120に記憶された情報に基づいて、各種処理を実行する。実行部134は、呼吸情報記憶部121やユーザ情報記憶部122や閾値情報記憶部123や機能情報記憶部124に記憶された情報に基づいて、各種処理を実行する。
 実行部134は、取得部131により取得された各種情報に基づいて、各種処理を実行する。実行部134は、算出部132により算出された各種情報に基づいて、各種処理を実行する。実行部134は、決定部133により決定された各種情報に基づいて、各種処理を実行する。
 実行部134は、各種情報を生成する。実行部134は、外部の情報処理装置からの情報や記憶部120に記憶された情報に基づいて、各種情報を生成する。実行部134は、端末装置10等の他の情報処理装置からの情報に基づいて、各種情報を生成する。実行部134は、呼吸情報記憶部121やユーザ情報記憶部122や閾値情報記憶部123や機能情報記憶部124に記憶された情報に基づいて、各種情報を生成する。
 実行部134は、算出部132による算出結果に応じて処理を実行する。実行部134は、決定部133による決定に応じて処理を実行する。実行部134は、決定部133により音声対話制御を実行すると決定された場合、音声対話制御を実行する。
 実行部134は、取得部131により取得された呼吸情報に基づくユーザの呼吸状態に応じた音声対話制御の実行により、第1発話と第2発話とを連結する処理を実行する。実行部134は、指標値が条件を満たす場合、音声対話制御の実行により、第1発話と第2発話とを連結する処理を実行する。実行部134は、指標値と閾値との比較結果が条件を満たす場合、音声対話制御の実行により、第1発話と第2発話とを連結する処理を実行する。
 実行部134は、タイムアウト時間を延長する処理を、音声対話制御として実行する。実行部134は、音声対話に関するタイムアウト時間を延長する音声対話制御の実行により、第1発話と第2発話とを連結する処理を実行する。実行部134は、音声認識終話判定に用いるタイムアウト時間を延長する音声対話制御の実行により、第1発話と第2発話とを連結する処理を実行する。実行部134は、タイムアウト時間を延長タイムアウト時間に延長する音声対話制御の実行により、第1発話から延長タイムアウト時間が経過する前にユーザによる第2発話を示す第2発話情報と第1発話とを連結する処理を実行する。
 実行部134は、OODを判定された発話を連結する処理を、音声対話制御として実行する。実行部134は、第2発話の意味理解処理結果が解釈不能である場合、第1発話の意味理解処理結果に応じた第1発話と第2発話とを連結する音声対話制御の実行により、第1発話と第2発話とを連結する処理を実行する。実行部134は、意味理解処理結果が解釈不能である第1発話と、意味理解処理結果が解釈不能である第2発話とを連結する音声対話制御の実行により、第1発話と第2発話とを連結する処理を実行する。実行部134は、第3発話の意味理解処理結果が解釈不能である場合、第2発話と第3発話とを連結する処理を実行する。
 実行部134は、発話内の構成要素(単語または分節)が所定の共起関係を有する発話を連結する処理を、音声対話制御として実行する。実行部134は、第1発話のうち最後に発話された第1構成要素と、第2発話のうち最初に発話された第2構成要素とが共起に関する条件を満たす場合、第1発話と第2発話とを連結する音声対話制御の実行により、第1発話と第2発話とを連結する処理を実行する。実行部134は、第1構成要素の次に第2構成要素が出現する確率が規定値以上である場合、第1発話と第2発話とを連結する音声対話制御の実行により、第1発話と第2発話とを連結する処理を実行する。実行部134は、ユーザの発話履歴中で第1構成要素の次に第2構成要素が出現する確率が規定値以上である場合、第1発話と第2発話とを連結する音声対話制御の実行により、第1発話と第2発話とを連結する処理を実行する。実行部134は、第2発話のうち最後に発話された構成要素と、第3発話のうち最初に発話された構成要素とが共起に関する条件を満たす場合、第2発話と第3発話とを連結する処理を実行する。
 実行部134は、ユーザの呼吸状態が通常状態である場合、音声対話制御を実行しない。実行部134は、ユーザの呼吸状態が通常状態である場合、通常時の音声対話制御(通常音声対話制御)を実行する。
 実行部134は、荒さ度合い「H」が条件を満たす場合、音声対話制御を実行する。実行部134は、荒さ度合い「H」と規定閾値「Hth」との比較結果が条件を満たす場合、音声対話制御を実行する。実行部134は、荒さ度合い「H」が規定閾値「Hth」以上になった場合に音声対話制御を実行する。
 実行部134は、発話UT11と発話UT12とを連結する。サーバ装置100は、「読み」という発話UT11と「上げて」という発話UT12とを連結し、「読み上げて」という発話UT13を生成する。
 送信部135は、各種情報を送信する。送信部135は、外部の情報処理装置へ各種情報を送信する。送信部135は、外部の情報処理装置へ各種情報を提供する。例えば、送信部135は、端末装置10等の他の情報処理装置へ各種情報を送信する。送信部135は、記憶部120に記憶された情報を提供する。送信部135は、記憶部120に記憶された情報を送信する。
 送信部135は、端末装置10等の他の情報処理装置からの情報に基づいて、各種情報を提供する。送信部135は、記憶部120に記憶された情報に基づいて、各種情報を提供する。送信部135は、呼吸情報記憶部121やユーザ情報記憶部122や閾値情報記憶部123や機能情報記憶部124に記憶された情報に基づいて、各種情報を提供する。
 送信部135は、端末装置10に実行させる機能を示す情報を端末装置10に送信する。送信部135は、実行部134による実行が決定された機能を示す情報を端末装置10に送信する。送信部135は、実行部134による指示に応じて、端末装置10に各種の情報を送信する。送信部135は、端末装置10に音声認識アプリケーションの起動を指示する情報を送信する。
 送信部154は、ユーザの端末装置10に出力させる情報を端末装置10に送信する。送信部154は、ユーザU1の端末装置10に出力させる情報を端末装置10に送信する。送信部154は、ユーザU1の端末装置10に音声出力させるメッセージの情報を端末装置10に送信する。送信部154は、○○さんからユーザU1へのメッセージの情報をユーザU1の端末装置10に送信する。
[1-4.第1の実施形態に係る端末装置の構成]
 次に、第1の実施形態に係る情報処理を実行する情報処理装置の一例である端末装置10の構成について説明する。図5は、本開示の第1の実施形態に係る端末装置の構成例を示す図である。
 図5に示すように、端末装置10は、通信部11と、入力部12と、出力部13と、記憶部14と、制御部15と、表示部16と、センサ部17とを有する。
 通信部11は、例えば、NICや通信回路等によって実現される。通信部11は、ネットワークN(インターネット等)と有線又は無線で接続され、ネットワークNを介して、サーバ装置100等の他の装置等との間で情報の送受信を行う。
 入力部12は、各種入力を受け付ける。入力部12は、センサ部17による検知を入力として受け付ける。入力部12は、ユーザの呼吸を示す呼吸情報の入力を受け付ける。入力部12は、センサ部17により検知された呼吸情報の入力を受け付ける。入力部12は、呼吸センサ171により検知された呼吸情報の入力を受け付ける。入力部12は、呼吸センサ171により検知された点群データに基づく呼吸情報の入力を受け付ける。入力部12は、ユーザの発話情報の入力を受け付ける。入力部12は、身体動作により入力を行うユーザの呼吸情報の入力を受け付ける。入力部12は、ユーザのジェスチャや視線を入力として受け付ける。
 入力部12は、ユーザから各種操作が入力される。入力部12は、音声を検知する機能を有するセンサ部17により音を入力として受け付ける。入力部12は、音声を検知するマイク(音センサ)により検知された音声情報を入力情報として受け付ける。入力部12は、ユーザの発話による音声を入力情報として受け付ける。入力部12は、ユーザU1の発話UT1を受け付ける。入力部12は、ユーザU1の発話UT11を受け付ける。入力部12は、ユーザU1の発話UT12を受け付ける。
 また、入力部12は、ユーザが利用する端末装置10への操作(ユーザ操作)をユーザによる操作入力として受け付けてもよい。入力部12は、通信部11を介して、リモコン(リモートコントローラー:remote controller)を用いたユーザの操作に関する情報を受け付けてもよい。また、入力部12は、端末装置10に設けられたボタンや、端末装置10に接続されたキーボードやマウスを有してもよい。
 例えば、入力部12は、リモコンやキーボードやマウスと同等の機能を実現できるタッチパネルを有してもよい。この場合、入力部12は、表示部16を介して各種情報が入力される。入力部12は、各種センサにより実現されるタッチパネルの機能により、表示画面を介してユーザから各種操作を受け付ける。すなわち、入力部12は、端末装置10の表示部16を介してユーザから各種操作を受け付ける。例えば、入力部12は、端末装置10の表示部16を介してユーザの指定操作等の操作を受け付ける。例えば、入力部12は、タッチパネルの機能によりユーザの操作を受け付ける受付部として機能する。この場合、入力部12と受付部153とは一体であってもよい。なお、入力部12によるユーザの操作の検知方式には、タブレット端末では主に静電容量方式が採用されるが、他の検知方式である抵抗膜方式、表面弾性波方式、赤外線方式、電磁誘導方式など、ユーザの操作を検知できタッチパネルの機能が実現できればどのような方式を採用してもよい。
 例えば、入力部12は、ユーザU1の発話を入力として受け付ける。入力部12は、センサ部17により検知されたユーザU1の発話を入力として受け付ける。入力部12は、センサ部17の音センサにより検知されたユーザU1の発話を入力として受け付ける。
 出力部13は、各種情報を出力する。出力部13は、音声を出力する機能を有する。例えば、出力部13は、音声を出力するスピーカーを有する。出力部13は、実行部152による制御に応じて、各種情報を音声出力する。出力部13は、ユーザに対して音声による情報の出力を行う。出力部13は、表示部16に表示される情報を音声により出力する。
 記憶部14は、例えば、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部14は、音声認識機能を実現する音声認識アプリケーション(プログラム)の情報を記憶する。例えば、端末装置10は、音声認識アプリケーションを起動することにより、音声認識が実行可能になる。記憶部14は、情報の表示に用いる各種情報を記憶する。記憶部14は、音声認識に用いる各種情報を記憶する。記憶部14は、音声認識辞書に用いる辞書(音声認識辞書)の情報を記憶する。
 図5に戻り、説明を続ける。制御部15は、例えば、CPUやMPU等によって、端末装置10内部に記憶されたプログラム(例えば、本開示に係る情報処理プログラム)がRAM等を作業領域として実行されることにより実現される。また、制御部15は、例えば、ASICやFPGA等の集積回路により実現されてもよい。
 図5に示すように、制御部15は、受信部151と、実行部152と、受付部153と、送信部154とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部15の内部構成は、図5に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
 受信部151は、各種情報を受信する。受信部151は、外部の情報処理装置から各種情報を受信する。受信部151は、サーバ装置100等の他の情報処理装置から各種情報を受信する。
 受信部151は、サーバ装置100から音声認識の起動を指示する情報を受信する。受信部151は、サーバ装置100から音声認識アプリケーションの起動を指示する情報を受信する。
 受信部151は、サーバ装置100から各種機能の実行指示を受信する。例えば、受信部151は、サーバ装置100から機能を指定する情報を機能の実行指示として受信する。受信部151は、コンテンツを受信する。受信部151は、サーバ装置100から表示するコンテンツを受信する。受信部151は、出力部13により出力する情報をサーバ装置100から受信する。受信部151は、表示部16により表示する情報をサーバ装置100から受信する。
 実行部152は、各種処理を実行する。実行部152は、各種処理の実行を決定する。実行部152は、外部の情報処理装置からの情報に基づいて、各種処理を実行する。実行部152は、サーバ装置100からの情報に基づいて、各種処理を実行する。実行部152は、サーバ装置100からの指示に応じて、各種処理を実行する。実行部152は、記憶部14に記憶された情報に基づいて、各種処理を実行する。実行部152は、音声認識を起動する。
 実行部152は、各種出力を制御する。実行部152は、出力部13による音声出力を制御する。実行部152は、各種表示を制御する。実行部152は、表示部16の表示を制御する。実行部152は、受信部151による受信に応じて、表示部16の表示を制御する。実行部152は、受信部151により受信された情報に基づいて、表示部16の表示を制御する。実行部152は、受付部153により受け付けられた情報に基づいて、表示部16の表示を制御する。実行部152は、受付部153による受付けに応じて、表示部16の表示を制御する。
 受付部153は、各種情報を受け付ける。受付部153は、入力部12を介してユーザによる入力を受け付ける。受付部153は、ユーザによる発話を入力として受け付ける。受付部153は、ユーザによる操作を受け付ける。受付部153は、表示部16により表示された情報に対するユーザの操作を受け付ける。受付部153は、ユーザによる文字入力を受け付ける。
 送信部154は、外部の情報処理装置へ各種情報を送信する。例えば、送信部154は、端末装置10等の他の情報処理装置へ各種情報を送信する。送信部154は、記憶部14に記憶された情報を送信する。
 送信部154は、サーバ装置100等の他の情報処理装置からの情報に基づいて、各種情報を送信する。送信部154は、記憶部14に記憶された情報に基づいて、各種情報を送信する。
 送信部154は、センサ部17により検知されたセンサ情報をサーバ装置100へ送信する。送信部154は、センサ部17の呼吸センサ171により検知されたユーザU1の呼吸情報をサーバ装置100へ送信する。
 送信部154は、ユーザにより入力された入力情報をサーバ装置100へ送信する。送信部154は、ユーザにより音声入力された入力情報をサーバ装置100へ送信する。送信部154は、ユーザの操作により入力された入力情報をサーバ装置100へ送信する。
 送信部154は、ユーザによる第1発話を示す第1発話情報をサーバ装置100へ送信する。送信部154は、第1発話より後のユーザによる第2発話を示す第2発話情報をサーバ装置100へ送信する。送信部154は、ユーザの呼吸に関する呼吸情報をサーバ装置100へ送信する。送信部154は、第2発話より後のユーザによる第3発話を示す第3発話情報をサーバ装置100へ送信する。送信部154は、ユーザの呼吸の変位量を含む呼吸情報をサーバ装置100へ送信する。送信部154は、ユーザの呼吸の周期を含む呼吸情報をサーバ装置100へ送信する。送信部154は、ユーザの呼吸の速度を含む呼吸情報をサーバ装置100へ送信する。
 表示部16は、端末装置10に設けられ各種情報を表示する。表示部16は、例えば液晶ディスプレイや有機EL(Electro-Luminescence)ディスプレイ等によって実現される。表示部16は、サーバ装置100から提供される情報を表示可能であれば、どのような手段により実現されてもよい。表示部16は、実行部152による制御に応じて、各種情報を表示する。
 表示部16は、サーバ装置100からの情報を基に、各種情報を表示する。表示部16は、サーバ装置100から受信した情報を表示する。
 表示部16は、コンテンツを表示する。表示部16は、受信部151により受信されたコンテンツを表示する。
 センサ部17は、所定の情報を検知する。センサ部17は、ユーザの呼吸情報を検知する。センサ部17は、ユーザの呼吸を示す呼吸情報を検知する手段として呼吸センサ171を有する。センサ部17は、呼吸センサ171により呼吸情報を検知する。
 センサ部17は、呼吸センサ171により呼吸情報を検知する。センサ部17は、ミリ波レーダを用いた呼吸センサ171により呼吸情報を検知する。また、センサ部17は、ミリ波レーダに限らず、ユーザの呼吸情報を検知可能であれば、どのような構成の呼吸センサ171を有してもよい。呼吸センサ171は、画像センサであってもよい。呼吸センサ171は、ウェアラブルセンサであってもよい。呼吸センサ171は、接触型及び非接触型のいずれのセンサが用いられてもよい。
 また、センサ部17は、上記に限らず、各種センサを有してもよい。センサ部17は、GPS(Global Positioning System)センサ等の位置情報を検知するセンサ(位置センサ)を有してもよい。なお、センサ部17は、上記に限らず、種々のセンサを有してもよい。また、端末装置10は、光によりユーザに通知を行うためのLED(Light Emitting Diode)等の光源(光源部)を有してもよい。例えば、光源部は、実行部152による制御に応じて点滅する。
[1-5.第1の実施形態に係る情報処理の手順]
 次に、図6~図8Bを用いて、第1の実施形態に係る各種情報処理の手順について説明する。
[1-5-1.情報処理装置に係る処理の手順]
 まず、図6を用いて、本開示の第1の実施形態に係る情報処理装置に係る処理の流れについて説明する。図6は、本開示の第1の実施形態に係る情報処理装置の処理手順を示すフローチャートである。具体的には、図6は、サーバ装置100による情報処理の手順を示すフローチャートである。
 図6に示すように、サーバ装置100は、ユーザによる第1発話を示す第1発話情報を取得する(ステップS101)。サーバ装置100は、第1発話より後のユーザによる第2発話を示す第2発話情報を取得する(ステップS102)。サーバ装置100は、ユーザの呼吸に関する呼吸情報を取得する(ステップS103)。そして、サーバ装置100は、呼吸情報に基づくユーザの呼吸状態に応じた音声対話制御の実行により、第1発話と第2発話とを連結する処理を実行する(ステップS104)。
[1-5-2.情報処理システムに係る処理の手順]
 次に、図7を用いて、本開示の第1の実施形態に係る情報処理システムに係る処理の流れについて説明する。図7は、本開示の第1の実施形態に係る情報処理システムの処理手順を示すシーケンス図である。
 図7に示すように、端末装置10は、ユーザの発話やユーザの呼吸を示す呼吸情報を検知する(ステップS201)。例えば、端末装置10は、マイク(音センサ)により検知されたユーザによる第1発話を示す第1発話情報を取得する。例えば、端末装置10は、マイク(音センサ)により検知された第1発話より後のユーザによる第2発話を示す第2発話情報を取得する。例えば、端末装置10は、呼吸センサ171により検知されたユーザの呼吸情報を取得する。そして、端末装置10は、ユーザの呼吸を示す呼吸情報をサーバ装置100へ送信する(ステップS202)。なお、端末装置10は、各情報を個別にサーバ装置100へ送信してもよい。端末装置10は、各情報が取得されたタイミングで、各情報をサーバ装置100へ送信してもよい。
 サーバ装置100は、端末装置10から取得した情報を用いて発話を連結する処理を実行する(ステップS203)。サーバ装置100は、呼吸情報に基づくユーザの呼吸状態に応じた音声対話制御の実行により、第1発話と第2発話とを連結する処理を実行する。
 そして、サーバ装置100は、第1発話と第2発話とが連結された連結後発話情報を用いて、音声認識等の処理を実行する(ステップS204)。そして、サーバ装置100は、音声認識等の結果に基づく機能の実行を端末装置10に指示する(ステップS205)。サーバ装置100は、機能を示す情報を端末装置10に送信することにより、機能の実行を端末装置10に指示する。そして、端末装置10は、サーバ装置100からの指示に応じて機能を実行する(ステップS206)。
[1-5-3.情報処理システムに係る処理の具体例]
 次に、図8A、図8Bを用いて、情報処理システムに係る具体的な処理の一例について説明する。図8A、図8Bは、本開示の第1の実施形態に係る情報処理システムの処理を示すフローチャートである。具体的には、図8A、図8Bは、音声対話セッションに関するフローチャートである。図8A、図8Bは、呼吸の荒さ度合い「H」による音声対話制御フローチャートを示す。なお、以下では、情報処理システム1が処理を行う場合を一例として説明するが、図8A、図8Bに示す処理は、情報処理システム1に含まれるサーバ装置100及び端末装置10のいずれの装置が行ってもよい。
 図8Aに示すように、情報処理システム1は、呼吸の荒さ度合い「H」が規定閾値「Hth」以上であるかどうかを判定する(ステップS301)。
 情報処理システム1は、呼吸の荒さ度合い「H」が規定閾値「Hth」以上である場合(ステップS301:Yes)、荒さ度合い「H」から音声発話影響度「E」を算出する(ステップS302)。
 そして、情報処理システム1は、音声認識終話判定の無音タイムアウト時間「t」(音声認識タイムアウト時間「t」)を音声発話影響度「E」に比例した時間延長する(ステップS303)。また、情報処理システム1は、音声対話セッション終了の無音タイムアウト時間「t」(セッションタイムアウト時間「t」)を音声発話影響度「E」に比例した時間延長する(ステップS304)。そして、情報処理システム1は、ステップS305の処理を行う。このように、図8A、図8Bの例では、情報処理システム1は、音声対話制御として、タイムアウト時間の延長を行う場合を一例として示す。
 また、情報処理システム1は、呼吸の荒さ度合い「H」が規定閾値「Hth」以上ではない場合(ステップS301:No)、ステップS302~S304の処理を行うことなくステップS305の処理を実行する。例えば、情報処理システム1は、呼吸の荒さ度合い「H」が規定閾値「Hth」未満の場合、ステップS302~S304の処理を行うことなくステップS305の処理を実行する。
 情報処理システム1は、セッションタイムアウト時間「t」の時間内にユーザが発話無かった場合(ステップS305:No)、処理を終了する。
 一方、情報処理システム1は、セッションタイムアウト時間「t」の時間内にユーザが発話あった場合(ステップS305:Yes)、ユーザ発話の意図理解の結果(Intent)が解釈可能であるかどうかを判定する(ステップS306)。例えば、情報処理システム1は、ユーザ発話の意図理解の結果(Intent)がOODではないかどうかを判定する。
 情報処理システム1は、ユーザ発話の意図理解の結果(Intent)が解釈可能である場合(ステップS306:Yes)、音声対話セッションの対話シナリオが完了したかどうかを判定する(ステップS307)。例えば、情報処理システム1は、ユーザ発話の意図理解の結果(Intent)がOOD以外の場合、ステップS307の処理を行う。
 情報処理システム1は、音声対話セッションの対話シナリオが完了した場合(ステップS307:Yes)、処理を終了する。
 一方、情報処理システム1は、音声対話セッションの対話シナリオが完了していない場合(ステップS307:No)、ステップS301に戻って処理を繰り返す。
 また、情報処理システム1は、ユーザ発話の意図理解の結果(Intent)が解釈可能ではない場合(ステップS306:No)、図8Bに示すように、呼吸の荒さ度合い「H」が規定閾値「Hth」以上であるかどうかを判定する(ステップS308)。例えば、情報処理システム1は、ユーザ発話の意図理解の結果(Intent)がOODである場合、ステップS308の処理を行う。
 情報処理システム1は、呼吸の荒さ度合い「H」が規定閾値「Hth」以上である場合(ステップS308:Yes)、音声対話セッションの状態を保存する(ステップS309)。そして、情報処理システム1は、音声対話セッションを中断する(ステップS310)。
 そして、情報処理システム1は、呼吸の荒さ度合い「H」が規定閾値「Hth」より小さいかどうかを判定する(ステップS311)。すなわち、情報処理システム1は、呼吸の荒さ度合い「H」が規定閾値「Hth」未満かどうかを判定する。
 情報処理システム1は、呼吸の荒さ度合い「H」が規定閾値「Hth」より小さくない場合(ステップS311:No)、ステップS311の処理を繰り返す。例えば、情報処理システム1は、呼吸の荒さ度合い「H」が規定閾値「Hth」未満ではない場合、呼吸の荒さ度合い「H」が規定閾値「Hth」未満になるまで、すなわちユーザの呼吸が落ち着くまで待つ。
 情報処理システム1は、呼吸の荒さ度合い「H」が規定閾値「Hth」より小さい場合(ステップS311:Yes)、保存してある状態から音声対話セッションを再開する(ステップS312)。そして、情報処理システム1は、図8A中のステップS305の処理を実行する。
 一方、情報処理システム1は、呼吸の荒さ度合い「H」が規定閾値「Hth」以上ではない場合(ステップS308:No)、ユーザのIntentがOODである発話に対する聞き直しのシステム発話を行う(ステップS313)。例えば、情報処理システム1は、呼吸の荒さ度合い「H」が規定閾値「Hth」未満である、すなわちユーザの呼吸が落ち着いている場合、ユーザの発話意図が解釈不能である発話に対する聞き直し発話(例えば「もう一度言ってください」等)を行う。そして、情報処理システム1は、図8A中のステップS305の処理を実行する。
[2.第2の実施形態]
 ここから、第2の実施形態について説明する。第2の実施形態は、ユーザの呼吸状態を示すベクトル(呼吸状態ベクトル「H」)を用いる場合を一例として説明する。なお、第1の実施形態と同様の点については、適宜説明を省略する。第2の実施形態においては、情報処理システム1は、サーバ装置100に代えて、サーバ装置100Aを有する。
[2-1.第2の実施形態に係る情報処理の概要]
 図9は、本開示の第2の実施形態に係る情報処理の一例を示す図である。本開示の第2の実施形態に係る情報処理は、図10に示すサーバ装置100Aや端末装置10を含む情報処理システム1によって実現される。
 図9の例では、ユーザの呼吸状態を示す情報として、ユーザの呼吸状態を示す呼吸状態ベクトル「H」を用いる場合を示す。図9に示す各処理は、第2の実施形態に係る情報処理システム1のサーバ装置100A及び端末装置10のいずれの装置が行ってもよい。第2の実施形態に係る情報処理システム1が処理の主体として記載されている処理については、第2の実施形態に係る情報処理システム1に含まれるいずれの装置が行ってもよい。以下では、端末装置10により検知されたユーザU1の呼吸を示す呼吸情報を用いて、サーバ装置100Aが音声対話制御の実行により、ユーザU1による第1発話と第2発話とを連結する処理を実行する処理(連結処理)を行う場合を一例として説明する。なお、図9において図1と同様の点は適宜説明を省略する。
 図9の例では、情報処理システム1は、ユーザU1の呼吸に関する呼吸情報を取得する。例えば、サーバ装置100Aは、ユーザU1が利用する端末装置10からユーザU1の呼吸を示す呼吸情報を取得する。サーバ装置100Aは、取得した呼吸情報を用いて、ユーザU1の呼吸状態を示す呼吸状態ベクトル「H」を算出する。
 図9の例では、サーバ装置100Aは、音声発話に影響を与える呼吸状態を一般化して表現する3次元ベクトルを算出する。サーバ装置100Aは、直近のロングスパン時間T(例えば10秒等)の呼吸センサ観測値と、直近のショートスパン時間T(例えば0.5秒等)の呼吸センサ観測値の両方を用いてベクトルの要素を算出する。
 例えば、ロングスパン時間Tでの呼吸センサのサンプル数は「n」(以下「サンプル数「n」」ともいう)である。例えば「n」は、ロングスパン時間Tにおいて呼吸センサ171により検知されたセンサ情報の数(例えば検知回数)を示す。
 例えば、ショートスパン時間Tでの呼吸センサのサンプル数は「n」(以下「サンプル数「n」」ともいう)である。例えば「n」は、ショートスパン時間Tにおいて呼吸センサ171により検知されたセンサ情報の数(例えば検知回数)を示す。例えば、nはnよりも非常に大きい(n≫nである)が、nやn等の観測対象時間等についての詳細は図16で説明する。
 例えば、サーバ装置100Aは、以下の式(8)を用いてユーザU1の呼吸状態を示す呼吸状態ベクトル「H」を算出する。
Figure JPOXMLDOC01-appb-M000008
 上記の式(8)中の「d」(以下「深さ「d」」ともいう)は、ユーザの呼吸の深さを示す。例えば、サーバ装置100Aは、以下の式(9)を用いて深さ「d」を算出する。
Figure JPOXMLDOC01-appb-M000009
 上記の式(9)中の「S」(以下「平均観測値「S」」ともいう)は、直近のロングスパン時間Tでのnサンプルの呼吸センサの平均観測値を示す。例えば「S」は、直近のロングスパン時間Tで呼吸センサ171により検知されたサンプル数「n」の平均観測値(例えば平均吸気量)を示す。例えば、サーバ装置100Aは、以下の式(10)を用いて平均観測値「S」を算出する。
Figure JPOXMLDOC01-appb-M000010
 上記の式(10)中の「S」(以下「観測値「S」」ともいう)は、呼吸センサの各サンプルの観測値を示す。例えば「S」は、呼吸センサ171により検知されたセンサ情報の観測値(例えば吸気量)を示す。
 また、上記の式(10)中の「n」は、直近のロングスパン時間Tでのnサンプルを示す。例えば「n」は、ロングスパン時間Tにおいて呼吸センサ171により検知されたセンサ情報の数(例えば検知回数)を示す。
 上記の式(9)中の「Spi」(以下「ピーク観測値「Spi」」ともいう)は、呼吸センサの各ピーク観測値を示す。例えば、サーバ装置100Aは、「S」との交点間の最大値や最小値などによりピーク検出する。例えば「Spi」は、呼吸センサ171により検知されたセンサ情報の観測値(例えば吸気量)での各呼吸の最大となる時点の値や最小となる時点の値を示す。
 上記の式(9)中の「Nlp」(以下「ピーク観測数「Nlp」」ともいう)は、直近のロングスパン時間Tでのnサンプルに含まれるピーク観測値の数を示す。なお、各要素についての図示を用いた詳細は、図17で説明する。
 上記の式(8)中の「f」(以下「周波数「f」」ともいう)は、ユーザの呼吸の周波数を示す。例えば、サーバ装置100Aは、観測値「S」の平均観測値「S」との交点数やピーク数「Nlp」により周波数「f」を算出する。なお、サーバ装置100Aは、自己相関ピッチ検出やケプストラム分析等の種々の手法を適宜用いて、周波数「f」を算出してもよい。上述の深さ「d」や周波数深さ「f」の算出は、ロングスパン時間の観測値からの算出の一例を示す。
 また、上記の式(8)中の「v」(以下「速度「v」」ともいう)は、ユーザの呼吸の速度を示す。例えば、サーバ装置100Aは、直近のショートスパン時間Tでのnサンプルでの観測値の差分絶対値平均を速度「v」として算出する。例えば、サーバ装置100Aは、以下の式(11)を用いて速度「v」を算出する。
Figure JPOXMLDOC01-appb-M000011
 上記の式(11)中の「n」は、直近のショートスパン時間Tでのnサンプルを示す。例えば「n」は、ショートスパン時間Tにおいて呼吸センサ171により検知されたセンサ情報の数(例えば検知回数)を示す。上記の式(11)中の「ΔS」(以下「差分値「ΔS」」ともいう)は、呼吸センサの1サンプル前の観測値に対する差分値を示す。例えば、差分値「ΔS」は、呼吸センサ171により検知されたセンサ情報の観測値のうち、1サンプル前の観測値に対する差分値を示す。サーバ装置100Aは、差分値「ΔS」を、以下の式(12)を用いて算出する。
Figure JPOXMLDOC01-appb-M000012
 上記の式(12)中の「S」は、式(9)中の「S」と同様である。上記の式(12)中の「Si-1」は、例えば1サンプル前の観測値を示す。
 このように、サーバ装置100Aは、音声対話システムにおいて、呼吸センサ171により観測される呼吸量の変位値を用いて、ユーザの呼吸状態を示す呼吸状態ベクトルを検出(算出)する。サーバ装置100Aは、一般化された呼吸状態ベクトル検出(算出)する。例えば、サーバ装置100Aは、呼吸状態ベクトル「H」の要素として、ロングスパン時間の呼吸の深さ・周波数とショートスパン時間の呼吸の速度を算出する。なお、上記は一例であり、サーバ装置100Aは、種々の情報を適宜用いて、呼吸状態ベクトル「H」を算出してもよい。
 図9の例では、サーバ装置100Aは、式(8)により算出した呼吸状態ベクトル「H」を用いて、音声対話制御の処理が行われる。サーバ装置100Aは、呼吸状態を示す呼吸の呼吸状態ベクトル「H」を用いて判定を行う。サーバ装置100Aは、呼吸状態ベクトル「H」が条件を満たす場合、音声対話制御を実行する。呼吸状態ベクトル「H」は呼吸が平常時と異なる程、平常時の範囲(以下、「正常範囲「R」」ともいう)から外れるベクトルであり、呼吸状態ベクトル「H」が正常範囲「R」」から外れる(距離が離れる)程、息が切れて音声による発話を思い通りに行う事が困難になる可能性が高い。呼吸状態ベクトル「H」が正常範囲「R」」から外れる(距離が離れる)程、発話を行うべきタイミングでなかなか開始できなかったり、発話が途中で途切れてしまったりする可能性が高い。そこで、サーバ装置100Aは、呼吸状態ベクトルの平常時に対応する範囲(正常範囲「R」)の情報を用いる。サーバ装置100Aは、呼吸状態ベクトル「H」と正常範囲「R」との比較結果が条件を満たす場合、音声対話制御を実行する。このように、呼吸状態ベクトル「H」には、音声発話が正常に行える呼吸状態である正常範囲(空間)を示す正常範囲「R」が規定されており、呼吸状態ベクトル「H」が正常範囲「R」の範囲外になると、情報処理システム1は、音声対話制御の処理を実行する。正常範囲「R」を図示した上での詳細な説明は、後述する。上記の点を前提として、以下図9の例について具体的に説明する。
 図9の例では、音声対話制御を実行しなかった場合の処理を示した後、音声対話制御を実行した場合の処理を示す。まず、状態情報ST1に示すように、時間t10にはユーザU1の呼吸状態が平常状態である場合を示す。例えば、サーバ装置100Aは、時間t10におけるユーザU1の呼吸情報を取得し、呼吸情報と式(8)とを用いて、呼吸状態ベクトル「H」を算出する。そして、サーバ装置100Aは、算出した呼吸状態ベクトル「H」を正常範囲「R」と比較する。呼吸状態ベクトル「H」が正常範囲「R」内であるため、サーバ装置100Aは、時間t10におけるユーザU1の呼吸状態を平常であると判定する。
 なお、図9の例では、時間t10から時間t12までの間はユーザU1の呼吸状態を平常であると判定された場合を示す。そのため、時間t10から時間t12までの間は音声対話制御を実行されず、タイムアウト時間の一例である音声認識終話判定の無音タイムアウト時間「t」の延長が行われていない場合を示す。
 ユーザU1は、時間t11に「音楽かけて」という発話UT1を行う。音声認識タイムアウト時間「t」が経過した後、音声認識等の処理が実行される。例えば、情報処理システム1は、自然言語理解(NLU)により、ユーザの発話UT1からユーザの発話UT1の意図(Intent)や発話UT1のエンティテイ(Entity)の情報を生成する。なお、情報処理システム1は、ユーザの発話からその意図(Intent)や属性情報(Entity)の情報が獲得できれば、どのような自然言語理解に関する技術を用いてもよい。図9の例では、「音楽かけて」という発話UT1はユーザU1の意図を解釈可能な発話であるため、情報処理システム1は、発話UT1に対応する機能を実行する。例えば、情報処理システム1は、ユーザU1の端末装置10に音楽を再生させる。
 次に、状態情報ST2に示すように、時間t12にはユーザU1の呼吸状態が平常以外(非平常)の状態である場合を示す。例えば、サーバ装置100Aは、時間t12におけるユーザU1の呼吸情報を取得し、呼吸情報と式(8)とを用いて、呼吸状態ベクトル「H」を算出する。そして、サーバ装置100Aは、算出した呼吸状態ベクトル「H」を正常範囲「R」と比較する。呼吸状態ベクトル「H」が正常範囲「R」外であるため、サーバ装置100Aは、時間t12におけるユーザU1の呼吸状態を非平常であると判定する。すなわち、時間t12にユーザU1の呼吸状態が平常状態から非平常状態に変わった場合を示す。
 なお、図9の例では、時間t12以降はユーザU1の呼吸状態を非平常であると判定された場合を示す。具体的には、時間t12以降はユーザU1が運動を行っており、息が切れている状態となり、呼吸状態を非平常であると判定された場合を示す。そのため、時間t12以降は音声対話制御を実行され、音声認識タイムアウト時間「t」が延長される。例えば、サーバ装置100Aは、音声対話制御を実行され、音声認識タイムアウト時間「t」を延長する。図9の例では、サーバ装置100Aは、音声認識タイムアウト時間「t」の長さを時間長TL1から時間長TL2に延長する。
 図9では、時間t13の直前に情報処理システム1が「○○さんからメッセージが届きました。読み上げますか?」というシステム出力を行っているものとする。それに応じて、ユーザU1は、時間t13に「読み」という発話UT11を行う。そして、ユーザU1は、時間t14に「上げて」という発話UT12を行う。この場合、「読み」という発話UT11が第1発話に対応し、「上げて」という発話UT12が第2発話に対応する。
 ここで、「読み」という発話UT11が終了した時間と、「上げて」という発話UT12を開始した時間(時間t14)との間の時間長は、時間長TL1よりも長く、時間長TL2よりも短い。そのため、音声認識タイムアウト時間「t」が延長されずに、音声認識タイムアウト時間「t」が時間長TL1であった場合、「上げて」という発話UT12の前に音声認識タイムアウト時間「t」が終了する。この場合、「読み」という発話UT11のみで音声認識の処理が行われる。この場合、「読み」という発話UT11はユーザU1の意図を解釈可能な発話ではないため、情報処理システム1は、発話UT11が意図を解釈不能な発話(OOD発話)とする。このように、音声認識タイムアウト時間「t」が延長されていない場合、情報処理システム1は、ユーザU1の発話を適切に解釈することができない。
 一方、図9の例では、音声認識タイムアウト時間「t」が延長され、音声認識タイムアウト時間「t」が時間長TL2である。そのため、「読み」という発話UT11が終了した時間から音声認識タイムアウト時間「t」内に「上げて」という発話UT12が発話されているため、サーバ装置100Aは、発話UT11と発話UT12とを連結する。例えば、サーバ装置100Aは、「読み」という発話UT11と「上げて」という発話UT12とを連結し、「読み上げて」という発話UT13として音声認識等の処理を行う。
 この場合、「読み上げて」という発話UT13はユーザU1の意図を解釈可能な発話であるため、情報処理システム1は、発話UT13に対応する機能を実行する。例えば、情報処理システム1は、ユーザU1の端末装置10に○○さんからのメッセージを音声出力させる。このように、情報処理システム1は、タイムアウト時間を延長する音声対話制御の実行により、ユーザの複数の発話を適切に連結可能にすることができる。
[2-1-1.発話への影響を加味した処理例]
 第2の実施形態に係る情報処理システム1は、発話への影響を加味して延長する時間を変動させてもよい。このように、情報処理システム1は、発話への影響度を用いた音声対話制御の処理を行ってもよい。この点について以下説明する。
 情報処理システム1は、検出した呼吸状態が発話に影響を与える状態になると、音声対話制御を行う。例えば、情報処理システム1は、呼吸状態ベクトル「H」が正常範囲「R」外になると、音声対話制御を行う。
 例えば、情報処理システム1は、ユーザ発話の意味理解結果が解釈不能時に、音声対話のセッション(音声対話セッション)を一時中断し、呼吸状態ベクトル「H」が正常範囲「R」内になるまで待ってから、音声対話セッションを再開する。このように、情報処理システム1は、ユーザ発話の意味理解処理結果がOOD(解釈不能)だった場合は対話セッションを中断し、呼吸状態が正常な音声発話を行える状態になるまで待ってから再開する。
 例えば、情報処理システム1は、呼吸状態ベクトル「H」が正常範囲「R」外の状態でNLUからのIntentがOODだった場合には、音声対話セッションの状態を保存しておき一時中断する。情報処理システム1は、呼吸状態ベクトル「H」が正常範囲「R」内になったことを検知すると保存してある音声対話セッションの状態から再開する。情報処理システム1が運動中のOOD発話としばらくして落ち着いてからの対話セッションの中断・再開する制御フローについての詳細は図23A、図23Bで説明する。
 例えば、情報処理システム1は、音声認識の終話判定や 音声対話のセッション終了判定の無音タイムアウト時間「t」、「t」を、呼吸状態ベクトル「H」の正常範囲「R」からのベクトル距離が離れるほど延長する。情報処理システム1は、呼吸状態ベクトル「H」の正常範囲「R」からのベクトル距離が離れるほど、延長する時間長を長くする。
[2-1-1-1.音声発話影響度]
 例えば、情報処理システム1は、発話への影響度を示す音声発話影響度「E」を用いて延長する時間を決定してもよい。情報処理システム1は、呼吸状態ベクトル「H」を用いて、音声発話影響度「E」を算出する。
 上述したように、呼吸状態ベクトル「H」を用いる場合、情報処理システム1は、呼吸状態ベクトル「H」の表す3次元ベクトル空間に、音声発話が正常に行える呼吸状態である事を意味する正常範囲「R」を規定する。そして、情報処理システム1は、正常範囲「R」の中心となる点を正常呼吸原点「O」として規定する。例えば、情報処理システム1は、正常呼吸原点「O」を以下の式(13)を用いて算出する。
Figure JPOXMLDOC01-appb-M000013
 上記の式(13)中の深さ「d」は、正常範囲「R」の中心となる点での深さを示す。また、上記の式(13)中の周波数「f」は、正常範囲「R」の中心となる点での周波数を示す。また、上記の式(13)中の速さ「v」は、正常範囲「R」の中心となる点での速さを示す。
 なお、式(13)は一例であり、情報処理システム1は、式(13)に限らず、種々の情報を適宜用いて、正常呼吸原点「O」を算出してもよい。例えば、情報処理システム1は、正常範囲「R」や正常呼吸原点「O」を、一般的な正常呼吸時の深さ・周波数・速度に基づいてプリセットされた固定値として規定してもよい。情報処理システム1は、予め設定された正常範囲「R」や正常呼吸原点「O」を用いてもよい。また、情報処理システム1は、後述する個人化学習による変形例で学習された値として規定してもよい。
 情報処理システム1は、正常呼吸原点「O」の情報を用いて、音声発話影響度「E」を算出する。例えば、情報処理システム1は、音声発話影響度「E」を以下の式(14)を用いて算出する。例えば、情報処理システム1は、呼吸状態ベクトル「H」が正常範囲「R」外になると発話へ影響を与える呼吸状態であると判定し、式(14)を用いて音声発話影響度「E」を算出する。
Figure JPOXMLDOC01-appb-M000014
 上記の式(14)の場合、ロングスパン時間観測結果である(d,f)平面上での正常呼吸原点「O」と呼吸状態ベクトル「H」のベクトル距離(スカラー値)が、音声発話影響度「E」の値として用いられる。なお、式(14)は一例に過ぎず、情報処理システム1は、種々の式を用いて、音声発話影響度「E」を算出してもよい。
 そして、情報処理システム1は、算出した音声発話影響度「E」を用いて、延長する時間長を決定する。なお、この点については第1の実施形態と同様であるため、説明を省略する。情報処理システム1は、音声認識終話判定の無音タイムアウト時間「t」と音声対話セッション終了の無音タイムアウト時間「t」を呼吸状態に応じて延長する。情報処理システム1は、無音タイムアウト時間「t」、「t」を音声発話影響度「E」の値が大きくなるほど長い時間延長する。例えば、情報処理システム1は、音声発話影響度「E」に比例した時間だけ無音タイムアウト時間「t」、「t」を延長する。平常時と運動時における無音タイムアウト時間「t」、「t」の制御フローの詳細は、図22A,図22Bで説明する。
 また、情報処理システム1は、呼吸状態ベクトル「H」の検出の場合、d≦d、またはf≦fの条件下で瞬間的な呼吸の速さ「v」が閾値「v」以上(早い)の時は、速さ「v」が閾値「v」より小さくなるまで無音タイムアウト時間「t」、「t」を延長する。また、情報処理システム1は、d≧d、またはf≧fの条件下で速さ「v」が閾値「v」以下(遅い)の時は、速さ「v」が閾値「v」より大きくなるまで無音タイムアウト時間「t」、「t」を延長する。情報処理システム1は、呼吸器の生理現象により呼吸の速さが瞬間的に早くなった場合や、驚きや力みで呼吸の速さが瞬間的に遅く(止まった)場合の一時的に発話できない期間は、タイムアウト時間をその期間分延長する。
[2-2.第2の実施形態に係る情報処理装置の構成]
 次に、第2の実施形態に係る情報処理を実行する情報処理装置の一例であるサーバ装置100Aの構成について説明する。図10は、本開示の第2の実施形態に係るサーバ装置の構成例を示す図である。
 図10に示すように、サーバ装置100Aは、通信部110と、記憶部120Aと、制御部130Aとを有する。
 記憶部120Aは、例えば、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。第2の実施形態に係る記憶部120Aは、図10に示すように、呼吸情報記憶部121と、ユーザ情報記憶部122と、判定用情報記憶部123Aと、機能情報記憶部124とを有する。
 第2の実施形態に係る判定用情報記憶部123Aは、判定に用いる情報(判定用情報)に関する各種情報を記憶する。判定用情報記憶部123Aは、音声対話制御を実行するかの判定に用いる各種情報を記憶する。図11は、本開示の第2の実施形態に係る判定用情報記憶部の一例を示す図である。図11に示す判定用情報記憶部123Aには、「判定用情報ID」、「用途」、「名称」、「内容」といった項目が含まれる。
 「判定用情報ID」は、判定用情報を識別するための識別情報を示す。「用途」は、判定用情報の用途を示す。「名称」は、対応する判定用情報IDにより識別される判定用情報(変数)の名称(文字列)を示す。「内容」は、対応する判定用情報IDにより識別される判定用情報の具体的な内容(値等)を示す。
 図11の例では、判定用情報ID「JD1」により識別される判定用情報(判定用情報JD1)の用途は、正常範囲の判定に用いる判定用情報であることを示す。判定用情報JD1は、呼吸状態ベクトルとの比較に用いる判定用情報(正常範囲)であることを示す。判定用情報JD1は、名称「R」として用いられることを示す。判定用情報JD1の場内容は、「範囲情報AINF1」であることを示す。なお、図11では、内容を「範囲情報AINF1」等の抽象的な符号で示すが、内容は、「(1.2,32,2.8…)」や「2.6」等の具体的な情報(ベクトルや数値等)であるものとする。例えば、「範囲情報AINF1」は、原点(例えばO)からの距離を示す情報(数値)であってもよいし、範囲を示すN次元のベクトル情報であってもよい。
 なお、判定用情報記憶部123Aは、上記に限らず、目的に応じて種々の情報を記憶してもよい。
 図10に示すように、制御部130Aは、取得部131と、算出部132Aと、決定部133Aと、実行部134と、送信部135とを有し、以下に説明する情報処理の機能や作用を実現または実行する。取得部131は、判定用情報記憶部123Aから情報を取得する。
 算出部132Aは、算出部132と同様に各種情報を算出する。算出部132Aは、判定用情報記憶部123Aの情報に基づいて、各種情報を算出する。算出部132Aは、呼吸情報を用いてユーザの呼吸状態を示すベクトルを算出する。算出部132Aは、式(8)等を用いてベクトルである呼吸状態ベクトル「H」を算出する。算出部132Aは、式(9)を用いて深さ「d」を算出する。算出部132Aは、式(10)を用いて平均観測値「S」を算出する。算出部132Aは、「S」との交点間の最大値や最小値などによりピーク検出し、ピーク観測値「Spi」を算出する。算出部132Aは、ピーク観測数「Nlp」を算出(計数)する。算出部132Aは、の式(11)を用いて速度「v」を算出する。算出部132Aは、差分値「ΔS」を、式(12)を用いて算出する。
 決定部133Aは、決定部133と同様に各種情報を決定する。決定部133Aは、判定用情報記憶部123Aの情報に基づいて、各種情報を決定する。決定部133Aは、算出部132により算出された情報と、正常範囲とを比較することにより、音声対話制御を実行するかどうかを決定する。決定部133Aは、正常範囲の情報を用いて、音声対話制御を実行するかどうかを判定する。決定部133Aは、呼吸状態ベクトル「H」と、正常範囲とを比較することにより、音声対話制御を実行するかどうかを決定する。決定部133Aは、呼吸状態ベクトル「H」が正常範囲「R」外である場合、音声対話制御を実行すると決定する。
 決定部133Aは、算出部132により算出された情報と、正常範囲とを比較することにより、音声対話制御を実行するかどうかを決定する。決定部133Aは、正常範囲を用いて、音声対話制御を実行するかどうかを判定する。決定部133Aは、呼吸状態ベクトル「H」と、正常範囲とを比較することにより、音声対話制御を実行するかどうかを決定する。決定部133Aは、呼吸状態ベクトル「H」が正常範囲「R」外である場合、音声対話制御を実行すると決定する。決定部133Aは、呼吸状態ベクトル「H」を正常範囲「R」と比較する。決定部133Aは、呼吸状態ベクトル「H」が正常範囲「R」内である場合、ユーザの呼吸状態を平常であると判定する。決定部133Aは、呼吸状態ベクトル「H」が正常範囲「R」外である場合、ユーザの呼吸状態を非平常であると判定する。
 実行部134は、第1の実施形態に係る実行部134と同様に各種処理を実行する。実行部134は、判定用情報記憶部123Aの情報に基づいて、各種処理を実行する。実行部134は、決定部133Aにより音声対話制御を実行すると決定された場合、音声対話制御を実行する。実行部134は、ベクトルが条件を満たす場合、音声対話制御の実行により、第1発話と第2発話とを連結する処理を実行する。実行部134は、ベクトルが正常範囲外である場合、音声対話制御の実行により、第1発話と第2発話とを連結する処理を実行する。
 実行部134は、呼吸状態ベクトル「H」が条件を満たす場合、音声対話制御を実行する。実行部134は、呼吸状態ベクトル「H」と正常範囲「R」との比較結果が条件を満たす場合、音声対話制御を実行する。実行部134は、呼吸状態ベクトル「H」が正常範囲「R」外になった場合に音声対話制御を実行する。
[2-3.第2の実施形態に係る情報処理の手順]
 次に、図12A、図12B及び図13を用いて、情報処理システムに係る具体的な処理の一例について説明する。図12A、図12B及び図13は、本開示の第2の実施形態に係る情報処理システムの処理を示すフローチャートである。具体的には、図12A、図12B及び図13は、音声対話セッションに関するフローチャートである。図12A、図12B及び図13は、速さ「v」による無音タイムアウト時間延長を含む呼吸状態ベクトル「H」による音声対話制御フローチャートを示す。なお、以下では、第2の実施形態に係る情報処理システム1が処理を行う場合を一例として説明するが、図12A、図12B及び図13に示す処理は、第2の実施形態に係る情報処理システム1に含まれるサーバ装置100A及び端末装置10のいずれの装置が行ってもよい。
 図12Aに示すように、情報処理システム1は、呼吸の呼吸状態ベクトル「H」が正常範囲「R」の範囲外かどうかを判定する(ステップS401)。
 情報処理システム1は、呼吸の呼吸状態ベクトル「H」が正常範囲「R」の範囲外である場合(ステップS401:Yes)、呼吸状態ベクトル「H」と正常呼吸原点「O」から音声発話影響度「E」を算出する(ステップS402)。
 そして、情報処理システム1は、音声認識タイムアウト時間「t」を音声発話影響度「E」に比例した時間延長する(ステップS403)。また、情報処理システム1は、セッションタイムアウト時間「t」を音声発話影響度「E」に比例した時間延長する(ステップS404)。そして、情報処理システム1は、図13に示すステップS405の処理を行う。このように、図12A、図12B及び図13の例では、情報処理システム1は、音声対話制御として、タイムアウト時間の延長を行う場合を一例として示す。
 また、情報処理システム1は、呼吸の呼吸状態ベクトル「H」が正常範囲「R」の範囲外ではない場合(ステップS401:No)、ステップS402~S404の処理を行うことなく、図13に示すステップS405の処理を実行する。例えば、情報処理システム1は、呼吸の呼吸状態ベクトル「H」が正常範囲「R」の範囲内である場合、ステップS402~S404の処理を行うことなく、図13に示すステップS405の処理を実行する。
 図13に示すように、情報処理システム1は、呼吸状態ベクトル「H」の深さ「d」が正常呼吸時の深さ「d」以下である、または、周波数「f」が正常呼吸時の周波数「f」以下であるという条件を満たすかどうかを判定する(ステップS405)。情報処理システム1は、呼吸状態ベクトル「H」の深さ「d」が正常呼吸時の深さ「d」以下である、または、周波数「f」が正常呼吸時の周波数「f」以下であるという条件を満たさない場合(ステップS405:No)、ステップS406の処理を行うことなくステップS407の処理を実行する。例えば、情報処理システム1は、呼吸状態ベクトル「H」の深さ「d」が正常呼吸原点「O」の深さ「d」以下でなく、かつ、周波数「f」が正常呼吸原点「O」の周波数「f」以下でない場合、ステップS406の処理を行うことなくステップS407の処理を実行する。
 一方、情報処理システム1は、呼吸状態ベクトル「H」の深さ「d」が正常呼吸時の深さ「d」以下である、または、周波数「f」が正常呼吸時の周波数「f」以下である場合(ステップS405:Yes)、呼吸状態ベクトル「H」の速さ「v」が閾値「v」より小さいかどうかを判定する(ステップS406)。
 情報処理システム1は、呼吸状態ベクトル「H」の速さ「v」が閾値「v」より小さい場合(ステップS406:Yes)、呼吸状態ベクトル「H」の深さ「d」が正常呼吸時の深さ「d」以上である、または、周波数「f」が正常呼吸時の周波数「f」以上であるという条件を満たすかどうかを判定する(ステップS407)。
 情報処理システム1は、呼吸状態ベクトル「H」の深さ「d」が正常呼吸時の深さ「d」以上である、または、周波数「f」が正常呼吸時の周波数「f」以上であるという条件を満たさない場合(ステップS407:No)、ステップS408の処理を行うことなくステップS409の処理を実行する。例えば、情報処理システム1は、呼吸状態ベクトル「H」の深さ「d」が正常呼吸原点「O」の深さ「d」以上でなく、かつ、周波数「f」が正常呼吸原点「O」の周波数「f」以上でない場合、ステップS408の処理を行うことなくステップS409の処理を実行する。
 一方、情報処理システム1は、呼吸状態ベクトル「H」の深さ「d」が正常呼吸時の深さ「d」以上である、または、周波数「f」が正常呼吸時の周波数「f」以上である場合(ステップS407:Yes)、呼吸状態ベクトル「H」の速さ「v」が閾値「v」より大きいかかどうかを判定する(ステップS408)。
 情報処理システム1は、呼吸状態ベクトル「H」の速さ「v」が閾値「v」より大きい場合(ステップS408:Yes)、ステップS409の処理を行う。
 情報処理システム1は、発話無しでセッションタイムアウト時間「t」の時間経過、または、発話有りで音声認識タイムアウト時間「t」の時間経過したかどうかを判定する(ステップS409)。例えば、情報処理システム1は、発話無しでセッションタイムアウト時間「t」の時間経過、または、発話有りで音声認識タイムアウト時間「t」の時間経過したという条件(以下「終話判定条件」ともいう)を満たすかどうかを判定する。
 また、情報処理システム1は、発話無しでセッションタイムアウト時間「t」の時間経過、または、発話有りで音声認識タイムアウト時間「t」の時間経過したという条件を満たさない場合(ステップS409:No)、ステップS410の処理を行う。情報処理システム1は、終話判定条件を満たさない場合、ステップS410の処理を行う。例えば、情報処理システム1は、発話無しでセッションタイムアウト時間「t」の時間経過がなく、かつ、発話有りで音声認識タイムアウト時間「t」の時間経過がない場合、ステップS410の処理を実行する。
 情報処理システム1は、ショートスパン時間「T」を待ち、呼吸状態ベクトル「H」の更新を待つ(ステップS410)。その後、情報処理システム1は、ステップS405に戻って処理を繰り返す。
 また、情報処理システム1は、呼吸状態ベクトル「H」の速さ「v」が閾値「v」より小さくない場合(ステップS406:No)、速さ「v」が閾値「v」より小さくなるまで待つ(ステップS411)。情報処理システム1は、呼吸状態ベクトル「H」の速さ「v」が閾値「v」以上である場合、速さ「v」が閾値「v」より小さくなるまで待つ。その後、情報処理システム1は、図12A中のステップS401に戻って処理を繰り返す。
 また、情報処理システム1は、呼吸状態ベクトル「H」の速さ「v」が閾値「v」より大きくない場合(ステップS408:No)、速さ「v」が閾値「v」より大きくなるまで待つ(ステップS412)。情報処理システム1は、呼吸状態ベクトル「H」の速さ「v」が閾値「v」以下である場合、速さ「v」が閾値「v」より大きくなるまで待つ。その後、情報処理システム1は、図12A中のステップS401に戻って処理を繰り返す。
 また、情報処理システム1は、発話無しでセッションタイムアウト時間「t」の時間経過、または、発話有りで音声認識タイムアウト時間「t」の時間経過したという条件を満たす場合(ステップS409:Yes)、図12A中のステップS413の処理を行う。情報処理システム1は、終話判定条件を満たす場合、図12A中のステップS413の処理を行う。
 情報処理システム1は、セッションタイムアウト時間「t」の時間内にユーザが発話無かったかどうかを判定する(ステップS413)。情報処理システム1は、セッションタイムアウト時間「t」の時間内にユーザが発話無かった場合(ステップS413:No)、処理を終了する。
 一方、情報処理システム1は、セッションタイムアウト時間「t」の時間内にユーザが発話あった場合(ステップS413:Yes)、ユーザ発話の意図理解の結果(Intent)が解釈可能であるかどうかを判定する(ステップS414)。例えば、情報処理システム1は、ユーザ発話の意図理解の結果(Intent)がOODではないかどうかを判定する。
 情報処理システム1は、ユーザ発話の意図理解の結果(Intent)が解釈可能である場合(ステップS414:Yes)、音声対話セッションの対話シナリオが完了したかどうかを判定する(ステップS415)。例えば、情報処理システム1は、ユーザ発話の意図理解の結果(Intent)がOOD以外の場合、ステップS415の処理を行う。
 情報処理システム1は、音声対話セッションの対話シナリオが完了した場合(ステップS415:Yes)、処理を終了する。
 一方、情報処理システム1は、音声対話セッションの対話シナリオが完了していない場合(ステップS415:No)、ステップS401に戻って処理を繰り返す。
 また、情報処理システム1は、ユーザ発話の意図理解の結果(Intent)が解釈可能ではない場合(ステップS414:No)、図12Bに示すように、呼吸の呼吸状態ベクトル「H」が正常範囲「R」の範囲外であるかどうかを判定する(ステップS416)。例えば、情報処理システム1は、ユーザ発話の意図理解の結果(Intent)がOODである場合、図12B中のステップS416の処理を行う。
 図12Bに示すように、情報処理システム1は、呼吸の呼吸状態ベクトル「H」が正常範囲「R」の範囲外であるかどうかを判定する(ステップS416)。情報処理システム1は、呼吸の呼吸状態ベクトル「H」が正常範囲「R」の範囲外である場合(ステップS416:Yes)、音声対話セッションの状態を保存する(ステップS417)。そして、情報処理システム1は、音声対話セッションを中断する(ステップS418)。
 そして、情報処理システム1は、呼吸の呼吸状態ベクトル「H」が正常範囲「R」の範囲内ではないかどうかを判定する(ステップS419)。すなわち、情報処理システム1は、呼吸の呼吸状態ベクトル「H」が正常範囲「R」の範囲外かどうかを判定する
 情報処理システム1は、呼吸の呼吸状態ベクトル「H」が正常範囲「R」の範囲内ではない場合(ステップS419:No)、ステップS419の処理を繰り返す。例えば、情報処理システム1は、呼吸の呼吸状態ベクトル「H」が正常範囲「R」の範囲内ではない場合、呼吸の呼吸状態ベクトル「H」が正常範囲「R」の範囲内になるまで、すなわちユーザの呼吸が落ち着くまで待つ。
 情報処理システム1は、呼吸の呼吸状態ベクトル「H」が正常範囲「R」の範囲内である場合(ステップS419:Yes)、保存してある状態から音声対話セッションを再開する(ステップS420)。そして、情報処理システム1は、図12A中のステップS413の処理を実行する。
 一方、情報処理システム1は、呼吸の呼吸状態ベクトル「H」が正常範囲「R」の範囲外ではない場合(ステップS416:No)、ユーザのIntentがOODである発話に対する聞き直しのシステム発話を行う(ステップS421)。例えば、情報処理システム1は、呼吸の呼吸状態ベクトル「H」が正常範囲「R」の範囲内である、すなわちユーザの呼吸が落ち着いている場合、ユーザの発話意図が解釈不能である発話に対する聞き直し発話(例えば「もう一度言ってください」等)を行う。そして、情報処理システム1は、ステップS413の処理を実行する。
[2-3-1.効果等]
 例えば、運動による息切れ以外で音声発話が困難になる呼吸状態の例として、緊張・ストレス・集中などにより呼吸が浅くなるケース、無呼吸や過呼吸のケース、眠気により呼吸回数が減るケース、咳やくしゃみなど呼吸器の生理現象、驚きや力みにより短期間呼吸が止まる(浅くなる)ケースがあげられる。このようなケースであっても上述した処理により、情報処理システム1は、ユーザの複数の発話を適切に連結可能にすることができる。
 また、上述した処理により、情報処理システム1は、息切れに起因する音声認識率の低下時(OOD発話時)は、呼吸が正常な音声認識率となるまで回復してから対話セッションを再開する。そのため、情報処理システム1は、息が切れて音声認識が入らない時等の不要な言い直しを抑制することができる。また、情報処理システム1は、運動による息切れ以外も効果を奏する。例えば、情報処理システム1は、一般化した呼吸状態ベクトルを用いた音声対話制御により、緊張・ストレス、集中・無呼吸、過呼吸、眠気、咳やくしゃみなどの生理現象、驚き・力みにより発話が困難な状況においても、運動による息切れの場合と同様の効果を得ることが可能となる。
[2-4.呼吸状態と音声対話制御との関係例]
 ここで、図14を用いて、ユーザの呼吸状態と、情報処理システム1の音声対話制御との関係について説明する。図14は、呼吸状態と音声対話制御との関係の一例を示す図である。例えば、図14は、呼吸の瞬間的な速さ「v」の音声発話への影響と、対話制御方法を示す。
 図14中に示す表は、ユーザの呼吸の深さ「d」、周波数「f」、短期間の速さ「v」等を含む観測呼吸状態に対応する、発話に影響するユーザの状態・挙動や対話制御の例を示す。
 例えば、深さ「d」、周波数「f」、短期間の速さ「v」が全て正常である場合、ユーザの状態・挙動は、平静時で正常な発話が可能であると推定されることを示す。また、この場合の対話制御としては、発話中の音声認識タイムアウト時間「t」や発話前のセッションタイムアウト時間「t」は、レスポンス優先で制御されることを示す。
 また、OOD発話後の処理についても呼吸起因ではないとして(通常の)制御が行われることを示す。深さ「d」、周波数「f」、短期間の速さ「v」の少なくとも1つが正常ではない場合、OOD発話後の処理については、呼吸状態ベクトル「H」が正常範囲「R」の範囲内に入ると対話再開する制御が行われることを示す。
 例えば、深さ「d」が深く、周波数「f」が高く、短期間の速さ「v」が早い場合、ユーザの状態・挙動は、運動で息が切れている、または、過呼吸であると推定されることを示す。また、この場合の対話制御としては、発話中の音声認識タイムアウト時間「t」や発話前のセッションタイムアウト時間「t」は、音声発話影響度「E」に比例延長されることを示す。
 例えば、深さ「d」が深いか正常であり、周波数「f」が高いか正常であり、短期間の速さ「v」が(瞬間的に)早い場合、ユーザの状態・挙動は、咳、くしゃみ、あくび等の呼吸器の生理現象、またはため息であると推定されることを示す。また、この場合の対話制御としては、発話中の音声認識タイムアウト時間「t」や発話前のセッションタイムアウト時間「t」は、音声発話影響度「E」に比例延長されることを示す。また、この場合、発話中の音声認識タイムアウト時間「t」や発話前のセッションタイムアウト時間「t」は、速さ「v」が閾値「v」以上の期間延長がされることを示す。例えば、発話中の音声認識タイムアウト時間「t」や発話前のセッションタイムアウト時間「t」は、速さ「v」が閾値「v」以上の間延長がされることを示す。
 例えば、深さ「d」が浅く、周波数「f」が低く、短期間の速さ「v」が遅い場合、ユーザの状態・挙動は、集中している、または、無呼吸であると推定されることを示す。また、この場合の対話制御としては、発話中の音声認識タイムアウト時間「t」や発話前のセッションタイムアウト時間「t」は、音声発話影響度「E」に比例延長されることを示す。
 例えば、深さ「d」が浅いか正常であり、周波数「f」が低いか正常であり、短期間の速さ「v」が(瞬間的に)遅い場合、ユーザの状態・挙動は、驚きや力みで息を止めたり、浅くなったりしたと推定されることを示す。また、この場合の対話制御としては、発話中の音声認識タイムアウト時間「t」や発話前のセッションタイムアウト時間「t」は、音声発話影響度「E」に比例延長されることを示す。また、この場合、発話中の音声認識タイムアウト時間「t」や発話前のセッションタイムアウト時間「t」は、速さ「v」が閾値「v」以下の期間延長がされることを示す。例えば、発話中の音声認識タイムアウト時間「t」や発話前のセッションタイムアウト時間「t」は、速さ「v」が閾値「v」以下の間延長がされることを示す。
[3.情報処理システムの構成及び処理]
 ここから、図15~図23Bを用いて、情報処理システムの構成や処理について説明する。なお、以下説明する点については、第1の実施形態に係る情報処理システム1及び第2の実施形態に係る情報処理システム1のいずれに適用されてもよい。
[3-1.情報処理システムの機能的な構成例]
 図15は、情報処理システムの機能的な構成例を示す図である。図15では、破線BSの左側が端末装置10側の構成要素に対応し、破線BSの右側がサーバ装置100側の構成要素に対応する。破線BSは、情報処理システム1における端末装置10とサーバ装置100との間での機能の振り分けの一例を示す。図15では、破線BSの左側に示す各構成要素は、端末装置10により実現される。また、図15では、図15では、破線BSの右側に示す各構成要素は、サーバ装置100により実現される。なお、情報処理システム1における装置構成の境界(界面)は、破線BSに限定されず、端末装置10やサーバ装置100に割り当てられる機能はどのような組合せであってもよい。
 情報処理システム1では、ユーザの発話音声はマイクなどの音声入力デバイスを通してシステムに入力され、音声区間検出(VAD:Voice Activity Detection)により発話区間が検出される。情報処理システム1では、VADで発話区間として検出された信号が自動音声認識(ASR)処理にかけられテキスト化される。情報処理システム1では、テキスト化されたユーザ発話は意味理解処理(NLU)によって発話意図(Intent)と発話の対象となる属性情報(Entity)が推定され、音声対話セッション制御に入力される。情報処理システム1では、NLUで発話意図が解釈不能だった場合は、IntentをOOD(Out Of Domain)として音声対話セッション制御に入力する。
 情報処理システム1では、ユーザの呼吸は呼吸センサで呼吸量の変位値として観測される。情報処理システム1では、観測された呼吸量の変位値から呼吸状態検出により呼吸状態が検出され音声対話セッション制御に入力される。図15の情報処理システム1では、荒さ度合い「H」や呼吸状態ベクトル「H」が音声対話セッション制御に入力される。
 情報処理システム1では、ASRからのユーザ発話テキストは、音声対話セッション制御にも入力される。情報処理システム1での音声対話セッション制御では、呼吸状態に応じて複数のユーザ発話テキストを連結し、連結発話テキストとしてNLUに入力する。図15の情報処理システム1での音声対話セッション制御では、荒さ度合い「H」や呼吸状態ベクトル「H」に応じて複数のユーザ発話テキストを連結し、連結発話テキストとしてNLUに入力する。
 情報処理システム1でのNLUではASRからのユーザ発話テキスト入力に加えて、音声対話セッション制御から入力された連結発話テキストに対してもIntentとEntityが推定され、音声対話セッション制御に入力される。
 情報処理システム1での音声対話セッション制御では、入力されたユーザの呼吸状態と発話のIntentやEntityに基づいて、音声認識の終話判定や音声対話のセッション終了判定の無音タイムアウト時間と、音声対話セッションの中断/再開の制御を行う。情報処理システム1では、応答生成は音声対話セッション制御からの指示に従いシステム発話テキストを生成する。情報処理システム1では、システム発話テキストは音声合成処理にかけられシステム発話音声信号に合成された後、スピーカーなどの出力デバイスを通してユーザに対し音声発話される。なお、上記は一例であり、情報処理システム1は、種々の構成により各機能が実現されてもよい。
[3-2.呼吸状態ベクトル関連]
 次に、図16~図21Cを用いて、呼吸状態ベクトルを用いた処理に関連する点について説明する。
[3-2-1.呼吸状態ベクトル検出における観測対象時間の例]
 図16は、呼吸状態ベクトル検出における観測対象時間の一例を示す図である。図16は、呼吸状態ベクトル検出における観測対象時間を示す。図16では、4つの呼吸状態ベクトル「H」の算出を、H算出#1~#4として示す。H算出#1~#4の各々に対応するバーは、各算出に対応する観測対象サンプルを抽象的に示すものである。
 図16に示すように、H算出#1~#4の各算出は、ショートスパン時間Tだけずらして連続して行われる。すなわち、情報処理システム1は、ショートスパン時間Tの周期で呼吸状態ベクトル「H」の算出を繰り返す。図16中のロングスパン時間Tや「n」や「n」は上述したものと同様であるため説明を省略する。
 図16に示すように、ショートスパン時間T(観測サンプル数n)毎に呼吸状態ベクトル「H」が算出される。このように、ロングスパン時間Tの観測サンプル数nは、n-nサンプル分オーバーラップして算出される。
[3-2-2.呼吸状態ベクトル検出における観測値の例]
 図17は、呼吸状態ベクトル検出における観測値の一例を示す図である。図17中のグラフGR1は、あるロングスパン時間Tにおける各種の観測値の一例を示す。図17では、平均観測値「Sm」を、ロングスパン時間T内を横方向に延びる実線で示す。
 また、各観測ピーク値「Sp1」~「Sp7」は、「S」との交点間の最大値や最小値のピーク観測値を示す。平均観測値「Sm」から波形の最大値や最小値へ向けて縦方向に延びる矢印は、上記の式(9)でRMSを算出する対象である「Spi-S」の項を示す。また、図17では、観測ピーク値が観測ピーク値「Sp1」~「Sp7」の7個であるため、ピーク数「Nlp」は7となる。例えば、情報処理システム1は、直近のロングスパン時間Tでのnサンプルでのピーク絶対値の平均を呼吸の深さとして算出する。情報処理システム1は、このようなユーザの呼吸情報を用いて、呼吸状態ベクトル「H」を算出する。
[3-2-3.ロングスパン時間観測要素による正常範囲の例]
 図18は、ロングスパン時間観測要素による正常範囲の一例を示す図である。図18では、左右方向(横方向)を深さ「d」に対応する軸とし、上下方向(縦方向)を周波数「f」に対応する軸とする場合を示す。
 なお、図18の紙面の奥行き方向が速度「v」に対応する軸となる。すなわち、図18は、深さ「d」、周波数「f」、速度「v」を軸とする3次元空間を、速度「v」に対応する軸方向(奥行き方向)から見た場合の断面図を示す。例えば、図18は、速度「v」が速度「v」である位置における断面を示す。図18は、呼吸状態ベクトル「H」のロングスパン時間観測要素(深さ「d」、周波数「f」)による正常範囲「R」の規定の一例を示す。
 図18の中央部分が正常範囲「R」に対応する範囲となる。正常範囲「R」は、ユーザの平常状態に対応する。例えば、正常範囲「R」は、ユーザが通常通りに発話することが可能である状態に対応する。また、深さ「d」及び周波数「f」が大きくなっている場合、運動中や過呼吸の状態であり、息が切れて発話できないこと、発話が途切れること等を示す。また、周波数「f」が大きく、深さ「d」が小さくなっている場合、緊張やストレスの状態であり、声が小さくなる、声がこもりやすくなる、何を言っているか聞き取りづらい声になること等を示す。
 また、深さ「d」及び周波数「f」が小さくなっている場合、集中や無呼吸の状態であり、注意が向かないこと、集中力自体は低下していること等を示す。また、深さ「d」が大きく、周波数「f」が小さくなっている場合、眠気や睡眠の状態であり、発話には適している状態であるが、行き過ぎると眠気で発話しにくくなること等を示す。
[3-2-4.呼吸状態ベクトルの各要素とユーザの呼吸状態との関係の例]
 次に、図19A~図21Cを用いて、呼吸状態ベクトルの各要素とユーザの呼吸状態との関係の例について説明する。例えば、図19A~図21Cには、ショートスパン時間観測要素に関連する点を示す。
[3-2-4-1.速さとの関係の一例]
 まず、図19A~図19Cを用いて、速さとの関係を説明する。図19A~図19Cは、呼吸状態ベクトルの各要素とユーザの呼吸状態との関係の一例を示す図である。図19A~図19Cは、図18の速度「v」(紙面の奥行き)方向に直交する断面を示す。
 図19Aは、速度「v」が遅い場合の呼吸状態ベクトル「H」のショートスパン時間観測要素(速度「v」)による正常範囲「R」の規定を示す。すなわち、図19Aは、図18の紙面の手前側における断面を示す。図19Aに示す断面では、驚き、りきみなどで息を止めた・浅くなったことを示す領域(例えば、第1、第2、第4象限等)と、集中や無呼吸の状態と区別がつかない領域(例えば、第3象限等)が含まれる。
 情報処理システム1は、瞬間的な呼吸の速さが遅くなると(閾値「v」以下になると)、驚きや力みなどにより息を止めた・浅くなったと推定することができる。但し、f<f、かつd<dの範囲は、集中・無呼吸と区別がつかない領域となる。
 図19Bは、速度「v」が正常の場合の呼吸状態ベクトル「H」のショートスパン時間観測要素(速度「v」)による正常範囲「R」の規定を示す。すなわち、図19Bは、図18の紙面上における断面を示す。図19Bに示す断面では、瞬間的な呼吸の速さが正常である場合は、図18と同様になる。
 図19Cは、速度「v」が早い場合の呼吸状態ベクトル「H」のショートスパン時間観測要素(速度「v」)による正常範囲「R」の規定を示す。すなわち、図19Cは、図18の紙面の奥側における断面を示す。図19Cに示す断面では、咳、くしゃみ、吃逆などの呼吸器の生理現象を示す領域(例えば、第2、第3、第4象限等)と、運動中や過呼吸の状態と区別がつかない領域(例えば、第1象限等)が含まれる。
 情報処理システム1は、瞬間的な呼吸の速さが早くなると(閾値「v」以上になると)、咳、くしゃみ、吃逆、あくび、ため息などの生理現象であると推定することができる。但し、f>f、かつd>dの範囲は、運動中・過呼吸と区別がつかない領域となる。
[3-2-4-2.周波数との関係の一例]
 次に、図20A~図20Cを用いて、周波数との関係を説明する。図20A~図20Cは、呼吸状態ベクトルの各要素とユーザの呼吸状態との関係の一例を示す図である。図20A~図20Cは、図18の周波数「f」方向に直交する断面を示す。すなわち、図20A~図20Cは、図18を縦方向(上下方向)から見た場合の断面を示す。
 図20Aは、周波数「f」が低い場合の呼吸状態ベクトル「H」のショートスパン時間観測要素(周波数「f」)による正常範囲「R」の規定を示す。すなわち、図20Aは、周波数「f」の軸の周波数「f」よりも小さい位置における断面を示す。
 情報処理システム1は、図20Aに示す断面において、v≧vになると、咳、くしゃみ、吃逆、あくび、ため息などの生理現象であると推定することができる。また、情報処理システム1は、図20Aに示す断面において、集中・無呼吸の方向(d<d)を除き、v≦vになると、驚きや力みなどにより息を止めた・浅くなったと推定することができる。
 図20Bは、周波数「f」が正常の場合の呼吸状態ベクトル「H」のショートスパン時間観測要素(周波数「f」)による正常範囲「R」の規定を示す。すなわち、図20Aは、周波数「f」が周波数「f」である位置における断面を示す。
 情報処理システム1は、図20Bに示す断面において、v≧vになると、咳、くしゃみ、吃逆、あくび、ため息などの生理現象であると推定することができる。また、情報処理システム1は、図20Bに示す断面において、v≦vになると、驚きや力みなどにより息を止めた・浅くなったと推定することができる。
 図20Cは、周波数「f」が高い場合の呼吸状態ベクトル「H」のショートスパン時間観測要素(周波数「f」)による正常範囲「R」の規定を示す。すなわち、図20Cは、周波数「f」の軸の周波数「f」よりも大きい位置における断面を示す。
 情報処理システム1は、図20Cに示す断面において、運動中・過呼吸の方向(d>d)を除き、v≧vになると、咳、くしゃみ、吃逆、あくび、ため息などの生理現象であると推定することができる。また、情報処理システム1は、図20Cに示す断面において、v≦vになると、驚きや力みなどにより息を止めた・浅くなったと推定することができる。
[3-2-4-3.深さとの関係の一例合]
 次に、図21A~図21Cを用いて、深さとの関係を説明する。図21A~図21Cは、呼吸状態ベクトルの各要素とユーザの呼吸状態との関係の一例を示す図である。図21A~図21Cは、図18の深さ「d」方向に直交する断面を示す。すなわち、図21A~図21Cは、図18を横方向(左右方向)から見た場合の断面を示す。
 図21Aは、深さ「d」が浅い場合の呼吸状態ベクトル「H」のショートスパン時間観測要素(深さ「d」)による正常範囲「R」の規定を示す。すなわち、図21Aは、深さ「d」の軸の深さ「d」よりも小さい位置における断面を示す。
 情報処理システム1は、図21Aに示す断面において、v≧vになると、咳、くしゃみ、吃逆、あくび、ため息などの生理現象であると推定することができる。また、情報処理システム1は、図21Aに示す断面において、集中・無呼吸の方向(f<f)を除き、v≦vになると、驚きや力みなどにより息を止めた・浅くなったと推定することができる。
 図21Bは、深さ「d」が正常の場合の呼吸状態ベクトル「H」のショートスパン時間観測要素(深さ「d」)による正常範囲「R」の規定を示す。すなわち、図21Aは、深さ「d」が深さ「d」である位置における断面を示す。
 情報処理システム1は、図21Bに示す断面において、v≧vになると、咳、くしゃみ、吃逆、あくび、ため息などの生理現象であると推定することができる。また、情報処理システム1は、図21Bに示す断面において、v≦vになると、驚きや力みなどにより息を止めた・浅くなったと推定することができる。
 図21Cは、深さ「d」が深い場合の呼吸状態ベクトル「H」のショートスパン時間観測要素(深さ「d」)による正常範囲「R」の規定を示す。すなわち、図21Cは、深さ「d」の軸の深さ「d」よりも大きい位置における断面を示す。
 情報処理システム1は、図21Cに示す断面において、運動中・過呼吸の方向(f>f)を除き、v≧vになると、咳、くしゃみ、吃逆、あくび、ため息などの生理現象であると推定することができる。また、情報処理システム1は、図21Cに示す断面において、v≦vになると、驚きや力みなどにより息を止めた・浅くなったと推定することができる。
[3-3.処理例その1]
 次に、図22A、図22Bを用いて、処理の一例について説明する。なお、図22A、図22Bにおいて、ユーザの呼吸状態の推定には、荒さ度合い「H」と呼吸状態ベクトル「H」とのいずれが用いられてもよい。なお、図22A、図22Bにおいて、図1や図9と同様の点については説明を省略する。
[3-3-1.平常時の処理例]
 まず、図22Aを用いて、平常時の処理の一例を説明する。図22Aは、平常時の処理の一例を示す図である。例えば、図22Aは、荒さ度合い「H」が規定閾値「Hth」未満であるか、または、呼吸状態ベクトル「H」が正常範囲「R」内である場合の一例を示す。すなわち、図22Aは、無音タイムアウト時間「t」、「t」が延長されていない場合を示す。
 図22Aでは、情報処理システム1が「○○さんからメッセージが届きました。読み上げますか?」というシステム出力を行う。それに応じて、ユーザU1は、システム出力の終了後から対話セッションタイムアウト時間である無音タイムアウト時間「t」が経過する前に「読み上げて」という発話を行う。そして、音声認識タイムアウト時間「t」が経過した後、情報処理システム1により音声認識等の処理が実行される。情報処理システム1は、ユーザU1の発話意図を示すIntentを「ReadOut(読み上げ)」であると認識(推定)する。
 そして、情報処理システム1は、音声認識の結果に応じて、ユーザU1への○○さんのメッセージを音声出力する。図22Aでは、情報処理システム1は、「今すぐにこっち来れる?」というユーザU1への○○さんのメッセージを音声出力する。そして、情報処理システム1は、「返信しますか?」という発話を行う。
 それに応じて、ユーザU1は、システム出力の終了後から対話セッションタイムアウト時間である無音タイムアウト時間「t」が経過する前に「返信する」という発話を行う。そして、音声認識タイムアウト時間「t」が経過した後、情報処理システム1により音声認識等の処理が実行される。情報処理システム1は、ユーザU1の発話意図を示すIntentを「Reply(返信)」であると認識(推定)する。
 そして、情報処理システム1は、音声認識の結果に応じて、発話を行う。図22Aでは、情報処理システム1は、「返信メッセージをどうぞ」という発話を行う。
 それに応じて、ユーザU1は、システム出力の終了後から対話セッションタイムアウト時間である無音タイムアウト時間「t」が経過する前に「今すぐは無理だよ」という発話を行う。そして、音声認識タイムアウト時間「t」が経過した後、情報処理システム1は、「Dictation End(指示終了)」と判定(推定)する。例えば、情報処理システム1は、「今すぐは無理だよ」という文字情報を○○さんの端末装置10へ送信する。
 そして、情報処理システム1は、処理に応じて発話を行う。図22Aでは、情報処理システム1は、「返信しました」という発話を行う。
 上述のように、情報処理システム1は、ユーザの呼吸が平常時は、音声認識および対話セッションのタイムアウト時間は延長しない。そのため、情報処理システム1は、ユーザ発話後に不要な待ち時間を発生させること無くシステムは応答発話を行うことができる。これにより、情報処理システム1は、平常時に既存の対話レスポンス性能が損なわれる事無くサービスを提供することができる。
[3-3-2.運動時の処理例]
 次に、図22Bを用いて、運動時の処理の一例を説明する。図22Bは、運動時の処理の一例を示す図である。例えば、図22Bは、ユーザU1が自転車をこいで移動中(運動中)の処理の一例を示す図である。例えば、図22Bは、荒さ度合い「H」が規定閾値「Hth」以上であるか、または、呼吸状態ベクトル「H」が正常範囲「R」外である場合の一例を示す。すなわち、図22Bは、無音タイムアウト時間「t」、「t」が延長されている場合を示す。
 図22Bでは、情報処理システム1が「○○さんからメッセージが届きました。読み上げますか?」というシステム出力を行う。それに応じて、ユーザU1は、システム出力の終了後から延長された無音タイムアウト時間「t」が経過する前に「読み」と発話を行い、延長された無音タイムアウト時間「t」が経過する前に「上げて」という発話を行う。この場合、「読み」という発話が第1発話に対応し、「上げて」という発話が第2発話に対応する。
 ここで、情報処理システム1は、音声発話影響度「E」が大きいほど、音声認識タイムアウト時間である無音タイムアウト時間「t」を長い時間延長する。これにより、ユーザの息切れで途切れた発話でも、音声認識タイムアウト時間である無音タイムアウト時間「t」が音声発話影響度「E」の値に応じて時間延長される。そのため、情報処理システム1は、途切れ途切れに間欠した複数の発話であっても、1つの発話として受け付け可能になる。
 そして、音声認識タイムアウト時間「t」が経過した後、情報処理システム1により音声認識等の処理が実行される。情報処理システム1は、ユーザU1の「読み」という発話と、ユーザU1の「上げて」という発話を1つの発話に連結した「読み上げて」を用いて、音声認識等の処理を実行する。そして、情報処理システム1は、ユーザU1の発話意図を示すIntentを「ReadOut(読み上げ)」であると認識(推定)する。
 そして、情報処理システム1は、音声認識の結果に応じて、ユーザU1への○○さんのメッセージを音声出力する。図22Bでは、情報処理システム1は、「今すぐにこっち来れる?」というユーザU1への○○さんのメッセージを音声出力する。そして、情報処理システム1は、「返信しますか?」という発話を行う。
 これに対し、図22Bでは、ユーザU1は運動中であるため息が切れているため、しばらくの間応答することができない。
 ここで、情報処理システム1は、音声発話影響度「E」が大きいほど、対話セッションタイムアウト時間である無音タイムアウト時間「t」を長い時間延長する。これにより、ユーザの息切れで思い通りに発話開始できない場合でも、対話セッションタイムアウト時間である無音タイムアウト時間「t」が音声発話影響度「E」の値に応じて時間延長される。そのため、情報処理システム1は、ユーザの息切れで思い通りに発話開始できない場間に対話セッションが終了することを抑制し、ユーザの発話をセッション内に受け付け可能になる。
 図22Bでは、ユーザU1は、システム出力の終了後から延長された無音タイムアウト時間「t」が経過する前に「返信」と発話を行い、延長された無音タイムアウト時間「t」が経過する前に「する」という発話を行う。この場合、「返信」という発話が第1発話に対応し、「する」という発話が第2発話に対応する。
 そして、音声認識タイムアウト時間「t」が経過した後、情報処理システム1により音声認識等の処理が実行される。情報処理システム1は、ユーザU1の「返信」という発話と、ユーザU1の「する」という発話を1つの発話に連結した「返信する」を用いて、音声認識等の処理を実行する。情報処理システム1は、ユーザU1の発話意図を示すIntentを「Reply(返信)」であると認識(推定)する。
 そして、情報処理システム1は、音声認識の結果に応じて、発話を行う。図22Bでは、情報処理システム1は、「返信メッセージをどうぞ」という発話を行う。
 それに応じて、ユーザU1は、システム出力の終了後から対話セッションタイムアウト時間である無音タイムアウト時間「t」が経過する前に「今」と発話を行い、延長された無音タイムアウト時間「t」が経過する前に「すぐは」という発話を行う。そして、ユーザU1は、延長された無音タイムアウト時間「t」が経過する前に「無理」という発話を行い、延長された無音タイムアウト時間「t」が経過する前に「だよ」という発話を行う。この場合、「今」という発話が第1発話に対応し、「すぐは」という発話が第2発話に対応し、「無理」という発話が第3発話に対応し、「だよ」という発話が第4発話に対応する。なお、「無理」という発話は、「すぐは」という発話に対しては第2発話となる。また、「だよ」という発話は、「すぐは」という発話に対しては第3発話となり、「無理」という発話に対しては第2発話となる。
 そして、音声認識タイムアウト時間「t」が経過した後、情報処理システム1は、「Dictation End(指示終了)」と判定(推定)する。情報処理システム1は、ユーザU1による「今」という発話と、「すぐは」という発話と、「無理」という発話と、「だよ」という発話とを1つの発話に連結した「今すぐは無理だよ」という文字情報を○○さんの端末装置10へ送信する。
 上述のように、情報処理システム1は、自由発話の書き起こし時(Dictation)も同様に音声認識タイムアウト時間「t」が時間延長されるため、メッセージ入力が途切れた発話により途中の意図しない位置で打ち切られてしまう事を抑制することができる。
 そして、情報処理システム1は、処理に応じて発話を行う。例えば、情報処理システム1は、「返信しました」という発話を行う。
[3-4.処理例その2]
 次に、図23A、図23Bを用いて、処理の他の一例について説明する。なお、図23A、図23Bにおいて、ユーザの呼吸状態の推定には、荒さ度合い「H」と呼吸状態ベクトル「H」とのいずれが用いられてもよい。例えば、図23A、図23Bは、ユーザU1が自転車に乗って移動中の処理の一例を示す図である。なお、図23A、図23Bにおいて、図1や図9と同様の点については説明を省略する。
[3-4-1.運動時の処理例]
 まず、図23Aを用いて、平常時の処理の一例を説明する。図23Aは、運動時の処理の一例を示す図である。例えば、図23Aは、荒さ度合い「H」が規定閾値「Hth」以上であるか、または、呼吸状態ベクトル「H」が正常範囲「R」外である場合の一例を示す。すなわち、図23Aは、無音タイムアウト時間「t」、「t」が延長されている場合を示す。
 図23Aでは、情報処理システム1が「○○さんからメッセージが届きました。読み上げますか?」というシステム出力を行う。それに応じて、ユーザU1は、システム出力の終了後から延長された無音タイムアウト時間「t」が経過する前に「読み」と発話を行い、延長された無音タイムアウト時間「t」が経過する前に「上げて」という発話を行う。この場合、「読み」という発話が第1発話に対応し、「上げて」という発話が第2発話に対応する。図23Aでは、ユーザU1が運動中でユーザU1の息が切れており、情報処理システム1がユーザU1の発話を認識できなかった場合を示す。
 音声認識タイムアウト時間「t」が経過した後、情報処理システム1により音声認識等の処理が実行される。上述のように、情報処理システム1は、ユーザU1の発話を認識できなかったため、ユーザU1の発話意図を示すIntentを「OOD」であると認識(推定)する。すなわち、情報処理システム1は、ユーザU1の発話を認識できなかったため、ユーザU1の発話が解釈不能と判定する。
 そして、情報処理システム1は、音声認識の結果に応じて、ユーザU1への○○さんのメッセージを音声出力する。情報処理システム1は、荒さ度合い「H」が規定閾値「Hth」以上であるか、または、呼吸状態ベクトル「H」が正常範囲「R」外であり、ユーザの状態が平常時以外であると推定し、改めて通知することをユーザU1に知らせる。図23Aでは、情報処理システム1は、「また後で通知しますね」と発話を行う。
 このように、情報処理システム1は、ユーザの呼吸が荒くて発話が乱れ正しく音声認識できずに、意味理解結果をOODと認識(推定)した場合、対話の状態を保持しておき音声対話セッションを一時中断する。ユーザの発話フレーズによっては呼吸が荒い時に正しく音声認識できない場合があり、この場合は言い直しても音声認識が正しく入る可能性が低い。そのため、情報処理システム1は、ユーザの呼吸の状態が発話の乱れを起こさない程度に戻るまで待つ。
[3-4-2.落ち着いてからの処理例]
 次に、図23Bを用いて、運動時の後に落ち着いてからの処理の一例を説明する。図23Bは、運動時から平常時に戻った後の処理の一例を示す図である。具体的には、図23Bは、図23Aでのユーザの運動時から時間経過した後にユーザの平常時に戻った場合の処理の一例を示す図である。例えば、図23Bは、荒さ度合い「H」が規定閾値「Hth」未満であるか、または、呼吸状態ベクトル「H」が正常範囲「R」内である場合の一例を示す。すなわち、図23Bは、無音タイムアウト時間「t」、「t」が延長されていない場合を示す。
 図23Bでは、ユーザU1の呼吸状態を示す荒さ度合い「H」が規定閾値「Hth」未満であるか、または、呼吸状態ベクトル「H」が正常範囲「R」内となっているため、情報処理システム1は、図23Aでの通知を再度行う。情報処理システム1は、「先ほどの○○さんからのメッセージを読み上げますか?」というシステム出力を行う。それに応じて、ユーザU1は、システム出力の終了後から対話セッションタイムアウト時間である無音タイムアウト時間「t」が経過する前に「読み上げて」という発話を行う。そして、音声認識タイムアウト時間「t」が経過した後、情報処理システム1により音声認識等の処理が実行される。情報処理システム1は、ユーザU1の発話意図を示すIntentを「ReadOut(読み上げ)」であると認識(推定)する。
 そして、情報処理システム1は、音声認識の結果に応じて、ユーザU1への○○さんのメッセージを音声出力する。図23Bでは、情報処理システム1は、「今すぐにこっち来れる?」というユーザU1への○○さんのメッセージを音声出力する。そして、情報処理システム1は、「返信しますか?」という発話を行う。そして、情報処理システム1は、図22Aに示すように、ユーザの応答に応じて、ユーザとの対話を行い、ユーザの要求に応じたサービスを提供する。
 上述のように、情報処理システム1は、ユーザの呼吸状態が落ち着いて、荒さ度合い「H」が規定閾値「Hth」未満であるか、または、呼吸状態ベクトル「H」が正常範囲「R」内になったことが検出されると、保持してある対話の状態から音声対話セッションを再開する。これにより、情報処理システム1は、ユーザが落ち着いた状態になってから、ユーザへ通知することができるため、適切にサービスを提供することができる。
[4.その他の実施形態]
 上述した各実施形態に係る処理は、上記各実施形態や変形例以外にも種々の異なる形態(変形例)にて実施されてよい。
[4-1.変形例]
 以下、各変形例について説明する。
[4-1-1.ユーザのアテンションが他に取られた場合の例]
 まず、ユーザのアテンションが他に取られた場合の例について説明する。具体的には、ユーザのアテンションがシステム(情報処理システム1)との対話以外に取られたユースケースでの呼吸状態ベクトル「H」による対話制御の適合例について説明する。
 例えば、ユーザのアテンションが取られた瞬間においては、情報処理システム1は、以下のように処理する。この場合、瞬間的な呼吸の速さ「v」が規定値「v」(閾値「v」)以下(息が浅くなる「驚き/力み」と相関)になるため、情報処理システム1は、無音タイムアウト時間「t」、「t」を、(速さ「v」が規定値「v」より大きい値に戻るまで延長する。
 短時間でアテンションがシステムへの対話へ回復した場合は速さ「v」が規定値「v」より大きい値に戻るため、情報処理システム1は、速さ「v」に起因の無音タイムアウト時間「t」、「t」の延長を短時間で解除する。
 例えば、ユーザのアテンションが取られ続けた場合においては、情報処理システム1は、以下のように処理する。呼吸状態ベクトル「H」が深さ「d」起因で正常範囲「R」外(息が浅くなる「集中/緊張」と相関)になるため、情報処理システム1は、無音タイムアウト時間「t」、「t」を音声発話影響度「E」に応じて延長する。ここまで無音タイムアウト時間「t」を延長してもユーザの発話が無い場合は、ユーザのシステムとの対話意思が無くなったものとして、情報処理システム1は、タイムアウトし音声対話セッションが終了する。また、ユーザのシステムへの発話が他にアテンションを取られて無音タイムアウト時間「t」経過しても中断し続けた場合は、発話が途中で途切れているためOOD発話となり、情報処理システム1は、音声対話セッションを中断する。情報処理システム1は、呼吸状態ベクトル「H」が正常範囲「R」内に入ると音声対話セッションを再開する。
 例えば、システムとの対話以外への発話が行われた場合、情報処理システム1は、以下のように処理する。アテンションが取られた対象への発話はOOD発話となり、情報処理システム1は、対話セッションが中断を中断する。情報処理システム1は、呼吸状態ベクトル「H」が正常範囲「R」内に入る(アテンションがシステムとの対話に戻る)まで待って音声対話セッションを再開する。
[4-1-2.システム発話への応用例]
 次に、システム発話への応用例について説明する。
 呼吸の荒さ度合い「H」が規定閾値「Hth」以上、もしくは呼吸状態ベクトル「H」が正常範囲「R」外の時には、情報処理システム1は、音声発話影響度「E」の値が大きくなるほどTTS(Text-To-Speech)によるシステム発話の速度を遅くしたり、音量を大きくしたり、ピッチを高くしたりしてもよい。このように、正常範囲「R」外では、ユーザが話すだけでなく、聞いて理解する認知能力も低下していると推定して、情報処理システム1は、システム発話の速度を遅くしたり、音量を大きくしたり、ピッチを高くしたりすることで、システム側の発話態様を変更する。
[4-1-3.個人化学習による変形例]
 次に、個人化学習による変形例について説明する。
 例えば、情報処理システム1は、対話がスムーズに成立した時の呼吸状態ベクトル「H」の集合(正常範囲内ラベル)と、無音タイムアウト時間「t」、「t」のタイムアウトやOOD発話が発生した時の呼吸状態ベクトル「H」の集合(正常範囲外ラベル)を、学習用情報として記憶する。例えば、サーバ装置100Aは、学習用情報を記憶部120に記憶する。そして、情報処理システム1は、学習用情報を用いて、機械学習によりクラス識別して呼吸状態ベクトル「H」の正常範囲「R」判定を行ってもよい。
 また、正常呼吸原点「O」=(d,f,v)については、一般的な正常呼吸時の深さ・周波数・速度に基づいてプリセットされた初期値を設定しておき、情報処理システム1は、初期値周辺の値の中でクラス識別により正常範囲「R」らしさの尤度が最大となる値で更新してもよい。例えば、情報処理システム1は、初期値の周辺で深さ「d」、周波数「f」、速さ「v」の値を振って(設定し)、機械学習で生成されたクラス識別機にかけ、正常範囲「R」らしさの尤度が最大となる深さ「d」、周波数「f」、速さ「v」の組み合わせで正常呼吸原点「O」を更新してもよい。
 例えば、情報処理システム1は、OOD発話となった特定フレーズP(フレーズ自体は呼吸状態ベクトル「H」が正常範囲「R」内になってからの発話により取得)と、この時の呼吸状態ベクトル「Hvp」を紐づけて記憶しておく。例えば、サーバ装置100Aは、特定フレーズPと、呼吸状態ベクトル「Hvp」とを紐付けた情報を記憶部120に記憶する。
 例えば、情報処理システム1は、記憶してある特定フレーズPでユーザが応答発話する可能性が高いシステム通知を行う時について説明する。この場合、情報処理システム1は、現在の呼吸状態ベクトル「H」から算出される音声発話影響度「E」が、特定フレーズPに紐づいて記憶している呼吸状態ベクトル「Hvp」から算出される音声発話影響度「E」以上の場合には、通知自体を呼吸状態ベクトル「H」が正常範囲「R」内となるまで待って(遅延して)もよい。また、同様のシステム通知を行う時、情報処理システム1は、無音タイムアウト時間「t」、「t」を以前のOOD発話時よりも更に延長してもよい。
 このような個人化学習により、情報処理システム1は、ユーザが機器等を含むシステムを使い込むほどにユーザ個人(の呼吸が発話に与える影響の差分)に最適化適応された対話制御を行うことが可能となる。これにより、情報処理システム1は、個人の肺活量などによって呼吸が発話に与える影響の差を個人化学習により吸収することができる。
[4-1-4.その他の変形例]
 次に、その他の変形例について説明する。
 例えば、ユーザへの画像表示デバイスを搭載している機器の場合は、情報処理システム1は、以下のように処理する。表示部16を有する端末装置10のようにユーザへの画像表示デバイスを搭載している場合は、情報処理システム1は、以下のように処理する。
 情報処理システム1は、呼吸の荒さ度合い「H」、もしくは呼吸状態ベクトル「H」からから算出される音声発話影響度「E」をインジケータで表示する。このように、情報処理システム1は、無音タイムアウト時間「t」、「t」の延長や対話の中断・再開等のシステム挙動理由をユーザにフィードバックしてもよい。また、情報処理システム1は、無音タイムアウト時間「t」、「t」のタイムアウトまでの時間をカウントダウン表示やンジケータにより提示してもよい。
 例えば、システム通知の重要度が設定されている場合、情報処理システム1は、以下のように処理する。
 重要度の高い通知の場合、情報処理システム1は、延長した無音タイムアウト時間「t」がタイムアウトして音声対話セッションが終了した時に通知を記憶しておき、呼吸が正常になってから再通知を行ってもよい。また、音声発話影響度「E」が規定値より高い時は、情報処理システム1は、ユーザがYesやNoなどの簡単な発話で応答できるようシステム発話を変形してもよい。
 例えば、視線検出デバイスを搭載している機器の場合、情報処理システム1は、以下のように処理する。例えばユーザが利用する端末装置10が視線検出機能を有している場合は、情報処理システム1は、以下のように処理する。この場合、情報処理システム1は、ユーザの視線検出により音声対話機器を見ていない時は、無音タイムアウト時間「t」、「t」を延長してもよい。
[4-2.クライアント側で音声対話制御の処理等を行う構成例]
 実施形態においては、システム構成の一例として、サーバ装置100、100Aが音声対話制御の処理等を行う場合を示したが、端末装置10が音声対話制御の処理を行ってもよい。すなわち、クライアント側の装置である端末装置10が上述した音声対話制御の処理を行う情報処理装置であってもよい。このように、情報処理システム1のシステム構成は、サーバ側の装置であるサーバ装置100、100Aが音声対話制御の処理を行う構成に限らず、クライアント側の装置である端末装置10が上述した音声対話制御の処理を行う構成であってもよい。
 端末装置10が上述した音声対話制御の処理を行う情報処理装置である場合、情報処理システム1では、クライアント側(端末装置10)で音声対話制御の処理を行う。そして、サーバ側(サーバ装置100、100A)は、端末装置10から各種の情報を取得して、各種の処理を行う。この場合、端末装置10の実行部152は、サーバ装置100、100Aの実行部134と同様の機能を有してもよい。また、端末装置10は、上述した算出部132と同様の機能を実現する算出部や、決定部133と同様の機能を実現する決定部を有してもよい。また、この場合、サーバ装置100、100Aは、算出部132、132Aや決定部133、133Aを有しなくてもよい。
 また、情報処理システム1は、クライアント側(端末装置10)でスカラー値である荒さ度合い「H」やベクトルである呼吸状態ベクトル「H」の算出を行い、算出した荒さ度合い「H」や呼吸状態ベクトル「H」の情報をクライアント側から受信したサーバ側(サーバ装置100、100A)で荒さ度合い「H」や呼吸状態ベクトル「H」の情報を用いて音声対話制御の処理を行うシステム構成であってもよい。この場合、クライアント側の装置である端末装置10が上述した荒さ度合い「H」や呼吸状態ベクトル「H」の算出処理を行う情報処理装置であり、サーバ側の装置であるサーバ装置100、100Aが上述した荒さ度合い「H」や呼吸状態ベクトル「H」を用いた音声対話制御の処理を行う情報処理装置であってもよい。この場合、例えば、端末装置10の算出部が算出処理を行い、サーバ装置100、100Aの実行部134が音声対話制御の処理を行う。
 なお、上記は一例であり、情報処理システム1においては、各処理をいずれの装置が行ってもよい。このように、情報処理システム1は、各処理について、クライアント側の装置(端末装置10)及びサーバ側の装置(サーバ装置100、100A)のいずれが行うシステム構成であってもよい。
[4-3.その他の構成例]
 上記の例では、サーバ装置100、100Aと端末装置10とが別体である場合を示したが、これらの装置は一体であってもよい。また、サーバ装置(情報処理装置)は、荒さ度合い「H」及び呼吸状態ベクトル「H」の両方を用いて、音声対話制御等の処理を行ってもよい。この場合、サーバ装置は、サーバ装置100及びサーバ装置100Aの両方の機能を有する情報勝利装置であってもよい。
[4-4.その他]
 また、上記各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
 また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
 また、上述してきた各実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
 また、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。
[5.本開示に係る効果]
 上述のように、本開示に係る情報処理装置(実施形態ではサーバ装置100、100A)は、取得部(実施形態では取得部131)と、実行部(実施形態では実行部134)とを備える。取得部は、ユーザによる第1発話を示す第1発話情報と、第1発話より後のユーザによる第2発話を示す第2発話情報と、ユーザの呼吸に関する呼吸情報とを取得する。実行部は、取得部により取得された呼吸情報に基づくユーザの呼吸状態に応じた音声対話制御の実行により、第1発話と第2発話とを連結する処理を実行する。
 このように、本開示に係る情報処理装置は、ユーザの呼吸状態に応じた音声対話制御の実行により、第1発話と、第1発話より後の第2発話とを連結する処理を実行することで、ユーザの間欠した発話を連結することができる。したがって、情報処理装置は、ユーザの複数の発話を適切に連結可能にすることができる。
 また、本開示に係る情報処理装置(実施形態ではサーバ装置100)は、算出部(実施形態では算出部132)を備える。算出部は、呼吸情報を用いてユーザの呼吸状態を示す指標値を算出する。実行部は、指標値が条件を満たす場合、音声対話制御の実行により、第1発話と第2発話とを連結する処理を実行する。このように、情報処理装置は、ユーザの呼吸状態を示す指標値を算出し、算出した指標値が条件を満たす場合、音声対話制御の実行により、第1発話と第2発話とを連結する処理を実行することで、ユーザの複数の発話を適切に連結可能にすることができる。
 また、実行部は、指標値と閾値との比較結果が条件を満たす場合、音声対話制御の実行により、第1発話と第2発話とを連結する処理を実行する。このように、情報処理装置は、指標値と閾値との比較結果が条件を満たす場合、音声対話制御の実行により、第1発話と第2発話とを連結する処理を実行することで、ユーザの複数の発話を適切に連結可能にすることができる。
 また、本開示に係る情報処理装置(実施形態ではサーバ装置100A)は、算出部(実施形態では算出部132A)を備える。算出部は、呼吸情報を用いてユーザの呼吸状態を示すベクトルを算出する。実行部は、ベクトルが条件を満たす場合、音声対話制御の実行により、第1発話と第2発話とを連結する処理を実行する。このように、情報処理装置は、ユーザの呼吸状態を示すベクトルを算出し、算出したベクトルが条件を満たす場合、音声対話制御の実行により、第1発話と第2発話とを連結する処理を実行することで、ユーザの複数の発話を適切に連結可能にすることができる。
 また、実行部は、ベクトルが正常範囲外である場合、音声対話制御の実行により、第1発話と第2発話とを連結する処理を実行する。このように、情報処理装置は、ベクトルが正常範囲外である場合、音声対話制御の実行により、第1発話と第2発話とを連結する処理を実行することで、ユーザの複数の発話を適切に連結可能にすることができる。
 また、実行部は、音声対話に関するタイムアウト時間を延長する音声対話制御の実行により、第1発話と第2発話とを連結する処理を実行する。このように、情報処理装置は、音声対話に関するタイムアウト時間を延長することで、運動等で息が切れた場合などにユーザの発話が間欠する時間が長くなった場合であっても、適切に発話を連結することができる。したがって、情報処理装置は、ユーザの複数の発話を適切に連結可能にすることができる。
 また、実行部は、音声認識終話判定に用いるタイムアウト時間を延長する音声対話制御の実行により、第1発話と第2発話とを連結する処理を実行する。このように、情報処理装置は、音声認識終話判定に用いるタイムアウト時間を延長することで、運動等で息が切れた場合などにユーザの発話が間欠する時間が長くなった場合であっても、音声認識終話判定の時間が延長されているため、適切に発話を連結することができる。したがって、情報処理装置は、ユーザの複数の発話を適切に連結可能にすることができる。
 また、実行部は、タイムアウト時間を延長タイムアウト時間に延長する音声対話制御の実行により、第1発話から延長タイムアウト時間が経過する前にユーザによる第2発話を示す第2発話情報と第1発話とを連結する処理を実行する。このように、情報処理装置は、音声対話に関するタイムアウト時間を延長することで、第1発話と、第1発話の後に延長タイムアウト時間が経過する前に行われた第2発話を連結することができる。したがって、情報処理装置は、ユーザの複数の発話を適切に連結可能にすることができる。
 また、実行部は、第2発話の意味理解処理結果が解釈不能である場合、第1発話の意味理解処理結果に応じた第1発話と第2発話とを連結する音声対話制御の実行により、第1発話と第2発話とを連結する処理を実行する。このように、情報処理装置は、第2発話の意味理解処理結果が解釈不能である場合、第1発話の意味理解処理結果に応じて第1発話と第2発話とを連結することで、適切に発話を連結することができる。したがって、情報処理装置は、ユーザの複数の発話を適切に連結可能にすることができ、解釈不能な発話を解釈可能にする可能性を高めることができる。
 また、実行部は、意味理解処理結果が解釈不能である第1発話と、意味理解処理結果が解釈不能である第2発話とを連結する音声対話制御の実行により、第1発話と第2発話とを連結する処理を実行する。このように、情報処理装置は、解釈不能な発話が連続した場合、第1発話と第2発話とを連結することで、適切に発話を連結することができる。したがって、情報処理装置は、ユーザの複数の発話を適切に連結可能にすることができ、解釈不能な発話を解釈可能にする可能性を高めることができる。
 また、取得部は、第2発話より後のユーザによる第3発話を示す第3発話情報を取得する。実行部は、第3発話の意味理解処理結果が解釈不能である場合、第2発話と第3発話とを連結する処理を実行する。このように、情報処理装置は、第3発話の意味理解処理結果が解釈不能である場合、第2発話と第3発話とを連結する処理を実行することで、適切に発話を連結することができる。したがって、情報処理装置は、ユーザの複数の発話を適切に連結可能にすることができ、解釈不能な発話を解釈可能にする可能性を高めることができる。
 また、実行部は、第1発話のうち最後に発話された第1構成要素と、第2発話のうち最初に発話された第2構成要素とが共起に関する条件を満たす場合、第1発話と第2発話とを連結する音声対話制御の実行により、第1発話と第2発話とを連結する処理を実行する。このように、情報処理装置は、第1発話の最後の構成要素と第2発話の最初の構成要素とが共起に関する条件を満たす場合、第1発話と第2発話とを連結することで、内容的に連続している可能性が高い発話を適切に連結することができる。したがって、情報処理装置は、ユーザの複数の発話を適切に連結可能にすることができる。
 また、実行部は、第1構成要素の次に第2構成要素が出現する確率が規定値以上である場合、第1発話と第2発話とを連結する音声対話制御の実行により、第1発話と第2発話とを連結する処理を実行する。このように、情報処理装置は、第1構成要素の次に第2構成要素が出現する確率が規定値以上である場合、第1発話と第2発話とを連結する音声対話制御の実行により、第1発話と第2発話とを連結する処理を実行する場合、第1発話と第2発話とを連結することで、内容的に連続している可能性が高い発話を適切に連結することができる。したがって、情報処理装置は、ユーザの複数の発話を適切に連結可能にすることができる。
 また、実行部は、ユーザの発話履歴中で第1構成要素の次に第2構成要素が出現する確率が規定値以上である場合、第1発話と第2発話とを連結する音声対話制御の実行により、第1発話と第2発話とを連結する処理を実行する。このように、情報処理装置は、ユーザの発話履歴を用いることで、ユーザの発話の傾向を加味して、適切に発話を連結することができる。したがって、情報処理装置は、ユーザの複数の発話を適切に連結可能にすることができる。
 また、取得部は、第2発話より後のユーザによる第3発話を示す第3発話情報を取得する。実行部は、第2発話のうち最後に発話された構成要素と、第3発話のうち最初に発話された構成要素とが共起に関する条件を満たす場合、第2発話と第3発話とを連結する処理を実行する。このように、情報処理装置は、第2発話の最後の構成要素と、第3発話の最初の構成要素とが共起に関する条件を満たす場合、第2発話と第3発話とを連結する処理を実行することで、適切に発話を連結することができる。したがって、情報処理装置は、ユーザの複数の発話を適切に連結可能にすることができる。
 また、取得部は、ユーザの呼吸の変位量を含む呼吸情報を取得する。このように、情報処理装置は、ユーザの呼吸の変位量を用いることで、ユーザの呼吸状態をより精度よく加味して、ユーザの複数の発話を連結可能にすることができる。
 また、取得部は、ユーザの呼吸の周期を含む呼吸情報を取得する。このように、情報処理装置は、ユーザの呼吸の周期を用いることで、ユーザの呼吸状態をより精度よく加味して、ユーザの複数の発話を連結可能にすることができる。
 また、取得部は、ユーザの呼吸の速度を含む呼吸情報を取得する。このように、情報処理装置は、ユーザの呼吸の速度を用いることで、ユーザの呼吸状態をより精度よく加味して、ユーザの複数の発話を連結可能にすることができる。
 また、実行部は、ユーザの呼吸状態が通常状態である場合、音声対話制御を実行しない。このように、情報処理装置は、ユーザの呼吸状態が通常状態である場合、音声対話制御を実行しないことで、ユーザの呼吸が通常通りである場合は通常の音声認識処理を行うことで、音声対話制御が通常状態の処理に与える影響を抑制することができる。したがって、情報処理装置は、ユーザの複数の発話を適切に連結可能にすることができる。
[6.ハードウェア構成]
 上述してきた各実施形態に係るサーバ装置100、100Aや端末装置10等の情報機器は、例えば図24に示すような構成のコンピュータ1000によって実現される。図24は、情報処理装置の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。以下、第1の実施形態に係るサーバ装置100を例に挙げて説明する。コンピュータ1000は、CPU1100、RAM1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インターフェイス1500、及び入出力インターフェイス1600を有する。コンピュータ1000の各部は、バス1050によって接続される。
 CPU1100は、ROM1300又はHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、CPU1100は、ROM1300又はHDD1400に格納されたプログラムをRAM1200に展開し、各種プログラムに対応した処理を実行する。
 ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるBIOS(Basic Input Output System)等のブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
 HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、HDD1400は、プログラムデータ1450の一例である本開示に係る情報処理プログラムを記録する記録媒体である。
 通信インターフェイス1500は、コンピュータ1000が外部ネットワーク1550(例えばインターネット)と接続するためのインターフェイスである。例えば、CPU1100は、通信インターフェイス1500を介して、他の機器からデータを受信したり、CPU1100が生成したデータを他の機器へ送信したりする。
 入出力インターフェイス1600は、入出力デバイス1650とコンピュータ1000とを接続するためのインターフェイスである。例えば、CPU1100は、入出力インターフェイス1600を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、CPU1100は、入出力インターフェイス1600を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス1600は、所定の記録媒体(メディア)に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
 例えば、コンピュータ1000が第1の実施形態に係るサーバ装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされた情報処理プログラムを実行することにより、制御部130等の機能を実現する。また、HDD1400には、本開示に係る情報処理プログラムや、記憶部120内のデータが格納される。なお、CPU1100は、プログラムデータ1450をHDD1400から読み取って実行するが、他の例として、外部ネットワーク1550を介して、他の装置からこれらのプログラムを取得してもよい。
 なお、本技術は以下のような構成も取ることができる。
(1)
 ユーザによる第1発話を示す第1発話情報と、前記第1発話より後の前記ユーザによる第2発話を示す第2発話情報と、前記ユーザの呼吸に関する呼吸情報とを取得する取得部と、
 前記取得部により取得された前記呼吸情報に基づく前記ユーザの呼吸状態に応じた音声対話制御の実行により、前記第1発話と前記第2発話とを連結する処理を実行する実行部と、
 を備える情報処理装置。
(2)
 前記呼吸情報を用いて前記ユーザの前記呼吸状態を示す指標値を算出する算出部、
 をさらに備え、
 前記実行部は、
 前記指標値が条件を満たす場合、前記音声対話制御の実行により、前記第1発話と前記第2発話とを連結する処理を実行する、
 (1)に記載の情報処理装置。
(3)
 前記実行部は、
 前記指標値と閾値との比較結果が前記条件を満たす場合、前記音声対話制御の実行により、前記第1発話と前記第2発話とを連結する処理を実行する、
 (2)に記載の情報処理装置。
(4)
 前記呼吸情報を用いて前記ユーザの前記呼吸状態を示すベクトルを算出する算出部、
 をさらに備え、
 前記実行部は、
 前記ベクトルが条件を満たす場合、前記音声対話制御の実行により、前記第1発話と前記第2発話とを連結する処理を実行する、
 (1)に記載の情報処理装置。
(5)
 前記実行部は、
 前記ベクトルが正常範囲外である場合、前記音声対話制御の実行により、前記第1発話と前記第2発話とを連結する処理を実行する、
 (4)に記載の情報処理装置。
(6)
 前記実行部は、
 音声対話に関するタイムアウト時間を延長する前記音声対話制御の実行により、前記第1発話と前記第2発話とを連結する処理を実行する、
 (1)~(5)のいずれか1項に記載の情報処理装置。
(7)
 前記実行部は、
 音声認識終話判定に用いる前記タイムアウト時間を延長する前記音声対話制御の実行により、前記第1発話と前記第2発話とを連結する処理を実行する、
 (6)に記載の情報処理装置。
(8)
 前記実行部は、
 前記タイムアウト時間を延長タイムアウト時間に延長する前記音声対話制御の実行により、前記第1発話から前記延長タイムアウト時間が経過する前に前記ユーザによる前記第2発話を示す前記第2発話情報と前記第1発話とを連結する処理を実行する、
 (7)に記載の情報処理装置。
(9)
 前記実行部は、
 前記第2発話の意味理解処理結果が解釈不能である場合、前記第1発話の意味理解処理結果に応じた前記第1発話と前記第2発話とを連結する前記音声対話制御の実行により、前記第1発話と前記第2発話とを連結する処理を実行する、
 (1)~(8)のいずれか1項に記載の情報処理装置。
(10)
 前記実行部は、
 意味理解処理結果が解釈不能である前記第1発話と、意味理解処理結果が解釈不能である前記第2発話とを連結する前記音声対話制御の実行により、前記第1発話と前記第2発話とを連結する処理を実行する、
 (9)に記載の情報処理装置。
(11)
 前記取得部は、
 前記第2発話より後の前記ユーザによる第3発話を示す第3発話情報を取得し、
 前記実行部は、
 前記第3発話の意味理解処理結果が解釈不能である場合、前記第2発話と前記第3発話とを連結する処理を実行する、
 (9)または(10)に記載の情報処理装置。
(12)
 前記実行部は、
 前記第1発話のうち最後に発話された第1構成要素と、前記第2発話のうち最初に発話された第2構成要素とが共起に関する条件を満たす場合、前記第1発話と前記第2発話とを連結する前記音声対話制御の実行により、前記第1発話と前記第2発話とを連結する処理を実行する、
 (1)~(11)のいずれか1項に記載の情報処理装置。
(13)
 前記実行部は、
 前記第1構成要素の次に前記第2構成要素が出現する確率が規定値以上である場合、前記第1発話と前記第2発話とを連結する前記音声対話制御の実行により、前記第1発話と前記第2発話とを連結する処理を実行する、
 (12)に記載の情報処理装置。
(14)
 前記実行部は、
 前記ユーザの発話履歴中で前記第1構成要素の次に前記第2構成要素が出現する確率が規定値以上である場合、前記第1発話と前記第2発話とを連結する前記音声対話制御の実行により、前記第1発話と前記第2発話とを連結する処理を実行する、
 (12)または(13)に記載の情報処理装置。
(15)
 前記取得部は、
 前記第2発話より後の前記ユーザによる第3発話を示す第3発話情報を取得し、
 前記実行部は、
 前記第2発話のうち最後に発話された構成要素と、前記第3発話のうち最初に発話された構成要素とが共起に関する条件を満たす場合、前記第2発話と前記第3発話とを連結する処理を実行する、
 (12)~(14)のいずれか1項に記載の情報処理装置。
(16)
 前記取得部は、
 前記ユーザの呼吸の変位量を含む前記呼吸情報を取得する、
 (1)~(15)のいずれか1項に記載の情報処理装置。
(17)
 前記取得部は、
 前記ユーザの呼吸の周期を含む前記呼吸情報を取得する、
 (1)~(16)のいずれか1項に記載の情報処理装置。
(18)
 前記取得部は、
 前記ユーザの呼吸の速度を含む前記呼吸情報を取得する、
 (1)~(17)のいずれか1項に記載の情報処理装置。
(19)
 前記実行部は、
 前記ユーザの呼吸状態が通常状態である場合、前記音声対話制御を実行しない、
 (1)~(18)のいずれか1項に記載の情報処理装置。
(20)
 ユーザによる第1発話を示す第1発話情報と、前記第1発話より後の前記ユーザによる第2発話を示す第2発話情報と、前記ユーザの呼吸に関する呼吸情報とを取得し、
 取得した前記呼吸情報に基づく前記ユーザの呼吸状態に応じた音声対話制御の実行により、前記第1発話と前記第2発話とを連結する処理を実行する、
 処理を実行する情報処理方法。
 1 情報処理システム
 100、100A サーバ装置(情報処理装置)
 110 通信部
 120、120A 記憶部
 121 呼吸情報記憶部
 122 ユーザ情報記憶部
 123 閾値情報記憶部
 123A 判定用情報記憶部
 124 機能情報記憶部
 130、130A 制御部
 131 取得部
 132、132A 算出部
 133、133A 決定部
 134 実行部
 135 送信部
 10 端末装置
 11 通信部
 12 入力部
 13 出力部
 14 記憶部
 15 制御部
 151 受信部
 152 実行部
 153 受付部
 154 送信部
 16 表示部
 17 センサ部
 171 呼吸センサ

Claims (20)

  1.  ユーザによる第1発話を示す第1発話情報と、前記第1発話より後の前記ユーザによる第2発話を示す第2発話情報と、前記ユーザの呼吸に関する呼吸情報とを取得する取得部と、
     前記取得部により取得された前記呼吸情報に基づく前記ユーザの呼吸状態に応じた音声対話制御の実行により、前記第1発話と前記第2発話とを連結する処理を実行する実行部と、
     を備える情報処理装置。
  2.  前記呼吸情報を用いて前記ユーザの前記呼吸状態を示す指標値を算出する算出部、
     をさらに備え、
     前記実行部は、
     前記指標値が条件を満たす場合、前記音声対話制御の実行により、前記第1発話と前記第2発話とを連結する処理を実行する、
     請求項1に記載の情報処理装置。
  3.  前記実行部は、
     前記指標値と閾値との比較結果が前記条件を満たす場合、前記音声対話制御の実行により、前記第1発話と前記第2発話とを連結する処理を実行する、
     請求項2に記載の情報処理装置。
  4.  前記呼吸情報を用いて前記ユーザの前記呼吸状態を示すベクトルを算出する算出部、
     をさらに備え、
     前記実行部は、
     前記ベクトルが条件を満たす場合、前記音声対話制御の実行により、前記第1発話と前記第2発話とを連結する処理を実行する、
     請求項1に記載の情報処理装置。
  5.  前記実行部は、
     前記ベクトルが正常範囲外である場合、前記音声対話制御の実行により、前記第1発話と前記第2発話とを連結する処理を実行する、
     請求項4に記載の情報処理装置。
  6.  前記実行部は、
     音声対話に関するタイムアウト時間を延長する前記音声対話制御の実行により、前記第1発話と前記第2発話とを連結する処理を実行する、
     請求項1に記載の情報処理装置。
  7.  前記実行部は、
     音声認識終話判定に用いる前記タイムアウト時間を延長する前記音声対話制御の実行により、前記第1発話と前記第2発話とを連結する処理を実行する、
     請求項6に記載の情報処理装置。
  8.  前記実行部は、
     前記タイムアウト時間を延長タイムアウト時間に延長する前記音声対話制御の実行により、前記第1発話から前記延長タイムアウト時間が経過する前に前記ユーザによる前記第2発話を示す前記第2発話情報と前記第1発話とを連結する処理を実行する、
     請求項7に記載の情報処理装置。
  9.  前記実行部は、
     前記第2発話の意味理解処理結果が解釈不能である場合、前記第1発話の意味理解処理結果に応じた前記第1発話と前記第2発話とを連結する前記音声対話制御の実行により、前記第1発話と前記第2発話とを連結する処理を実行する、
     請求項1に記載の情報処理装置。
  10.  前記実行部は、
     意味理解処理結果が解釈不能である前記第1発話と、意味理解処理結果が解釈不能である前記第2発話とを連結する前記音声対話制御の実行により、前記第1発話と前記第2発話とを連結する処理を実行する、
     請求項9に記載の情報処理装置。
  11.  前記取得部は、
     前記第2発話より後の前記ユーザによる第3発話を示す第3発話情報を取得し、
     前記実行部は、
     前記第3発話の意味理解処理結果が解釈不能である場合、前記第2発話と前記第3発話とを連結する処理を実行する、
     請求項9に記載の情報処理装置。
  12.  前記実行部は、
     前記第1発話のうち最後に発話された第1構成要素と、前記第2発話のうち最初に発話された第2構成要素とが共起に関する条件を満たす場合、前記第1発話と前記第2発話とを連結する前記音声対話制御の実行により、前記第1発話と前記第2発話とを連結する処理を実行する、
     請求項1に記載の情報処理装置。
  13.  前記実行部は、
     前記第1構成要素の次に前記第2構成要素が出現する確率が規定値以上である場合、前記第1発話と前記第2発話とを連結する前記音声対話制御の実行により、前記第1発話と前記第2発話とを連結する処理を実行する、
     請求項12に記載の情報処理装置。
  14.  前記実行部は、
     前記ユーザの発話履歴中で前記第1構成要素の次に前記第2構成要素が出現する確率が規定値以上である場合、前記第1発話と前記第2発話とを連結する前記音声対話制御の実行により、前記第1発話と前記第2発話とを連結する処理を実行する、
     請求項12に記載の情報処理装置。
  15.  前記取得部は、
     前記第2発話より後の前記ユーザによる第3発話を示す第3発話情報を取得し、
     前記実行部は、
     前記第2発話のうち最後に発話された構成要素と、前記第3発話のうち最初に発話された構成要素とが共起に関する条件を満たす場合、前記第2発話と前記第3発話とを連結する処理を実行する、
     請求項12に記載の情報処理装置。
  16.  前記取得部は、
     前記ユーザの呼吸の変位量を含む前記呼吸情報を取得する、
     請求項1に記載の情報処理装置。
  17.  前記取得部は、
     前記ユーザの呼吸の周期を含む前記呼吸情報を取得する、
     請求項1に記載の情報処理装置。
  18.  前記取得部は、
     前記ユーザの呼吸の速度を含む前記呼吸情報を取得する、
     請求項1に記載の情報処理装置。
  19.  前記実行部は、
     前記ユーザの呼吸状態が通常状態である場合、前記音声対話制御を実行しない、
     請求項1に記載の情報処理装置。
  20.  ユーザによる第1発話を示す第1発話情報と、前記第1発話より後の前記ユーザによる第2発話を示す第2発話情報と、前記ユーザの呼吸に関する呼吸情報とを取得し、
     取得した前記呼吸情報に基づく前記ユーザの呼吸状態に応じた音声対話制御の実行により、前記第1発話と前記第2発話とを連結する処理を実行する、
     処理を実行する情報処理方法。
PCT/JP2021/002112 2020-01-31 2021-01-21 情報処理装置及び情報処理方法 WO2021153427A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US17/794,631 US20230072727A1 (en) 2020-01-31 2021-01-21 Information processing device and information processing method
JP2021573981A JPWO2021153427A1 (ja) 2020-01-31 2021-01-21
EP21747477.4A EP4099318A4 (en) 2020-01-31 2021-01-21 INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-014519 2020-01-31
JP2020014519 2020-01-31

Publications (1)

Publication Number Publication Date
WO2021153427A1 true WO2021153427A1 (ja) 2021-08-05

Family

ID=77079718

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/002112 WO2021153427A1 (ja) 2020-01-31 2021-01-21 情報処理装置及び情報処理方法

Country Status (4)

Country Link
US (1) US20230072727A1 (ja)
EP (1) EP4099318A4 (ja)
JP (1) JPWO2021153427A1 (ja)
WO (1) WO2021153427A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4386749A1 (en) * 2022-12-15 2024-06-19 Koninklijke Philips N.V. Speech processing of audio signal

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11249773A (ja) * 1998-02-27 1999-09-17 Toshiba Corp マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法
JP2004272048A (ja) * 2003-03-11 2004-09-30 Nissan Motor Co Ltd 運転者状態判定装置、および運転者状態判定装置用プログラム
JP2005017932A (ja) * 2003-06-27 2005-01-20 Nissan Motor Co Ltd 音声認識装置および音声認識用プログラム
JP2017211596A (ja) 2016-05-27 2017-11-30 トヨタ自動車株式会社 音声対話システムおよび発話タイミング決定方法
WO2019239656A1 (ja) * 2018-06-12 2019-12-19 ソニー株式会社 情報処理装置および情報処理方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3956883A4 (en) * 2019-04-19 2022-12-21 Magic Leap, Inc. VOICE RECOGNITION ENGINE INPUT IDENTIFICATION

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11249773A (ja) * 1998-02-27 1999-09-17 Toshiba Corp マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法
JP2004272048A (ja) * 2003-03-11 2004-09-30 Nissan Motor Co Ltd 運転者状態判定装置、および運転者状態判定装置用プログラム
JP2005017932A (ja) * 2003-06-27 2005-01-20 Nissan Motor Co Ltd 音声認識装置および音声認識用プログラム
JP2017211596A (ja) 2016-05-27 2017-11-30 トヨタ自動車株式会社 音声対話システムおよび発話タイミング決定方法
WO2019239656A1 (ja) * 2018-06-12 2019-12-19 ソニー株式会社 情報処理装置および情報処理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4099318A4

Also Published As

Publication number Publication date
EP4099318A4 (en) 2023-05-10
US20230072727A1 (en) 2023-03-09
JPWO2021153427A1 (ja) 2021-08-05
EP4099318A1 (en) 2022-12-07

Similar Documents

Publication Publication Date Title
US10516938B2 (en) System and method for assessing speaker spatial orientation
US11837249B2 (en) Visually presenting auditory information
US11335334B2 (en) Information processing device and information processing method
EP4036910A1 (en) Dynamic and/or context-specific hot words to invoke automated assistant
CN113748462A (zh) 确定用于语音处理引擎的输入
KR102393147B1 (ko) 향상된 음성 인식을 돕기 위한 시각적 컨텐츠의 변형
CN113678133A (zh) 用于对话中断检测的具有全局和局部编码的上下文丰富的注意记忆网络的系统和方法
KR20200097993A (ko) 전자 장치 및 이의 제어 방법
CN115088033A (zh) 代表对话中的人参与者生成的合成语音音频数据
JP2019124952A (ja) 情報処理装置、情報処理方法、およびプログラム
WO2021153427A1 (ja) 情報処理装置及び情報処理方法
WO2018079294A1 (ja) 情報処理装置及び情報処理方法
KR101964438B1 (ko) 컨텐츠 서비스 제공 방법 및 장치
WO2019198299A1 (ja) 情報処理装置及び情報処理方法
US20230148275A1 (en) Speech synthesis device and speech synthesis method
KR20210100831A (ko) 인공지능 기반 수어통역 서비스 제공 시스템 및 방법
WO2021153201A1 (ja) 情報処理装置及び情報処理方法
US20210082427A1 (en) Information processing apparatus and information processing method
KR20210100832A (ko) 사용자의 감정상태를 판단하는 인공지능 기반 수어통역 서비스 제공 시스템 및 방법
WO2021256318A1 (ja) 情報処理装置、情報処理方法及びコンピュータプログラム
WO2021153214A1 (ja) 情報処理装置及び情報処理方法
KR20170059665A (ko) 외국어 리듬 동작 감지 센서 기반의 운동 학습 장치, 그리고 이를 이용한 운동 학습 방법
US20240029723A1 (en) System and method for command fulfillment without wake word
US20240055014A1 (en) Visualizing Auditory Content for Accessibility
JP6897678B2 (ja) 情報処理装置及び情報処理方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21747477

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021573981

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021747477

Country of ref document: EP

Effective date: 20220831