WO2018016139A1 - 情報処理装置、および情報処理方法 - Google Patents

情報処理装置、および情報処理方法 Download PDF

Info

Publication number
WO2018016139A1
WO2018016139A1 PCT/JP2017/014916 JP2017014916W WO2018016139A1 WO 2018016139 A1 WO2018016139 A1 WO 2018016139A1 JP 2017014916 W JP2017014916 W JP 2017014916W WO 2018016139 A1 WO2018016139 A1 WO 2018016139A1
Authority
WO
WIPO (PCT)
Prior art keywords
information processing
processing apparatus
utterance
factor
present
Prior art date
Application number
PCT/JP2017/014916
Other languages
English (en)
French (fr)
Inventor
祐平 滝
真一 河野
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to CN201780024806.6A priority Critical patent/CN109074807A/zh
Priority to EP17830659.3A priority patent/EP3489949A4/en
Priority to JP2018528404A priority patent/JP7014163B2/ja
Priority to US16/094,972 priority patent/US20190147870A1/en
Publication of WO2018016139A1 publication Critical patent/WO2018016139A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Definitions

  • This disclosure relates to an information processing apparatus and an information processing method.
  • an error may occur in speech recognition due to various factors. Since the error is corrected when the technology for correcting the error in the result of speech recognition as described above is used, the speaker should speak without worrying about the factors causing the error in speech recognition. May be possible.
  • the speaker is not notified of the cause of the error in speech recognition.
  • the technology for correcting the error of the speech recognition result as described above for example, the error of the speech recognition result cannot be corrected, or the correction result is incorrect. There may be a case where the speech recognition result intended by the speaker cannot be obtained.
  • This disclosure proposes a new and improved information processing apparatus and information processing method capable of improving the convenience of a speaker.
  • a determination unit that determines a factor that may cause an error in the voice recognition based on a result of voice recognition and information related to speech, and a notification control unit that notifies the determined factor.
  • the method includes a step of determining a factor that may cause an error in the voice recognition based on a result of voice recognition and information related to speech, and a step of notifying the determined factor.
  • the convenience of the speaker can be improved.
  • the information processing apparatus determines a factor that may cause an error in speech recognition (hereinafter may be simply referred to as “factor”). Then, the information processing apparatus according to the present embodiment notifies the determined factor.
  • the information processing apparatus determines a factor that may cause an error in speech recognition, and notifies the determined factor so that, for example, a speaker who has received the notification may cause an error in speech recognition. Can be grasped.
  • the speaker who has received the notification can easily understand how the result of speech recognition is corrected by grasping factors that may cause an error in speech recognition.
  • the information processing apparatus may determine a factor that may cause an error in voice recognition, and notify the determined factor, thereby causing a situation that impairs the convenience of the speaker as described above. Can be reduced.
  • the information processing apparatus performs the following determination process and notification control process as processes related to the information processing method according to the present embodiment.
  • the information processing apparatus determines a factor that may cause an error in speech recognition based on the result of speech recognition and information related to speech.
  • a speech signal digital signal or analog signal
  • data indicating characters indicating the utterance content can be cited.
  • the voice signal including the voice of the speaker is generated by a voice input device such as a microphone.
  • the voice input device may be a device included in the information processing apparatus according to the present embodiment, or may be a device external to the information processing apparatus according to the present embodiment.
  • the voice recognition process may be performed by the information processing apparatus according to the present embodiment, or may be performed by an external device of the information processing apparatus according to the present embodiment.
  • Examples of the information related to the utterance according to the present embodiment include one or more of the following information.
  • ⁇ Information indicating the volume of speech ⁇ Information indicating environmental noise ⁇ Information indicating speech speed ⁇ Information on speech recognition processing
  • Examples of the information indicating the volume of the utterance according to the present embodiment include data in which the volume of the utterance voice indicated by the audio signal including the utterance voice of the speaker is digitized, and waveform data of the utterance voice of the speaker. .
  • the process related to the generation of the information indicating the volume of the utterance may be performed by the information processing apparatus according to the present embodiment, or may be performed by an external apparatus of the information processing apparatus according to the present embodiment.
  • the process related to the generation of the information indicating the volume of the utterance can include, for example, arbitrary signal processing for separating the uttered voice and the noise from the voice signal using a filter or the like. Note that the method for separating speech speech and noise is not limited to the above example, and speech speech and noise can be separated based on a plurality of speech signals respectively generated by a plurality of speech input devices. is there.
  • the information indicating the volume of the utterance is not limited to the example described above.
  • the information indicating the volume of the utterance may include data indicating the distance between the voice input device and the speaker.
  • the distance between the voice input device and the speaker is, for example, “a distance of an arbitrary method that is installed in the vicinity of the voice input device and can detect the distance from the object in a specific sound collection direction in the voice input device. Acquired by “sensor” or the like.
  • the information indicating the environmental noise according to the present embodiment includes, for example, data in which the volume of the environmental noise is quantified.
  • Processing related to generation of information indicating environmental noise may be performed by the information processing apparatus according to the present embodiment, or may be performed by an external device of the information processing apparatus according to the present embodiment.
  • the speech and noise are separated based on the voice signal, such as signal processing for separating the voice and noise from the voice signal using a filter or the like. Any processing that is possible is included.
  • information indicating the speech rate for example, data in which the speech rate is digitized can be cited.
  • the process related to the generation of the information indicating the speech rate may be performed by the information processing apparatus according to the present embodiment, or may be performed by an external apparatus of the information processing apparatus according to the present embodiment.
  • any process capable of estimating the speech speed such as a process of estimating the speech speed based on the amount of change in the spectrum of the voice signal indicating the speech voice, Can be mentioned.
  • speech processing and noise are separated based on the speech signal, such as signal processing for separating speech speech and noise from the speech signal using a filter or the like. Processing that can be performed may be included.
  • Examples of information related to the speech recognition process according to the present embodiment include data indicating the number of candidates for the result of speech recognition in the speech recognition process and data indicating the reliability of the result of speech recognition in the speech recognition process.
  • the number of candidates includes, for example, the number of speech recognition result candidates from which linguistically impossible recognition results are excluded, or the number of speech recognition result candidates including linguistically impossible recognition results.
  • the calculation methods for the number of candidates and the reliability depend on an algorithm (or a speech recognition engine) that can implement speech recognition processing.
  • the information related to the utterance for example, one or more of the information shown above can be cited.
  • An example of the determination process using information related to the utterance as described above will be described later.
  • the information processing apparatus determines the factor for each predetermined unit in the result of speech recognition, for example.
  • Examples of the predetermined unit in the speech recognition result according to the present embodiment include a unit in which the speech recognition result is divided by an arbitrary method, such as a unit divided by a phrase, a word, or a morphological analysis.
  • a case where the predetermined unit in the result of speech recognition is a phrase will be mainly described as an example.
  • the information processing apparatus may determine a factor for the entire speech recognition result.
  • the information processing apparatus visually notifies the determined factor by, for example, displaying the determined factor on the display screen of the display device.
  • the display device may be a device included in the information processing apparatus according to the present embodiment, or may be a device external to the information processing apparatus according to the present embodiment.
  • the information processing apparatus visually notifies the determined factor by, for example, transmitting a control signal including a display command and data indicating notification contents to the display device.
  • the transmission of the control signal is performed, for example, via a communication device included in the information processing apparatus according to the present embodiment or an external communication device connected to the information processing apparatus according to the present embodiment.
  • the information processing apparatus can also notify the determined factor audibly by outputting a sound indicating the determined factor from an audio output device such as a speaker.
  • the audio output device may be a device included in the information processing apparatus according to the present embodiment, or may be a device external to the information processing apparatus according to the present embodiment.
  • the information processing apparatus for example, transmits a control signal including an output command and audio data indicating the notification content to the audio output device, thereby causing the determined factor to be audibly notified.
  • the control signal is transmitted through, for example, a communication device provided in the information processing apparatus according to the present embodiment.
  • the notification control processing according to the present embodiment is not limited to the example described above.
  • the information processing apparatus according to the present embodiment may notify the determined factor by both the visual notification and the auditory notification.
  • the information processing apparatus when a factor is determined for each predetermined unit in the result of speech recognition, the information processing apparatus according to the present embodiment, for example, notifies the factor for each predetermined unit in the result of speech recognition. . Further, in the above determination processing, when a factor is determined for the entire speech recognition result, the information processing apparatus according to the present embodiment notifies the factor to the entire speech recognition result. In addition, an example of the notification of the factor determined by performing the notification control process according to the present embodiment will be described later.
  • the information processing apparatus performs, for example, the determination process and the notification control process as processes related to the information processing method according to the present embodiment.
  • a factor that may cause an error in speech recognition is determined, and the determined factor is notified. Therefore, as described above, for example, the speaker who has received the notification can grasp the factors that may cause an error in speech recognition, so that it is easier to understand how the result of speech recognition is corrected. Can do.
  • the information processing apparatus notifies the determined factor for each predetermined unit in the result of speech recognition, for example, the notified speaker is corrected which part of the utterance. This makes it easier to understand what should be done.
  • the processing related to the information processing method according to the present embodiment for example, the above-described determination processing and notification control processing are performed, thereby reducing the possibility of occurrence of a situation that impairs the convenience of the speaker as described above. It becomes possible.
  • the convenience of the speaker can be improved by performing the processing related to the information processing method according to the present embodiment.
  • the said determination process and the said notification control process isolate separate the process which concerns on the information processing method which concerns on this embodiment for convenience. Therefore, for example, the determination process and the notification control process can be regarded as one process in the process related to the information processing method according to the present embodiment. Moreover, the process which concerns on the information processing method which concerns on this embodiment can also be grasped as three or more processes by arbitrary dividing methods.
  • the case where the language of the utterance is English is taken as an example.
  • the language to which the processing according to the information processing method according to the present embodiment is applicable is not limited to English.
  • the processing related to the information processing method according to the present embodiment is applied to an arbitrary language, for example, Japanese, German, French, Spanish, Chinese, etc., for which a speech recognition result can be obtained by speech recognition processing. It is possible.
  • the factor caused by the volume according to the present embodiment is that the volume of the utterance is too high or the volume of the utterance is too low. That the volume of the utterance is too high corresponds to, for example, sound cracking. Further, the volume of the utterance is too low corresponds to, for example, that the utterance is not collected by a voice input device such as a microphone.
  • the information processing apparatus determines a factor caused by volume based on information indicating the volume of utterance (an example of information related to utterance).
  • the information processing apparatus When determining that the volume of the utterance is too high as a factor due to the volume, the information processing apparatus according to the present embodiment, for example, the volume (numerical value) indicated by the information indicating the volume of the utterance, and the set threshold value Are compared to determine whether the volume of the utterance is too high.
  • the volume indicated by the information indicating the volume of the utterance is greater than a predetermined threshold (or when the volume is equal to or higher than the predetermined threshold)
  • the information processing apparatus has an excessively high volume of the utterance. judge.
  • the case where the volume of the utterance is determined to be too high corresponds to the case where there is a factor due to the volume.
  • a threshold for determining that the volume of the utterance is too high for example, any one of a value associated with the speaker, a value determined based on the attribute of the speaker, and a value independent of the speaker Is mentioned.
  • a value associated with the speaker related to the determination that the volume of the utterance is too high for example, a value obtained by adding a predetermined adjustment value to the average value of the volume of the entire utterance of the speaker.
  • the adjustment value may be a fixed value set in advance, or a variable that can be changed based on the operation of the user of the information processing apparatus according to the present embodiment, the distance between the voice input device and the speaker, or the like. It may be a value.
  • the value associated with the speaker related to the determination that the volume of the utterance is too high is set in advance in, for example, a table (or database) in which an ID corresponding to the speaker and a threshold are associated with each other. It may be a threshold value.
  • a table or database
  • an ID corresponding to the speaker and a threshold are associated with each other.
  • an ID of a speaker identified by authentication using an arbitrary method such as face authentication based on a captured image an ID corresponding to the speaker, and a threshold are associated with each other.
  • the value associated with the speaker is specified based on the existing table.
  • the table in which the ID corresponding to the speaker and the threshold value are associated with each other includes, for example, a storage unit (described later) included in the information processing apparatus according to the present embodiment, or a record external to the information processing apparatus according to the present embodiment. It is stored in a recording medium such as a medium.
  • a value determined based on the attribute of the speaker related to the determination that the volume of the utterance is too high for example, a value associated with the attribute of the speaker as shown below, or as shown below
  • required according to arbitrary algorithms from the attribute of a speaker is mentioned.
  • the example of the speaker attribute relating to the determination that the volume of the utterance is too high is not limited to the example shown above.
  • the gender and age (or age) of the speaker is estimated from, for example, a captured image obtained by capturing the speaker with an imaging device.
  • the imaging device may be a device included in the information processing apparatus according to the present embodiment, or may be a device external to the information processing apparatus according to the present embodiment.
  • the process of estimating the speaker attribute (or the process of specifying the speaker attribute) related to the determination that the volume of the utterance is too high is not limited to the above, and the speaker attribute can be estimated. Any process may be used.
  • the process of estimating the attributes of the speaker may be performed by the information processing apparatus according to the present embodiment, or in an external device of the information processing apparatus according to the present embodiment. It may be done.
  • Examples of the value that does not depend on the speaker include a preset fixed value or a variable value that can be changed based on an operation of the user of the information processing apparatus according to the present embodiment.
  • the information processing apparatus detects the predetermined waveform pattern that is set from the waveform pattern of the utterance voice of the speaker indicated by the information indicating the volume of the utterance, so that the volume of the utterance is too high. You may determine that.
  • the information processing apparatus determines that the volume of the utterance is too high, for example, when a clipped waveform (an example of a predetermined waveform pattern) is detected from the waveform pattern of the utterance voice.
  • the information processing apparatus When determining that the volume of the utterance is too low as a factor due to the volume, the information processing apparatus according to the present embodiment, for example, the volume (numerical value) indicated by the information indicating the volume of the utterance, and the set threshold value Are compared to determine whether the volume of the utterance is too low.
  • the volume indicated by the information indicating the volume of the utterance is smaller than the predetermined threshold (or when the volume is equal to or lower than the predetermined threshold)
  • the volume of the utterance is too low. judge.
  • the case where it is determined that the volume of the utterance is too low corresponds to the case where there is a factor due to the volume.
  • the threshold for determining that the volume of the utterance is too low is, for example, one of a value associated with the speaker, a value determined based on the attribute of the speaker, and a value independent of the speaker. Is mentioned.
  • Examples of the value associated with the speaker related to the determination that the volume of the utterance is too low include a value obtained by subtracting a predetermined adjustment value from the average value of the volume of the entire utterance of the speaker.
  • the adjustment value may be a fixed value set in advance, or a variable that can be changed based on the operation of the user of the information processing apparatus according to the present embodiment, the distance between the voice input device and the speaker, or the like. It may be a value.
  • the adjustment value related to the determination that the volume of the utterance is too low and the adjustment value related to the determination that the volume of the utterance is too high may be the same or different.
  • the value associated with the speaker related to the determination that the volume of the utterance is too low corresponds to the speaker, for example, similarly to the value associated with the speaker related to the determination that the volume of the utterance is too high.
  • a threshold set in advance in a table (or database) in which an ID and a threshold are associated with each other may be used.
  • a value determined based on the attribute of the speaker related to the determination that the volume of the utterance is too low for example, a value associated with the attribute of the speaker as shown below, or as shown below
  • required according to arbitrary algorithms from the attribute of a speaker is mentioned.
  • the example of the attribute of the speaker related to the determination that the volume of the utterance is too low is not limited to the example described above.
  • Examples of the value that does not depend on the speaker include a preset fixed value or a variable value that can be changed based on an operation of the user of the information processing apparatus according to the present embodiment.
  • the information processing apparatus determines the distance between the voice input device and the speaker. Based on this, it may be determined that the volume of the utterance is too low.
  • the information processing apparatus utters, for example, when the distance between the voice input device and the speaker is larger than a threshold related to the set distance (or when the distance is equal to or greater than the threshold). Determine that the volume is too low.
  • the threshold value related to the distance include a preset fixed value or a variable value that can be changed based on an operation of a user of the information processing apparatus according to the present embodiment.
  • FIG. 1 is an explanatory diagram showing a first example of notification of a factor caused by volume according to the present embodiment, and there is a possibility that an error has occurred in speech recognition due to the volume of the utterance being too high. An example in the case of visually notifying a certain situation is shown.
  • Fig. 1 shows the case where the speech recognition result is "I want to ring the document to him" when the speaker speaks “I want to bring the document to him", that is, the result of speech recognition. The case where an error has occurred in the “ring” portion is shown.
  • the information processing apparatus displays, for example, the volume of the utterance (hereinafter sometimes referred to as “speech volume”) for each phrase.
  • FIG. 1 shows an example in which the information processing apparatus according to the present embodiment displays a waveform corresponding to the utterance volume for each phrase.
  • the voice signal including the voice of the speaker and the result of voice recognition are associated with each other by, for example, a voice recognition engine for realizing voice recognition processing.
  • the information processing apparatus displays, for example, a waveform of a portion determined to have an excessively loud volume as a clipped waveform, as shown in the “ring” portion of FIG. Visually notify that there is a possibility that an error has occurred in the speech recognition due to the volume of the utterance being too high.
  • the information processing apparatus color-codes a portion determined to have a factor due to the volume and another portion, for example, as illustrated in a “ring” portion of B in FIG. For example, by displaying a frame in a portion where it is determined that there is a factor due to sound, the portion determined as having a factor due to sound volume may be highlighted and displayed.
  • the example of visually notifying that there is a possibility that an error has occurred in speech recognition due to the volume of the utterance being too loud is not limited to the example shown in FIG. Yes.
  • FIG. 2 is an explanatory diagram showing a second example of the notification of the factor caused by the volume according to the present embodiment, and there is a possibility that an error has occurred in speech recognition due to the volume of the utterance being too low. An example in the case of visually notifying a certain situation is shown.
  • FIG. 2 shows the case where the speech recognition result is “I want to ring the document to him” when the speaker speaks “I want to bring the document to him”, that is, the result of the speech recognition. The case where an error has occurred in the “ring” portion is shown.
  • the information processing apparatus displays the utterance volume for each phrase, for example.
  • FIG. 2 shows an example in which the information processing apparatus according to the present embodiment displays a waveform corresponding to the utterance volume for each phrase as in the example shown in FIG.
  • the information processing apparatus displays, for example, a waveform of a part determined to have an excessively loud volume as shown in “ring” part of FIG. 2A smaller than the waveform of other parts. Thus, it is visually notified that there is a possibility that an error has occurred in the speech recognition due to the volume of the utterance being too low.
  • the information processing apparatus color-codes a part determined to have a factor due to the volume and another part as shown in a “ring” part of FIG. For example, by displaying a frame in a portion where it is determined that there is a factor due to sound, the portion determined as having a factor due to sound volume may be highlighted and displayed.
  • the information processing apparatus displays a waveform corresponding to the utterance volume only in a part where it is determined that a factor due to the volume exists, for example, as illustrated in a “ring” part of C in FIG. And only the said part may be highlighted and displayed. That is, the information processing apparatus according to the present embodiment can notify only a portion where there is a possibility that an error has occurred in speech recognition due to a factor caused by volume.
  • the example of visually informing that there is a possibility that an error has occurred in speech recognition due to the volume of the utterance being too low is not limited to the example shown in FIG. Yes.
  • the factor resulting from the environmental noise according to the present embodiment is, for example, that the environmental noise (noise) is too large.
  • the environmental noise being too large corresponds to, for example, that the environmental noise is large enough to affect the result of speech recognition.
  • the information processing apparatus determines factors caused by environmental noise based on, for example, information indicating environmental noise (an example of information related to speech). To do.
  • the information processing apparatus compares the environmental noise volume (numerical value) indicated by the information indicating the environmental noise with a set threshold to determine whether the environmental noise volume is high. To do.
  • the volume of the environmental noise indicated by the information indicating the environmental noise is greater than the predetermined threshold (or when the volume is equal to or higher than the predetermined threshold)
  • the volume of the environmental noise is Judged to be large. The case where it is determined that the volume of the environmental noise is high corresponds to the case where there is a factor due to the environmental noise.
  • the threshold value related to the comparison with the volume of the environmental noise may be, for example, a preset fixed value, or the average value of the volume of the environmental noise and the volume of the environmental noise in the entire utterance of the speaker. It may be a variable value that varies depending on the ratio.
  • the information processing apparatus for example, based on information indicating the volume of speech (an example of information related to speech) and information indicating environmental noise (an example of information related to speech), factors caused by environmental noise May be determined.
  • the information processing apparatus for example, has an SN ratio (Signal-to-To) based on a volume (numerical value) indicated by information indicating the volume of speech and an environmental noise volume (numerical value) indicated by information indicating environmental noise. Noise ratio) is calculated. Then, the information processing apparatus according to the present embodiment compares the calculated SN ratio with a set threshold value and determines whether or not the volume of the environmental noise is large. The information processing apparatus according to the present embodiment determines that the volume of environmental noise is high when the SN ratio is smaller than a predetermined threshold (or when the SN ratio is equal to or lower than the predetermined threshold).
  • the threshold value related to the comparison with the SN ratio may be, for example, a fixed value set in advance or a variable value that varies depending on the volume of the utterance.
  • FIG. 3 is an explanatory diagram showing an example of notification of factors caused by environmental noise according to the present embodiment, and it is possible that an error has occurred in speech recognition due to too much environmental noise. An example in the case of visual notification is shown.
  • FIG. 3 shows that when the speaker utters “I want to bring the document to him”, the speech recognition result is “I want to ring the document to him”, that is, the speech recognition result. The case where an error has occurred in the “ring” portion is shown.
  • the information processing apparatus displays, for example, the speech volume and the volume of environmental noise for each phrase.
  • FIG. 3 shows an example in which the information processing apparatus according to the present embodiment displays a waveform corresponding to the speech volume and a waveform corresponding to the volume of the environmental noise for each phrase.
  • the information processing apparatus is defined by a waveform corresponding to the utterance volume for a portion determined to be noisy, for example, as shown in the “ring” portion and the “the” portion of FIG. Display is performed such that the overlapping portion between the region and the region defined by the waveform corresponding to the volume of the environmental noise is larger than the other portions.
  • the information processing apparatus may have an error in speech recognition due to the small SN ratio, that is, the noise is too large. It is possible to visually notify that there is sex.
  • the information processing apparatus for example, as shown in the “ring” part and the “the” part of FIG. 3B, a part determined to have a factor due to environmental noise, and other parts It is also possible to highlight and display the portion determined to have the cause due to the environmental noise, for example, by displaying the frame on the portion determined to have the cause due to the environmental noise.
  • the information processing apparatus corresponds to the utterance volume only for the part determined to have a factor caused by the environmental noise, as shown in “ring” part and “the” part of FIG. 3C.
  • the waveform to be displayed may be displayed, and only that portion may be highlighted. That is, the information processing apparatus according to the present embodiment can notify only a portion where an error may occur in speech recognition due to a factor caused by environmental noise.
  • the example in the case of visually notifying that there is a possibility that an error has occurred in speech recognition due to factors caused by environmental noise is not limited to the example shown in FIG. .
  • the factor resulting from the speech rate according to the present embodiment is, for example, that the speech rate is too fast or the speech rate is too slow.
  • the speech speed being too fast corresponds to, for example, the speech speed being fast enough to affect the result of speech recognition.
  • the speech rate being too slow corresponds to, for example, the speech rate being slow enough to affect the result of speech recognition.
  • the information processing apparatus determines a factor caused by the utterance speed based on information indicating the utterance speed (an example of information related to the utterance). To do.
  • the information processing apparatus When determining that the utterance speed is too fast as a factor due to the utterance speed, the information processing apparatus according to the present embodiment, for example, the utterance speed (numerical value) indicated by the information indicating the utterance speed, and the standard value of the utterance speed, Are used to determine a factor caused by the speech rate.
  • the information processing apparatus determines that the utterance speed is too high when the utterance speed indicated by the information indicating the utterance speed is greater than the standard value (or when the utterance speed is greater than or equal to the standard value). .
  • the case where it is determined that the utterance speed is too fast corresponds to the case where a factor resulting from the utterance speed exists.
  • the standard value relating to the determination that the utterance speed is too fast corresponds to the threshold value relating to the determination that the utterance speed is too fast.
  • a standard value related to the determination that the utterance speed is too fast for example, any one of a value associated with the speaker, a value determined based on the attribute of the speaker, and a value independent of the speaker is used. Can be mentioned.
  • the value associated with the speaker related to the determination that the speech speed is too fast for example, a value obtained by adding a predetermined adjustment value to the average value of the speech speed in the entire speech of the speaker.
  • the adjustment value may be a fixed value set in advance, or a variable that can be changed based on the operation of the user of the information processing apparatus according to the present embodiment, the distance between the voice input device and the speaker, or the like. It may be a value.
  • the value associated with the speaker related to the determination that the utterance speed is too fast is set in advance in a table (or database) in which an ID corresponding to the speaker is associated with a standard value, for example. It may be a standard value.
  • a table or database
  • an ID corresponding to the speaker is associated with a standard value, for example. It may be a standard value.
  • an ID of a speaker specified by authentication using an arbitrary method such as face authentication based on a captured image, and an ID corresponding to the speaker and a standard value are associated with each other.
  • the value associated with the speaker is specified based on the table.
  • the table in which the ID corresponding to the speaker is associated with the standard value is stored in a recording medium such as a storage unit (described later) provided in the information processing apparatus according to the present embodiment, for example.
  • a value determined based on the attribute of the speaker related to the determination that the utterance speed is too fast for example, a value associated with the attribute of the speaker as shown below, or an utterance as shown below
  • required according to arbitrary algorithms from a user's attribute is mentioned.
  • the example of the speaker attribute relating to the determination that the speech speed is too fast is not limited to the example shown above.
  • the gender and age (or age) of the speaker is estimated from, for example, a captured image obtained by capturing the speaker with an imaging device. Further, the community to which the speaker belongs is estimated (or specified) based on, for example, the ID of the speaker specified by an arbitrary method of authentication or the like.
  • the process of estimating the speaker attribute (or the process of specifying the speaker attribute) related to the determination that the speech speed is too fast is not limited to the above, and any process capable of estimating the speaker attribute is possible. It may be the process.
  • the process of estimating the attributes of the speaker may be performed by the information processing apparatus according to the present embodiment as described above, or may be performed by the information processing apparatus according to the present embodiment. It may be performed in an external device.
  • Examples of the value that does not depend on the speaker include a preset fixed value or a variable value that can be changed based on an operation of the user of the information processing apparatus according to the present embodiment. Further, the value that does not depend on the speaker may be a value obtained by adding a predetermined adjustment value to the average value of the speaking speed of each of the plurality of speakers.
  • the information processing apparatus When determining that the speech rate is too slow as a factor caused by the speech rate, the information processing apparatus according to the present embodiment, for example, the speech rate (numerical value) indicated by the information indicating the speech rate, and the standard value of the speech rate, Are used to determine a factor caused by the speech rate.
  • the information processing apparatus determines that the utterance speed is too slow when the utterance speed indicated by the information indicating the utterance speed is smaller than the standard value (or when the utterance speed is equal to or lower than the standard value). .
  • the case where the speech rate is determined to be too slow corresponds to the case where there is a factor due to the speech rate.
  • the standard value related to the determination that the speech rate is too slow corresponds to the threshold value related to the determination that the speech rate is too slow.
  • a standard value related to the determination that the utterance speed is too slow for example, any one of a value associated with the speaker, a value determined based on the attribute of the speaker, and a value independent of the speaker is used. Can be mentioned.
  • Examples of the value associated with the speaker related to the determination that the speech speed is too slow include a value obtained by subtracting a predetermined adjustment value from the average value of the speech speed in the entire speech of the speaker.
  • the adjustment value may be a fixed value set in advance, or a variable that can be changed based on the operation of the user of the information processing apparatus according to the present embodiment, the distance between the voice input device and the speaker, or the like. It may be a value. Further, the adjustment value related to the determination that the speech rate is too slow and the adjustment value related to the determination that the speech rate is too fast may be the same or different.
  • the value associated with the speaker related to the determination that the speech rate is too slow is, for example, the ID associated with the speaker, as in the value associated with the speaker related to the determination that the speech rate is too fast. It may be a standard value set in advance in a table (or database) associated with the standard value.
  • a value determined based on the attribute of the speaker related to the determination that the utterance speed is too slow for example, a value associated with the attribute of the speaker as shown below, or an utterance as shown below
  • required according to arbitrary algorithms from a user's attribute is mentioned.
  • the example of the attribute of the speaker related to the determination that the utterance speed is too slow is not limited to the example shown above.
  • Examples of the value that does not depend on the speaker include a preset fixed value or a variable value that can be changed based on an operation of the user of the information processing apparatus according to the present embodiment. Further, the value that does not depend on the speaker may be a value obtained by subtracting a predetermined adjustment value from the average value of the utterance speed in the utterance of each of the plurality of speakers.
  • the information processing apparatus determines a factor caused by the utterance speed by comparing the utterance speed indicated by the information indicating the utterance speed with the standard value of the utterance speed.
  • FIG. 4 is an explanatory diagram illustrating a first example of notification of factors caused by the speech rate according to the present embodiment, and there is a possibility that an error has occurred in speech recognition due to the speech rate being too fast. An example in the case of visually notifying a certain situation is shown.
  • FIG. 4 shows that when the speaker utters “I want to bring the document to him”, the speech recognition result is “I want to ring the document to him”, that is, the speech recognition result. The case where an error has occurred in the “ring” portion is shown.
  • the information processing apparatus for example, as shown in the “ring” portion, “the” portion, and “document” portion of FIG. Color-coded, adding an icon indicating that the speech rate is too fast to the part that is judged to be too fast, etc. .
  • the example of visually notifying that there is a possibility that an error has occurred in speech recognition due to the speech rate being too fast is not limited to the example shown in FIG. .
  • FIG. 5 is an explanatory diagram showing a second example of notification of factors caused by the speech rate according to the present embodiment, and there is a possibility that an error has occurred in speech recognition due to the speech rate being too slow. An example in the case of visually notifying a certain situation is shown.
  • FIG. 5 shows a case where the speech recognition result is “I want to ring the document to him” when the speaker speaks “I want to bring the document to him”, that is, the result of the speech recognition. The case where an error has occurred in the “ring” portion is shown.
  • the information processing apparatus for example, as shown in the “ring” portion, “the” portion, and “document” portion of FIG.
  • the part that is determined to have a factor due to the speaking speed is emphasized and displayed by color coding or adding an icon indicating that the speaking speed is too slow to the part that is determined to be too fast. .
  • the example of visually notifying that there is a possibility that an error has occurred in speech recognition due to the speech rate being too slow is not limited to the example shown in FIG. .
  • the factors resulting from the speech recognition processing according to the present embodiment are, for example, that the utterance is not clear, the utterance is difficult to recognize, or the reliability of the speech recognition result is low.
  • the utterance according to the present embodiment corresponds to, for example, “the number of recognition result candidates obtained based on the uttered speech in the speech recognition process is too large to affect the speech recognition result”.
  • the number of recognition result candidates obtained based on the spoken speech corresponds to the number of speech recognition result candidates including the above-described linguistically impossible recognition results.
  • an utterance for example, “a character that cannot be a linguistic candidate from a recognition result candidate obtained based on an uttered speech so as to affect the result of speech recognition. This corresponds to “there are too many recognition result candidates obtained as a result of exclusion”.
  • the number of recognition result candidates obtained as a result of excluding characters that cannot be linguistically corresponds to the number of candidate speech recognition results from which the above-described linguistically impossible recognition results are excluded. For example, a situation may occur in which an utterance is difficult to recognize due to many homophones and the absence of correct characters in learning data used for speech recognition.
  • the reliability of the result of speech recognition according to the present embodiment is low, for example, “the reliability of the result of speech recognition calculated by an arbitrary algorithm in the speech recognition process so as to affect the result of speech recognition” Corresponds to “low”.
  • the information processing apparatus uses, for example, speech based on information related to speech recognition processing corresponding to a result of speech recognition (an example of information related to speech). Determine the factors resulting from the recognition process.
  • the information processing apparatus may indicate the number of speech recognition result candidates (hereinafter referred to as “first candidate number”) including a recognition result that is linguistically indicated by the information related to the speech recognition processing. ) And a set threshold value to determine whether the utterance is clear.
  • the information processing apparatus utters when the first candidate number indicated by the information related to the speech recognition process is larger than a predetermined threshold (or when the first candidate number is equal to or larger than the predetermined threshold). Is determined to be unclear.
  • the case where it is determined that the utterance is not clear corresponds to the case where a factor resulting from the speech recognition processing exists.
  • the threshold value related to the comparison with the first candidate number may be a fixed value set in advance, for example, or may be changed based on an operation of a user of the information processing apparatus according to the present embodiment. It may be a variable value.
  • the information processing apparatus may indicate the number of speech recognition result candidates from which linguistically impossible recognition results indicated by information related to speech recognition processing are excluded (hereinafter referred to as “second candidate number”). ) And a set threshold value, it is determined whether or not the utterance is difficult to recognize.
  • the information processing apparatus utters when the second candidate number indicated by the information related to the speech recognition process is larger than a predetermined threshold (or when the second candidate number is equal to or larger than the predetermined threshold). Is determined to be difficult to recognize.
  • the case where it is determined that the utterance is difficult to recognize corresponds to the case where there is a factor resulting from the voice recognition processing.
  • the threshold value related to the comparison with the second number of candidates may be, for example, a fixed value set in advance, or may be changed based on an operation of the user of the information processing apparatus according to the present embodiment. It may be a variable value.
  • the information processing apparatus compares the reliability (numerical value) indicated by the information related to the speech recognition processing with a set threshold value to determine whether the reliability of the speech recognition result is low. judge.
  • the information processing apparatus when the reliability indicated by the information related to the voice recognition processing is smaller than a predetermined threshold (or when the reliability is equal to or lower than the predetermined threshold), the reliability of the result of the voice recognition Is determined to be low.
  • the case where it is determined that the reliability of the result of speech recognition is low corresponds to the case where there is a factor resulting from the speech recognition processing.
  • the threshold value related to the comparison with the reliability may be, for example, a fixed value set in advance, or a variable value that can be changed based on an operation of a user of the information processing apparatus according to the present embodiment. It may be.
  • FIG. 6 is an explanatory diagram showing a first example of notification of factors resulting from the speech recognition processing according to the present embodiment, and there is a possibility that an error has occurred in speech recognition due to the utterance not being clear. An example in which there is a visual notification that there is a message is shown.
  • FIG. 6 shows that when the speaker utters “I want to bring the document to him”, the speech recognition result is “I want to ring the document to him”, that is, the result of the speech recognition. The case where an error has occurred in the “ring” portion is shown.
  • the information processing apparatus for example, as shown in the “ring” portion, “the” portion, and “document” portion of FIG. Emphasize parts that have been determined to be due to speech recognition processing, such as by color-coding, or adding an icon containing a character string that can be used as a hint to improve the part where the speech is not clear Display.
  • the example of visually notifying that there is a possibility that an error has occurred in speech recognition due to the unclear utterance is not limited to the example shown in FIG. .
  • FIG. 7 is an explanatory diagram showing a second example of the notification of the factors resulting from the speech recognition processing according to the present embodiment, and there is a possibility that an error has occurred in speech recognition due to the difficulty of recognizing the utterance. An example in which there is a visual notification that there is a message is shown.
  • FIG. 7 shows that when the speaker utters “I want to bring the document to him”, the speech recognition result is “I want to ring the document to him”, that is, the result of the speech recognition. The case where an error has occurred in the “ring” portion is shown.
  • the information processing apparatus for example, as shown in the “ring” part of FIG. 7, color-codes the part determined to be difficult to recognize the utterance and the other part, and determines that the utterance is difficult to recognize. By adding an icon including a character string that serves as a hint for improvement to the portion that has been improved, the portion that is determined to have a factor resulting from the speech recognition process is highlighted.
  • the example of visually notifying that there is a possibility that an error has occurred in speech recognition due to the difficulty of recognizing the utterance is not limited to the example shown in FIG. .
  • FIG. 8 is an explanatory diagram showing a third example of notification of factors resulting from the speech recognition processing according to the present embodiment, and an error occurs in speech recognition due to low reliability of the speech recognition result.
  • FIG. 8 shows that when the speaker utters “I want to bring the document to him”, the speech recognition result is “I want to ring the document to him”, that is, the speech recognition result. The case where an error has occurred in the “ring” portion is shown.
  • the information processing apparatus displays, for example, the reliability of the result of speech recognition (“Confidence Level” shown in A of FIG. 8) for each phrase.
  • FIG. 8A shows an example in which the reliability of the result of speech recognition is represented by the size of a colored area.
  • the information processing apparatus sets the size of the region indicating the reliability in the portion determined to be low in reliability to the reliability in other portions. By displaying smaller than the area indicating the degree, it is visually notified that there is a possibility that an error has occurred in the voice recognition due to the low reliability of the result of the voice recognition.
  • the information processing apparatus for example, color-codes the portion determined to have low reliability of the result of speech recognition and the other portion as shown in the “ring” portion of FIG. Emphasize parts that have been determined to be due to speech recognition processing, such as by adding an icon that includes a character string that serves as a hint for improvement to the parts that have been determined to have low confidence in the speech recognition results May be displayed.
  • the information processing apparatus includes the processing according to the first example shown in [2-1] to the above [2-4]. Two or more of the processes according to the fourth example may be performed.
  • the information processing apparatus performs two or more of the processes according to the first example shown in [2-1] to the processes according to the fourth example shown in [2-4].
  • a plurality of factors may be determined by the determination process.
  • the information processing apparatus includes a notification control process according to a fifth example shown below and a notification control process according to a sixth example shown below.
  • notification control processing according to a seventh example shown below is performed.
  • the speaker who has received the notification can grasp, for example, a plurality of factors in one image (when visually notified), The factor can be grasped with one voice (when notified by auditory).
  • the information processing apparatus selects one factor from a plurality of factors, and notifies the selected factor.
  • the information processing apparatus selects, for example, a factor having a higher determined frequency or a factor determined most recently based on history information in which a history of the determined factor is recorded.
  • the information processing apparatus selects the factor according to a set rule such as randomly selecting from the factors having the same frequency.
  • the history information may be history information in which a history for each speaker is recorded, or may be history information in which history of a plurality of speakers is recorded.
  • the history information is stored in a recording medium such as a storage unit (described later) provided in the information processing apparatus according to the present embodiment, for example.
  • the information processing apparatus when the factor is determined again by the above determination processing for the result of speech recognition corresponding to the utterance performed after notifying the selected factor, the information processing apparatus according to the present embodiment For example, after excluding a factor that has already been selected, a factor with a higher determined frequency is selected again. Then, the information processing apparatus according to the present embodiment notifies the selected factor again.
  • the information processing apparatus selects and notifies the factors one by one from the plurality of factors as described above. Therefore, the speaker who has received the notification can correct the result of speech recognition after grasping the factors one by one.
  • FIG. 9 is an explanatory diagram illustrating an example of notification of a plurality of factors according to the present embodiment, and illustrates an example in which a plurality of factors are switched and visually notified. More specifically, FIG. 9 shows the notification of the factor caused by the volume shown in FIG. 1B (A in FIG. 9), and the notification of the factor caused by the speech rate shown in FIG. 4 (B in FIG. 9). FIG. 8 shows an example in which the notification (C in FIG. 9) resulting from the voice recognition processing shown in FIG.
  • the information processing apparatus switches and notifies a plurality of factors each time a set time elapses, for example.
  • the set time may be a fixed time set in advance, such as 3 [seconds], or a variable time that can be changed based on an operation of the user of the information processing apparatus according to the present embodiment. It may be.
  • FIG. 9 shows an example in which a plurality of factors are switched every X [seconds] (X is a positive integer). However, the time until switching to the next factor is determined for each factor to be notified. It may be a set time. That is, the time until switching to the next factor may be the same for all factors or a part of factors, or may be different for each factor.
  • FIG. 10 is a flowchart showing an example of processing related to the information processing method according to the present embodiment.
  • the information processing apparatus determines a factor that may cause an error in speech recognition based on the result of speech recognition and information related to speech (S100).
  • the information processing apparatus relates to, for example, the determination process according to the first example shown in [2-1-1] to the fourth example shown in [2-4-1]. One or more of the determination processes are performed.
  • FIG. 11 is a flowchart showing an example of processing related to the information processing method according to the present embodiment, and shows an example of processing in step S100 in FIG.
  • FIG. 11 shows the processing when the determination process according to the first example shown in [2-1-1] to the determination process according to the fourth example shown in [2-4-1] are performed. An example is shown.
  • the information processing apparatus determines whether or not the volume of the utterance is too high (S200).
  • the information processing apparatus determines whether or not the volume of the utterance is too high, for example, by performing the determination process according to the first example shown in [2-1-1] above.
  • step S200 determines that the volume of the utterance is too high. Then, the information processing apparatus according to the present embodiment performs the process of step S208 described later.
  • step S204 determines whether the volume of the utterance is too low.
  • the information processing apparatus according to the present embodiment determines whether or not the volume of the utterance is too low, for example, by performing the determination process according to the first example shown in [2-1-1] above.
  • step S204 If it is not determined in step S204 that the volume of the utterance is too low, the information processing apparatus according to the present embodiment performs the process of step S208 described later.
  • step S204 If it is determined in step S204 that the utterance volume is too low, the information processing apparatus according to the present embodiment determines that the utterance volume is too low (S206).
  • the information processing apparatus When the process of step S202 is performed, when the process of step S206 is performed, or when it is not determined in step S204 that the volume of the utterance is too low, the information processing apparatus according to the present embodiment It is determined whether there is an influence (S208).
  • the information processing apparatus according to the present embodiment performs, for example, the determination process according to the second example shown in [2-2-1] above, and determines whether there is a factor due to the environmental noise, thereby determining the environmental noise. Determine if there is an impact.
  • step S208 If it is not determined in step S208 that there is an influence of environmental noise, the information processing apparatus according to the present embodiment performs the process of step S212 described later.
  • step S208 determines that there is an environmental noise influence
  • the information processing apparatus determines that there is a factor due to the environmental noise (S210).
  • the information processing apparatus determines whether or not the speech rate is too high ( S212).
  • the information processing apparatus determines whether or not the speech rate is too high, for example, by performing the determination process according to the third example shown in [2-3-1] above.
  • step S212 When it is determined in step S212 that the utterance speed is too fast, the information processing apparatus according to the present embodiment determines that the utterance speed is too fast (S214). Then, the information processing apparatus according to the present embodiment performs the process of step S220 described later.
  • step S212 determines whether the utterance speed is too fast. If it is not determined in step S212 that the utterance speed is too fast, the information processing apparatus according to this embodiment determines whether the utterance speed is too slow (S216). The information processing apparatus according to the present embodiment determines whether or not the speech rate is too slow, for example, by performing the determination process according to the third example shown in [2-3-1] above.
  • step S216 If it is not determined in step S216 that the utterance speed is too slow, the information processing apparatus according to the present embodiment performs the process of step S220 described later.
  • step S216 If it is determined in step S216 that the utterance speed is too slow, the information processing apparatus according to the present embodiment determines that the utterance speed is too slow (S218).
  • the information processing apparatus When the process of step S214 is performed, when the process of step S218 is performed, or when it is not determined in step S216 that the utterance speed is too slow, the information processing apparatus according to the present embodiment has a clear utterance. It is determined whether or not (S220). The information processing apparatus according to the present embodiment determines whether the utterance is clear, for example, by performing the determination process according to the fourth example shown in [2-4-1] above.
  • step S220 If it is not determined in step S220 that the utterance is clear, the information processing apparatus according to the present embodiment performs the process of step S224 described later.
  • step S220 If it is determined in step S220 that the utterance is clear, the information processing apparatus according to the present embodiment determines that the utterance is not clear (S222).
  • the information processing apparatus determines whether or not the utterance is difficult to recognize (S224). ).
  • the information processing apparatus determines, for example, whether or not an utterance is difficult to recognize by performing a determination process according to the fourth example shown in [2-4-1] above.
  • step S224 If it is not determined in step S224 that the utterance is difficult to recognize, the information processing apparatus according to the present embodiment performs the process of step S228 described later.
  • step S224 If it is determined in step S224 that the utterance is difficult to recognize, the information processing apparatus according to the present embodiment determines that the utterance is difficult to recognize (S226).
  • the information processing apparatus determines whether or not the reliability of the result of speech recognition is low. Determination is made (S228). The information processing apparatus according to the present embodiment determines whether or not the reliability of the speech recognition result is low, for example, by performing a determination process according to the fourth example shown in [2-4-1] above.
  • step S228 If it is not determined in step S228 that the reliability of the speech recognition result is low, the information processing apparatus according to the present embodiment ends the processing illustrated in FIG.
  • step S228 If it is determined in step S228 that the reliability of the result of speech recognition is low, the information processing apparatus according to the present embodiment determines that the cause is that the reliability of the result of speech recognition is low ( S230). Then, the information processing apparatus according to the present embodiment ends the process illustrated in FIG.
  • the information processing apparatus performs, for example, the process illustrated in FIG. 11 as the process of step S100 in FIG.
  • step S100 the information processing apparatus according to the present embodiment performs, for example, the determination process according to the first example shown in [2-1-1] to the second process shown in [2-4-1].
  • the information processing apparatus according to the present embodiment performs the determination process according to the first example shown in [2-1-1] to the determination according to the fourth example shown in [2-4-1].
  • the order of performing each process can be performed in an arbitrary order.
  • the information processing apparatus notifies the factor determined in step S100 (S102).
  • the information processing apparatus for example, in step S102, for example, the notification control process according to the first example shown in [2-1-2] to the seventh example shown in [2-5-3].
  • the information processing apparatus can also audibly notify one or more factors by, for example, outputting a voice or the like indicating the determined factor from the audio output device.
  • the information processing apparatus performs, for example, the process illustrated in FIG. 10 as the process related to the information processing method according to the present embodiment.
  • the determination process is performed in step S100, and the notification control process is performed in step S102. Therefore, for example, by performing the process shown in FIG. 10, the convenience of the speaker can be improved. Further, for example, by performing the process shown in FIG. 10, the effect exerted by the process according to the information processing method according to the present embodiment described above is achieved.
  • the speaker can obtain a more accurate result of speech recognition. ⁇ Since the notification content corresponding to the determination result of the factor that may cause an error in voice recognition is displayed on the UI, the location where the error may have occurred in the voice recognition result is clearly indicated. It is possible to speed up the discovery of the error by the person.
  • FIG. 12 is an explanatory diagram illustrating an example of an information processing system 1000 according to the present embodiment including the information processing apparatus 100 according to the present embodiment.
  • the information processing system 1000 includes, for example, an information processing apparatus 100, a sensor 200, a display device 300, and an audio output device 400.
  • the information processing apparatus 100 and each of the sensor 200, the display device 300, and the audio output device 400 are connected to each other wirelessly or via a network 500, for example.
  • the network 500 include a wired network such as a LAN (Local Area Network) and a WAN (Wide Area Network), a wireless network such as a wireless LAN (WLAN), or a TCP / IP (Transmission Control Protocol / Internet using a communication protocol such as Internet Protocol).
  • the information processing apparatus 100 and each of the sensor 200, the display device 300, and the audio output device 400 can directly communicate without going through the network 500. It is.
  • the information processing apparatus 100 performs processing related to the information processing method according to the above-described embodiment. An example of the configuration of the information processing apparatus 100 will be described later.
  • the sensor 200 includes, for example, a voice input device such as a microphone or a microphone array.
  • the sensor 200 may include other sensors such as a distance sensor and an imaging device.
  • a signal generated by the sensor 200 such as an audio signal including the voice of the speaker is transmitted to the information processing apparatus 100 by, for example, a communication device included in the sensor 200 or an external communication device connected to the sensor 200.
  • the display device 300 displays various screens on the display screen.
  • the information processing apparatus 100 transmits a control signal including a display command and data indicating notification content to the display device 300, for example, to determine the determined factor as in the examples illustrated in FIGS. Is visually notified.
  • Examples of the display device 300 include a liquid crystal display (Liquid Crystal Display), an organic EL display (Organic Electro-Luminescence Display, or an OLED display (Organic Light Emitting Diode Display)), and the like.
  • a liquid crystal display Liquid Crystal Display
  • an organic EL display Organic Electro-Luminescence Display
  • OLED display Organic Light Emitting Diode Display
  • the audio output device 400 outputs various sounds (including music).
  • the information processing apparatus 100 audibly notifies the determined factor by, for example, transmitting a control signal including an output command and audio data indicating notification content to the audio output device 400.
  • Examples of the audio output device 400 include a speaker.
  • the information processing system according to the present embodiment may be configured not to include one of the display device 300 and the audio output device 400 illustrated in FIG. Even in a configuration that does not include one of the display device 300 and the audio output device 400, in the information processing system according to the present embodiment, notification of the determined factor by the information processing apparatus 100 is realized.
  • two or more of the sensor 200, the display device 300, and the audio output device 400 illustrated in FIG. 12 may be provided in one apparatus.
  • the information processing apparatus 100 illustrates an example in which the information processing apparatus 100 and each of the sensor 200, the display device 300, and the audio output device 400 are connected via the network 500.
  • the information processing apparatus according to the present embodiment is illustrated. May include the sensor 200, the display device 300, and the audio output device 400 illustrated in FIG.
  • the information processing apparatus according to the present embodiment can realize, in a stand-alone manner, notification of factors realized in, for example, the information processing system 1000 illustrated in FIG. 12 (including the configuration according to the modification). An application example of the information processing apparatus according to the present embodiment will be described later.
  • FIG. 13 is a block diagram illustrating an example of the configuration of the information processing apparatus 100 according to the present embodiment.
  • the information processing apparatus 100 includes, for example, a communication unit 102 and a control unit 104.
  • the information processing apparatus 100 is operated by, for example, a ROM (Read Only Memory. Not shown), a RAM (Random Access Memory. Not shown), a storage unit (not shown), or a user of the information processing apparatus 100.
  • a possible operation unit (not shown), a display unit (not shown) for displaying various screens on the display screen, and the like may be provided.
  • the information processing apparatus 100 connects the above constituent elements by, for example, a bus as a data transmission path.
  • a ROM (not shown) stores control data such as a program used by the control unit 104 and calculation parameters.
  • a RAM (not shown) temporarily stores a program executed by the control unit 104.
  • a storage unit is a storage unit included in the information processing apparatus 100.
  • a table or database
  • an ID corresponding to a speaker and a threshold value are associated with each other according to the present embodiment.
  • Data related to the information processing method and various data such as various applications are stored.
  • examples of the storage unit (not shown) include a magnetic recording medium such as a hard disk, and a non-volatile memory such as a flash memory. Further, the storage unit (not shown) may be detachable from the information processing apparatus 100.
  • an operation input device to be described later can be cited.
  • a display part (not shown), the display device mentioned later is mentioned.
  • FIG. 14 is an explanatory diagram illustrating an example of a hardware configuration of the information processing apparatus 100 according to the present embodiment.
  • the information processing apparatus 100 includes, for example, an MPU 150, a ROM 152, a RAM 154, a recording medium 156, an input / output interface 158, an operation input device 160, a display device 162, and a communication interface 164.
  • the information processing apparatus 100 connects each component with a bus 166 as a data transmission path, for example.
  • the information processing apparatus 100 is driven by, for example, power supplied from an internal power supply such as a battery provided in the information processing apparatus 100, or power supplied from a connected external power supply.
  • the MPU 150 includes, for example, one or more processors configured with arithmetic circuits such as an MPU (Micro Processing Unit) and various processing circuits, and functions as the control unit 104 that controls the entire information processing apparatus 100. . Also, the MPU 150 serves as, for example, a determination unit 110 and a notification control unit 112 described later in the information processing apparatus 100. Note that one or both of the determination unit 110 and the notification control unit 112 may be configured by a dedicated (or general-purpose) circuit (for example, a processor separate from the MPU 150) capable of realizing the processing of each unit. Good.
  • a dedicated (or general-purpose) circuit for example, a processor separate from the MPU 150
  • the ROM 152 stores programs used by the MPU 150, control data such as calculation parameters, and the like.
  • the RAM 154 temporarily stores a program executed by the MPU 150, for example.
  • the recording medium 156 functions as a storage unit (not shown). For example, data related to the information processing method according to the present embodiment, such as a table in which an ID corresponding to a speaker and a threshold value are associated, and various applications Various data is stored.
  • examples of the recording medium 156 include a magnetic recording medium such as a hard disk and a non-volatile memory such as a flash memory. Further, the recording medium 156 may be detachable from the information processing apparatus 100.
  • the input / output interface 158 connects, for example, the operation input device 160 and the display device 162.
  • the operation input device 160 functions as an operation unit (not shown)
  • the display device 162 functions as a display unit (not shown).
  • examples of the input / output interface 158 include a USB (Universal Serial Bus) terminal, a DVI (Digital Visual Interface) terminal, an HDMI (High-Definition Multimedia Interface) (registered trademark) terminal, and various processing circuits. .
  • the operation input device 160 is provided on the information processing apparatus 100, for example, and is connected to the input / output interface 158 inside the information processing apparatus 100.
  • Examples of the operation input device 160 include a button, a direction key, a rotary selector such as a jog dial, or a combination thereof.
  • the display device 162 is provided on the information processing apparatus 100, for example, and is connected to the input / output interface 158 inside the information processing apparatus 100.
  • Examples of the display device 162 include a liquid crystal display and an organic EL display.
  • the input / output interface 158 can be connected to an external device such as an operation input device (for example, a keyboard or a mouse) external to the information processing apparatus 100 or an external display device.
  • the display device 162 may be a device capable of display and user operation, such as a touch panel.
  • the communication interface 164 is a communication unit included in the information processing apparatus 100, and communicates with an external device such as the sensor 200 or an external apparatus via the network 500 (or directly) by wireless or wired. It functions as the communication unit 102 for this.
  • the communication interface 164 for example, a communication antenna and an RF (Radio Frequency) circuit (wireless communication), an IEEE 802.15.1 port and a transmission / reception circuit (wireless communication), an IEEE 802.11 port and a transmission / reception circuit (wireless communication). ), Or a LAN (Local Area Network) terminal and a transmission / reception circuit (wired communication).
  • the communication interface 164 may have an arbitrary configuration corresponding to the network 500.
  • the information processing apparatus 100 performs a process related to the information processing method according to the present embodiment, for example, with the configuration illustrated in FIG. Note that the hardware configuration of the information processing apparatus 100 according to the present embodiment is not limited to the configuration illustrated in FIG.
  • the information processing apparatus 100 may not include the communication interface 164 when communicating with an external apparatus or the like via a connected external communication device.
  • the communication interface 164 may be configured to be able to communicate with one or more external devices or the like by a plurality of communication methods.
  • the information processing apparatus 100 can have a configuration that does not include the recording medium 156, the operation input device 160, and the display device 162, for example.
  • the information processing apparatus 100 can take a configuration according to an application example of the information processing apparatus 100 described later, for example.
  • a part or all of the configuration shown in FIG. 14 may be realized by one or two or more ICs (Integrated Circuits).
  • the communication unit 102 is a communication unit included in the information processing apparatus 100, and performs wireless or wired communication with an external device such as the sensor 200 or an external apparatus via the network 500 (or directly).
  • the communication of the communication unit 102 is controlled by the control unit 104, for example.
  • examples of the communication unit 102 include a communication antenna and an RF circuit, a LAN terminal, and a transmission / reception circuit, but the configuration of the communication unit 102 is not limited to the above.
  • the communication unit 102 can have a configuration corresponding to an arbitrary standard capable of performing communication such as a USB terminal and a transmission / reception circuit, or an arbitrary configuration capable of communicating with an external device via the network 500.
  • the communication unit 102 may be configured to be able to communicate with one or more external devices or the like by a plurality of communication methods.
  • the control unit 104 is configured by, for example, an MPU and plays a role of controlling the entire information processing apparatus 100. Further, the control unit 104 includes, for example, a determination unit 110 and a notification control unit 112, and plays a role of leading the processing related to the information processing method according to the present embodiment. Furthermore, the control unit 104 can also perform various processes such as a speech recognition process, a signal process related to estimation of environmental noise, and a signal process that estimates utterance characteristics.
  • the determination unit 110 plays a role of leading the determination process, and determines a factor that may cause an error in the speech recognition based on the result of the speech recognition and the information related to the utterance.
  • the determination unit 110 is, for example, one or two of the determination processes according to the first example shown in [2-1-1] to the determination processes according to the fourth example shown in [2-4-1]. Do the above.
  • the notification control unit 112 plays a leading role in performing the notification control process, and notifies the factor determined by the determination unit 110.
  • the notification control unit 112 includes, for example, a notification control process according to the first example shown in [2-1-2] to a notification control process according to the seventh example shown in [2-5-3]. By performing one or two or more, one or more factors are visually notified. In addition, the notification control unit 112 audibly notifies one or more factors by, for example, outputting a voice indicating the determined factor from the audio output device. Further, the notification control unit 112 can notify the determined factor by both visual notification and auditory notification, for example.
  • the information processing apparatus 100 performs processing related to the information processing method according to the present embodiment, for example, with the configuration illustrated in FIG. 13. Therefore, the information processing apparatus 100 can improve the convenience of the speaker, for example, with the configuration shown in FIG. 13.
  • the information processing apparatus 100 can achieve the effect that is achieved by performing the processing related to the information processing method according to the present embodiment as described above.
  • the information processing apparatus includes one or both of the determination unit 110 and the notification control unit 112 illustrated in FIG. 13 separately from the control unit 104 (for example, realized by another processing circuit). be able to.
  • the configuration for realizing the processing related to the information processing method according to the present embodiment is not limited to the configuration illustrated in FIG. It is possible.
  • the information processing apparatus when communicating with an external device via an external communication device having the same function and configuration as the communication unit 102, does not include the communication unit 102. Also good.
  • the information processing apparatus has been described as the present embodiment, but the present embodiment is not limited to such a form.
  • This embodiment is, for example, “PC (Personal Computer) or server computer”, “head mounted display”, “eyewear type wearable device”, “clock type device, bracelet type device, etc. "Various wearable devices that are worn on the user's body”, “Communication devices such as smartphones”, “Tablet devices”, “Game machines”, “Moving objects such as bicycles, automobiles, electric standing bicycles”, etc.
  • the present invention can be applied to various devices capable of performing the processing related to the information processing method according to the present embodiment.
  • the present embodiment can be applied to a processing IC that can be incorporated in the above-described device, for example.
  • the information processing apparatus may be applied to a processing system that is premised on connection to a network (or communication between apparatuses), such as cloud computing.
  • a processing system in which processing according to the information processing method according to the present embodiment is performed for example, “a part of processing according to the information processing method according to the present embodiment is performed by one apparatus configuring the processing system.
  • a system in which processing other than the part of the processing according to the information processing method according to the present embodiment is performed by another device that configures the processing system.
  • a program for causing a computer system to function as the information processing apparatus according to the present embodiment (for example, a program capable of executing processing according to the information processing method according to the present embodiment, such as the determination process and the notification control process) ) Is executed by a processor or the like in the computer system, so that the convenience of the speaker can be improved.
  • the computer system according to the present embodiment includes a single computer or a plurality of computers. A series of processing relating to the information processing method according to the present embodiment is performed by the computer system according to the present embodiment.
  • a program for causing a computer system to function as the information processing apparatus according to the present embodiment is executed by a processor or the like in the computer system, thereby performing the above-described processing according to the information processing method according to the present embodiment. Effects can be achieved.
  • a program for causing a computer system to function as the information processing apparatus according to the present embodiment is provided.
  • the present embodiment further stores the program.
  • a recording medium can also be provided.
  • a determination unit that determines a factor that may cause an error in the voice recognition based on a result of the voice recognition and information on the utterance;
  • a notification control unit for notifying the determined factor;
  • An information processing apparatus comprising: (2) The information processing apparatus according to (1), wherein the determination unit determines the factor for each predetermined unit in the result of the speech recognition. (3) The information processing apparatus according to (2), wherein the notification control unit notifies the determined factor for each of the predetermined units.
  • the information about the utterance includes information indicating the volume of the utterance, The information processing apparatus according to any one of (1) to (3), wherein the determination unit determines the factor caused by the volume based on information indicating the volume of the utterance.
  • the information processing apparatus determines that the volume is too high as the factor.
  • the information processing apparatus determines that the volume is too low as the factor.
  • the information about the utterance includes information indicating environmental noise, The information processing apparatus according to any one of (1) to (6), wherein the determination unit determines the factor caused by environmental noise based on information indicating the environmental noise.
  • the information related to the utterance further includes information indicating the volume of the utterance, The information processing apparatus according to (7), wherein the determination unit determines the factor caused by the environmental noise based on information indicating the volume of the utterance and information indicating the environmental noise.
  • the information about the utterance includes information indicating the utterance speed, The information processing apparatus according to any one of (1) to (8), wherein the determination unit determines the factor caused by the speech rate based on information indicating the speech rate. (10) The information processing apparatus according to (9), wherein the determination unit determines the factor caused by the utterance speed by comparing the utterance speed indicated by the information indicating the utterance speed with a standard value of the utterance speed. (11) The information processing apparatus according to (10), wherein the standard value is one of a value associated with a speaker, a value determined based on an attribute of the speaker, and a value independent of the speaker.
  • the information related to the utterance includes information related to the voice recognition process corresponding to the result of the voice recognition, The information processing apparatus according to any one of (1) to (11), wherein the determination unit determines the factor caused by the voice recognition processing based on information related to the voice recognition. (13) The information processing apparatus according to (12), wherein the determination unit determines that the utterance is not clear as the factor. (14) The information processing apparatus according to (12) or (13), wherein the determination unit determines that the utterance is difficult to be recognized as the factor. (15) The information processing apparatus according to any one of (12) to (14), wherein the determination unit determines that the reliability of the result of speech recognition is low as the factor.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

音声認識の結果と、発話に関する情報とに基づいて、音声認識において誤りが生じうる要因を判定する判定部と、判定された要因を通知させる通知制御部と、を備える、情報処理装置が、提供される。

Description

情報処理装置、および情報処理方法
 本開示は、情報処理装置、および情報処理方法に関する。
 音声認識の結果に誤りがあった場合に当該誤りを訂正する技術が開発されている。上記技術としては、例えば下記の特許文献1に記載の技術が挙げられる。
特開2010-55044号公報
 例えば特許文献1に記載の技術のような音声認識の結果の誤りを訂正する技術が存在するように、様々な要因によって音声認識には誤りが生じうる。上記のような音声認識の結果の誤りを訂正する技術が用いられる場合には誤りが訂正されることから、発話者は、音声認識に誤りを生じさせる要因を気にすることなく発話を行うことができる可能性がある。
 しかしながら、上記のような音声認識の結果の誤りを訂正する技術が用いられたとしても、発話者には、音声認識に誤りが生じた要因が通知されない。また、上記のような音声認識の結果の誤りを訂正する技術が用いられたとしても、例えば、音声認識の結果の誤りを訂正することができないことや、訂正結果が誤っていることなどにより、発話者が意図した音声認識結果が得られない場合もありうる。そのため、上記のような音声認識の結果の誤りを訂正する技術が用いられたとしても、例えば“音声認識の結果を修正するために、発話者が何度同じ内容の発話を繰り返しても、発話者が期待する音声認識の結果が得られない状況”のような、発話者の利便性を損ねる状況が生じうる。
 本開示では、発話者の利便性の向上を図ることが可能な、新規かつ改良された情報処理装置、および情報処理方法を提案する。
 本開示によれば、音声認識の結果と、発話に関する情報とに基づいて、上記音声認識において誤りが生じうる要因を判定する判定部と、判定された上記要因を通知させる通知制御部と、を備える、情報処理装置が、提供される。
 また、本開示によれば、音声認識の結果と、発話に関する情報とに基づいて、上記音声認識において誤りが生じうる要因を判定するステップと、判定された上記要因を通知させるステップと、を有する、情報処理装置により実行される情報処理方法が、提供される。
 本開示によれば、発話者の利便性の向上を図ることができる。
 なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握されうる他の効果が奏されてもよい。
本実施形態に係る音量に起因する要因の通知の第1の例を示す説明図である。 本実施形態に係る音量に起因する要因の通知の第2の例を示す説明図である。 本実施形態に係る環境ノイズに起因する要因の通知の例を示す説明図である。 本実施形態に係る発話速度に起因する要因の通知の第1の例を示す説明図である。 本実施形態に係る発話速度に起因する要因の通知の第2の例を示す説明図である。 本実施形態に係る音声認識処理に起因する要因の通知の第1の例を示す説明図である。 本実施形態に係る音声認識処理に起因する要因の通知の第2の例を示す説明図である。 本実施形態に係る音声認識処理に起因する要因の通知の第3の例を示す説明図である。 本実施形態に係る複数の要因の通知の例を示す説明図である。 本実施形態に係る情報処理方法に係る処理の一例を示す流れ図である。 本実施形態に係る情報処理方法に係る処理の一例を示す流れ図である。 本実施形態に係る情報処理装置を含む本実施形態に係る情報処理システムの一例を示す説明図である。 本実施形態に係る情報処理装置の構成の一例を示すブロック図である。 本実施形態に係る情報処理装置のハードウェア構成の一例を示す説明図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 また、以下では、下記に示す順序で説明を行う。
  1.本実施形態に係る情報処理方法
  2.本実施形態に係る情報処理装置
  3.本実施形態に係るプログラム
(本実施形態に係る情報処理方法)
 まず、本実施形態に係る情報処理方法について説明する。以下では、本実施形態に係る情報処理方法に係る処理を、本実施形態に係る情報処理装置が行う場合を例に挙げる。
[1]本実施形態に係る情報処理方法の概要
 上述したように、様々な要因によって音声認識には誤りが生じうる。また、発話者が音声認識に誤りが生じうる要因を把握できない場合には、発話者は、どうすれば音声認識の結果が修正されるのかが分からないので、上述したような発話者の利便性を損ねる状況が生じうる。
 そこで、本実施形態に係る情報処理装置は、音声認識において誤りが生じうる要因(以下、単に「要因」と示す場合がある。)を判定する。そして、本実施形態に係る情報処理装置は、判定された要因を通知させる。
 本実施形態に係る情報処理装置が、音声認識に誤りが生じうる要因を判定して、判定された要因を通知させることによって、例えば通知を受けた発話者は、音声認識に誤りが生じうる要因を把握することができる。また、通知を受けた発話者は、音声認識に誤りが生じうる要因を把握することにより、どうすれば音声認識の結果が修正されるのかを、より容易に理解することができる。
 よって、本実施形態に係る情報処理装置が、音声認識に誤りが生じうる要因を判定して、判定された要因を通知させることによって、上述したような発話者の利便性を損ねる状況が生じる可能性を低減することが可能となる。
 したがって、本実施形態に係る情報処理方法に係る処理が行われることによって、発話者の利便性の向上を図ることができる。
 より具体的には、本実施形態に係る情報処理装置は、本実施形態に係る情報処理方法に係る処理として、下記に示す判定処理および通知制御処理を行う。
(1)判定処理
 本実施形態に係る情報処理装置は、音声認識の結果と、発話に関する情報とに基づいて、音声認識において誤りが生じうる要因を判定する。
 本実施形態に係る音声認識の結果は、例えば、発話者の発話音声を含む音声信号(デジタル信号またはアナログ信号)から発話内容を示す文字(または文字列。以下、同様とする。)を得る音声認識処理が行われた結果である。音声認識の結果としては、発話内容を示す文字を示すデータが挙げられる。
 ここで、発話者の発話音声を含む音声信号は、マイクロホンなどの音声入力デバイスにより生成される。上記音声入力デバイスは、本実施形態に係る情報処理装置が備えるデバイスであってもよいし、本実施形態に係る情報処理装置の外部のデバイスであってもよい。
 また、音声認識処理は、本実施形態に係る情報処理装置が行ってもよいし、本実施形態に係る情報処理装置の外部装置において行われてもよい。
 本実施形態に係る発話に関する情報としては、例えば下記に示す情報のうちの1または2以上が挙げられる。
  ・発話の音量を示す情報
  ・環境ノイズを示す情報
  ・発話速度を示す情報
  ・音声認識処理に関する情報
 本実施形態に係る発話の音量を示す情報としては、例えば、発話者の発話音声を含む音声信号が示す発話音声の音量が数値化されたデータや、発話者の発話音声の波形データが挙げられる。発話の音量を示す情報の生成に係る処理は、本実施形態に係る情報処理装置が行ってもよいし、本実施形態に係る情報処理装置の外部装置において行われてもよい。発話の音量を示す情報の生成に係る処理には、例えば、フィルタなどを利用して音声信号から発話音声とノイズとを分離させる任意の信号処理が含まれうる。なお、発話音声とノイズとを分離する方法は、上記に示す例に限られず、複数の音声入力デバイスによりそれぞれ生成された複数の音声信号に基づいて発話音声とノイズとを分離させることも可能である。
 なお、本実施形態に係る発話の音量を示す情報は、上記に示す例に限られない。例えば、発話の音量を示す情報には、音声入力デバイスと発話者との距離を示すデータが含まれていてもよい。音声入力デバイスと発話者との距離は、例えば、“音声入力デバイスの近傍に設置され、音声入力デバイスにおける特定の集音方向における物体との距離を検出することが可能な、任意の方式の距離センサ”などにより取得される。
 本実施形態に係る環境ノイズを示す情報としては、例えば、環境ノイズの音量が数値化されたデータが挙げられる。環境ノイズを示す情報の生成に係る処理は、本実施形態に係る情報処理装置が行ってもよいし、本実施形態に係る情報処理装置の外部装置において行われてもよい。環境ノイズを示す情報の生成に係る処理には、例えば、フィルタなどを利用して音声信号から発話音声とノイズとを分離させる信号処理などの、音声信号に基づき発話音声とノイズとを分離させることが可能な任意の処理が含まれる。
 本実施形態に係る発話速度を示す情報としては、例えば、発話速度が数値化されたデータが挙げられる。発話速度を示す情報の生成に係る処理は、本実施形態に係る情報処理装置が行ってもよいし、本実施形態に係る情報処理装置の外部装置において行われてもよい。発話速度を示す情報の生成に係る処理としては、例えば、発話音声を示す音声信号のスペクトルの変化量に基づき発話速度を推定する処理など、発話速度を推定することが可能な任意の処理が、挙げられる。また、発話速度を示す情報の生成に係る処理には、例えば、フィルタなどを利用して音声信号から発話音声とノイズとを分離させる信号処理などの、音声信号に基づき発話音声とノイズとを分離させることが可能な処理が、含まれていてもよい。
 本実施形態に係る音声認識処理に関する情報としては、例えば、音声認識処理における音声認識の結果の候補数を示すデータや、音声認識処理における音声認識の結果の信頼度を示すデータが挙げられる。ここで、上記候補数としては、例えば、言語的にありえない認識結果が除外された音声認識の結果の候補数、または、言語的にありえない認識結果を含む音声認識の結果の候補数が、挙げられる。上記候補数および上記信頼度それぞれの算出方法は、音声認識処理を実現可能なアルゴリズム(または音声認識エンジン)に依存する。
 本実施形態に係る発話に関する情報としては、例えば上記に示す情報のうちの1または2以上が挙げられる。上記のような発話に関する情報を用いた判定処理の一例については、後述する。
 本実施形態に係る情報処理装置は、例えば、音声認識の結果における所定の単位ごとに、要因を判定する。
 本実施形態に係る音声認識の結果における所定の単位としては、例えば、文節、単語、形態素解析などにより分割された単位など、音声認識の結果が任意の方法により分割された単位が、挙げられる。以下では、音声認識の結果における所定の単位が、文節である場合を主に例に挙げる。
 なお、本実施形態に係る情報処理装置は、音声認識の結果の全体に対して要因を判定してもよい。
(2)通知制御処理
 本実施形態に係る情報処理装置は、上記判定処理により判定された要因を通知させる。
 本実施形態に係る情報処理装置は、例えば、表示デバイスの表示画面に判定された要因を表示させることによって、判定された要因を視覚的に通知させる。上記表示デバイスは、本実施形態に係る情報処理装置が備えるデバイスであってもよいし、本実施形態に係る情報処理装置の外部のデバイスであってもよい。
 本実施形態に係る情報処理装置は、例えば、表示命令と通知内容を示すデータとを含む制御信号を表示デバイスに対して送信することによって、判定された要因を視覚的に通知させる。上記制御信号の送信は、例えば、本実施形態に係る情報処理装置が備える通信デバイス、または、本実施形態に係る情報処理装置に接続される外部の通信デバイスを介して行われる。
 また、本実施形態に係る情報処理装置は、例えばスピーカなどの音声出力デバイスから判定された要因を示す音声を出力させることによって、判定された要因を聴覚的に通知させることも可能である。上記音声出力デバイスは、本実施形態に係る情報処理装置が備えるデバイスであってもよいし、本実施形態に係る情報処理装置の外部のデバイスであってもよい。
 本実施形態に係る情報処理装置は、例えば、出力命令と通知内容を示す音声データとを含む制御信号を音声出力デバイスに対して送信することによって、判定された要因を聴覚的に通知させる。上記制御信号の送信は、例えば、本実施形態に係る情報処理装置が備える通信デバイスなどを介して行われる。
 なお、本実施形態に係る通知制御処理は、上記に示す例に限られない。例えば、本実施形態に係る情報処理装置は、上記視覚的な通知と上記聴覚的な通知との双方によって、判定された要因を通知させてもよい。
 上記判定処理において、音声認識の結果における所定の単位ごとに要因が判定される場合には、本実施形態に係る情報処理装置は、例えば、音声認識の結果における所定の単位ごとに要因を通知させる。また、上記判定処理において、音声認識の結果の全体に対して要因が判定される場合には、本実施形態に係る情報処理装置は、音声認識の結果の全体に対して、要因を通知させる。なお、本実施形態に係る通知制御処理が行われることによる判定された要因の通知の一例については、後述する。
 本実施形態に係る情報処理装置は、本実施形態に係る情報処理方法に係る処理として、例えば、上記判定処理および上記通知制御処理を行う。
 本実施形態に係る情報処理方法に係る処理が行われることによって、音声認識に誤りが生じうる要因が判定され、判定された要因が通知される。そのため、上述したように、例えば通知を受けた発話者は、音声認識に誤りが生じうる要因を把握することができるので、どうすれば音声認識の結果が修正されるのかを、より容易に理解することができる。
 また、本実施形態に係る情報処理装置が、音声認識の結果における所定の単位ごとに、判定された要因を通知させる場合には、例えば通知を受けた発話者に、発話におけるどの箇所を修正すべきであるかをより容易に理解させることが可能となる。
 したがって、本実施形態に係る情報処理方法に係る処理として、例えば、上記判定処理および上記通知制御処理が行われることによって、上述したような発話者の利便性を損ねる状況が生じる可能性を低減することが可能となる。また、本実施形態に係る情報処理方法に係る処理が行われることによって、発話者の利便性の向上を図ることができる。
 なお、上記判定処理および上記通知制御処理は、便宜上、本実施形態に係る情報処理方法に係る処理を切り分けたものである。よって、本実施形態に係る情報処理方法に係る処理は、例えば、上記判定処理および上記通知制御処理を、1つの処理と捉えることが可能である。また、本実施形態に係る情報処理方法に係る処理は、例えば、任意の切り分け方によって3以上の処理と捉えることも可能である。
[2]本実施形態に係る情報処理方法に係る処理の一例
 次に、本実施形態に係る情報処理方法に係る処理について、より具体的に説明する。
 以下では、本実施形態に係る情報処理方法に係る通知制御処理によって、判定された要因が視覚的に通知される場合を例に挙げる。
 また、以下では、音声認識の結果における文節(所定の単位の一例)ごとに要因が判定され、当該文節ごとに判定された要因が通知される場合を例に挙げる。
 さらに、以下では、発話の言語が英語である場合を例に挙げる。なお、本実施形態に係る情報処理方法に係る処理が適用可能な言語は、英語に限られない。本実施形態に係る情報処理方法に係る処理は、例えば、日本語、ドイツ語、フランス語、スペイン語、中国語などの、音声認識処理により音声認識の結果が得られうる、任意の言語に適用することが可能である。
[2-1]情報処理方法に係る処理の第1の例:音量に起因する要因の通知に係る処理
 第1の例に係る処理として、音量に起因する要因を通知させる処理の一例を説明する。
 ここで、本実施形態に係る音量に起因する要因とは、発話の音量が大きすぎること、または、発話の音量が小さすぎることである。発話の音量が大きすぎるとは、例えば、音割れが生じることに該当する。また、発話の音量が小さすぎるとは、例えば、マイクロホンなどの音声入力デバイスにより発話の集音がされていないことに該当する。
[2-1-1]判定処理の第1の例
 本実施形態に係る情報処理装置は、発話の音量を示す情報(発話に関する情報の一例)に基づいて、音量に起因する要因を判定する。
 まず、音量に起因する要因として発話の音量が大きすぎることを判定する例について、説明する。
 音量に起因する要因として発話の音量が大きすぎることを判定する場合、本実施形態に係る情報処理装置は、例えば、発話の音量を示す情報が示す音量(数値)と、設定されている閾値とを比較して、発話の音量が大きすぎるか否かを判定する。本実施形態に係る情報処理装置は、発話の音量を示す情報が示す音量が所定の閾値より大きい場合(または、当該音量が当該所定の閾値以上である場合)に、発話の音量が大きすぎると判定する。発話の音量が大きすぎると判定された場合が、音量に起因する要因が存在する場合に該当する。
 ここで、発話の音量が大きすぎることの判定に係る閾値としては、例えば、発話者に対応付けられる値、発話者の属性に基づき決定される値、発話者に依存しない値のうちのいずれかが挙げられる。
 発話の音量が大きすぎることの判定に係る発話者に対応付けられる値としては、例えば、発話者の発話全体における音量の平均値に所定の調整値を加算した値が挙げられる。上記調整値は、予め設定されている固定値であってもよいし、本実施形態に係る情報処理装置のユーザなどの操作や、音声入力デバイスと発話者との距離などに基づき変更可能な可変値であってもよい。
 また、発話の音量が大きすぎることの判定に係る発話者に対応付けられる値は、例えば発話者に対応するIDと閾値とが対応付けれているテーブル(または、データベース)などに、予め設定されている閾値であってもよい。本実施形態に係る情報処理装置は、例えば、撮像画像に基づく顔認証などの任意の方式の認証などにより特定された発話者のIDと、上記発話者に対応するIDと閾値とが対応付けれているテーブルとに基づいて、発話者に対応付けられる値を特定する。上記発話者に対応するIDと閾値とが対応付けれているテーブルは、例えば、本実施形態に係る情報処理装置が備える記憶部(後述する)や、本実施形態に係る情報処理装置の外部の記録媒体などの、記録媒体に記憶される。
 発話の音量が大きすぎることの判定に係る発話者の属性に基づき決定される値としては、例えば、下記に示すような発話者の属性に対応付けられている値、または、下記に示すような発話者の属性から任意のアルゴリズムに従って求められる値が、挙げられる。なお、発話の音量が大きすぎることの判定に係る発話者の属性の例が、上記に示す例に限られないことは、言うまでもない。
  ・発話者の性別
  ・発話者の年齢(または年代)
  ・これらの組み合わせ
 上記発話者の性別と年齢(または年代)とは、例えば、撮像デバイスにより発話者が撮像された撮像画像から推定される。上記撮像デバイスは、本実施形態に係る情報処理装置が備えるデバイスであってもよいし、本実施形態に係る情報処理装置の外部のデバイスであってもよい。なお、発話の音量が大きすぎることの判定に係る発話者の属性を推定する処理(または発話者の属性を特定する処理)は、上記に限られず、発話者の属性を推定することが可能な任意の処理であってもよい。また、発話者の属性を推定する処理(または発話者の属性を特定する処理)は、本実施形態に係る情報処理装置が行ってもよいし、本実施形態に係る情報処理装置の外部装置において行われてもよい。
 発話者に依存しない値としては、例えば、予め設定されている固定値、または、本実施形態に係る情報処理装置のユーザなどの操作などに基づき変更可能な可変値が、挙げられる。
 なお、発話の音量が大きすぎることを判定する処理は、上記に示す例に限られない。
 例えば、本実施形態に係る情報処理装置は、発話の音量を示す情報が示す発話者の発話音声の波形パターンから、設定されている所定の波形パターンを検出することによって、発話の音量が大きすぎることを判定してもよい。本実施形態に係る情報処理装置は、例えば、発話音声の波形パターンからクリップしている波形(所定の波形パターンの一例)が検出された場合に、発話の音量が大きすぎると判定する。
 次に、音量に起因する要因として発話の音量が小さすぎることを判定する例について、説明する。
 音量に起因する要因として発話の音量が小さすぎることを判定する場合、本実施形態に係る情報処理装置は、例えば、発話の音量を示す情報が示す音量(数値)と、設定されている閾値とを比較して、発話の音量が小さすぎるか否かを判定する。本実施形態に係る情報処理装置は、発話の音量を示す情報が示す音量が所定の閾値より小さい場合(または、当該音量が当該所定の閾値以下である場合)に、発話の音量が小さすぎると判定する。発話の音量が小さすぎると判定された場合が、音量に起因する要因が存在する場合に該当する。
 ここで、発話の音量が小さすぎることの判定に係る閾値としては、例えば、発話者に対応付けられる値、発話者の属性に基づき決定される値、発話者に依存しない値のうちのいずれかが挙げられる。
 発話の音量が小さすぎることの判定に係る発話者に対応付けられる値としては、例えば、発話者の発話全体における音量の平均値に所定の調整値を減算した値が挙げられる。上記調整値は、予め設定されている固定値であってもよいし、本実施形態に係る情報処理装置のユーザなどの操作や、音声入力デバイスと発話者との距離などに基づき変更可能な可変値であってもよい。また、発話の音量が小さすぎることの判定に係る調整値と、上述した発話の音量が大きすぎることの判定に係る調整値とは、同一であってもよいし、異なっていてもよい。
 また、発話の音量が小さすぎることの判定に係る発話者に対応付けられる値は、例えば発話の音量が大きすぎることの判定に係る発話者に対応付けられる値と同様に、発話者に対応するIDと閾値とが対応付けれているテーブル(または、データベース)などに、予め設定されている閾値であってもよい。
 発話の音量が小さすぎることの判定に係る発話者の属性に基づき決定される値としては、例えば、下記に示すような発話者の属性に対応付けられている値、または、下記に示すような発話者の属性から任意のアルゴリズムに従って求められる値が、挙げられる。なお、発話の音量が小さすぎることの判定に係る発話者の属性の例が、上記に示す例に限られないことは、言うまでもない。
  ・発話者の性別
  ・発話者の年齢(または年代)
  ・これらの組み合わせ
 発話者に依存しない値としては、例えば、予め設定されている固定値、または、本実施形態に係る情報処理装置のユーザなどの操作などに基づき変更可能な可変値が、挙げられる。
 なお、発話の音量が小さすぎることを判定する処理は、上記に示す例に限られない。
 例えば、発話の音量を示す情報には、音声入力デバイスと発話者との距離を示すデータが含まれている場合、本実施形態に係る情報処理装置は、音声入力デバイスと発話者との距離に基づいて、発話の音量が小さすぎることを判定してもよい。本実施形態に係る情報処理装置は、例えば、音声入力デバイスと発話者との距離が、設定されている距離に係る閾値より大きい場合(または、当該距離が当該閾値以上である場合)に、発話の音量が小さすぎると判定する。距離に係る閾値としては、例えば、予め設定されている固定値、または、本実施形態に係る情報処理装置のユーザなどの操作などに基づき変更可能な可変値が、挙げられる。
[2-1-2]通知制御処理の第1の例
 本実施形態に係る情報処理装置は、判定された音量に起因する要因を通知させる。
 図1は、本実施形態に係る音量に起因する要因の通知の第1の例を示す説明図であり、発話の音量が大きすぎることに起因して音声認識において誤りが生じている可能性があることを視覚的に通知する場合の一例を示している。
 図1は、発話者が“I want to bring the document to him”と発話をしたときに、音声認識の結果が“I want to ring the document to him”である場合、すなわち、音声認識の結果の“ring”部分に誤りが生じている場合を、示している。
 本実施形態に係る情報処理装置は、例えば、発話の音量(以下、「発話音量」と示す場合がある。)を、文節ごとに表示させる。図1では、本実施形態に係る情報処理装置が、発話音量に対応する波形を文節ごとに表示させている例を示している。ここで、発話者の発話音声を含む音声信号と音声認識の結果とは、例えば、音声認識処理を実現するための音声認識エンジンなどにより対応付けられる。
 本実施形態に係る情報処理装置は、例えば図1のAの“ring”部分に示すように、発話の音量が大きすぎると判定された部分の波形を、クリップしている波形として表示させることによって、発話の音量が大きすぎることに起因して音声認識において誤りが生じている可能性があることを視覚的に通知する。
 また、本実施形態に係る情報処理装置は、例えば図1のBの“ring”部分に示すように、音量に起因する要因が存在すると判定された部分と他の部分とを色分けすること、音量に起因する要因が存在すると判定された部分に枠を表示させることなどによって、音量に起因する要因が存在すると判定された部分を強調して表示させてもよい。
 なお、発話の音量が大きすぎることに起因して音声認識において誤りが生じている可能性があることを視覚的に通知する場合の例が、図1に示す例に限られないことは、言うまでもない。
 図2は、本実施形態に係る音量に起因する要因の通知の第2の例を示す説明図であり、発話の音量が小さすぎることに起因して音声認識において誤りが生じている可能性があることを視覚的に通知する場合の一例を示している。
 図2は、発話者が“I want to bring the document to him”と発話をしたときに、音声認識の結果が“I want to ring the document to him”である場合、すなわち、音声認識の結果の“ring”部分に誤りが生じている場合を、示している。
 本実施形態に係る情報処理装置は、例えば発話音量を文節ごとに表示させる。図2では、本実施形態に係る情報処理装置が、図1に示す例と同様に、発話音量に対応する波形を文節ごとに表示させている例を示している。
 本実施形態に係る情報処理装置は、例えば図2のAの“ring”部分に示すように、発話の音量が大きすぎると判定された部分の波形を、他の部分の波形よりも小さく表示させることによって、発話の音量が小さすぎることに起因して音声認識において誤りが生じている可能性があることを視覚的に通知する。
 また、本実施形態に係る情報処理装置は、例えば図2のBの“ring”部分に示すように、音量に起因する要因が存在すると判定された部分と他の部分とを色分けすること、音量に起因する要因が存在すると判定された部分に枠を表示させることなどによって、音量に起因する要因が存在すると判定された部分を強調して表示させてもよい。
 また、本実施形態に係る情報処理装置は、例えば図2のCの“ring”部分に示すように、音量に起因する要因が存在すると判定された部分のみ発話音量に対応する波形を表示させ、かつ、当該部分のみ強調して表示させてもよい。つまり、本実施形態に係る情報処理装置は、音量に起因する要因により音声認識において誤りが生じている可能性がある部分のみを、通知させることが可能である。
 なお、発話の音量が小さすぎることに起因して音声認識において誤りが生じている可能性があることを視覚的に通知する場合の例が、図2に示す例に限られないことは、言うまでもない。
[2-2]情報処理方法に係る処理の第2の例:環境ノイズに起因する要因の通知に係る処理
 第2の例に係る処理として、環境ノイズに起因する要因を通知させる処理の一例を説明する。
 ここで、本実施形態に係る環境ノイズに起因する要因とは、例えば、環境ノイズ(雑音)が大きすぎることである。環境ノイズが大きすぎるとは、例えば、音声認識の結果に影響を及ぼすほど環境ノイズが大きいことに該当する。
[2-2-1]判定処理の第2の例
 本実施形態に係る情報処理装置は、例えば、環境ノイズを示す情報(発話に関する情報の一例)に基づいて、環境ノイズに起因する要因を判定する。
 本実施形態に係る情報処理装置は、例えば、環境ノイズを示す情報が示す環境ノイズの音量(数値)と、設定されている閾値とを比較して、環境ノイズの音量が大きいか否かを判定する。本実施形態に係る情報処理装置は、環境ノイズを示す情報が示す環境ノイズの音量が所定の閾値より大きい場合(または、当該音量が当該所定の閾値以上である場合)に、環境ノイズの音量が大きいと判定する。環境ノイズの音量が大きいと判定された場合が、環境ノイズに起因する要因が存在する場合に該当する。
 ここで、環境ノイズの音量との比較に係る閾値は、例えば、予め設定されている固定値であってもよいし、環境ノイズの音量と発話者の発話全体における環境ノイズの音量の平均値との比率などにより変動する可変値であってもよい。
 なお、第2の例に係る判定処理は、上記に示す例に限られない。
 例えば、本実施形態に係る情報処理装置は、例えば、発話の音量を示す情報(発話に関する情報の一例)と環境ノイズを示す情報(発話に関する情報の一例)に基づいて、環境ノイズに起因する要因を判定してもよい。
 本実施形態に係る情報処理装置は、例えば、発話の音量を示す情報が示す音量(数値)と、環境ノイズを示す情報が示す環境ノイズの音量(数値)とに基づきSN比(Signal-to-Noise ratio)を算出する。そして、本実施形態に係る情報処理装置は、算出されたSN比と、設定されている閾値とを比較して、環境ノイズの音量が大きいか否かを判定する。本実施形態に係る情報処理装置は、SN比が所定の閾値より小さい場合(または、SN比が当該所定の閾値以下である場合)に、環境ノイズの音量が大きいと判定する。
 ここで、SN比との比較に係る閾値は、例えば、予め設定されている固定値であってもよいし、発話の音量などにより変動する可変値であってもよい。
[2-2-2]通知制御処理の第2の例
 本実施形態に係る情報処理装置は、判定された環境ノイズに起因する要因を通知させる。
 図3は、本実施形態に係る環境ノイズに起因する要因の通知の例を示す説明図であり、環境ノイズが大きすぎることに起因して音声認識において誤りが生じている可能性があることを視覚的に通知する場合の一例を示している。
 図3は、発話者が“I want to bring the document to him”と発話をしたときに、音声認識の結果が“I want to ring the document to him”である場合、すなわち、音声認識の結果の“ring”部分に誤りが生じている場合を、示している。
 本実施形態に係る情報処理装置は、例えば、発話音量と環境ノイズの音量とを、文節ごとに表示させる。図3では、本実施形態に係る情報処理装置が、発話音量に対応する波形と環境ノイズの音量に対応する波形とを、文節ごとに表示させている例を示している。
 本実施形態に係る情報処理装置は、例えば図3のAの“ring”部分および“the”部分に示すように、ノイズが大きいと判定された部分について、発話音量に対応する波形により規定される領域と環境ノイズの音量に対応する波形により規定される領域との重複部分が、他の部分よりも大きくなるように、表示させる。図3のAに示すように表示させることによって、本実施形態に係る情報処理装置は、上記SN比が小さいこと、すなわち、ノイズが大きすぎることに起因して音声認識において誤りが生じている可能性があることを、視覚的に通知することができる。
 また、本実施形態に係る情報処理装置は、例えば図3のBの“ring”部分および“the”部分に示すように、環境ノイズに起因する要因が存在すると判定された部分と他の部分とを色分けすること、環境ノイズに起因する要因が存在すると判定された部分に枠を表示させることなどによって、環境ノイズに起因する要因が存在すると判定された部分を強調して表示させてもよい。
 また、本実施形態に係る情報処理装置は、例えば図3のCの“ring”部分および“the”部分に示すように、環境ノイズに起因する要因が存在すると判定された部分のみ発話音量に対応する波形などを表示させ、かつ、当該部分のみ強調して表示させてもよい。つまり、本実施形態に係る情報処理装置は、環境ノイズに起因する要因により音声認識において誤りが生じている可能性がある部分のみを、通知させることが可能である。
 なお、環境ノイズに起因する要因に起因して音声認識において誤りが生じている可能性があることを視覚的に通知する場合の例が、図3に示す例に限られないことは、言うまでもない。
[2-3]情報処理方法に係る処理の第3の例:発話速度に起因する要因の通知に係る処理
 第3の例に係る処理として、発話速度に起因する要因を通知させる処理の一例を説明する。
 ここで、本実施形態に係る発話速度に起因する要因とは、例えば、発話速度が速すぎること、または、発話速度が遅すぎることである。発話速度が速すぎるとは、例えば、音声認識の結果に影響を及ぼすほど発話速度が速いことに該当する。また、発話速度が遅すぎるとは、例えば、音声認識の結果に影響を及ぼすほど発話速度が遅いことに該当する。
[2-3-1]判定処理の第3の例
 本実施形態に係る情報処理装置は、例えば、発話速度を示す情報(発話に関する情報の一例)に基づいて、発話速度に起因する要因を判定する。
 まず、発話速度に起因する要因として、発話速度が速すぎることを判定する例について、説明する。
 発話速度に起因する要因として発話速度が速すぎることを判定する場合、本実施形態に係る情報処理装置は、例えば、発話速度を示す情報が示す発話速度(数値)と、発話速度の標準値とを比較することによって、発話速度に起因する要因を判定する。本実施形態に係る情報処理装置は、発話速度を示す情報が示す発話速度が標準値より大きい場合(または、当該発話速度が当該標準値以上である場合)に、発話速度が速すぎると判定する。発話速度が速すぎると判定された場合が、発話速度に起因する要因が存在する場合に該当する。
 ここで、発話速度が速すぎることの判定に係る標準値は、発話速度が速すぎることの判定に係る閾値に該当する。また、発話速度が速すぎることの判定に係る標準値としては、例えば、発話者に対応付けられる値、発話者の属性に基づき決定される値、発話者に依存しない値のうちのいずれかが挙げられる。
 発話速度が速すぎることの判定に係る発話者に対応付けられる値としては、例えば、発話者の発話全体における発話速度の平均値に所定の調整値を加算した値が挙げられる。上記調整値は、予め設定されている固定値であってもよいし、本実施形態に係る情報処理装置のユーザなどの操作や、音声入力デバイスと発話者との距離などに基づき変更可能な可変値であってもよい。
 また、発話速度が速すぎることの判定に係る発話者に対応付けられる値は、例えば発話者に対応するIDと標準値とが対応付けれているテーブル(または、データベース)などに、予め設定されている標準値であってもよい。本実施形態に係る情報処理装置は、例えば、撮像画像に基づく顔認証などの任意の方式の認証などにより特定された発話者のIDと、上記発話者に対応するIDと標準値とが対応付けれているテーブルとに基づいて、発話者に対応付けられる値を特定する。上記発話者に対応するIDと標準値とが対応付けれているテーブルは、例えば、本実施形態に係る情報処理装置が備える記憶部(後述する)などの記録媒体に記憶される。
 発話速度が速すぎることの判定に係る発話者の属性に基づき決定される値としては、例えば、下記に示すような発話者の属性に対応付けられている値、または、下記に示すような発話者の属性から任意のアルゴリズムに従って求められる値が、挙げられる。なお、発話速度が速すぎることの判定に係る発話者の属性の例が、上記に示す例に限られないことは、言うまでもない。
  ・発話者の性別
  ・発話者の年齢(または年代)
  ・発話者が属ずるコミュニティ
  ・これらの組み合わせ
 上記発話者の性別と年齢(または年代)とは、例えば、撮像デバイスにより発話者が撮像された撮像画像から推定される。また、上記発話者が属ずるコミュニティは、例えば、任意の方式の認証などにより特定された発話者のIDなどに基づき推定される(または特定される)。なお、発話速度が速すぎることの判定に係る発話者の属性を推定する処理(または発話者の属性を特定する処理)は、上記に限られず、発話者の属性を推定することが可能な任意の処理であってもよい。発話者の属性を推定する処理(または発話者の属性を特定する処理)は、上述したように、本実施形態に係る情報処理装置が行ってもよいし、本実施形態に係る情報処理装置の外部装置において行われてもよい。
 発話者に依存しない値としては、例えば、予め設定されている固定値、または、本実施形態に係る情報処理装置のユーザなどの操作などに基づき変更可能な可変値が、挙げられる。また、発話者に依存しない値は、複数の発話者それぞれの発話における発話速度の平均値に所定の調整値を加算した値であってもよい。
 次に、発話速度に起因する要因として、発話速度が遅すぎることを判定する例について、説明する。
 発話速度に起因する要因として発話速度が遅すぎることを判定する場合、本実施形態に係る情報処理装置は、例えば、発話速度を示す情報が示す発話速度(数値)と、発話速度の標準値とを比較することによって、発話速度に起因する要因を判定する。本実施形態に係る情報処理装置は、発話速度を示す情報が示す発話速度が標準値より小さい場合(または、当該発話速度が当該標準値以下である場合)に、発話速度が遅すぎると判定する。発話速度が遅すぎると判定された場合が、発話速度に起因する要因が存在する場合に該当する。
 ここで、発話速度が遅すぎることの判定に係る標準値は、発話速度が遅すぎることの判定に係る閾値に該当する。また、発話速度が遅すぎることの判定に係る標準値としては、例えば、発話者に対応付けられる値、発話者の属性に基づき決定される値、発話者に依存しない値のうちのいずれかが挙げられる。
 発話速度が遅すぎることの判定に係る発話者に対応付けられる値としては、例えば、発話者の発話全体における発話速度の平均値に所定の調整値を減算した値が挙げられる。上記調整値は、予め設定されている固定値であってもよいし、本実施形態に係る情報処理装置のユーザなどの操作や、音声入力デバイスと発話者との距離などに基づき変更可能な可変値であってもよい。また、発話速度が遅すぎることの判定に係る調整値と、上述した発話速度が速すぎることの判定に係る調整値とは、同一であってもよいし、異なっていてもよい。
 また、発話速度が遅すぎることの判定に係る発話者に対応付けられる値は、例えば発話速度が速すぎることの判定に係る発話者に対応付けられる値と同様に、発話者に対応するIDと標準値とが対応付けれているテーブル(または、データベース)などに、予め設定されている標準値であってもよい。
 発話速度が遅すぎることの判定に係る発話者の属性に基づき決定される値としては、例えば、下記に示すような発話者の属性に対応付けられている値、または、下記に示すような発話者の属性から任意のアルゴリズムに従って求められる値が、挙げられる。なお、発話速度が遅すぎることの判定に係る発話者の属性の例が、上記に示す例に限られないことは、言うまでもない。
  ・発話者の性別
  ・発話者の年齢(または年代)
  ・発話者が属ずるコミュニティ
  ・これらの組み合わせ
 発話者に依存しない値としては、例えば、予め設定されている固定値、または、本実施形態に係る情報処理装置のユーザなどの操作などに基づき変更可能な可変値が、挙げられる。また、発話者に依存しない値は、複数の発話者それぞれの発話における発話速度の平均値から所定の調整値を減算した値であってもよい。
 本実施形態に係る情報処理装置は、例えば上記のように、発話速度を示す情報が示す発話速度と、発話速度の標準値とを比較することによって、発話速度に起因する要因を判定する。
[2-3-2]通知制御処理の第3の例
 本実施形態に係る情報処理装置は、判定された発話速度に起因する要因を通知させる。
 図4は、本実施形態に係る発話速度に起因する要因の通知の第1の例を示す説明図であり、発話速度が速すぎることに起因して音声認識において誤りが生じている可能性があることを視覚的に通知する場合の一例を示している。
 図4は、発話者が“I want to bring the document to him”と発話をしたときに、音声認識の結果が“I want to ring the document to him”である場合、すなわち、音声認識の結果の“ring”部分に誤りが生じている場合を、示している。
 本実施形態に係る情報処理装置は、例えば図4の“ring”部分、“the”部分、および“document”部分に示すように、発話速度が速すぎると判定された部分と他の部分とを色分けすること、発話速度が速すぎると判定された部分に発話速度が速すぎることを示すアイコンを付加することなどによって、発話速度に起因する要因が存在すると判定された部分を強調して表示させる。
 なお、発話速度が速すぎることに起因して音声認識において誤りが生じている可能性があることを視覚的に通知する場合の例が、図4に示す例に限られないことは、言うまでもない。
 図5は、本実施形態に係る発話速度に起因する要因の通知の第2の例を示す説明図であり、発話速度が遅すぎることに起因して音声認識において誤りが生じている可能性があることを視覚的に通知する場合の一例を示している。
 図5は、発話者が“I want to bring the document to him”と発話をしたときに、音声認識の結果が“I want to ring the document to him”である場合、すなわち、音声認識の結果の“ring”部分に誤りが生じている場合を、示している。
 本実施形態に係る情報処理装置は、例えば図5の“ring”部分、“the”部分、および“document”部分に示すように、発話速度が遅すぎると判定された部分と他の部分とを色分けすること、発話速度が速すぎると判定された部分に発話速度が遅すぎることを示すアイコンを付加することなどによって、発話速度に起因する要因が存在すると判定された部分を強調して表示させる。
 なお、発話速度が遅すぎることに起因して音声認識において誤りが生じている可能性があることを視覚的に通知する場合の例が、図5に示す例に限られないことは、言うまでもない。
[2-4]情報処理方法に係る処理の第4の例:音声認識処理に起因する要因の通知に係る処理
 第4の例に係る処理として、音声認識処理に起因する要因を通知させる処理の一例を説明する。
 ここで、本実施形態に係る音声認識処理に起因する要因とは、例えば、発話が明瞭ではないこと、発話が認識され難いこと、または、音声認識の結果の信頼度が低いことである。
 本実施形態に係る発話が明瞭ではないとは、例えば、“音声認識の結果に影響を及ぼすほど、音声認識処理において発話音声に基づき得られる認識結果の候補数が多すぎること”に該当する。ここで、上記発話音声に基づき得られる認識結果の候補数は、上述した言語的にありえない認識結果を含む音声認識の結果の候補数に該当する。
 また、本実施形態に係る発話が認識され難いとは、例えば、“音声認識の結果に影響を及ぼすほど、発話音声に基づき得られた認識結果の候補から、言語的に候補となりえない文字を除外した結果得られる認識結果の候補数が多すぎること”に該当する。ここで、上記言語的に候補となりえない文字を除外した結果得られる認識結果の候補数は、上述した言語的にありえない認識結果が除外された音声認識の結果の候補数に該当する。例えば、同音異語が多い、音声認識に用いられる学習データに正解となる文字が存在していないなどにより、発話が認識され難い事態が生じうる。
 また、本実施形態に係る音声認識の結果の信頼度が低いとは、例えば、“音声認識の結果に影響を及ぼすほど、音声認識処理において任意のアルゴリズムにより算出される音声認識の結果の信頼度が低いこと”に該当する。
[2-4-1]判定処理の第4の例
 本実施形態に係る情報処理装置は、例えば、音声認識の結果に対応する音声認識処理に関する情報(発話に関する情報の一例)に基づいて、音声認識処理に起因する要因を判定する。
 まず、音声認識処理に起因する要因として、発話が明瞭ではないことを判定する例について、説明する。
 本実施形態に係る情報処理装置は、例えば、音声認識処理に関する情報が示す言語的にありえない認識結果を含む音声認識の結果の候補数(以下、「第1の候補数」と示す場合がある。)と、設定されている閾値とを比較して、発話が明瞭であるか否かを判定する。本実施形態に係る情報処理装置は、音声認識処理に関する情報が示す第1の候補数が所定の閾値より大きい場合(または、第1の候補数が当該所定の閾値以上である場合)に、発話が明瞭ではないと判定する。発話が明瞭ではないと判定された場合が、音声認識処理に起因する要因が存在する場合に該当する。
 ここで、第1の候補数との比較に係る閾値は、例えば、予め設定されている固定値であってもよいし、本実施形態に係る情報処理装置のユーザなどの操作などに基づき変更可能な可変値であってもよい。
 次に、音声認識処理に起因する要因として、発話が認識され難いことを判定する例について、説明する。
 本実施形態に係る情報処理装置は、例えば、音声認識処理に関する情報が示す言語的にありえない認識結果が除外された音声認識の結果の候補数(以下、「第2の候補数」と示す場合がある。)と、設定されている閾値とを比較して、発話が認識され難いか否かを判定する。本実施形態に係る情報処理装置は、音声認識処理に関する情報が示す第2の候補数が所定の閾値より大きい場合(または、第2の候補数が当該所定の閾値以上である場合)に、発話が認識され難いと判定する。発話が認識され難いと判定された場合が、音声認識処理に起因する要因が存在する場合に該当する。
 ここで、第2の候補数との比較に係る閾値は、例えば、予め設定されている固定値であってもよいし、本実施形態に係る情報処理装置のユーザなどの操作などに基づき変更可能な可変値であってもよい。
 次に、音声認識処理に起因する要因として、音声認識の結果の信頼度が低いことを判定する例について、説明する。
 本実施形態に係る情報処理装置は、例えば、音声認識処理に関する情報が示す信頼度(数値)と、設定されている閾値とを比較して、音声認識の結果の信頼度が低いか否かを判定する。本実施形態に係る情報処理装置は、音声認識処理に関する情報が示す信頼度が所定の閾値より小さい場合(または、信頼度が当該所定の閾値以下である場合)に、音声認識の結果の信頼度が低いと判定する。音声認識の結果の信頼度が低いと判定された場合が、音声認識処理に起因する要因が存在する場合に該当する。
 ここで、信頼度との比較に係る閾値は、例えば、予め設定されている固定値であってもよいし、本実施形態に係る情報処理装置のユーザなどの操作などに基づき変更可能な可変値であってもよい。
[2-4-2]通知制御処理の第4の例
 本実施形態に係る情報処理装置は、判定された音声認識処理に起因する要因を通知させる。
 図6は、本実施形態に係る音声認識処理に起因する要因の通知の第1の例を示す説明図であり、発話が明瞭ではないことに起因して音声認識において誤りが生じている可能性があることを視覚的に通知する場合の一例を示している。
 図6は、発話者が“I want to bring the document to him”と発話をしたときに、音声認識の結果が“I want to ring the document to him”である場合、すなわち、音声認識の結果の“ring”部分に誤りが生じている場合を、示している。
 本実施形態に係る情報処理装置は、例えば図6の“ring”部分、“the”部分、および“document”部分に示すように、発話が明瞭ではないと判定された部分と他の部分とを色分けすること、発話が明瞭ではないと判定された部分に改善のヒントとなる文字列を含むアイコンを付加することなどによって、音声認識処理に起因する要因が存在すると判定された部分を強調して表示させる。
 なお、発話が明瞭ではないことに起因して音声認識において誤りが生じている可能性があることを視覚的に通知する場合の例が、図6に示す例に限られないことは、言うまでもない。
 図7は、本実施形態に係る音声認識処理に起因する要因の通知の第2の例を示す説明図であり、発話が認識され難いことに起因して音声認識において誤りが生じている可能性があることを視覚的に通知する場合の一例を示している。
 図7は、発話者が“I want to bring the document to him”と発話をしたときに、音声認識の結果が“I want to ring the document to him”である場合、すなわち、音声認識の結果の“ring”部分に誤りが生じている場合を、示している。
 本実施形態に係る情報処理装置は、例えば図7の“ring”部分に示すように、発話が認識され難いと判定された部分と他の部分とを色分けすること、発話が認識され難いと判定された部分に改善のヒントとなる文字列を含むアイコンを付加することなどによって、音声認識処理に起因する要因が存在すると判定された部分を強調して表示させる。
 なお、発話が認識され難いことに起因して音声認識において誤りが生じている可能性があることを視覚的に通知する場合の例が、図7に示す例に限られないことは、言うまでもない。
 図8は、本実施形態に係る音声認識処理に起因する要因の通知の第3の例を示す説明図であり、音声認識の結果の信頼度が低いことに起因して音声認識において誤りが生じている可能性があることを視覚的に通知する場合の一例を示している。
 図8は、発話者が“I want to bring the document to him”と発話をしたときに、音声認識の結果が“I want to ring the document to him”である場合、すなわち、音声認識の結果の“ring”部分に誤りが生じている場合を、示している。
 図8のAに示すように、本実施形態に係る情報処理装置は、例えば音声認識の結果の信頼度(図8のAに示す“Confidence Level”)を文節ごとに表示させる。図8のAでは、音声認識の結果の信頼度が、色が付された領域の大きさで表されている例を示している。
 本実施形態に係る情報処理装置は、例えば図8のAの“ring”部分に示すように、信頼度が低いと判定された部分における信頼度を示す領域の大きさを、他の部分における信頼度を示す領域よりも小さく表示させることによって、音声認識の結果の信頼度が低いことに起因して音声認識において誤りが生じている可能性があることを視覚的に通知する。
 また、本実施形態に係る情報処理装置は、例えば図8のBの“ring”部分に示すように、音声認識の結果の信頼度が低いと判定された部分と他の部分とを色分けすること、音声認識の結果の信頼度が低いと判定された部分に改善のヒントとなる文字列を含むアイコンを付加することなどによって、音声認識処理に起因する要因が存在すると判定された部分を強調して表示させてもよい。
 なお、音声認識の結果の信頼度が低いことに起因して音声認識において誤りが生じている可能性があることを視覚的に通知する場合の例が、図8に示す例に限られないことは、言うまでもない。
[2-5]情報処理方法に係る処理の第5の例
 本実施形態に係る情報処理装置は、上記[2-1]に示す第1の例に係る処理~上記[2-4]に示す第4の例に係る処理のうちの2以上の処理を、行ってもよい。
 ここで、本実施形態に係る情報処理装置が、上記[2-1]に示す第1の例に係る処理~上記[2-4]に示す第4の例に係る処理のうちの2以上の処理を行うときには、上記判定処理により複数の要因が判定されることが起こりうる。
 上記のように複数の要因が判定された場合、本実施形態に係る情報処理装置は、例えば、下記に示す第5の例に係る通知制御処理、下記に示す第6の例に係る通知制御処理、または、下記に示す第7の例に係る通知制御処理を行う。
[2-5-1]通知制御処理の第5の例
 本実施形態に係る情報処理装置は、判定された全ての要因を同期して通知させる。
 全ての要因が同期して通知されることによって、通知を受けた発話者は、例えば、複数の要因を1つの画像で把握することができ(視覚的に通知される場合)、また、複数の要因を1つの音声で把握することができる(聴覚的に通知される場合)。
[2-5-2]通知制御処理の第6の例
 本実施形態に係る情報処理装置は、複数の要因から1つの要因を選択し、選択された要因を通知させる。
 本実施形態に係る情報処理装置は、例えば、判定された要因の履歴が記録された履歴情報に基づいて、判定された頻度がより高い要因、または、直近に判定された要因を、選択する。なお、頻度が同一の要因が複数存在する場合には、本実施形態に係る情報処理装置は、頻度が同一の要因からランダムに選択するなどの設定されている規則に従って、要因を選択する。
 ここで、履歴情報は、発話者ごとの履歴が記録された履歴情報であってもよいし、複数の発話者の履歴が記録された履歴情報であってもよい。履歴情報は、例えば、本実施形態に係る情報処理装置が備える記憶部(後述する)などの記録媒体に記憶される。
 また、選択された要因を通知させた後に行われた発話に対応する音声認識の結果に対して、上記判定処理により要因が再度判定された場合には、本実施形態に係る情報処理装置は、例えば、既に選択された要因を除外した上で、判定された頻度がより高い要因を再度選択する。そして、本実施形態に係る情報処理装置は、選択された要因を再度通知させる。
 複数の要因が存在する場合、本実施形態に係る情報処理装置は、上記のように、複数の要因の中から要因を1つずつ選択して通知させる。よって、通知を受けた発話者は、要因を1つずつ把握した上で、音声認識の結果を修正することができる。
[2-5-3]通知制御処理の第7の例
 本実施形態に係る情報処理装置は、複数の要因を切り替えて通知させる。
 図9は、本実施形態に係る複数の要因の通知の例を示す説明図であり、複数の要因を切り替えて視覚的に通知させる場合の一例を示している。より具体的には、図9は、図1のBに示す音量に起因する要因の通知(図9のA)と、図4に示す発話速度に起因する要因の通知(図9のB)と、図8のAに示す音声認識処理に起因する要因の通知(図9のC)とを切り替えて視覚的に通知させる例を示している。
 本実施形態に係る情報処理装置は、例えば、設定されている時間が経過するごとに、複数の要因を切り替えて通知させる。
 設定されている時間は、3[秒]などの予め設定されている固定の時間であってもよいし、本実施形態に係る情報処理装置のユーザなどの操作などに基づき変更可能な可変の時間であってもよい。
 なお、図9では、X[秒](Xは、正の整数)ごとに複数の要因が切り替えられる例を示しているが、次の要因に切り替えるまでの時間は、通知させている要因ごとに設定されている時間であってもよい。つまり、次の要因に切り替えるまでの時間は、例えば、全ての要因または一部の要因で同一であってもよいし、要因ごとに相異なっていてもよい。
[3]本実施形態に係る情報処理方法に係る処理の具体例
 次に、上述した本実施形態に係る情報処理方法に係る処理の一例を示す。
 図10は、本実施形態に係る情報処理方法に係る処理の一例を示す流れ図である。
 本実施形態に係る情報処理装置は、音声認識の結果と、発話に関する情報とに基づいて、音声認識において誤りが生じうる要因を判定する(S100)。本実施形態に係る情報処理装置は、ステップS100において、例えば上記[2-1-1]に示す第1の例に係る判定処理~上記[2-4-1]に示す第4の例に係る判定処理のうちの1または2以上を行う。
 図11は、本実施形態に係る情報処理方法に係る処理の一例を示す流れ図であり、図10のステップS100の処理の一例を示している。ここで、図11は、上記[2-1-1]に示す第1の例に係る判定処理~上記[2-4-1]に示す第4の例に係る判定処理が行われる場合における処理の一例を示している。
 本実施形態に係る情報処理装置は、発話の音量が大きすぎるか否かを判定する(S200)。本実施形態に係る情報処理装置は、例えば上記[2-1-1]に示す第1の例に係る判定処理を行うことによって、発話の音量が大きすぎるか否かを判定する。
 ステップS200において発話の音量が大きすぎると判定された場合には、本実施形態に係る情報処理装置は、発話の音量が大きすぎることが要因と判定する(S202)。そして、本実施形態に係る情報処理装置は、後述するステップS208の処理を行う。
 また、ステップS200において発話の音量が大きすぎると判定されない場合には、本実施形態に係る情報処理装置は、発話の音量が小さすぎるか否かを判定する(S204)。本実施形態に係る情報処理装置は、例えば上記[2-1-1]に示す第1の例に係る判定処理を行うことによって、発話の音量が小さすぎるか否かを判定する。
 ステップS204において発話の音量が小さすぎると判定されない場合には、本実施形態に係る情報処理装置は、後述するステップS208の処理を行う。
 また、ステップS204において発話の音量が小さすぎると判定された場合には、本実施形態に係る情報処理装置は、発話の音量が小さすぎることが要因と判定する(S206)。
 ステップS202の処理が行われた場合、ステップS206の処理が行われた場合、または、ステップS204において発話の音量が小さすぎると判定されない場合には、本実施形態に係る情報処理装置は、環境ノイズの影響があるか否かを判定する(S208)。本実施形態に係る情報処理装置は、例えば上記[2-2-1]に示す第2の例に係る判定処理を行い環境ノイズに起因する要因が存在するかを判定することによって、環境ノイズの影響があるか否かを判定する。
 ステップS208において環境ノイズの影響があると判定されない場合には、本実施形態に係る情報処理装置は、後述するステップS212の処理を行う。
 また、ステップS208において環境ノイズの影響があると判定された場合には、本実施形態に係る情報処理装置は、環境ノイズに起因する要因が存在すると判定する(S210)。
 ステップS210の処理が行われた場合、または、ステップS208において環境ノイズの影響があると判定されない場合には、本実施形態に係る情報処理装置は、発話速度が速すぎるか否かを判定する(S212)。本実施形態に係る情報処理装置は、例えば上記[2-3-1]に示す第3の例に係る判定処理を行うことによって、発話速度が速すぎるか否かを判定する。
 ステップS212において発話速度が速すぎると判定された場合には、本実施形態に係る情報処理装置は、発話速度が速すぎることが要因と判定する(S214)。そして、本実施形態に係る情報処理装置は、後述するステップS220の処理を行う。
 また、ステップS212において発話速度が速すぎると判定されない場合には、本実施形態に係る情報処理装置は、発話速度が遅すぎるか否かを判定する(S216)。本実施形態に係る情報処理装置は、例えば上記[2-3-1]に示す第3の例に係る判定処理を行うことによって、発話速度が遅すぎるか否かを判定する。
 ステップS216において発話速度が遅すぎると判定されない場合には、本実施形態に係る情報処理装置は、後述するステップS220の処理を行う。
 また、ステップS216において発話速度が遅すぎると判定された場合には、本実施形態に係る情報処理装置は、発話速度が遅すぎることが要因と判定する(S218)。
 ステップS214の処理が行われた場合、ステップS218の処理が行われた場合、または、ステップS216において発話速度が遅すぎると判定されない場合には、本実施形態に係る情報処理装置は、発話が明瞭か否かを判定する(S220)。本実施形態に係る情報処理装置は、例えば上記[2-4-1]に示す第4の例に係る判定処理を行うことによって、発話が明瞭か否かを判定する。
 ステップS220において発話が明瞭であると判定されない場合には、本実施形態に係る情報処理装置は、後述するステップS224の処理を行う。
 また、ステップS220において発話が明瞭であると判定された場合には、本実施形態に係る情報処理装置は、発話が明瞭ではないことが要因であると判定する(S222)。
 ステップS222の処理が行われた場合、または、ステップS220において発話が明瞭であると判定されない場合には、本実施形態に係る情報処理装置は、発話が認識され難いか否かを判定する(S224)。本実施形態に係る情報処理装置は、例えば上記[2-4-1]に示す第4の例に係る判定処理を行うことによって、発話が認識され難いか否かを判定する。
 ステップS224において発話が認識され難いと判定されない場合には、本実施形態に係る情報処理装置は、後述するステップS228の処理を行う。
 また、ステップS224において発話が認識され難いと判定された場合には、本実施形態に係る情報処理装置は、発話が認識され難いことが要因であると判定する(S226)。
 ステップS226の処理が行われた場合、または、ステップS224において発話が認識され難いと判定されない場合には、本実施形態に係る情報処理装置は、音声認識の結果の信頼度が低いか否かを判定する(S228)。本実施形態に係る情報処理装置は、例えば上記[2-4-1]に示す第4の例に係る判定処理を行うことによって、音声認識の結果の信頼度が低いか否かを判定する。
 ステップS228において音声認識の結果の信頼度が低いと判定されない場合には、本実施形態に係る情報処理装置は、図11に示す処理を終了する。
 また、ステップS228において音声認識の結果の信頼度が低いと判定された場合には、本実施形態に係る情報処理装置は、音声認識の結果の信頼度が低いことが要因であると判定する(S230)。そして、本実施形態に係る情報処理装置は、図11に示す処理を終了する。
 本実施形態に係る情報処理装置は、図10のステップS100の処理として、例えば図11に示す処理を行う。
 なお、図10のステップS100の処理は、図11に示す例に限られない。上述したように、本実施形態に係る情報処理装置は、ステップS100において、例えば上記[2-1-1]に示す第1の例に係る判定処理~上記[2-4-1]に示す第4の例に係る判定処理のうちの1または2以上を行うことが可能である。また、本実施形態に係る情報処理装置は、例えば、上記[2-1-1]に示す第1の例に係る判定処理~上記[2-4-1]に示す第4の例に係る判定処理のうちの複数の処理を行う場合、各処理を行う順番を任意の順序で行うことが可能である。
 再度図10を参照して、本実施形態に係る情報処理方法に係る処理の一例を説明する。本実施形態に係る情報処理装置は、ステップS100において判定された要因を通知させる(S102)。本実施形態に係る情報処理装置は、例えば、ステップS102において、例えば上記[2-1-2]に示す第1の例に係る通知制御処理~上記[2-5-3]に示す第7の例に係る通知制御処理のうちの1または2以上を行うことによって、1または2以上の要因を視覚的に通知させる。また、本実施形態に係る情報処理装置は、例えば、音声出力デバイスから判定された要因を示す音声などを出力させることによって、1または2以上の要因を聴覚的に通知させることも可能である。
 本実施形態に係る情報処理装置は、本実施形態に係る情報処理方法に係る処理として、例えば図10に示す処理を行う。
 ここで、図10に示す処理では、ステップS100において上記判定処理が行われ、ステップS102において上記通知制御処理が行われる。よって、例えば図10に示す処理が行われることによって、発話者の利便性の向上を図ることができる。また、例えば図10に示す処理が行われることによって、上述した本実施形態に係る情報処理方法に係る処理によって奏される効果が、奏される。
[4]本実施形態に係る情報処理方法が用いられることにより奏される効果の一例
 本実施形態に係る情報処理装置が、本実施形態に係る情報処理方法に係る処理を行うことによって、例えば下記に示す効果が奏される。なお、本実施形態に係る情報処理方法が用いられることにより奏される効果が、下記に示す効果に限られないことは、言うまでもない。
  ・音声入力を実行した際の集音状態や音声認識処理の状態などの、音声認識において誤りが生じうる要因の判定結果に応じた通知内容を、表示画面に表示されるUI(User Interface)上に表示させることによって、発話者が発話方法をどのように修正すればよいかを、発話者に通知することができる。
  ・発話者が発話方法をどのように修正すればよいかが通知されることによって、発話者は、音声認識における誤りをより容易に修正することができる。よって、発話者は、より正確な音声認識の結果を得ることができる。
  ・音声認識において誤りが生じうる要因の判定結果に応じた通知内容がUI上に表示されることによって、音声認識の結果に誤りが発生している可能性がある箇所が明示されるので、発話者による当該誤りの発見をより高速化させることができる。
(本実施形態に係る情報処理装置)
 次に、上述した本実施形態に係る情報処理方法に係る処理を行うことが可能な本実施形態に係る情報処理装置の構成の一例について、説明する。
 図12は、本実施形態に係る情報処理装置100を含む本実施形態に係る情報処理システム1000の一例を示す説明図である。
 情報処理システム1000は、例えば、情報処理装置100と、センサ200と、表示デバイス300と、音声出力デバイス400とを含む。
 また、情報処理装置100と、センサ200、表示デバイス300、および音声出力デバイス400それぞれとは、例えば、ネットワーク500を介して無線または有線で接続される。ネットワーク500としては、例えば、LAN(Local Area Network)やWAN(Wide Area Network)などの有線ネットワーク、無線LAN(WLAN:Wireless Local Area Network)などの無線ネットワーク、あるいは、TCP/IP(Transmission Control Protocol/Internet Protocol)などの通信プロトコルを用いたインターネットなどが挙げられる。なお、本実施形態に係る情報処理システムでは、情報処理装置100と、センサ200、表示デバイス300、および音声出力デバイス400それぞれとは、ネットワーク500を介さずに、直接的に通信を行うことも可能である。
 情報処理装置100は、上述した本実施形態に係る情報処理方法に係る処理を行う。情報処理装置100の構成の一例については、後述する。
 センサ200には、例えば、マイクロホンやマイクロホンアレイなどの音声入力デバイスが含まれる。また、センサ200には、距離センサや撮像デバイスなどの他のセンサが含まれていてもよい。発話者の発話音声を含む音声信号などのセンサ200により生成された信号は、例えばセンサ200が備える通信デバイスまたはセンサ200に接続されている外部の通信デバイスにより、情報処理装置100に送信される。
 表示デバイス300は、表示画面に様々な画面を表示する。情報処理装置100は、例えば、表示命令と通知内容を示すデータとを含む制御信号を表示デバイス300に対して送信することによって、図1~図9に示した例のように、判定された要因を視覚的に通知させる。
 表示デバイス300としては、例えば、液晶ディスプレイ(Liquid Crystal Display)や有機ELディスプレイ(Organic Electro-Luminescence Display。または、OLEDディスプレイ(Organic Light Emitting Diode Display)ともよばれる。)などが挙げられる。
 音声出力デバイス400は、様々な音声(音楽も含む。)を出力する。情報処理装置100は、例えば、出力命令と通知内容を示す音声データとを含む制御信号を音声出力デバイス400に対して送信することによって、判定された要因を聴覚的に通知させる。
 音声出力デバイス400としては、例えばスピーカなどが挙げられる。
 なお、本実施形態に係る情報処理システムの構成は、図12に示す例に限られない。
 例えば、本実施形態に係る情報処理システムは、図12に示す表示デバイス300と音声出力デバイス400との一方を有していない構成であってもよい。表示デバイス300と音声出力デバイス400との一方を有していない構成であっても、本実施形態に係る情報処理システムでは、情報処理装置100による判定された要因の通知が実現される。
 また、本実施形態に係る情報処理システムでは、図12に示すセンサ200、表示デバイス300、および音声出力デバイス400の2以上が、1つの装置に備えられていてもよい。
 また、図12では、情報処理装置100と、センサ200、表示デバイス300、および音声出力デバイス400それぞれとがネットワーク500を介して接続される例を示しているが、本実施形態に係る情報処理装置は、図12に示すセンサ200、表示デバイス300、および音声出力デバイス400を備えていてもよい。つまり、本実施形態に係る情報処理装置は、例えば図12に示す情報処理システム1000(変形例に係る構成も含む。)において実現される要因の通知を、スタンドアロンで実現することも可能である。本実施形態に係る情報処理装置の適用例については、後述する。
 以下、図12に示す情報処理システム1000を構成する情報処理装置100を例に挙げて、本実施形態に係る情報処理装置の構成の一例を説明する。
 図13は、本実施形態に係る情報処理装置100の構成の一例を示すブロック図である。情報処理装置100は、例えば、通信部102と、制御部104とを備える。
 また、情報処理装置100は、例えば、ROM(Read Only Memory。図示せず)や、RAM(Random Access Memory。図示せず)、記憶部(図示せず)、情報処理装置100の使用者が操作可能な操作部(図示せず)、様々な画面を表示画面に表示する表示部(図示せず)などを備えていてもよい。情報処理装置100は、例えば、データの伝送路としてのバスにより上記各構成要素間を接続する。
 ROM(図示せず)は、制御部104が使用するプログラムや演算パラメータなどの制御用データを記憶する。RAM(図示せず)は、制御部104により実行されるプログラムなどを一時的に記憶する。
 記憶部(図示せず)は、情報処理装置100が備える記憶手段であり、例えば、発話者に対応するIDと閾値とが対応付けれているテーブル(または、データベース)などの、本実施形態に係る情報処理方法に係るデータや、各種アプリケーションなど様々なデータを記憶する。ここで、記憶部(図示せず)としては、例えば、ハードディスク(Hard Disk)などの磁気記録媒体や、フラッシュメモリ(flash memory)などの不揮発性メモリ(nonvolatile memory)などが挙げられる。また、記憶部(図示せず)は、情報処理装置100から着脱可能であってもよい。
 操作部(図示せず)としては、後述する操作入力デバイスが挙げられる。また、表示部(図示せず)としては、後述する表示デバイスが挙げられる。
[情報処理装置100のハードウェア構成例]
 図14は、本実施形態に係る情報処理装置100のハードウェア構成の一例を示す説明図である。情報処理装置100は、例えば、MPU150と、ROM152と、RAM154と、記録媒体156と、入出力インタフェース158と、操作入力デバイス160と、表示デバイス162と、通信インタフェース164とを備える。また、情報処理装置100は、例えば、データの伝送路としてのバス166で各構成要素間を接続する。また、情報処理装置100は、例えば、情報処理装置100が備えているバッテリなどの内部電源から供給される電力、または、接続されている外部電源から供給される電力などによって、駆動する。
 MPU150は、例えば、MPU(Micro Processing Unit)などの演算回路で構成される、1または2以上のプロセッサや、各種処理回路などで構成され、情報処理装置100全体を制御する制御部104として機能する。また、MPU150は、情報処理装置100において、例えば、後述する判定部110、および通知制御部112の役目を果たす。なお、判定部110と通知制御部112との一方または双方は、各部の処理を実現可能な専用の(または汎用の)回路(例えば、MPU150とは別体のプロセッサなど)で構成されていてもよい。
 ROM152は、MPU150が使用するプログラムや演算パラメータなどの制御用データなどを記憶する。RAM154は、例えば、MPU150により実行されるプログラムなどを一時的に記憶する。
 記録媒体156は、記憶部(図示せず)として機能し、例えば、発話者に対応するIDと閾値とが対応付けれているテーブルなどの本実施形態に係る情報処理方法に係るデータや、各種アプリケーションなど様々なデータを記憶する。ここで、記録媒体156としては、例えば、ハードディスクなどの磁気記録媒体や、フラッシュメモリなどの不揮発性メモリが挙げられる。また、記録媒体156は、情報処理装置100から着脱可能であってもよい。
 入出力インタフェース158は、例えば、操作入力デバイス160や、表示デバイス162を接続する。操作入力デバイス160は、操作部(図示せず)として機能し、また、表示デバイス162は、表示部(図示せず)として機能する。ここで、入出力インタフェース158としては、例えば、USB(Universal Serial Bus)端子や、DVI(Digital Visual Interface)端子、HDMI(High-Definition Multimedia Interface)(登録商標)端子、各種処理回路などが挙げられる。
 また、操作入力デバイス160は、例えば、情報処理装置100上に備えられ、情報処理装置100の内部で入出力インタフェース158と接続される。操作入力デバイス160としては、例えば、ボタンや、方向キー、ジョグダイヤルなどの回転型セレクタ、あるいは、これらの組み合わせなどが挙げられる。
 また、表示デバイス162は、例えば、情報処理装置100上に備えられ、情報処理装置100の内部で入出力インタフェース158と接続される。表示デバイス162としては、例えば、液晶ディスプレイや有機ELディスプレイなどが挙げられる。
 なお、入出力インタフェース158が、情報処理装置100の外部の操作入力デバイス(例えば、キーボードやマウスなど)や外部の表示デバイスなどの、外部デバイスと接続することも可能であることは、言うまでもない。また、表示デバイス162は、例えばタッチパネルなど、表示とユーザ操作とが可能なデバイスであってもよい。
 通信インタフェース164は、情報処理装置100が備える通信手段であり、ネットワーク500を介して(あるいは、直接的に)、例えばセンサ200などの外部のデバイスや、外部装置と、無線または有線で通信を行うための通信部102として機能する。ここで、通信インタフェース164としては、例えば、通信アンテナおよびRF(Radio Frequency)回路(無線通信)や、IEEE802.15.1ポートおよび送受信回路(無線通信)、IEEE802.11ポートおよび送受信回路(無線通信)、あるいはLAN(Local Area Network)端子および送受信回路(有線通信)などが挙げられる。また、通信インタフェース164は、ネットワーク500に対応する任意の構成であってもよい。
 情報処理装置100は、例えば図14に示す構成によって、本実施形態に係る情報処理方法に係る処理を行う。なお、本実施形態に係る情報処理装置100のハードウェア構成は、図14に示す構成に限られない。
 例えば、情報処理装置100は、接続されている外部の通信デバイスを介して外部装置などと通信を行う場合には、通信インタフェース164を備えていなくてもよい。また、通信インタフェース164は、複数の通信方式によって、1または2以上の外部装置などと通信を行うことが可能な構成であってもよい。
 また、情報処理装置100は、例えば、記録媒体156や、操作入力デバイス160、表示デバイス162を備えない構成をとることが可能である。
 また、情報処理装置100は、例えば、後述する情報処理装置100の適用例に応じた構成をとることが可能である。
 また、例えば、図14に示す構成(または変形例に係る構成)の一部または全部は、1、または2以上のIC(Integrated Circuit)で実現されてもよい。
 再度図13を参照して、情報処理装置100の構成の一例について説明する。通信部102は、情報処理装置100が備える通信手段であり、ネットワーク500を介して(あるいは、直接的に)、センサ200などの外部のデバイスや、外部装置と無線または有線で通信を行う。また、通信部102は、例えば制御部104により通信が制御される。
 ここで、通信部102としては、例えば、通信アンテナおよびRF回路や、LAN端子および送受信回路などが挙げられるが、通信部102の構成は、上記に限られない。例えば、通信部102は、USB端子および送受信回路などの通信を行うことが可能な任意の規格に対応する構成や、ネットワーク500を介して外部装置と通信可能な任意の構成をとることができる。また、通信部102は、複数の通信方式によって、1または2以上の外部装置などと通信を行うことが可能な構成であってもよい。
 制御部104は、例えばMPUなどで構成され、情報処理装置100全体を制御する役目を果たす。また、制御部104は、例えば、判定部110と通知制御部112とを備え、本実施形態に係る情報処理方法に係る処理を主導的に行う役目を果たす。さらに、制御部104は、音声認識処理や、環境ノイズの推定に係る信号処理、発話の特性を推定する信号処理などの、様々な処理を行うことも可能である。
 判定部110は、上記判定処理を主導的に行う役目を果たし、音声認識の結果と、発話に関する情報とに基づいて、音声認識において誤りが生じうる要因を判定する。
 判定部110は、例えば、上記[2-1-1]に示す第1の例に係る判定処理~上記[2-4-1]に示す第4の例に係る判定処理のうちの1または2以上を行う。
 通知制御部112は、上記通知制御処理を主導的に行う役目を果たし、判定部110において判定された要因を通知させる。
 通知制御部112は、例えば、上記[2-1-2]に示す第1の例に係る通知制御処理~上記[2-5-3]に示す第7の例に係る通知制御処理のうちの1または2以上を行うことによって、1または2以上の要因を視覚的に通知させる。また、通知制御部112は、例えば、音声出力デバイスから判定された要因を示す音声などを出力させることによって、1または2以上の要因を聴覚的に通知させる。さらに、通知制御部112は、例えば、視覚的な通知と聴覚的な通知との双方によって、判定された要因を通知させることも可能である。
 情報処理装置100は、例えば図13に示す構成によって、本実施形態に係る情報処理方法に係る処理を行う。したがって、情報処理装置100は、例えば図13に示す構成によって、発話者の利便性の向上を図ることができる。
 また、例えば図13に示す構成によって、情報処理装置100は、上述したような本実施形態に係る情報処理方法に係る処理が行われることにより奏される効果を、奏することができる。
 なお、本実施形態に係る情報処理装置の構成は、図13に示す構成に限られない。
 例えば、本実施形態に係る情報処理装置は、図13に示す判定部110と通知制御部112との一方または双方を、制御部104とは個別に備える(例えば、別の処理回路で実現する)ことができる。
 また、本実施形態に係る情報処理方法に係る処理を実現するための構成は、図13に示す構成に限られず、本実施形態に係る情報処理方法に係る処理の切り分け方に応じた構成をとることが可能である。
 また、例えば、通信部102と同様の機能、構成を有する外部の通信デバイスを介して外部装置と通信を行う場合には、本実施形態に係る情報処理装置は、通信部102を備えていなくてもよい。
 以上、本実施形態として、情報処理装置を挙げて説明したが、本実施形態は、かかる形態に限られない。本実施形態は、例えば、“PC(Personal Computer)やサーバなどのコンピュータ”や、“ヘッドマウントディスプレイ”、“アイウェア型のウェアラブル装置”、“時計型の装置、腕輪型の装置などのようなユーザの身体に装着して用いられる様々なウェアラブル装置”、“スマートフォンなどの通信装置”、“タブレット型の装置”、“ゲーム機”、“自転車、自動車、電動立ち乗り二輪車などの移動体”など、本実施形態に係る情報処理方法に係る処理を行うことが可能な、様々な機器に適用することができる。また、本実施形態は、例えば、上記のような機器に組み込むことが可能な、処理ICに適用することもできる。
 また、本実施形態に係る情報処理装置は、例えばクラウドコンピューティングなどのように、ネットワークへの接続(または各装置間の通信)を前提とした処理システムに適用されてもよい。本実施形態に係る情報処理方法に係る処理が行われる処理システムの一例としては、例えば“処理システムを構成する一の装置によって本実施形態に係る情報処理方法に係る処理の一部の処理が行われ、処理システムを構成する他の装置によって本実施形態に係る情報処理方法に係る処理の当該一部の処理以外の処理が行われるシステム”などが、挙げられる。
(本実施形態に係るプログラム)
 コンピュータシステムを、本実施形態に係る情報処理装置として機能させるためのプログラム(例えば、上記判定処理および上記通知制御処理など、本実施形態に係る情報処理方法に係る処理を実行することが可能なプログラム)が、コンピュータシステムにおいてプロセッサなどにより実行されることによって、発話者の利便性の向上を図ることができる。ここで、本実施形態に係るコンピュータシステムとしては、単体のコンピュータ、または、複数のコンピュータが挙げられる。本実施形態に係るコンピュータシステムによって、本実施形態に係る情報処理方法に係る一連の処理が行われる。
 また、コンピュータシステムを、本実施形態に係る情報処理装置として機能させるためのプログラムが、コンピュータシステムにおいてプロセッサなどにより実行されることによって、上述した本実施形態に係る情報処理方法に係る処理によって奏される効果を、奏することができる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 例えば、上記では、コンピュータシステムを、本実施形態に係る情報処理装置として機能させるためのプログラム(コンピュータプログラム)が提供されることを示したが、本実施形態は、さらに、上記プログラムを記憶させた記録媒体も併せて提供することができる。
 上述した構成は、本実施形態の一例を示すものであり、当然に、本開示の技術的範囲に属するものである。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 音声認識の結果と、発話に関する情報とに基づいて、前記音声認識において誤りが生じうる要因を判定する判定部と、
 判定された前記要因を通知させる通知制御部と、
 を備える、情報処理装置。
(2)
 前記判定部は、前記音声認識の結果における所定の単位ごとに、前記要因を判定する、(1)に記載の情報処理装置。
(3)
 前記通知制御部は、前記所定の単位ごとに、判定された前記要因を通知させる、(2)に記載の情報処理装置。
(4)
 前記発話に関する情報には、発話の音量を示す情報が含まれ、
 前記判定部は、前記発話の音量を示す情報に基づいて、音量に起因する前記要因を判定する、(1)~(3)のいずれか1つに記載の情報処理装置。
(5)
 前記判定部は、前記要因として、音量が大きすぎることを判定する、(4)に記載の情報処理装置。
(6)
 前記判定部は、前記要因として、音量が小さすぎることを判定する、(4)、または(5)に記載の情報処理装置。
(7)
 前記発話に関する情報には、環境ノイズを示す情報が含まれ、
 前記判定部は、前記環境ノイズを示す情報に基づいて、環境ノイズに起因する前記要因を判定する、(1)~(6)のいずれか1つに記載の情報処理装置。
(8)
 前記発話に関する情報には、発話の音量を示す情報がさらに含まれ、
 前記判定部は、前記発話の音量を示す情報と前記環境ノイズを示す情報とに基づいて、前記環境ノイズに起因する前記要因を判定する、(7)に記載の情報処理装置。
(9)
 前記発話に関する情報には、発話速度を示す情報が含まれ、
 前記判定部は、前記発話速度を示す情報に基づいて、発話速度に起因する前記要因を判定する、(1)~(8)のいずれか1つに記載の情報処理装置。
(10)
 前記判定部は、前記発話速度を示す情報が示す発話速度と、発話速度の標準値とを比較することによって、発話速度に起因する前記要因を判定する、(9)に記載の情報処理装置。
(11)
 前記標準値は、発話者に対応付けられる値、前記発話者の属性に基づき決定される値、前記発話者に依存しない値のうちのいずれかである、(10)に記載の情報処理装置。
(12)
 前記発話に関する情報には、前記音声認識の結果に対応する音声認識処理に関する情報が含まれ、
 前記判定部は、前記音声認識に関する情報に基づいて、前記音声認識処理に起因する前記要因を判定する、(1)~(11)のいずれか1つに記載の情報処理装置。
(13)
 前記判定部は、前記要因として、発話が明瞭ではないことを判定する、(12)に記載の情報処理装置。
(14)
 前記判定部は、前記要因として、発話が認識され難いことを判定する、(12)、または(13)に記載の情報処理装置。
(15)
 前記判定部は、前記要因として、音声認識の結果の信頼度が低いことを判定する、(12)~(14)のいずれか1つに記載の情報処理装置。
(16)
 前記通知制御部は、前記要因を視覚的に通知させる、(1)~(15)のいずれか1つに記載の情報処理装置。
(17)
 前記通知制御部は、前記要因を聴覚的に通知させる、(1)~(16)のいずれか1つに記載の情報処理装置。
(18)
 複数の前記要因が判定された場合、前記通知制御部は、複数の前記要因から1つの前記要因を選択し、選択された前記要因を通知させる、(1)~(17)のいずれか1つに記載の情報処理装置。
(19)
 複数の前記要因が判定された場合、前記通知制御部は、複数の前記要因を切り替えて通知させる、(1)~(18)のいずれか1つに記載の情報処理装置。
(20)
 音声認識の結果と、発話に関する情報とに基づいて、前記音声認識において誤りが生じうる要因を判定するステップと、
 判定された前記要因を通知させるステップと、
 を有する、情報処理装置により実行される情報処理方法。
 100  情報処理装置
 102  通信部
 104  制御部
 110  判定部
 112  通知制御部
 200  センサ
 300  表示デバイス
 400  音声出力デバイス
 500  ネットワーク
 1000  情報処理システム
 

Claims (20)

  1.  音声認識の結果と、発話に関する情報とに基づいて、前記音声認識において誤りが生じうる要因を判定する判定部と、
     判定された前記要因を通知させる通知制御部と、
     を備える、情報処理装置。
  2.  前記判定部は、前記音声認識の結果における所定の単位ごとに、前記要因を判定する、請求項1に記載の情報処理装置。
  3.  前記通知制御部は、前記所定の単位ごとに、判定された前記要因を通知させる、請求項2に記載の情報処理装置。
  4.  前記発話に関する情報には、発話の音量を示す情報が含まれ、
     前記判定部は、前記発話の音量を示す情報に基づいて、音量に起因する前記要因を判定する、請求項1に記載の情報処理装置。
  5.  前記判定部は、前記要因として、音量が大きすぎることを判定する、請求項4に記載の情報処理装置。
  6.  前記判定部は、前記要因として、音量が小さすぎることを判定する、請求項4に記載の情報処理装置。
  7.  前記発話に関する情報には、環境ノイズを示す情報が含まれ、
     前記判定部は、前記環境ノイズを示す情報に基づいて、環境ノイズに起因する前記要因を判定する、請求項1に記載の情報処理装置。
  8.  前記発話に関する情報には、発話の音量を示す情報がさらに含まれ、
     前記判定部は、前記発話の音量を示す情報と前記環境ノイズを示す情報とに基づいて、前記環境ノイズに起因する前記要因を判定する、請求項7に記載の情報処理装置。
  9.  前記発話に関する情報には、発話速度を示す情報が含まれ、
     前記判定部は、前記発話速度を示す情報に基づいて、発話速度に起因する前記要因を判定する、請求項1に記載の情報処理装置。
  10.  前記判定部は、前記発話速度を示す情報が示す発話速度と、発話速度の標準値とを比較することによって、発話速度に起因する前記要因を判定する、請求項9に記載の情報処理装置。
  11.  前記標準値は、発話者に対応付けられる値、前記発話者の属性に基づき決定される値、前記発話者に依存しない値のうちのいずれかである、請求項10に記載の情報処理装置。
  12.  前記発話に関する情報には、前記音声認識の結果に対応する音声認識処理に関する情報が含まれ、
     前記判定部は、前記音声認識に関する情報に基づいて、前記音声認識処理に起因する前記要因を判定する、請求項1に記載の情報処理装置。
  13.  前記判定部は、前記要因として、発話が明瞭ではないことを判定する、請求項12に記載の情報処理装置。
  14.  前記判定部は、前記要因として、発話が認識され難いことを判定する、請求項12に記載の情報処理装置。
  15.  前記判定部は、前記要因として、音声認識の結果の信頼度が低いことを判定する、請求項12に記載の情報処理装置。
  16.  前記通知制御部は、前記要因を視覚的に通知させる、請求項1に記載の情報処理装置。
  17.  前記通知制御部は、前記要因を聴覚的に通知させる、請求項1に記載の情報処理装置。
  18.  複数の前記要因が判定された場合、前記通知制御部は、複数の前記要因から1つの前記要因を選択し、選択された前記要因を通知させる、請求項1に記載の情報処理装置。
  19.  複数の前記要因が判定された場合、前記通知制御部は、複数の前記要因を切り替えて通知させる、請求項1に記載の情報処理装置。
  20.  音声認識の結果と、発話に関する情報とに基づいて、前記音声認識において誤りが生じうる要因を判定するステップと、
     判定された前記要因を通知させるステップと、
     を有する、情報処理装置により実行される情報処理方法。
     
PCT/JP2017/014916 2016-07-19 2017-04-12 情報処理装置、および情報処理方法 WO2018016139A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201780024806.6A CN109074807A (zh) 2016-07-19 2017-04-12 信息处理设备和信息处理方法
EP17830659.3A EP3489949A4 (en) 2016-07-19 2017-04-12 INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD
JP2018528404A JP7014163B2 (ja) 2016-07-19 2017-04-12 情報処理装置、および情報処理方法
US16/094,972 US20190147870A1 (en) 2016-07-19 2017-04-12 Information processing apparatus and information processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016141126 2016-07-19
JP2016-141126 2016-07-19

Publications (1)

Publication Number Publication Date
WO2018016139A1 true WO2018016139A1 (ja) 2018-01-25

Family

ID=60992055

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/014916 WO2018016139A1 (ja) 2016-07-19 2017-04-12 情報処理装置、および情報処理方法

Country Status (5)

Country Link
US (1) US20190147870A1 (ja)
EP (1) EP3489949A4 (ja)
JP (1) JP7014163B2 (ja)
CN (1) CN109074807A (ja)
WO (1) WO2018016139A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019215449A (ja) * 2018-06-13 2019-12-19 日本電信電話株式会社 会話補助装置、会話補助方法及びプログラム
WO2021256318A1 (ja) * 2020-06-15 2021-12-23 ソニーグループ株式会社 情報処理装置、情報処理方法及びコンピュータプログラム
US11574925B2 (en) 2020-01-21 2023-02-07 Yangtze Memory Technologies Co., Ltd. Interconnect structures of three-dimensional memory devices
WO2024053476A1 (ja) * 2022-09-05 2024-03-14 ダイキン工業株式会社 システム、支援方法、サーバ装置及び通信プログラム

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11170768B2 (en) * 2017-04-17 2021-11-09 Samsung Electronics Co., Ltd Device for performing task corresponding to user utterance
US11182567B2 (en) * 2018-03-29 2021-11-23 Panasonic Corporation Speech translation apparatus, speech translation method, and recording medium storing the speech translation method
US11238852B2 (en) * 2018-03-29 2022-02-01 Panasonic Corporation Speech translation device, speech translation method, and recording medium therefor
CN110033769B (zh) * 2019-04-23 2022-09-06 施永兵 一种录入语音处理方法、终端及计算机可读存储介质
US11810558B2 (en) * 2021-05-26 2023-11-07 International Business Machines Corporation Explaining anomalous phonetic translations

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003150194A (ja) * 2001-11-14 2003-05-23 Seiko Epson Corp 音声対話装置および音声対話装置における入力音声最適化方法ならびに音声対話装置における入力音声最適化処理プログラム
JP2004325635A (ja) * 2003-04-23 2004-11-18 Sharp Corp 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体
JP2007264126A (ja) * 2006-03-27 2007-10-11 Toshiba Corp 音声処理装置、音声処理方法および音声処理プログラム
JP2010055044A (ja) 2008-04-22 2010-03-11 Ntt Docomo Inc 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム
JP2010197669A (ja) * 2009-02-25 2010-09-09 Kyocera Corp 携帯端末、編集誘導プログラムおよび編集装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19939102C1 (de) * 1999-08-18 2000-10-26 Siemens Ag Verfahren und Anordnung zum Erkennen von Sprache
US6629077B1 (en) * 2000-11-22 2003-09-30 Universal Electronics Inc. Universal remote control adapted to receive voice input
US7260534B2 (en) * 2002-07-16 2007-08-21 International Business Machines Corporation Graphical user interface for determining speech recognition accuracy
JP2004062451A (ja) * 2002-07-26 2004-02-26 Sharp Corp 情報提示方法、情報提示装置、情報提示プログラム、情報提示プログラムを記録したコンピュータ読み取り可能な記録媒体、スケジュール管理方法
US8005668B2 (en) * 2004-09-22 2011-08-23 General Motors Llc Adaptive confidence thresholds in telematics system speech recognition
KR100834679B1 (ko) * 2006-10-31 2008-06-02 삼성전자주식회사 음성 인식 오류 통보 장치 및 방법
US8990085B2 (en) * 2009-09-30 2015-03-24 At&T Intellectual Property I, L.P. System and method for handling repeat queries due to wrong ASR output by modifying an acoustic, a language and a semantic model

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003150194A (ja) * 2001-11-14 2003-05-23 Seiko Epson Corp 音声対話装置および音声対話装置における入力音声最適化方法ならびに音声対話装置における入力音声最適化処理プログラム
JP2004325635A (ja) * 2003-04-23 2004-11-18 Sharp Corp 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体
JP2007264126A (ja) * 2006-03-27 2007-10-11 Toshiba Corp 音声処理装置、音声処理方法および音声処理プログラム
JP2010055044A (ja) 2008-04-22 2010-03-11 Ntt Docomo Inc 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム
JP2010197669A (ja) * 2009-02-25 2010-09-09 Kyocera Corp 携帯端末、編集誘導プログラムおよび編集装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3489949A4

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019215449A (ja) * 2018-06-13 2019-12-19 日本電信電話株式会社 会話補助装置、会話補助方法及びプログラム
WO2019240035A1 (ja) * 2018-06-13 2019-12-19 日本電信電話株式会社 会話補助装置、会話補助方法及びプログラム
JP7026004B2 (ja) 2018-06-13 2022-02-25 日本電信電話株式会社 会話補助装置、会話補助方法及びプログラム
US11978443B2 (en) 2018-06-13 2024-05-07 Nippon Telegraph And Telephone Corporation Conversation assistance device, conversation assistance method, and program
US11574925B2 (en) 2020-01-21 2023-02-07 Yangtze Memory Technologies Co., Ltd. Interconnect structures of three-dimensional memory devices
US11903204B2 (en) 2020-01-21 2024-02-13 Yangtze Memory Technologies Co., Ltd. Interconnect structures of three-dimensional memory devices
WO2021256318A1 (ja) * 2020-06-15 2021-12-23 ソニーグループ株式会社 情報処理装置、情報処理方法及びコンピュータプログラム
WO2024053476A1 (ja) * 2022-09-05 2024-03-14 ダイキン工業株式会社 システム、支援方法、サーバ装置及び通信プログラム
JP7482459B2 (ja) 2022-09-05 2024-05-14 ダイキン工業株式会社 システム、支援方法、サーバ装置及び通信プログラム

Also Published As

Publication number Publication date
JP7014163B2 (ja) 2022-02-01
CN109074807A (zh) 2018-12-21
EP3489949A1 (en) 2019-05-29
EP3489949A4 (en) 2019-08-07
US20190147870A1 (en) 2019-05-16
JPWO2018016139A1 (ja) 2019-05-09

Similar Documents

Publication Publication Date Title
WO2018016139A1 (ja) 情報処理装置、および情報処理方法
CN110313151B (zh) 用于共享设备的通信的方法和计算系统
JP6635049B2 (ja) 情報処理装置、情報処理方法およびプログラム
US10409552B1 (en) Speech-based audio indicators
US20200098384A1 (en) System and method for pulmonary condition monitoring and analysis
US10672379B1 (en) Systems and methods for selecting a recipient device for communications
US20190095430A1 (en) Speech translation device and associated method
US20230176813A1 (en) Graphical interface for speech-enabled processing
US11256463B2 (en) Content prioritization for a display array
CN109716274B (zh) 用于提供最佳观看显示的方法和装置
WO2016103809A1 (ja) 情報処理装置、情報処理方法およびプログラム
JP7468360B2 (ja) 情報処理装置および情報処理方法
US11455990B2 (en) Electronic device and control method therefor
EP3477634B1 (en) Information processing device and information processing method
JP6584808B2 (ja) 音声処理装置、音声処理方法およびプログラム
WO2018020759A1 (ja) 情報処理装置、および情報処理方法
KR20180079764A (ko) 소리를 이용하는 휴대 기기의 확장 입력 장치 및 확장 입력 방법

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2018528404

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17830659

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2017830659

Country of ref document: EP

Effective date: 20190219