WO2016017229A1 - 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム - Google Patents
発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム Download PDFInfo
- Publication number
- WO2016017229A1 WO2016017229A1 PCT/JP2015/063533 JP2015063533W WO2016017229A1 WO 2016017229 A1 WO2016017229 A1 WO 2016017229A1 JP 2015063533 W JP2015063533 W JP 2015063533W WO 2016017229 A1 WO2016017229 A1 WO 2016017229A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- signal
- likelihood
- unit
- threshold
- speech
- Prior art date
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 131
- 238000012545 processing Methods 0.000 title claims description 42
- 238000000034 method Methods 0.000 claims description 44
- 230000005236 sound signal Effects 0.000 claims description 39
- 230000035945 sensitivity Effects 0.000 claims description 16
- 238000000926 separation method Methods 0.000 claims description 8
- 238000013459 approach Methods 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims description 2
- 238000004891 communication Methods 0.000 abstract description 37
- 238000004364 calculation method Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
- G10L2025/786—Adaptive threshold
Definitions
- Embodiments described herein relate generally to an utterance section detection device, a voice processing system, an utterance section detection method, and a program.
- a server / client type speech recognition system transmits a signal including voice (human speech) from a client device to a server device, performs speech recognition processing in the server device, and returns a recognition result to the client device.
- voice human speech
- a process of detecting a speech section (hereinafter referred to as a speech section) from a signal input on the client side is performed and detected. It has been proposed to transmit only the signal of the uttered section to the server device.
- the problem to be solved by the present invention is to provide an utterance interval detection device, a speech processing system, an utterance interval detection method, and a program capable of accurately detecting an utterance interval while reducing the amount of communication.
- the utterance section detection device of the embodiment includes a reception unit and a detection unit.
- the receiving unit receives, from an external device, a first audio signal that is a signal having a likelihood that represents the likelihood of speech being a first threshold value or more.
- a detection part detects the 2nd audio
- FIG. 1 is a block diagram illustrating a configuration example of a speech recognition system according to an embodiment.
- FIG. 2 is a diagram illustrating an example of processing of the first detection unit.
- FIG. 3 is a diagram for explaining the outline of the processing of the second detection unit.
- FIG. 4 is a diagram for explaining the time ratio.
- FIG. 5 is a flowchart illustrating an example of a processing procedure of the client apparatus.
- FIG. 6 is a flowchart illustrating an example of a processing procedure of the server apparatus.
- FIG. 7 is a block diagram illustrating another configuration example of the client device.
- FIG. 8 is a block diagram schematically illustrating an example of the hardware configuration of the server apparatus.
- an utterance section detection device a speech processing system, an utterance section detection method, and a program according to embodiments will be described in detail with reference to the drawings.
- the embodiment described below is an application example to a server / client type speech recognition system in which a server device performs speech recognition processing on a signal input by a client device and returns a recognition result to the client device.
- the system to which can be applied is not limited to this.
- FIG. 1 is a block diagram illustrating a configuration example of a speech recognition system according to the present embodiment.
- This voice recognition system has a configuration in which a plurality of client devices 10 (first device, external device) and a server device 20 (second device, utterance section detection device) are communicably connected via a communication network 30.
- the client apparatus 10 detects a rough utterance section from an input signal, and a signal in a section in which the utterance may be included (hereinafter referred to as a first voice signal). It transmits to the server device 20.
- the server device 20 performs strict speech segment detection on the first audio signal received from the client device 10, and detects a signal in a segment that is highly likely to be an utterance (hereinafter referred to as a second audio signal). A speech recognition process is performed, and the text data of the recognition result is transmitted to the client device 10. As a result, while reducing the amount of communication between the client device 10 and the server device 20, it is possible to accurately detect speech sections and realize highly accurate and efficient speech recognition.
- the client device 10 includes a microphone 11, a first detection unit 12, a communication unit 13 (transmission unit), a likelihood adjustment unit 14, and a threshold adjustment unit 15.
- the client device 10 include a personal computer in which an external microphone is connected to an external connection terminal, a smartphone having a built-in microphone, a tablet terminal, a video conference terminal configured as a terminal for a video conference (video conference) system, and the like. Can be used. These devices include resources for realizing a normal computer system such as a processor and a memory. As an example, by executing a predetermined program on the computer system, the first detection unit 12, the communication unit 13, and the likelihood adjustment unit 14, each functional component such as the threshold adjustment unit 15 is realized.
- the microphone 11 inputs a signal including human speech (voice).
- a signal (hereinafter referred to as an input signal) input by the microphone 11 is passed to the first detection unit 12.
- an input signal A signal (hereinafter referred to as an input signal) input by the microphone 11 is passed to the first detection unit 12.
- an input signal a signal received by the client device 10 from an external device or a signal read from a recording medium or the like may be used as an input signal.
- the first detection unit 12 detects an utterance section using a method with a relatively low processing load on the input signal.
- the first detection unit 12 uses the signal strength of the input signal from the microphone 11 as a feature amount for detecting the utterance section, and the likelihood indicating a larger value as the signal strength is larger with respect to the input signal in time series. calculate.
- the likelihood calculated here is a value representing the likelihood of human speech, and is normalized so that, for example, the maximum value is 1 and the minimum value is 0.
- the 1st detection part 12 detects the area where likelihood is more than a 1st threshold value in an input signal as an utterance area, and outputs the signal of this area as a 1st audio
- FIG. 2 is a diagram for explaining an example of processing of the first detection unit 12.
- FIG. 2A is a graph of linear PCM sampling data (input signal) input by the microphone 11, where the horizontal axis represents time and the vertical axis represents signal intensity.
- FIG. 2B is a graph showing a time series of likelihoods calculated from the input signal of FIG.
- FIG. 2 (c) shows an utterance section detected by comparing the likelihood of (b) with a first threshold.
- the graph (a) represents the signal intensity as an amplitude, and the larger the amplitude, the higher the signal intensity.
- the likelihood of (b) is a waveform obtained by normalizing an average value of signal intensity per fixed time and approximating a curve plotted on the time axis.
- the first detection unit 12 calculates a likelihood that becomes a larger value as the signal strength is larger than the input signal (first method). And the 1st detection part 12 detects the area where likelihood is more than a 1st threshold value in an input signal as an utterance area.
- the first threshold value is initially set to a small value (for example, 0.1) that does not cause voice loss from the input signal, and is appropriately adjusted according to an instruction from the server device 20 as will be described later.
- the first detection unit 12 uses the first threshold value to detect, as an utterance section, a section that is estimated to contain human speech (speech) in the input signal.
- the likelihood calculated by the first detection unit 12 for the input signal is adjusted so as to be consistent with the likelihood calculated on the server device 20 side, as will be described later.
- the communication unit 13 transmits and receives various information to and from the server device 20 via the communication network 30.
- the communication unit 13 transmits, to the server device 20, a first voice signal that is a signal in a section detected by the first detection unit 12 as a speech section.
- the communication unit 13 receives text data transmitted from the server device 20 as a recognition result of a later-described speech recognition process, likelihood adjustment instruction, threshold adjustment instruction, microphone 11 sensitivity adjustment instruction, and the like. .
- the likelihood adjustment unit 14 adjusts the likelihood that the first detection unit 12 calculates for the input signal in accordance with the likelihood adjustment instruction from the server device 20. Note that a specific example of the processing of the likelihood adjustment unit 14 will be described in detail later together with the description of the processing in the server device 20.
- the threshold adjustment unit 15 adjusts the first threshold used for detecting the utterance section by the first detection unit 12 in accordance with the threshold adjustment instruction from the server device 20.
- the threshold adjustment unit 15 has a function of adjusting the sensitivity of the microphone 11 in accordance with the sensitivity adjustment instruction when the sensitivity adjustment instruction of the microphone 11 is sent from the server device 20. Note that a specific example of the processing of the threshold adjustment unit 15 will be described in detail later together with the description of the processing in the server device 20.
- the server device 20 includes a communication unit 21 (reception unit), a second detection unit 22 (detection unit), a voice recognition unit 23, a threshold adjustment unit 24, and a likelihood adjustment instruction unit 25.
- the communication unit 21 transmits / receives various information to / from the client device 10 via the communication network 30.
- the communication unit 21 receives a first audio signal and a threshold inquiry transmitted from the client device 10.
- the communication unit 21 also includes text data as a recognition result by the speech recognition unit 23, a likelihood adjustment instruction from the likelihood adjustment instruction unit 25, a threshold adjustment instruction from the threshold adjustment instruction unit 27, and the sensitivity of the microphone 11.
- An adjustment instruction or the like is transmitted to the client device 10.
- the second detection unit 22 uses a method that has a higher processing load on the first audio signal received from the client device 10 than the utterance section detection performed by the first detection unit 12 of the client device 10, and Detects the utterance interval. For example, the second detection unit 22 calculates the likelihood in time series for the first audio signal using the feature amount calculated from the frequency characteristics of the audio, the acoustic model, and the like (second method). And the 2nd detection part 22 detects the area where likelihood is more than a 2nd threshold value in a 1st audio
- the second threshold value is initially set to a value (for example, 0.3) larger than the first threshold value set in the first detection unit 12 of the client device 10 in order to detect a strict utterance section, which will be described later.
- the threshold adjustment unit 24 appropriately adjusts according to the recognition result by the voice recognition unit 23.
- FIG. 3 is a diagram for explaining the outline of the processing of the second detection unit 22.
- FIG. 3A is a graph showing a time change of the likelihood calculated from the first audio signal.
- FIG. 3B shows an utterance section (hatched portion) detected by comparing the likelihood of FIG.
- the second detection unit 22 detects a section in which the likelihood calculated in time series from the first speech signal is equal to or greater than a second threshold greater than the first threshold as an utterance section. Then, the second detection unit 22 passes the second voice signal, which is a signal of the detected utterance section, to the voice recognition unit 23.
- the utterance section detection using the feature amount calculated from the frequency characteristics of the speech, the acoustic model, etc. requires more computer resources than the simple utterance section detection performed by the first detection unit 12 of the client device 10. However, it is possible to detect the utterance section more accurately. Further, a more accurate utterance section can be detected by detecting a section having a likelihood calculated from the first speech signal equal to or greater than a second threshold value that is greater than the first threshold value as the utterance section.
- the voice recognition unit 23 performs voice recognition processing using, for example, an acoustic model or a language model on the second voice signal, and outputs text data corresponding to the second voice signal. Regarding the speech recognition processing performed by the speech recognition unit 23, since a known technique can be used as it is, detailed description thereof is omitted here.
- the text data as the recognition result is transmitted from the communication unit 21 to the client device 10. This text data is displayed on a display unit (not shown) of the client device 10.
- the server device 20 uses the voice recognition process described above.
- the screen information obtained by collecting the text data as the recognition result is transmitted to each of the plurality of client devices 10 sharing the information.
- the screen on which the text data of the recognition results obtained by performing the speech recognition processing on the utterances of a plurality of speakers can be displayed on the display units of the plurality of client devices 10.
- the threshold adjustment unit 24 adjusts the second threshold used for detection of the speech section by the second detection unit 22 based on the recognition result by the voice recognition unit 23.
- the voice recognition unit 23 performs not only an acoustic analysis using the acoustic model but also a linguistic analysis such as whether or not the second voice signal is established as an utterance using the language model.
- the speech contained in the signal is converted into text data. Therefore, the voice recognition process by the voice recognition unit 23 can be understood as detecting the utterance section more accurately than the second detection unit 22. That is, it can be seen from the recognition result by the voice recognition unit 23 whether or not the second detection unit 22 can accurately detect the utterance section.
- the threshold adjustment unit 24 adjusts the second threshold so as to improve the detection accuracy of the utterance section by the second detection unit 22 based on the recognition result by the voice recognition unit 23. Specifically, the threshold adjustment unit 24 adjusts the second threshold to be smaller when it is determined from the recognition result of the voice recognition process that the second voice signal is a signal interrupted during the utterance. When it is determined that the second audio signal is a signal including a lot of parts that are not uttered, the second threshold value is adjusted to be increased. Thereby, the 2nd detection part 22 comes to be able to detect an utterance area more correctly from a 1st audio
- the likelihood adjustment instructing unit 25 sets the likelihood to the client device 10 so that the likelihood calculated by the first detection unit 12 of the client device 10 approaches the likelihood calculated by the second detection unit 22. Instruct the adjustment.
- the voice recognition system reduces the amount of communication between the client device 10 and the server device 20 by performing rough speech zone detection at the client device 10 and strict speech zone detection at the server device 20.
- the speech section is detected with high accuracy while realizing high accuracy and efficient speech recognition. For this reason, the 2nd threshold value used for the speech section detection in the server apparatus 20 is made larger than the 1st threshold value used for the speech section detection in the client apparatus 10.
- the method in which the first detection unit 12 of the client apparatus 10 calculates the likelihood from the input signal and the method in which the second detection unit 22 of the server apparatus 20 calculates the likelihood from the first audio signal are different, the same signal
- adjustment is required so that the likelihood calculated by the first detection unit 12 and the likelihood calculated by the second detection unit 22 are approximately the same.
- the likelihood adjustment instruction unit 25 performs, for example, the following process, and the likelihood calculated by the first detection unit 12 of the client device 10 becomes the likelihood calculated by the second detection unit 22.
- the client apparatus 10 is instructed to adjust the likelihood so as to approach.
- the likelihood adjustment unit 14 of the client device 10 adjusts the likelihood calculated by the first detection unit 12 in accordance with the instruction from the likelihood adjustment instruction unit 25.
- the likelihood adjustment instruction unit 25 first passes a sample signal held in advance to the second detection unit 22 to request calculation of likelihood, and the second detection unit 22 calculates from the sample signal by the method described above. Time series data of the likelihood is obtained.
- the sample signal includes a section where a person is speaking and a silent section.
- the likelihood calculated by the second detection unit 22 may be normalized so that the maximum value is 1 and the minimum value is 0 in advance, or the maximum time series data of the likelihood calculated from the sample signal is used. The value may be adjusted to 1 and the minimum value to 0.
- the likelihood adjustment instructing unit 25 performs a second detection from the sample signal held in advance for the client device 10 connected to the server device 20 and this sample signal.
- the likelihood time series data calculated by the unit 22 is transmitted.
- the likelihood adjustment instructing unit 25 instructs the client device 10 so that the likelihood that the first detection unit 12 calculates in time series for the transmitted sample signal by the method described above approaches the transmitted time series data. Instructs the likelihood to be adjusted.
- the likelihood adjustment unit 14 follows the likelihood adjustment instruction from the server device 20.
- the likelihood calculated by 12 is adjusted. Specifically, the likelihood adjustment unit 14 passes the sample signal received from the server device 20 to the first detection unit 12 and requests the calculation of the likelihood. At this time, the likelihood adjustment unit 14 requests the first detection unit 12 to calculate the likelihood while changing the parameters related to the likelihood calculation in a plurality of ways.
- parameters relating to likelihood calculation include likelihood calculation formulas and tables for the signal strength of the input signal.
- the likelihood adjustment unit 14 acquires a plurality of likelihood time-series data corresponding to each changed parameter from the first detection unit 12, and each of the plurality of likelihood time-series data is transmitted to the server device. Compare with time-series data received from 20. Then, the likelihood adjusting unit 14 specifies time series data having the highest similarity to the time series data received from the server device 20, and sets parameters corresponding to the time series data to the first detection unit 12. It is instructed to use as a parameter for likelihood calculation. Through the above processing, the likelihood calculated by the first detection unit 12 is adjusted so as to approach the likelihood calculated by the second detection unit 22.
- the sample signal is reproduced by an external audio player, input by the microphone 11, and the first signal is input to the sample signal input by the microphone 11.
- the detection unit 12 may calculate the likelihood.
- the user of the client device 10 may download the sample signal from the server device 20 and play the downloaded sample signal with an external audio player in a state where the client device 10 is operated.
- the time ratio calculation unit 26 calculates a time ratio between the first audio signal received from the client device 10 and the second audio signal that is the signal of the speech period detected by the second detection unit 22 from the first audio signal.
- FIG. 4 is a diagram for explaining the time ratio.
- the horizontal axis represents time
- the white rectangle represents the time length of the first audio signal
- the hatched rectangle represents the second. It represents the time length of the audio signal.
- the time ratio is the second audio signal (the utterance interval detected by the second detection unit 22 of the server device 20) with respect to the time length of the first audio signal (the utterance interval detected by the first detection unit 12 of the client device 10). Is the ratio of the length of time.
- FIG. 4A shows an example in which the time ratio is in an appropriate range and the client device 10 and the server device 20 are operating as expected. That is, if the time ratio is as shown in FIG. 4A, it is estimated that the relationship between the rough utterance section detection in the client apparatus 10 and the strict utterance section detection in the server apparatus 20 is as expected.
- FIG. 4B shows an example in which the time length of the second audio signal is too short with respect to the time length of the first audio signal, and the time ratio is smaller than the appropriate range.
- FIG. 4C shows an example in which the time length of the second sound signal is too long with respect to the time length of the first sound signal, and the time ratio is larger than the appropriate range.
- the server device 20 of this embodiment includes a time ratio calculation unit 26 that calculates the time ratio described above.
- the time ratio calculated by the time ratio calculation unit 26 is passed to the threshold adjustment instruction unit 27.
- the threshold adjustment instruction unit 27 calculates an appropriate value of the first threshold used by the first detection unit 12 of the client device 10 to detect the utterance interval, and the client device 10 is instructed to adjust the first threshold value to the calculated appropriate value.
- the threshold adjustment instruction unit 27 instructs the client device 10 as a response to a threshold inquiry from the client device 10, for example. That is, the threshold adjustment instruction unit 27 requests the time ratio calculation unit 26 to calculate a time ratio in response to a threshold inquiry from the client device 10, and acquires the time ratio from the time ratio calculation unit 26. If the acquired time ratio is smaller than the appropriate range as in the example of FIG. 4B, the threshold adjustment instruction unit 27 is larger than the first threshold currently set in the client device 10.
- the value is calculated as an appropriate value, and the calculated appropriate value is transmitted as a return value to the inquiry to the client device 10 to instruct the client device 10 to adjust the first threshold value.
- the threshold adjustment instruction unit 27 is smaller than the first threshold currently set in the client device 10. The value is calculated as an appropriate value, and the calculated appropriate value is transmitted as a return value to the inquiry to the client device 10 to instruct the client device 10 to adjust the first threshold value.
- the threshold adjustment unit 15 is used by the first detection unit 12 to detect the utterance interval in accordance with the instruction from the server device 20.
- the current first threshold value is changed to an appropriate value received from the server device 20.
- the threshold adjustment instruction unit 27 stores the appropriate value of the first threshold calculated for the client device 10 in the storage unit 28 in association with the attribute information of the client device 10 and stores it in the storage unit 28.
- the attribute information is information indicating various conditions that may affect the detection of an utterance section, such as the performance and usage environment of the client device 10 and user information using the client device 10.
- the client device 10 profile information including the hardware resource specifications of the client device 10, the software version of the operation system, the performance of the microphone 11, and the like, or the client device 10 is fixed in a specific environment such as a conference room.
- the attribute information include information on the usage environment when used, user information of the client device 10 associated with the account, and the like. Such attribute information is acquired from the client device 10 when the client device 10 connects to the server device 20, for example.
- a threshold adjustment instruction The unit 27 reads the appropriate value of the first threshold stored in the storage unit 28 in association with the attribute information, and reads the appropriate value read from the storage unit 28 to the client device 10 connected to the server device 20. May be instructed to be set as the initial value of the first threshold.
- an initial value suitable for the performance of the client device 10 and the usage environment can be set, and the initial value before the first threshold value is adjusted. Even in the stage, it can be expected that the first detection unit 12 detects an appropriate utterance section.
- the threshold adjustment instruction unit 27 instructs the microphone 11 to the client device 10 when the appropriate value of the first threshold calculated based on the above time ratio exceeds a predetermined reference range between 0 and 1. It may be configured to instruct to adjust the sensitivity. For example, when the appropriate value of the first threshold value calculated based on the time ratio exceeds the reference range and is close to 1, the microphone 11 of the client device 10 inputs a lot of environmental noise other than speech. A situation is assumed. In such a case, the threshold adjustment instruction unit 27 instructs the client device 10 to lower the sensitivity of the microphone 11. In addition, when the appropriate value of the first threshold value calculated based on the time ratio exceeds the reference range and is close to 0, it is assumed that the microphone 11 of the client device 10 does not input sound appropriately. Is done. In such a case, the threshold adjustment instruction unit 27 instructs the client device 10 to increase the sensitivity of the microphone 11.
- the threshold adjustment unit 15 adjusts the sensitivity of the microphone 11 in accordance with the instruction from the server device 20. Thereby, the sensitivity of the microphone 11 is adjusted so as to adapt to the environment, and the first detection unit 12 can detect an appropriate speech section.
- the threshold adjustment instruction unit 27 appropriately inputs a signal using the microphone 11 to the client apparatus 10 in addition to the above-described instruction for adjusting the sensitivity of the microphone 11 or instead of the instruction for adjusting the sensitivity of the microphone 11. It may be configured to transmit a warning to the effect that it has not been performed. For example, when the appropriate value of the first threshold calculated based on the time ratio exceeds the reference range and is close to 1, the threshold adjustment instruction unit 27, for example, causes the microphone 11 to emit environmental noise other than speech. A warning is sent to inform the user that many inputs are being made and to encourage use in a low noise environment.
- the threshold adjustment instruction unit 27 when the appropriate value of the first threshold calculated based on the time ratio exceeds the reference range and is close to 0, the threshold adjustment instruction unit 27, for example, appropriately inputs sound from the microphone 11.
- a warning is sent to inform the user that the microphone 11 to be used is to be changed to a higher performance one.
- the client device 10 displays the content of the warning on a display unit (not shown) to notify the user.
- the sensitivity adjustment instruction for the microphone 11 may be included in the warning, and the sensitivity of the microphone 11 may be automatically adjusted by the client device 10 interpreting the content of the warning.
- FIG. 5 is a flowchart illustrating an example of a processing procedure of the client device 10.
- the likelihood adjustment unit 14 adjusts the likelihood calculated by the first detection unit 12 by the above-described method, for example, in accordance with the likelihood adjustment instruction from the server device 20 (step S101). .
- the first detection unit 12 sets an initial value of the first threshold used for detecting the utterance period (step S102).
- the initial value of the first threshold value may be a predetermined fixed value (for example, 0.1) or similar attribute information (profile information, usage environment information, user information, etc.). It may be an appropriate value of the first threshold value calculated for another client device 10.
- the structure which the threshold value adjustment part 15 sets the initial value of a 1st threshold value may be sufficient.
- the microphone 11 starts input of a signal including voice (human speech) (step S103), and passes the input signal to the first detection unit 12.
- the 1st detection part 12 detects an utterance area with the above-mentioned method with respect to an input signal, for example (step S104).
- the first audio signal that is the signal of the utterance section detected by the first detection unit 12 is transmitted from the communication unit 13 to the server device 20 via the communication network 30 (step S105).
- the server device 20 When the server device 20 performs voice recognition processing and transmits a recognition result, the recognition result is received by the communication unit 13 (step S106). This recognition result is displayed on a display unit (not shown) of the client device 10.
- the threshold adjustment unit 15 makes a threshold inquiry to the server device 20 (step S107).
- the threshold inquiry is transmitted from the communication unit 13 to the server device 20 via the communication network 30.
- the appropriate value and adjustment instruction of the first threshold value are transmitted from the server device 20 as a response to the threshold inquiry, the appropriate value and adjustment instruction are received by the communication unit 13 and passed to the threshold adjustment unit 15 (step S108).
- the threshold adjustment unit 15 changes the first threshold value used by the first detection unit 12 for detection of the utterance interval to the appropriate value received together with the adjustment instruction in accordance with the adjustment instruction from the server device 20. Is adjusted (step S109).
- Step S110: No the processing of Step S103 to Step S109 is repeated, and when the signal input by the microphone 11 is completed (Step S110: Yes), FIG. The series of processes shown in the flowchart of FIG.
- FIG. 6 is a flowchart illustrating an example of a processing procedure of the server device 20.
- a series of processes shown in the flowchart of FIG. 6 is started when the client apparatus 10 is connected to the server apparatus 20.
- the server device 20 executes the process shown in the flowchart of FIG. 6 for each client device 10.
- the likelihood adjustment instruction unit 25 first instructs likelihood adjustment to the client device 10 by the above-described method, for example (step S201).
- the second detection unit 22 sets an initial value of the second threshold used for detecting the utterance period (step S202).
- the initial value of the second threshold value is set to a value (for example, 0.3) that is larger than the first threshold value that the first detection unit 12 uses to detect the utterance period.
- the threshold adjustment unit 24 may set an initial value of the second threshold.
- the first audio signal is transmitted from the client device 10
- the first audio signal is received by the communication unit 21 and passed to the second detection unit 22 (step S203).
- the 2nd detection part 22 detects an utterance area with the above-mentioned method with respect to the 1st audio
- the second voice signal that is the signal of the utterance section detected by the second detection unit 22 is passed to the voice recognition unit 23.
- the voice recognition unit 23 performs voice recognition processing on the second voice signal received from the second detection unit 22 (step S205).
- the recognition result by the voice recognition unit 23 is transmitted from the communication unit 21 to the client device 10 via the communication network 30 (step S206).
- the threshold adjustment unit 24 adjusts the second threshold based on the recognition result by the voice recognition unit 23, for example, by the above-described method (step S207).
- the threshold adjustment instruction unit 27 requests the time ratio calculation unit 26 to calculate the time ratio. In response to this request, the time ratio calculator 26 calculates the time ratio between the first audio signal and the second audio signal (step S209).
- the threshold adjustment instructing unit 27 acquires the time ratio calculated by the time ratio calculating unit 26, and calculates an appropriate value of the first threshold based on the time ratio, for example, by the method described above (step S210). .
- the appropriate value of the first threshold calculated by the threshold adjustment instruction unit 27 is transmitted from the communication unit 21 to the client device 10 via the communication network 30 together with the threshold adjustment instruction (step S211).
- the appropriate value of the first threshold is stored in the storage unit 28 in association with the attribute information of the client device 10 (step S212).
- step S213: Yes the processing of steps S203 to S212 is repeated, and when the connection with the client device 10 is interrupted (step S213: No).
- step S213: No The series of processes shown in the flowchart of FIG.
- the speech recognition system performs rough speech section detection on the input signal by the client device 10 and sends the first speech signal to the server device. 20, the server apparatus 20 performs a strict speech section detection on the first voice signal, and performs voice recognition processing on the obtained second voice signal. Therefore, according to the present embodiment, highly accurate and efficient speech recognition can be performed by accurately detecting an utterance section while reducing the amount of communication between the client device 10 and the server device 20. .
- the speech recognition system since the speech recognition system according to the present embodiment has a function of bringing the likelihood calculated on the client device 10 side closer to the likelihood calculated on the server device 20 side, the client device 10 side and the server device 20 side each other. While detecting the utterance interval by different methods, the detection accuracy of the utterance interval can be adjusted using a threshold value which is a common index. That is, the utterance interval detection on the client device 10 side where resources are limited is performed by a method with a relatively low calculation processing load, and the strict utterance interval is calculated on the server device 20 side by a method having a higher calculation processing load than the client device 10 Detection can be performed.
- the speech recognition system has a function of adjusting a first threshold used for detecting an utterance section on the client device 10 side, and a function of adjusting a second threshold used for detecting an utterance section on the server device 20 side. Therefore, the relationship between the utterance interval detected on the client device 10 side and the utterance interval detected on the server device 20 side can be optimized each time the process is repeated.
- FIG. 10 Another configuration example of the client device 10 will be described as a second embodiment.
- the client device 10 according to the second embodiment is referred to as a client device 10A in distinction from the first embodiment.
- the configuration of the server device 20 is the same as that in the first embodiment.
- the same parts as those in the first embodiment are denoted by the same reference numerals, and redundant description is omitted. Only differences from the first embodiment will be described.
- FIG. 7 is a block diagram illustrating a configuration example of the client device 10A according to the second embodiment.
- the client device 10A of the second embodiment is configured assuming that a plurality of users share and use it, for example, like a video conference terminal, and the microphone 11 provided in the client device 10 of the first embodiment.
- a microphone array 16 having a configuration in which a plurality of microphones are integrated is provided.
- the microphone array 16 inputs a signal including the utterances of a plurality of speakers.
- the client device 10A of the second embodiment further includes an audio separation unit 17 (separation unit).
- the voice separation unit 17 separates the input signal input by the microphone array 16 into a signal for each speaker. That is, the sound separation unit 17 estimates the direction of the sound source (speaker) from the input signal input by the microphone array 16, and separates the input signal into a signal for each sound source when there are a plurality of estimated sound source directions. Since the technique for estimating the direction of the sound source and separating the signals is a known technique, a detailed description thereof is omitted here.
- the voice separation unit 17 dynamically generates a first detection unit 12 for detecting a speech section for each signal separated for each sound source (speaker). That is, when the sound separation unit 17 determines that a sound source (speaker) is present in a certain direction from the input signal input by the microphone array 16, the speech separation unit 17 detects the speech period for the signal from the sound source. The first detection unit 12 is generated. Similarly, when it is determined that there is a sound source (speaker) in another direction, the first detection unit 12 for detecting the utterance period is generated for the signal from the sound source. The signal separated for each sound source (speaker) is transferred to the first detection unit 12 that is dynamically generated, and thereafter, the same processing as in the first embodiment is performed. The first detection unit 12 dynamically generated for each sound source (speaker) is deleted when there is no input from the direction of the sound source (speaker) for a predetermined time.
- the likelihood adjustment by the likelihood adjustment unit 14 and the first threshold adjustment by the threshold adjustment unit 15 are performed. These likelihood adjustments and threshold adjustments are performed. Is individually performed on the first detection unit 12 dynamically generated for each sound source (speaker). Similarly, the processing in the server device 20 is individually performed on the signal separated for each sound source (speaker).
- the client device 10A is configured to dynamically generate the first detection unit 12 by separating the input signal for each speaker, the client device is similar to the first embodiment.
- speech recognition can be performed individually to obtain a recognition result for each speaker.
- Each functional component in the server device 20 of the embodiment described above can be realized by, for example, a program (software) executed using a general-purpose computer system as basic hardware.
- FIG. 8 is a block diagram schematically showing an example of the hardware configuration of the server device 20.
- the server device 20 includes a processor 101 such as a CPU, a main storage unit 102 such as a RAM, an auxiliary storage unit 103 using various storage devices, a communication interface 104, and these units.
- a general-purpose computer system including a bus 105 to be connected is configured.
- the auxiliary storage unit 103 may be connected to each unit by a wired or wireless LAN (Local Area Network) or the like.
- LAN Local Area Network
- Each functional component of the server device 20 is realized, for example, when the processor 101 uses the main storage unit 102 to execute a program stored in the auxiliary storage unit 103 or the like.
- This program is, for example, a CD-ROM (Compact Disk Read Only Memory), flexible disk (FD), CD-R (Compact Disk Recordable), DVD (Digital Versatile Disc) in an installable or executable format file. And recorded on a computer-readable recording medium such as a computer program product.
- this program may be provided by being stored on another computer connected to a network such as the Internet and downloaded via the network.
- the program may be provided or distributed via a network such as the Internet.
- this program may be provided by being incorporated in advance in a ROM (auxiliary storage unit 103) or the like in the computer.
- This program includes functional components of the server device 20 (communication unit 21, second detection unit 22, speech recognition unit 23, threshold adjustment unit 24, likelihood adjustment instruction unit 25, time ratio calculation unit 26, and threshold adjustment instruction. Unit 27).
- the processor 101 reads out the program from the recording medium and executes it, so that each of the above components is loaded onto the main storage unit 102. Thus, each of the above-described components is generated on the main storage unit 102.
- some or all of the functional components of the server device 20 can be realized by using dedicated hardware such as ASIC (Application Specific Integrated Circuit) or FPGA (Field-Programmable Gate Array). It is.
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
実施形態のサーバ装置(20)は、通信部(21)と、第2検出部(22)と、を備える。通信部(21)は、発話らしさを表す尤度が第1閾値以上の信号である第1音声信号をクライアント装置(10)から受信する。第2検出部(22)は、クライアント装置(10)から受信した第1音声信号から、発話らしさを表す尤度が第1閾値よりも大きい第2閾値以上の区間の信号である第2音声信号を検出する。
Description
本発明の実施形態は、発話区間検出装置、音声処理システム、発話区間検出方法およびプログラムに関する。
クライアント装置からサーバ装置に音声(人の発話)を含む信号を送信し、サーバ装置で音声認識処理を行って認識結果をクライアント装置に返すサーバ・クライアント型の音声認識システムが知られている。この種の音声認識システムでは、クライアント装置からサーバ装置への通信量の削減を図るために、クライアント側で入力した信号から音声の区間(以下、発話区間という。)を検出する処理を行い、検出された発話区間の信号のみをサーバ装置に送信することが提案されている。
クライアント装置で発話区間の検出を行う場合、クライアント装置はサーバ装置と比較してリソースが限られるため、正確な発話区間の検出を行うことは難しい。さらに、クライアント側の音声状況は環境ごとに異なり、変動することが多いため、発話音声の取りこぼしが発生する懸念がある。このため、通信量の削減を図りつつ、発話区間を精度よく検出できるようにすることが求められている。
本発明が解決しようとする課題は、通信量の削減を図りつつ、発話区間を精度よく検出することができる発話区間検出装置、音声処理システム、発話区間検出方法およびプログラムを提供することである。
実施形態の発話区間検出装置は、受信部と、検出部と、を備える。受信部は、発話らしさを表す尤度が第1閾値以上の信号である第1音声信号を外部装置から受信する。検出部は、前記第1音声信号から、前記尤度が前記第1閾値よりも大きい第2閾値以上の区間の信号である第2音声信号を検出する。
以下、実施形態の発話区間検出装置、音声処理システム、発話区間検出方法およびプログラムを、図面を参照して詳細に説明する。以下で示す実施形態は、クライアント装置が入力した信号に対してサーバ装置において音声認識処理を行い、認識結果をクライアント装置に返すサーバ・クライアント型の音声認識システムへの適用例であるが、本発明を適用可能なシステムはこれに限らない。
(第1の実施形態)
図1は、本実施形態に係る音声認識システムの構成例を示すブロック図である。この音声認識システムは、複数のクライアント装置10(第1装置、外部装置)とサーバ装置20(第2装置、発話区間検出装置)とが通信ネットワーク30を介して通信可能に接続される構成である。この音声認識システムでは、クライアント装置10において、入力した信号に対して大まかな発話区間の検出を行い、発話が含まれている可能性のある区間の信号(以下、第1音声信号という。)をサーバ装置20に送信する。サーバ装置20は、クライアント装置10から受信した第1音声信号に対して厳密な発話区間の検出を行い、発話である可能性が高い区間の信号(以下、第2音声信号という。)に対して音声認識処理を行って、認識結果のテキストデータをクライアント装置10に送信する。これにより、クライアント装置10とサーバ装置20との間の通信量の削減を図りつつ、発話区間を精度よく検出して高精度で効率的な音声認識を実現する。
図1は、本実施形態に係る音声認識システムの構成例を示すブロック図である。この音声認識システムは、複数のクライアント装置10(第1装置、外部装置)とサーバ装置20(第2装置、発話区間検出装置)とが通信ネットワーク30を介して通信可能に接続される構成である。この音声認識システムでは、クライアント装置10において、入力した信号に対して大まかな発話区間の検出を行い、発話が含まれている可能性のある区間の信号(以下、第1音声信号という。)をサーバ装置20に送信する。サーバ装置20は、クライアント装置10から受信した第1音声信号に対して厳密な発話区間の検出を行い、発話である可能性が高い区間の信号(以下、第2音声信号という。)に対して音声認識処理を行って、認識結果のテキストデータをクライアント装置10に送信する。これにより、クライアント装置10とサーバ装置20との間の通信量の削減を図りつつ、発話区間を精度よく検出して高精度で効率的な音声認識を実現する。
クライアント装置10は、図1に示すように、マイク11と、第1検出部12と、通信部13(送信部)と、尤度調整部14と、閾値調整部15と、を備える。クライアント装置10としては、例えば、外部接続端子に外付けのマイクを接続したパーソナルコンピュータや、マイクを内蔵するスマートフォン、タブレット端末、テレビ会議(ビデオ会議)システム用の端末として構成されたテレビ会議端末などを利用することができる。これらの装置はプロセッサやメモリなどの通常のコンピュータシステムを実現するリソースを備え、一例として、コンピュータシステム上で所定のプログラムを実行することにより、第1検出部12、通信部13、尤度調整部14、閾値調整部15などの各機能的な構成要素を実現する。
マイク11は、人の発話(音声)を含む信号を入力する。マイク11が入力した信号(以下、入力信号という。)は、第1検出部12に渡される。なお、本実施形態ではクライアント装置10がマイク11により信号を入力する例を説明するが、クライアント装置10が外部装置から受信した信号、あるいは記録媒体などから読み出した信号を入力信号としてもよい。
第1検出部12は、入力信号に対して、演算の処理負荷が比較的低い方法を用いて発話区間の検出を行う。本実施形態では、第1検出部12が、入力信号の信号強度に基づいて発話区間の検出を行う例を説明する。すなわち、第1検出部12は、マイク11からの入力信号の信号強度を発話区間検出のための特徴量として用い、入力信号に対して信号強度が大きいほど大きい値を示す尤度を時系列で算出する。ここで算出される尤度は人の発話らしさを表す値であり、例えば最大値が1、最小値が0となるように正規化される。そして、第1検出部12は、入力信号の中で尤度が第1閾値以上の区間を発話区間として検出し、この区間の信号を第1音声信号として出力する。
図2は、第1検出部12の処理の一例を説明する図である。図2(a)は、マイク11が入力したリニアPCMサンプリングデータ(入力信号)のグラフであり、横軸が時間、縦軸が信号強度を表している。図2(b)は、(a)の入力信号から算出された尤度の時系列を表すグラフである。図2(c)は、(b)の尤度を第1閾値と比較することで検出された発話区間を示している。なお、(a)のグラフは信号強度を振幅として表しており、振幅が大きいほど信号強度が大きいことを示している。また、(b)の尤度は、一定時間あたりの信号強度の平均値を正規化し、時間軸上にプロットしたものを曲線で近似した波形となっている。
図2に示すように、第1検出部12は、入力信号に対して信号強度が大きいほど大きい値となる尤度を算出する(第1の方法)。そして、第1検出部12は、入力信号の中で尤度が第1閾値以上となっている区間を発話区間として検出する。なお、第1閾値は、入力信号から音声の取りこぼしが生じない程度の小さい値(例えば0.1)に初期設定され、後述するように、サーバ装置20からの指示に応じて適宜調整される。第1検出部12は、この第1閾値を用いて、入力信号の中で人の発話(音声)が含まれる可能性があると推定される区間を発話区間として検出している。また、第1検出部12が入力信号に対して算出する尤度は、後述するように、サーバ装置20側で算出される尤度との整合が取れるように調整される。
通信部13は、サーバ装置20との間で通信ネットワーク30を介した各種情報の送受信を行う。例えば、通信部13は、第1検出部12が発話区間として検出した区間の信号である第1音声信号を、サーバ装置20に対して送信する。また、通信部13は、サーバ装置20から送信される後述の音声認識処理の認識結果としてのテキストデータや、尤度調整の指示、閾値調整の指示、マイク11の感度調整の指示などを受信する。
尤度調整部14は、サーバ装置20からの尤度調整の指示に従って、第1検出部12が入力信号に対して算出する尤度の調整を行う。なお、尤度調整部14の処理の具体例については、サーバ装置20における処理の説明と併せて詳細を後述する。
閾値調整部15は、サーバ装置20からの閾値調整の指示に従って、第1検出部12による発話区間の検出に用いる第1閾値の調整を行う。また、閾値調整部15は、サーバ装置20からマイク11の感度調整の指示が送られた場合に、この感度調整の指示に従ってマイク11の感度を調整する機能を持つ。なお、閾値調整部15の処理の具体例については、サーバ装置20における処理の説明と併せて詳細を後述する。
サーバ装置20は、図1に示すように、通信部21(受信部)と、第2検出部22(検出部)と、音声認識部23と、閾値調整部24と、尤度調整指示部25と、時間比率算出部26と、閾値調整指示部27と、記憶部28とを備える。
通信部21は、クライアント装置10との間で通信ネットワーク30を介した各種情報の送受信を行う。例えば、通信部21は、クライアント装置10から送信された第1音声信号や閾値問い合わせなどを受信する。また、通信部21は、音声認識部23による認識結果としてのテキストデータや、尤度調整指示部25からの尤度調整の指令、閾値調整指示部27からの閾値調整の指示、マイク11の感度調整の指示などをクライアント装置10に対して送信する。
第2検出部22は、クライアント装置10から受信した第1音声信号に対して、クライアント装置10の第1検出部12で行う発話区間検出よりも演算の処理負荷が高い方法を用いて、厳密な発話区間の検出を行う。例えば、第2検出部22は、音声の周波数特性や音響モデルなどから計算される特徴量を用いて、第1音声信号に対して時系列で尤度を算出する(第2の方法)。そして、第2検出部22は、第1音声信号の中で尤度が第2閾値以上の区間を発話区間として検出し、この区間の信号を第2音声信号として出力する。ここで第2閾値は、厳密な発話区間の検出を行うために、クライアント装置10の第1検出部12に設定される第1閾値よりも大きな値(例えば0.3)に初期設定され、後述するように、音声認識部23による認識結果に応じて、閾値調整部24により適宜調整される。
図3は、第2検出部22の処理の概要を説明する図である。図3(a)は、第1音声信号から算出された尤度の時間変化を表すグラフである。図3(b)は、(a)の尤度を第2閾値と比較することで検出された発話区間(ハッチングを付した部分)を示している。図3に示すように、第2検出部22は、第1音声信号から時系列で算出した尤度が第1閾値よりも大きい第2閾値以上となっている区間を発話区間として検出する。そして、第2検出部22は、検出した発話区間の信号である第2音声信号を音声認識部23に渡す。
音声の周波数特性や音響モデルなどから計算される特徴量を用いた発話区間検出は、クライアント装置10の第1検出部12が行う単純な発話区間検出と比べてより多くのコンピュータリソースを必要とするが、発話区間をより正確に検出することができる。また、第1音声信号から算出された尤度が第1閾値よりも大きい第2閾値以上の区間を発話区間として検出することにより、より正確な発話区間を検出することができる。
音声認識部23は、第2音声信号に対して、例えば音響モデルや言語モデルなどを用いた音声認識処理を行って、第2音声信号に対応するテキストデータを出力する。音声認識部23が実施する音声認識処理については、公知の技術をそのまま利用できるため、ここでは詳細な説明を省略する。認識結果としてのテキストデータは、通信部21からクライアント装置10に対して送信される。そして、このテキストデータが、クライアント装置10の図示しない表示部に表示される。
なお、例えば他拠点間のテレビ会議やグループ通話など、複数のクライアント装置10で情報が共有されるアプリケーションにおいて本実施形態の音声認識システムを利用する場合は、サーバ装置20は、上述した音声認識処理の認識結果としてのテキストデータを集約した画面情報などを、情報を共有する複数のクライアント装置10に対してそれぞれ送信する。これにより、複数話者の発話を音声認識処理した認識結果のテキストデータが集約された画面を、複数のクライアント装置10の表示部に表示させることができる。
閾値調整部24は、音声認識部23による認識結果に基づいて、第2検出部22による発話区間の検出に用いる第2閾値の調整を行う。音声認識部23は、第2音声信号に対して、音響モデルを用いた音響的な解析だけでなく、言語モデルを用いて発話として成り立っているかなどの言語的な解析も行って、第2音声信号に含まれる発話をテキストデータに変換する。したがって、音声認識部23による音声認識処理は、第2検出部22よりもさらに正確に発話区間を検出していると捉えることができる。つまり、音声認識部23による認識結果から、第2検出部22が発話区間を正確に検出できているかどうかが分かる。
そこで、閾値調整部24は、音声認識部23による認識結果に基づいて、第2検出部22による発話区間の検出精度を高めるように、第2閾値を調整する。具体的には閾値調整部24は、音声認識処理の認識結果から、第2音声信号が発話の途中で途切れた信号となっていると判断される場合は第2閾値を小さくするように調整し、第2音声信号が発話でない部分を多く含む信号となっていると判断される場合は第2閾値を大きくするように調整する。これにより、第2検出部22は、第1音声信号から発話区間をより正確に検出できるようになる。
尤度調整指示部25は、クライアント装置10の第1検出部12により算出される尤度が、第2検出部22により算出される尤度に近づくように、クライアント装置10に対して尤度の調整を指示する。
本実施形態の音声認識システムは、クライアント装置10で大まかな発話区間検出を行い、サーバ装置20で厳密な発話区間検出を行うことで、クライアント装置10とサーバ装置20との間の通信量の削減を図りつつ、発話区間を精度よく検出して高精度で効率的な音声認識を実現する構成である。このため、サーバ装置20での発話区間検出に用いる第2閾値を、クライアント装置10での発話区間検出に用いる第1閾値よりも大きな値としている。しかし、クライアント装置10の第1検出部12が入力信号から尤度を算出する方法と、サーバ装置20の第2検出部22が第1音声信号から尤度を算出する方法が異なるため、同じ信号に対して第1検出部12が算出する尤度と第2検出部22が算出する尤度とが同程度になるように調整が必要となる。
そこで、尤度調整指示部25は、例えば以下に示すような処理を行って、クライアント装置10の第1検出部12により算出される尤度が、第2検出部22により算出される尤度に近づくように、クライアント装置10に対して尤度の調整を指示する。そして、クライアント装置10の尤度調整部14が、この尤度調整指示部25からの指示に従って、第1検出部12が算出する尤度の調整を行う。
すなわち、尤度調整指示部25は、まず、予め保持しているサンプル信号を第2検出部22に渡して尤度の算出を要求し、第2検出部22が上述した方法によりサンプル信号から算出した尤度の時系列データを取得する。サンプル信号は、人が発話している区間と無音の区間とを含む。なお、第2検出部22が算出する尤度は、予め最大値が1、最小値が0となるように正規化されていてもよいし、サンプル信号から算出した尤度の時系列データの最大値が1、最小値が0になるように調整されてもよい。
その後、クライアント装置10がサーバ装置20に接続すると、尤度調整指示部25は、サーバ装置20に接続したクライアント装置10に対して、予め保持しているサンプル信号と、このサンプル信号から第2検出部22が算出した尤度の時系列データとを送信する。そして、尤度調整指示部25は、送信したサンプル信号に対して第1検出部12が上述した方法で時系列に算出する尤度が、送信した時系列データに近づくように、クライアント装置10に対して尤度の調整を指示する。
サーバ装置20からサンプル信号、尤度の時系列データおよび尤度調整の指示を受信したクライアント装置10では、尤度調整部14が、サーバ装置20からの尤度調整の指示に従って、第1検出部12が算出する尤度の調整を行う。具体的には、尤度調整部14は、サーバ装置20から受信したサンプル信号を第1検出部12に渡して尤度の算出を要求する。この際、尤度調整部14は、第1検出部12に対して、尤度算出に関するパラメータを複数通りに変化させながら尤度を算出することを要求する。ここで、尤度算出に関するパラメータとしては、例えば、入力信号の信号強度に対する尤度の算出式やテーブルなどが挙げられる。
そして、尤度調整部14は、第1検出部12から、変化させた各パラメータに対応する複数の尤度の時系列データを取得し、これら複数の尤度の時系列データをそれぞれ、サーバ装置20から受信した時系列データと比較する。そして、尤度調整部14は、サーバ装置20から受信した時系列データに対する類似度が最も高い時系列データを特定し、第1検出部12に対して、この時系列データに対応するパラメータを、尤度算出に関するパラメータとして使用することを指示する。以上の処理によって、第1検出部12が算出する尤度が、第2検出部22が算出する尤度に近づくように調整される。
なお、マイク11や環境などの影響も加味した尤度調整を行いたい場合は、サンプル信号を外部の音声プレーヤにより再生してマイク11で入力し、マイク11で入力したサンプル信号に対して第1検出部12が尤度の算出を行うようにしてもよい。この場合、クライアント装置10のユーザがサーバ装置20からサンプル信号をダウンロードし、クライアント装置10を動作させた状態で、ダウンロードしたサンプル信号を外部の音声プレーヤにより再生させるようにしてもよい。
時間比率算出部26は、クライアント装置10から受信した第1音声信号と、第2検出部22が第1音声信号から検出した発話区間の信号である第2音声信号との時間比率を算出する。図4は、時間比率を説明する図であり、図4(a)~(c)それぞれ横軸が時間、白抜きの矩形が第1音声信号の時間長さ、ハッチングを付した矩形が第2音声信号の時間長さを表している。時間比率は、第1音声信号(クライアント装置10の第1検出部12が検出した発話区間)の時間長さに対する、第2音声信号(サーバ装置20の第2検出部22が検出した発話区間)の時間長さの割合である。
図4(a)は、時間比率が適正範囲にあり、クライアント装置10とサーバ装置20とが想定通りの動作をしている例を示している。つまり、時間比率が図4(a)のようになっていれば、クライアント装置10における大まかな発話区間検出と、サーバ装置20における厳密な発話区間検出との関係が想定通りであることが推定される。
図4(b)は、第1音声信号の時間長さに対して第2音声信号の時間長さが短すぎ、時間比率が適正範囲よりも小さくなっている例を示している。クライアント装置10の第1検出部12が入力信号中の発話でない部分を過剰に含む区間を発話区間として検出している場合に、時間比率が図4(b)のようになる。時間比率が図4(b)のようになっている場合、発話でない部分を過剰に含む第1音声信号がクライアント装置10からサーバ装置20に送信されるため、通信量の増加を招く。
図4(c)は、第1音声信号の時間長さに対して第2音声信号の時間長さが長すぎ、時間比率が適正範囲よりも大きくなっている例を示している。クライアント装置10の第1検出部12による発話区間の検出が厳密になりすぎている場合に、時間比率が図4(c)のようになる。時間比率が図4(c)のようになっている場合、クライアント装置10において入力信号から発話音声の取りこぼしが生じる懸念がある。
以上のように、第1音声信号と第2音声信号との時間比率は、クライアント装置10とサーバ装置20とが想定通りの動作をしているか否かを判断する上で有用な情報となる。そこで、本実施形態のサーバ装置20は、上述した時間比率を算出する時間比率算出部26を備えている。時間比率算出部26が算出した時間比率は、閾値調整指示部27に渡される。
閾値調整指示部27は、時間比率算出部26により算出された時間比率に基づいて、クライアント装置10の第1検出部12が発話区間の検出に用いる第1閾値の適正値を算出し、クライアント装置10に対して第1閾値を算出した適正値に調整することを指示する。この閾値調整指示部27のクライアント装置10に対する指示は、例えば、クライアント装置10からの閾値問い合わせに対する応答として行う。すなわち、閾値調整指示部27は、クライアント装置10からの閾値問い合わせに応じて、時間比率算出部26に対して時間比率の算出を要求し、時間比率算出部26から時間比率を取得する。そして、取得した時間比率が図4(b)の例のように適正範囲よりも小さくなっている場合は、閾値調整指示部27は、クライアント装置10において現在設定されている第1閾値よりも大きい値を適正値として算出し、算出した適正値を問い合わせに対する返り値としてクライアント装置10に送信して、クライアント装置10に第1閾値の調整を指示する。一方、取得した時間比率が図4(c)の例のように適正範囲よりも大きくなっている場合は、閾値調整指示部27は、クライアント装置10において現在設定されている第1閾値よりも小さい値を適正値として算出し、算出した適正値を問い合わせに対する返り値としてクライアント装置10に送信して、クライアント装置10に第1閾値の調整を指示する。
サーバ装置20から第1閾値の適正値および閾値調整の指示を受信したクライアント装置10では、閾値調整部15が、サーバ装置20からの指示に従って、第1検出部12が発話区間の検出に用いている現在の第1閾値を、サーバ装置20から受信した適正値に変更する。以上の処理を繰り返すことにより、第1検出部12により検出される発話区間が、サーバ装置20の第2検出部22により検出される発話区間との関係において最適化されていく。
また、閾値調整指示部27は、クライアント装置10に対して算出した第1閾値の適正値を、当該クライアント装置10の属性情報と対応付けて記憶部28に格納し、記憶部28に記憶させる機能を持つ。ここで属性情報とは、クライアント装置10の性能や使用環境、クライアント装置10を使用するユーザ情報など、発話区間の検出に影響を与える可能性がある各種条件を示す情報である。例えば、クライアント装置10のハードウェア資源のスペック、オペレーションシステムなどのソフトウェアのバージョン、マイク11の性能などを含むクライアント装置10のプロファイル情報や、クライアント装置10が例えば会議室などの特定の環境で固定して使用される場合の当該使用環境の情報、アカウントに紐付けられたクライアント装置10のユーザ情報などが、属性情報の一例として挙げられる。これらの属性情報は、例えば、クライアント装置10がサーバ装置20に接続する際にクライアント装置10から取得される。
ここで、クライアント装置10がサーバ装置20に接続する際にクライアント装置10から取得された属性情報が、記憶部28が記憶している他のクライアント装置10の属性情報と類似する場合、閾値調整指示部27は、その属性情報に対応付けて記憶部28が記憶している第1閾値の適正値を読み出して、サーバ装置20に接続したクライアント装置10に対して、記憶部28から読み出した適正値を第1閾値の初期値として設定することを指示してもよい。これにより、第1閾値の初期値を固定値に設定する場合と比べて、クライアント装置10の性能や使用環境により適合した初期値を設定することができ、第1閾値の調整を行う前の初期段階においても、第1検出部12による適切な発話区間の検出が期待できる。
また、閾値調整指示部27は、上述した時間比率に基づいて算出した第1閾値の適正値が0から1の間で予め定められた基準範囲を越える場合は、クライアント装置10に対してマイク11の感度を調整することを指示するように構成してもよい。例えば、時間比率に基づいて算出した第1閾値の適正値が基準範囲を越えて1に近い値となっている場合は、クライアント装置10のマイク11が発話以外の環境雑音を多く入力している状況が想定される。このような場合には、閾値調整指示部27は、クライアント装置10に対してマイク11の感度を下げることを指示する。また、時間比率に基づいて算出した第1閾値の適正値が基準範囲を越えて0に近い値となっている場合は、クライアント装置10のマイク11が適切に音を入力していない状況が想定される。このような場合には、閾値調整指示部27は、クライアント装置10に対してマイク11の感度を上げることを指示する。
サーバ装置20からマイク11の感度調整の指示を受信したクライアント装置10では、閾値調整部15が、サーバ装置20からの指示に従って、マイク11の感度の調整を行う。これにより、マイク11の感度が環境に順応するように調整され、第1検出部12が適切な発話区間の検出を行えるようになる。
また、閾値調整指示部27は、上述したマイク11の感度調整の指示に加えて、あるいはマイク11の感度調整の指示の代わりに、クライアント装置10に対してマイク11を用いた信号の入力が適切に行われていない旨の警告を送信するように構成してもよい。例えば、時間比率に基づいて算出した第1閾値の適正値が基準範囲を越えて1に近い値となっている場合に、閾値調整指示部27は、例えば、マイク11が発話以外の環境雑音を多く入力していることをユーザに伝えるとともに雑音が少ない環境での利用を促す警告を送信する。また、時間比率に基づいて算出した第1閾値の適正値が基準範囲を越えて0に近い値となっている場合に、閾値調整指示部27は、例えば、マイク11が適切に音を入力していないことをユーザに伝えるとともに使用するマイク11をより高性能のものに変更することを促す警告を送信する。このような警告を受信したクライアント装置10側では、警告の内容を図示しない表示部に表示してユーザに報知する。また、マイク11の感度調整の指示も警告に含め、警告の内容をクライアント装置10が解釈して自動的にマイク11の感度調整を行うようにしてもよい。
次に、本実施形態に係る音声認識システムの動作の一例について、クライアント装置10での処理とサーバ装置20での処理とに分けて説明する。まず、クライアント装置10での処理の流れを図5に沿って説明する。図5は、クライアント装置10の処理手順の一例を示すフローチャートである。
図5のフローチャートで示す一連の処理は、クライアント装置10がサーバ装置20に接続したことを契機に開始される。処理が開始されると、まず尤度調整部14が、サーバ装置20からの尤度調整の指示に従って、例えば上述の方法により第1検出部12が算出する尤度の調整を行う(ステップS101)。
次に、第1検出部12が、発話区間の検出に用いる第1閾値の初期値を設定する(ステップS102)。第1閾値の初期値は、上述したように、予め定められた固定値(例えば0.1)であってもよいし、属性情報(プロファイル情報や使用環境の情報、ユーザ情報など)が類似する他のクライアント装置10に対して算出された第1閾値の適正値であってもよい。また、閾値調整部15が第1閾値の初期値を設定する構成であってもよい。
次に、マイク11が、音声(人の発話)を含む信号の入力を開始し(ステップS103)、入力信号を第1検出部12に渡す。そして、第1検出部12が、入力信号に対して例えば上述の方法により発話区間の検出を行う(ステップS104)。第1検出部12が検出した発話区間の信号である第1音声信号は、通信部13から、通信ネットワーク30を介してサーバ装置20に送信される(ステップS105)。
サーバ装置20において音声認識処理が行われて認識結果が送信されると、その認識結果が通信部13により受信される(ステップS106)。この認識結果はクライアント装置10の図示しない表示部に表示される。
次に、閾値調整部15が、サーバ装置20に対して閾値問い合わせを行う(ステップS107)。閾値問い合わせは、通信部13から、通信ネットワーク30を介してサーバ装置20に送信される。そして、この閾値問い合わせに対する応答としてサーバ装置20から第1閾値の適正値および調整指示が送信されると、この適正値および調整指示が通信部13により受信され、閾値調整部15に渡される(ステップS108)。閾値調整部15は、サーバ装置20からの調整指示に従って、第1検出部12が発話区間の検出に用いる第1閾値の値を、調整指示とともに受け取った適正値に変更することで、第1閾値を調整する(ステップS109)。
その後、マイク11による信号の入力が継続している間は(ステップS110:No)、ステップS103~ステップS109の処理が繰り返され、マイク11による信号の入力が終了すると(ステップS110:Yes)、図5のフローチャートで示す一連の処理が終了する。
次に、サーバ装置20での処理の流れを図6に沿って説明する。図6は、サーバ装置20の処理手順の一例を示すフローチャートである。図6のフローチャートで示す一連の処理は、クライアント装置10がサーバ装置20に接続したことを契機に開始される。複数のクライアント装置10が同時にサーバ装置20に接続している場合、サーバ装置20は、それぞれのクライアント装置10ごとに図6のフローチャートで示す処理を実行する。
処理が開始されると、まず尤度調整指示部25が、例えば上述の方法により、クライアント装置10に対して尤度調整の指示を行う(ステップS201)。
次に、第2検出部22が、発話区間の検出に用いる第2閾値の初期値を設定する(ステップS202)。第2閾値の初期値は、上述したように、第1検出部12が発話区間の検出に用いる第1閾値よりも大きい値(例えば0.3)に設定される。なお、閾値調整部24が第2閾値の初期値を設定する構成であってもよい。
次に、クライアント装置10から第1音声信号が送信されると、この第1音声信号が通信部21により受信され、第2検出部22に渡される(ステップS203)。そして、第2検出部22が、クライアント装置10からの第1音声信号に対して例えば上述の方法により発話区間の検出を行う(ステップS204)。第2検出部22が検出した発話区間の信号である第2音声信号は、音声認識部23に渡される。
次に、音声認識部23が、第2検出部22から受け取った第2音声信号に対して音声認識処理を行う(ステップS205)。この音声認識部23による認識結果は、通信部21から、通信ネットワーク30を介してクライアント装置10に送信される(ステップS206)。
次に、閾値調整部24が、音声認識部23による認識結果に基づいて、例えば上述の方法により第2閾値を調整する(ステップS207)。
その後、クライアント装置10から閾値問い合わせが送信されると、この閾値問い合わせが通信部21により受信され、閾値調整指示部27に渡される(ステップS208)。閾値調整指示部27は、閾値問い合わせを受け取ると、まず、時間比率算出部26に対し時間比率の算出を要求する。この要求に応じて、時間比率算出部26が第1音声信号と第2音声信号との時間比率を算出する(ステップS209)。
次に、閾値調整指示部27は、時間比率算出部26により算出された時間比率を取得し、この時間比率に基づいて、例えば上述の方法により第1閾値の適正値を算出する(ステップS210)。閾値調整指示部27が算出した第1閾値の適正値は、閾値調整の指示とともに、通信部21から、通信ネットワーク30を介してクライアント装置10に送信される(ステップS211)。また、この第1閾値の適正値は、クライアント装置10の属性情報に対応付けて記憶部28に格納される(ステップS212)。
その後、クライアント装置10との接続が維持されている間は(ステップS213:Yes)、ステップS203~ステップS212の処理が繰り返され、クライアント装置10との接続が遮断されると(ステップS213:No)、図6のフローチャートで示す一連の処理が終了する。
以上、具体的な例を挙げながら詳細に説明したように、本実施形態に係る音声認識システムは、クライアント装置10で入力信号に対し大まかな発話区間の検出を行って第1音声信号をサーバ装置20に送信し、サーバ装置20で第1音声信号に対し厳密な発話区間の検出を行って、得られた第2音声信号に対し音声認識処理を行う構成である。したがって、本実施形態によれば、クライアント装置10とサーバ装置20との間の通信量の削減を図りつつ、発話区間を精度よく検出して高精度で効率的な音声認識を実施することができる。
また、本実施形態の音声認識システムは、クライアント装置10側で算出される尤度をサーバ装置20側で算出される尤度に近づける機能を備えるため、クライアント装置10側とサーバ装置20側とで異なる方法で発話区間の検出を行いながら、共通の指標となる閾値を用いて発話区間の検出精度を調整することができる。すなわち、リソースが限られるクライアント装置10側での発話区間検出は演算の処理負荷が比較的低い方法で行い、サーバ装置20側ではクライアント装置10よりも演算の処理負荷が高い方法で厳密な発話区間検出を実施することができる。
また、本実施形態の音声認識システムは、クライアント装置10側での発話区間検出に用いる第1閾値を調整する機能や、サーバ装置20側での発話区間検出に用いる第2閾値を調整する機能を備えるため、クライアント装置10側で検出される発話区間とサーバ装置20側で検出される発話区間との関係を、処理を繰り返すごとに最適化していくことができる。
(第2の実施形態)
クライアント装置10の他の構成例を第2実施形態として説明する。以下では、第2実施形態のクライアント装置10を第1実施形態と区別してクライアント装置10Aと表記する。なお、サーバ装置20の構成は第1実施形態と共通である。以下、第1実施形態と共通の部分は同一の符号を付して重複した説明を省略し、第1実施形態との相違点のみを説明する。
クライアント装置10の他の構成例を第2実施形態として説明する。以下では、第2実施形態のクライアント装置10を第1実施形態と区別してクライアント装置10Aと表記する。なお、サーバ装置20の構成は第1実施形態と共通である。以下、第1実施形態と共通の部分は同一の符号を付して重複した説明を省略し、第1実施形態との相違点のみを説明する。
図7は、第2実施形態のクライアント装置10Aの構成例を示すブロック図である。第2実施形態のクライアント装置10Aは、例えばテレビ会議端末のように複数のユーザが共有して使用することを想定して構成されたものであり、第1実施形態のクライアント装置10が備えるマイク11に代えて、複数のマイクが一体化された構成のマイクアレイ16を備える。マイクアレイ16は、複数の話者の発話を含む信号を入力する。
また、第2実施形態のクライアント装置10Aは、第1実施形態のクライアント装置10の構成に加えて、音声分離部17(分離部)をさらに備える。音声分離部17は、マイクアレイ16が入力した入力信号を、話者ごとの信号に分離する。すなわち、音声分離部17は、マイクアレイ16が入力した入力信号から音源(話者)の方向を推定し、推定した音源の方向が複数ある場合は、入力信号を音源ごとの信号に分離する。このような音源の方向を推定して信号を分離する技術は公知の技術であるため、ここでは詳細な説明は省略する。
また、音声分離部17は、音源(話者)ごとに分離したそれぞれの信号に対し、発話区間を検出するための第1検出部12を動的に生成する。すなわち、音声分離部17は、マイクアレイ16が入力した入力信号から、ある方向に音源(話者)が存在すると判断したときに、その音源からの信号に対して発話区間の検出を行うための第1検出部12を生成する。また、他の方向に音源(話者)が存在すると判断したときも同様に、その音源からの信号に対して発話区間の検出を行うための第1検出部12を生成する。音源(話者)ごとに分離された信号は、それぞれ動的に生成された第1検出部12に渡されて、以降、第1実施形態と同様の処理が行われる。なお、音源(話者)ごとに動的に生成された第1検出部12は、所定時間に亘ってその音源(話者)の方向からの入力がない場合に削除される。
また、クライアント装置10Aでは、第1実施形態と同様に、尤度調整部14による尤度の調整や、閾値調整部15による第1閾値の調整が行われるが、これらの尤度調整や閾値調整は、音源(話者)ごとに動的に生成される第1検出部12に対してそれぞれ個別に行われる。なお、サーバ装置20における処理も同様に、音源(話者)ごとに分離された信号に対して個別に行われる。
以上のように、本実施形態では、クライアント装置10Aが入力信号を話者ごとに分離して第1検出部12を動的に生成する構成としているため、第1実施形態と同様に、クライアント装置10とサーバ装置20との間の通信量の削減を図りつつ、発話区間を精度よく検出して高精度で効率的な音声認識を実施することができることに加えて、複数話者の発話に対して個別に音声認識を行って、話者ごとの認識結果を得ることができる。
(補足)
以上説明した実施形態のサーバ装置20における各機能的な構成要素は、例えば、汎用のコンピュータシステムを基本ハードウェアとして用いて実行されるプログラム(ソフトウェア)により実現することができる。
以上説明した実施形態のサーバ装置20における各機能的な構成要素は、例えば、汎用のコンピュータシステムを基本ハードウェアとして用いて実行されるプログラム(ソフトウェア)により実現することができる。
図8は、サーバ装置20のハードウェア構成の一例を概略的に示すブロック図である。サーバ装置20は、図8に示すように、CPUなどのプロセッサ101と、RAMなどの主記憶部102と、各種の記憶装置を用いた補助記憶部103と、通信インタフェース104と、これらの各部を接続するバス105とを含んだ汎用のコンピュータシステムとして構成される。なお、補助記憶部103は、有線または無線によるLAN(Local Area Network)などで各部に接続されてもよい。
サーバ装置20の各機能的な構成要素は、例えば、プロセッサ101が、主記憶部102を利用して、補助記憶部103などに格納されたプログラムを実行することによって実現される。このプログラムは、例えば、インストール可能な形式又は実行可能な形式のファイルでCD-ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD-R(Compact Disk Recordable)、DVD(Digital Versatile Disc)などのコンピュータで読み取り可能な記録媒体に記録されてコンピュータプログラムプロダクトとして提供される。
また、このプログラムを、インターネットなどのネットワークに接続された他のコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、このプログラムをインターネットなどのネットワーク経由で提供または配布するように構成してもよい。また、このプログラムを、コンピュータ内部のROM(補助記憶部103)などに予め組み込んで提供するように構成してもよい。
このプログラムは、サーバ装置20の機能的な構成要素(通信部21、第2検出部22、音声認識部23、閾値調整部24、尤度調整指示部25、時間比率算出部26および閾値調整指示部27)を含むモジュール構成となっており、実際のハードウェアとしては、例えば、プロセッサ101が上記記録媒体からプログラムを読み出して実行することにより、上記の各構成要素が主記憶部102上にロードされ、上記の各構成要素が主記憶部102上に生成されるようになっている。なお、サーバ装置20の機能的な構成要素は、その一部または全部を、ASIC(Application Specific Integrated Circuit)やFPGA(Field-Programmable Gate Array)などの専用のハードウェアを用いて実現することも可能である。
以上、本発明の実施形態を説明したが、この実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
Claims (13)
- 発話らしさを表す尤度が第1閾値以上の信号である第1音声信号を外部装置から受信する受信部と、
前記第1音声信号から、前記尤度が前記第1閾値よりも大きい第2閾値以上の区間の信号である第2音声信号を検出する検出部と、を備える発話区間検出装置。 - 前記外部装置は、第1の方法で前記尤度を算出し、
前記検出部は、前記第1の方法とは異なる第2の方法で前記尤度を算出し、
前記第1の方法で算出される前記尤度が前記第2の方法で算出される前記尤度に近づくように、前記外部装置に対して前記尤度の調整を指示する尤度調整指示部をさらに備える、請求項1に記載の発話区間検出装置。 - 前記尤度調整指示部は、サンプル信号と、当該サンプル信号に対して前記検出部が前記第2の方法で算出した前記尤度の時系列データとを前記外部装置に送信し、前記サンプル信号に対して前記第1の方法で時系列に算出される前記尤度が前記時系列データに近づくように、前記外部装置に対して前記尤度の調整を指示する、請求項2に記載の発話区間検出装置。
- 前記第1音声信号と前記第2音声信号との時間比率を算出する時間比率算出部と、
前記時間比率に基づいて前記第1閾値の適正値を算出し、前記外部装置に対して、前記第1閾値を前記適正値に調整することを指示する閾値調整指示部をさらに備える、請求項1に記載の発話区間検出装置。 - 前記外部装置はマイクを用いて入力した信号から前記第1音声信号を検出し、
前記閾値調整指示部は、前記時間比率に基づいて算出した前記適正値が基準範囲を越える場合は、前記外部装置に対して前記マイクの感度を調整することを指示する、請求項4に記載の発話区間検出装置。 - 前記外部装置はマイクを用いて入力した信号から前記第1音声信号を検出し、
前記閾値調整指示部は、前記時間比率に基づいて算出した前記適正値が基準範囲を越える場合は、前記外部装置に対して前記マイクを用いた信号の入力が適切に行われていない旨の警告を送信する、請求項4に記載の発話区間検出装置。 - 前記外部装置に対して算出した前記適正値を当該外部装置の属性情報に対応付けて記憶する記憶部をさらに備え、
前記閾値調整指示部は、前記記憶部が記憶する属性情報と類似する属性の他の外部装置に対し、前記属性情報と対応付けられた前記適正値を前記第1閾値として設定することを指示する、請求項4に記載の発話区間検出装置。 - 前記第2音声信号に対して音声認識処理を行って前記第2音声信号に対応するテキストデータを出力する音声認識部をさらに備える、請求項1に記載の発話区間検出装置。
- 前記音声認識部による認識結果に基づいて、前記第2閾値を調整する閾値調整部をさらに備える、請求項8に記載の発話区間検出装置。
- 第1装置と、ネットワークを介して前記第1装置と通信する第2装置とを含む音声処理システムであって、
前記第1装置は、
入力信号から、発話らしさを表す尤度が第1閾値以上の区間の信号である第1音声信号を検出する第1検出部と、
前記第1音声信号を前記第2装置に送信する送信部と、を備え、
前記第2装置は、
前記第1音声信号を受信する受信部と、
前記第1音声信号から、前記尤度が前記第1閾値よりも大きい第2閾値以上の区間の信号である第2音声信号を検出する第2検出部と、を備える音声処理システム。 - 前記第1装置は、
前記入力信号を話者ごとの信号に分離する分離部をさらに備え、
前記第1検出部は、分離された話者ごとの信号に対して動的に生成される、請求項10に記載の音声処理システム。 - コンピュータが実行する発話区間検出方法であって、
発話らしさを表す尤度が第1閾値以上の信号である第1音声信号を外部装置から受信する工程と、
前記第1音声信号から、前記尤度が前記第1閾値よりも大きい第2閾値以上の区間の信号である第2音声信号を検出する工程と、を含む発話区間検出方法。 - コンピュータに、
発話らしさを表す尤度が第1閾値以上の信号である第1音声信号を外部装置から受信する機能と、
前記第1音声信号から、前記尤度が前記第1閾値よりも大きい第2閾値以上の区間の信号である第2音声信号を検出する機能と、を実現させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/263,520 US10276191B2 (en) | 2014-07-30 | 2016-09-13 | Speech section detection device, voice processing system, speech section detection method, and computer program product |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014155522A JP6276132B2 (ja) | 2014-07-30 | 2014-07-30 | 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム |
JP2014-155522 | 2014-07-30 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
US15/263,520 Continuation US10276191B2 (en) | 2014-07-30 | 2016-09-13 | Speech section detection device, voice processing system, speech section detection method, and computer program product |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2016017229A1 true WO2016017229A1 (ja) | 2016-02-04 |
Family
ID=55217133
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2015/063533 WO2016017229A1 (ja) | 2014-07-30 | 2015-05-11 | 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US10276191B2 (ja) |
JP (1) | JP6276132B2 (ja) |
WO (1) | WO2016017229A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6553111B2 (ja) * | 2017-03-21 | 2019-07-31 | 株式会社東芝 | 音声認識装置、音声認識方法及び音声認識プログラム |
JP2019191490A (ja) * | 2018-04-27 | 2019-10-31 | 東芝映像ソリューション株式会社 | 音声対話端末、および音声対話端末制御方法 |
JP7047626B2 (ja) * | 2018-06-22 | 2022-04-05 | コニカミノルタ株式会社 | 会議システム、会議サーバ及びプログラム |
JP7131362B2 (ja) * | 2018-12-20 | 2022-09-06 | トヨタ自動車株式会社 | 制御装置、音声対話装置及びプログラム |
JP7542826B2 (ja) | 2021-01-29 | 2024-09-02 | 株式会社アイシン | 音声認識プログラム及び音声認識装置 |
WO2024167785A1 (en) * | 2023-02-07 | 2024-08-15 | Dolby Laboratories Licensing Corporation | Method and system for robust processing of speech classifier |
CN118248133B (zh) * | 2024-05-27 | 2024-09-20 | 暗物智能科技(广州)有限公司 | 二阶段语音识别方法、装置、计算机设备及可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09120293A (ja) * | 1995-10-24 | 1997-05-06 | Ricoh Co Ltd | 話者認識システムおよび話者認識方法 |
US20070061147A1 (en) * | 2003-03-25 | 2007-03-15 | Jean Monne | Distributed speech recognition method |
JP2008134565A (ja) * | 2006-11-29 | 2008-06-12 | Nippon Telegr & Teleph Corp <Ntt> | 音声/非音声判定補正装置、音声/非音声判定補正方法、音声/非音声判定補正プログラムおよびこれを記録した記録媒体、音声ミキシング装置、音声ミキシング方法、音声ミキシングプログラムおよびこれを記録した記録媒体 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2991144B2 (ja) * | 1997-01-29 | 1999-12-20 | 日本電気株式会社 | 話者認識装置 |
JP3477432B2 (ja) | 2000-08-04 | 2003-12-10 | 旭化成株式会社 | 音声認識方法およびサーバならびに音声認識システム |
DE10220524B4 (de) * | 2002-05-08 | 2006-08-10 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache |
JP4197271B2 (ja) | 2003-06-17 | 2008-12-17 | シャープ株式会社 | 通信端末、通信端末の制御方法、音声認識処理装置、音声認識処理装置の制御方法、通信端末制御プログラム、通信端末制御プログラムを記録した記録媒体、音声認識処理装置制御プログラム、および、音声認識処理装置制御プログラムを記録した記録媒体 |
JP4413564B2 (ja) * | 2003-09-16 | 2010-02-10 | 三菱電機株式会社 | 情報端末および音声認識システム |
US7567908B2 (en) * | 2004-01-13 | 2009-07-28 | International Business Machines Corporation | Differential dynamic content delivery with text display in dependence upon simultaneous speech |
JP4425055B2 (ja) | 2004-05-18 | 2010-03-03 | 日本電信電話株式会社 | クライアント・サーバ音声認識方法、これに用いる装置、そのプログラム及び記録媒体 |
GB2418764B (en) * | 2004-09-30 | 2008-04-09 | Fluency Voice Technology Ltd | Improving pattern recognition accuracy with distortions |
US7464029B2 (en) * | 2005-07-22 | 2008-12-09 | Qualcomm Incorporated | Robust separation of speech signals in a noisy environment |
JP2007199552A (ja) * | 2006-01-30 | 2007-08-09 | Toyota Motor Corp | 音声認識装置と音声認識方法 |
CN101502089B (zh) * | 2006-07-28 | 2013-07-03 | 西门子企业通讯有限责任两合公司 | 进行音频会议的方法、音频会议装置和编码器之间的切换方法 |
JP4715738B2 (ja) * | 2006-12-19 | 2011-07-06 | トヨタ自動車株式会社 | 発話検出装置及び発話検出方法 |
JP2008158055A (ja) * | 2006-12-21 | 2008-07-10 | Sumitomo Cement Computers Systems Co Ltd | 言語発音練習支援システム |
JP4451892B2 (ja) * | 2007-03-19 | 2010-04-14 | 株式会社リコー | 映像再生装置、映像再生方法、及び映像再生プログラム |
WO2008117626A1 (ja) * | 2007-03-27 | 2008-10-02 | Nec Corporation | 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム |
US7813924B2 (en) * | 2007-04-10 | 2010-10-12 | Nokia Corporation | Voice conversion training and data collection |
US8364485B2 (en) * | 2007-08-27 | 2013-01-29 | International Business Machines Corporation | Method for automatically identifying sentence boundaries in noisy conversational data |
KR101092820B1 (ko) * | 2009-09-22 | 2011-12-12 | 현대자동차주식회사 | 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템 |
JP2011191423A (ja) * | 2010-03-12 | 2011-09-29 | Honda Motor Co Ltd | 発話認識装置、発話認識方法 |
US8543402B1 (en) * | 2010-04-30 | 2013-09-24 | The Intellisis Corporation | Speaker segmentation in noisy conversational speech |
EP2572499B1 (en) * | 2010-05-18 | 2018-07-11 | Telefonaktiebolaget LM Ericsson (publ) | Encoder adaption in teleconferencing system |
-
2014
- 2014-07-30 JP JP2014155522A patent/JP6276132B2/ja active Active
-
2015
- 2015-05-11 WO PCT/JP2015/063533 patent/WO2016017229A1/ja active Application Filing
-
2016
- 2016-09-13 US US15/263,520 patent/US10276191B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09120293A (ja) * | 1995-10-24 | 1997-05-06 | Ricoh Co Ltd | 話者認識システムおよび話者認識方法 |
US20070061147A1 (en) * | 2003-03-25 | 2007-03-15 | Jean Monne | Distributed speech recognition method |
JP2008134565A (ja) * | 2006-11-29 | 2008-06-12 | Nippon Telegr & Teleph Corp <Ntt> | 音声/非音声判定補正装置、音声/非音声判定補正方法、音声/非音声判定補正プログラムおよびこれを記録した記録媒体、音声ミキシング装置、音声ミキシング方法、音声ミキシングプログラムおよびこれを記録した記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP2016033530A (ja) | 2016-03-10 |
US10276191B2 (en) | 2019-04-30 |
US20160379673A1 (en) | 2016-12-29 |
JP6276132B2 (ja) | 2018-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6276132B2 (ja) | 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム | |
US10579327B2 (en) | Speech recognition device, speech recognition method and storage medium using recognition results to adjust volume level threshold | |
US11064296B2 (en) | Voice denoising method and apparatus, server and storage medium | |
US9324322B1 (en) | Automatic volume attenuation for speech enabled devices | |
US11516347B2 (en) | Systems and methods to automatically join conference | |
US9830924B1 (en) | Matching output volume to a command volume | |
KR20170032096A (ko) | 전자장치, 전자장치의 구동방법, 음성인식장치, 음성인식장치의 구동 방법 및 컴퓨터 판독가능 기록매체 | |
EP3484183B1 (en) | Location classification for intelligent personal assistant | |
US8793128B2 (en) | Speech signal processing system, speech signal processing method and speech signal processing method program using noise environment and volume of an input speech signal at a time point | |
JP5803125B2 (ja) | 音声による抑圧状態検出装置およびプログラム | |
JP6067391B2 (ja) | 信号音量に基いた信号利得の適合時のピーク検出 | |
WO2019207912A1 (ja) | 情報処理装置及び情報処理方法 | |
JP5863928B1 (ja) | 音声調整装置 | |
US9972342B2 (en) | Terminal device and communication method for communication of speech signals | |
US20230253010A1 (en) | Voice activity detection (vad) based on multiple indicia | |
JP6515591B2 (ja) | 音声解析装置、音声解析システムおよびプログラム | |
JP2005157086A (ja) | 音声認識装置 | |
KR102044970B1 (ko) | 환경 특징 추출 방법 및 이를 이용한 보청기 작동 방법 | |
JP6361360B2 (ja) | 残響判定装置及びプログラム | |
JP6610195B2 (ja) | 端末装置、通信方法 | |
US11694705B2 (en) | Sound signal processing system apparatus for avoiding adverse effects on speech recognition | |
JP2020024310A (ja) | 音声処理システム及び音声処理方法 | |
JP6822540B2 (ja) | 端末装置、通信方法及び通信プログラム | |
US10601757B2 (en) | Multi-output mode communication support device, communication support method, and computer program product | |
JP6282999B2 (ja) | 補聴器の指向性を試験するための装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 15826614 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 15826614 Country of ref document: EP Kind code of ref document: A1 |