WO2015079568A1 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
WO2015079568A1
WO2015079568A1 PCT/JP2013/082227 JP2013082227W WO2015079568A1 WO 2015079568 A1 WO2015079568 A1 WO 2015079568A1 JP 2013082227 W JP2013082227 W JP 2013082227W WO 2015079568 A1 WO2015079568 A1 WO 2015079568A1
Authority
WO
WIPO (PCT)
Prior art keywords
recognition
recognition result
speech
time length
candidate
Prior art date
Application number
PCT/JP2013/082227
Other languages
English (en)
French (fr)
Inventor
慶太 山室
岡登 洋平
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to JP2014509532A priority Critical patent/JP5583301B1/ja
Priority to CN201380019801.6A priority patent/CN104823235B/zh
Priority to DE112013001772.5T priority patent/DE112013001772B4/de
Priority to US14/374,324 priority patent/US9424839B2/en
Priority to PCT/JP2013/082227 priority patent/WO2015079568A1/ja
Publication of WO2015079568A1 publication Critical patent/WO2015079568A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Definitions

  • the present invention relates to a speech recognition apparatus that employs and outputs a probable recognition result candidate from a plurality of speech recognition results.
  • the reliability of the recognition results determined by the respective standards of the plurality of recognition engines is compared and the highest reliability is obtained.
  • a recognition result is selected, or all recognition results of a plurality of recognition engines are sorted in descending order of reliability to select a recognition result with high reliability. For this reason, a part of a word or a word string that can be recognized by a certain recognition engine (hereinafter referred to as a word string, including one word) matches a word string that can be recognized by another recognition engine.
  • a word string including one word
  • the recognition result of the first recognition engine should be selected as probable, but the word “California” can also be recognized by the second recognition engine. That is, since the spoken voice includes the word “California” that can be recognized by the first and second recognition engines, the reliability of the recognition result determined by the respective standards of the first and second recognition engines. Depending on the degree, the result of the second recognition engine may be erroneously selected as the final recognition result.
  • the present invention has been made to solve the above-described problems, and an object of the present invention is to provide a speech recognition apparatus that can accurately adopt a candidate for a recognition result that is probable from a speech recognition result of a recognition engine. .
  • the speech recognition apparatus is recognized by a speech input unit that inputs spoken speech, a speech recognition unit that includes a plurality of recognition engines that respectively recognize speech acquired from the speech input unit, and a plurality of recognition engines. And a determination unit that employs one or a plurality of recognition result candidates from the recognition result candidates based on a difference in time length of each of the recognition result candidates.
  • FIG. 1 is a block diagram showing a configuration of a speech recognition apparatus according to Embodiment 1 of the present invention.
  • the voice recognition device shown in FIG. 1 is a device that is used as an input unit of a navigation device or an audio device that is mounted or brought into a vehicle, for example.
  • the configuration includes a voice input unit 1, a voice recognition unit 2, first and second recognition candidate acquisition units 3 a and 3 b, a determination unit 4, and an integration unit 5.
  • the voice input unit 1 has a function of collecting an uttered voice and acquiring an input signal.
  • the voice input unit 1 converts a voice signal input from a microphone or the like into a digital signal.
  • the voice recognition unit 2 includes first and second recognition engines 2a and 2b that recognize voices of the same voice signal output from the voice input unit 1, respectively.
  • the first and second recognition engines 2a and 2b perform a speech recognition process on the input speech signal, and output a recognition result character string, a recognition result reliability, and a recognition result time length.
  • the first recognition engine can recognize at least one word string including a part of the word string that can be recognized by the second recognition engine.
  • the number of words constituting the word string recognizable by the second recognition engine 2b is equal to or less than the number of words constituting the word string recognizable by the first recognition engine 2a.
  • the first recognition engine 2a can recognize a word string that combines a state name and a city name in the United States
  • the second recognition engine 2b can recognize a state name.
  • the speech recognition unit 2 includes two recognition engines. However, at least one word string including a part of a word string that can be recognized by another recognition engine can be recognized. If a recognition engine is provided, three or more recognition engines may be provided (the same applies to the second embodiment).
  • the first and second recognition candidate acquisition units 3a and 3b are connected to the first and second recognition engines 2a and 2b of the speech recognition unit 2.
  • the first and second recognition candidate acquisition units 3a and 3b acquire character strings of recognition results as recognition result candidates from the speech recognition processing results of the first and second recognition engines 2a and 2b, and further recognition result candidates. And the time length of the recognition result candidate are acquired.
  • a recognition result candidate acquired from the first recognition engine 2a by the first recognition candidate acquisition unit 3a is referred to as a “first recognition result candidate”.
  • the recognition result candidate acquired from the second recognition engine 2b by the second recognition candidate acquisition unit 3b is referred to as a “second recognition result candidate”.
  • the determination unit 4 performs correct / incorrect determination of the recognition result candidate based on the difference between the time length of the first recognition result candidate and the time length of the second recognition result candidate. In the correctness / incorrectness determination, the determination unit 4 rejects the recognition result candidates determined to be erroneous recognition, and employs the remaining recognition result candidates as probable recognition result candidates. For example, the determination unit 4 calculates the difference between the time length of the first recognition result candidate that is the most reliable recognition result candidate and the time lengths of all the recognition result candidates of the second recognition result candidate. . And the 2nd recognition result candidate whose difference of the said time length is more than a predetermined 1st threshold value (or larger than a threshold value) is rejected.
  • the first recognition result candidate and the second recognition result candidate not rejected are adopted and output to the recognition result integration unit 5.
  • the time length of the first recognition result candidate having the highest reliability and the time length of the recognition result candidate having the highest reliability and the second recognition result candidate Calculate the difference from the length. If the time length difference is equal to or greater than a predetermined first threshold (or greater than the threshold), all second recognition result candidates are rejected and the first recognition result candidate is adopted. Then, the adopted recognition result candidate is output to the integration unit 5.
  • the integration unit 5 integrates the recognition result candidates adopted by the determination unit 4 as being probable among the respective recognition result candidates acquired by the first and second recognition candidate acquisition units 3a and 3b, thereby obtaining one recognition result candidate.
  • the recognition result candidates in the recognition candidate group are sorted in descending order of reliability. Note that if the determination unit 4 fails to reject all the second recognition result candidates, the integration unit 5 is the first recognition result candidate, and the time length of the recognition result candidate with the highest reliability and the second
  • the reliability of each recognition result candidate of the second recognition result candidate is corrected based on the difference in time length of each of the recognition result candidates, and sorting is performed based on the corrected reliability. Also good.
  • FIG. 2 is a block diagram showing the configuration of the recognition engine.
  • the first and second recognition engines 2 a and 2 b include a detection unit 20, a voice signal processing unit 21, a collation unit 22, and a voice recognition dictionary 23.
  • the detection unit 20 receives the audio signal output from the audio input unit 1 and detects the start time and the end time of the utterance of the audio signal.
  • the speech time (voiced section) portion of the audio signal determined from the start time and the end time detected by the detection unit 20 is output to the audio signal processing unit 21.
  • FIG. 3 is a diagram showing an example of voice start / end detection, in which the voice start and end times are detected from the entire input voice signal to classify the voice unvoiced and voiced sections (speech times). Yes.
  • the start and end of the utterance are determined by the amplitude size of the audio signal. For example, in the voice waveform of the voice signal, the time point when the amplitude exceeding the amplitude reference value is first detected along the time axis is determined as the start time. Further, the end time is determined when the last amplitude exceeding the amplitude reference value is detected along the time axis.
  • the voice signal processing unit 21 inputs the voiced section portion of the voice signal detected by the detection unit 20, and performs signal processing such as fast Fourier transform, filter analysis, linear prediction analysis, and cepstrum analysis on the voiced section portion. And extract speech feature parameters. The extracted speech feature parameters are output to the collation unit 22.
  • the collation unit 22 collates the voice feature parameter of the voice signal extracted by the voice signal processing unit 21 with a plurality of voice feature parameters stored in the voice recognition dictionary 23, and the voice registered in the voice recognition dictionary 23. A recognition result from which a speech feature parameter having a high similarity to the feature parameter is obtained is output. At this time, the collation unit 22 outputs a value obtained by normalizing the height of the similarity as the reliability of the recognition result. Furthermore, the time length of the recognition result calculated in the collation process is output.
  • the voice recognition dictionary 23 is dictionary data in which one or more word strings to be recognized are registered together with their voice feature parameters.
  • the first and second recognition engines 2a and 2b have a speech recognition dictionary 23 in which word strings having different lengths are registered.
  • the speech recognition dictionary 23 of the first recognition engine 2a at least one word string including a part of the word string registered in the speech recognition dictionary 23 of the second recognition engine 2b is registered.
  • the word string registered in the speech recognition dictionary 23 changes according to the recognition mode of the speech recognition device. For example, when the address recognition mode is set, the speech recognition dictionary 23 of the first recognition engine 2a registers word strings belonging to the address category such as “California Los Angeles” and “California San Diego”. On the other hand, since the second recognition engine 2b is a recognition engine that recognizes a word string shorter than the first recognition engine 2a, a word such as “California” is registered in the speech recognition dictionary 23 of the second recognition engine 2b. Is done.
  • the word “California” registered in the speech recognition dictionary 23 of the second recognition engine 2 b is changed to “California Los” registered in the speech recognition dictionary 23 of the first recognition engine 2 a. It overlaps with a part of a word string such as “Angeles” or “California San Diego”.
  • a word string belonging to the address category is registered in the speech recognition dictionary 23 .
  • the first and second word sequences are set.
  • word strings belonging to the name category are registered. That is, by changing the mode, word strings belonging to categories other than addresses and names can also be registered in the speech recognition dictionary 23.
  • the voice input unit 1, the voice recognition unit 2, the first and second recognition candidate acquisition units 3a and 3b, the determination unit 4 and the integration unit 5 are programmed by the microcomputer with a program describing processing unique to the present invention. By executing, it can be realized as a specific means in which hardware and software cooperate.
  • FIG. 5 is a flowchart showing the operation of the speech recognition apparatus according to the first embodiment.
  • the first recognition engine 2a and the second recognition engine 2b having different speech recognition dictionaries 23 as described above perform speech recognition processing on the speech signals input from the speech input unit 1 (steps). ST1).
  • the first recognition engine can recognize at least one word string including a part of the word string that can be recognized by the second recognition engine.
  • the first and second recognition candidate acquisition units 3a and 3b receive the recognition result candidate character strings, the recognition result candidate reliability, and the recognition result candidate time from the first and second recognition engines 2a and 2b.
  • the length is acquired (step ST2).
  • the speech recognition processing results of the first and second recognition engines 2a and 2b are output from the first and second recognition candidate acquisition units 3a and 3b to the determination unit 4.
  • the determination unit 4 calculates a difference between the time length of the recognition result candidate with the highest reliability among the first recognition result candidates and the time length of the recognition result candidate with the highest reliability among the second recognition result candidates. To do. In this way, the probability of the recognition result is evaluated based on the difference between the time lengths of the recognition result candidates detected by the speech recognition of the first and second recognition engines 2a and 2b and the reliability of the recognition result candidates. Thus, it is possible to select a reliable recognition result candidate with higher accuracy.
  • the determination unit 4 is the first recognition result candidate, the time length of the recognition result candidate having the highest reliability, and the second recognition result candidate, the recognition result candidate having the highest reliability. It is determined whether or not the difference from the time length is greater than or equal to a predetermined first threshold (step ST3).
  • the first threshold value is, for example, the time length of the word string registered by the determination unit 4 in the speech recognition dictionary 23 of the first recognition engine 2a and the speech recognition dictionary 23 of the second recognition engine 2b. Is calculated in advance, and a value obtained by performing statistical processing such as averaging on the difference is calculated.
  • the first threshold is variably set according to the category of the word strings registered in the speech recognition dictionary 23 of the first recognition engine 2a and the speech recognition dictionary 23 of the second recognition engine 2b. . That is, as described with reference to FIG. 4, the speech recognition dictionary 23 registers word strings that belong to a category corresponding to the recognition mode of the speech recognition device, so that the determination unit 4 performs the above-described process according to the recognition mode.
  • the threshold value of 1 is changed. By doing in this way, it becomes possible for the determination part 4 to reject a recognition result candidate more accurately also considering the recognition mode of a speech recognition apparatus.
  • the determination unit 4 rejects the second recognition result candidate (step ST4).
  • the recognition result candidates that have been misrecognized are accurately rejected by performing correct / incorrect determination based on the difference in time length of the recognition result candidates. Is possible.
  • the first and second recognition result candidates are output from the determination unit 4 to the integration unit 5.
  • the integration unit 5 acquires the first and second recognition result candidates from the determination unit 4, the integration unit 5 integrates them into one recognition result candidate group (step ST5).
  • the integration unit 5 integrates the first and second recognition result candidates, or when the second recognition candidates are rejected and the remaining first recognition result candidates are input in the process of step ST4,
  • the recognition result candidates are sorted in descending order of reliability (step ST6). By doing in this way, the result of having selected a reliable recognition result candidate can be shown to a user according to reliability. If the difference in the time length of the recognition result candidate is less than the first threshold (step ST3; NO) and the determination unit 4 cannot reject the second recognition result candidate, the recognition calculated in step ST3 is performed.
  • the reliability of each recognition result candidate of the second recognition result candidates may be corrected based on the difference between the time lengths of the result candidates, and sorting may be performed based on the corrected reliability. Moreover, you may output from the upper rank to a predetermined rank as a final recognition result candidate.
  • the voice input unit 1 collects the voice and outputs the voice signal “California Los Angeles” to the first and second recognition engines 2a and 2b.
  • the first and second recognition engines 2a and 2b perform a speech recognition process on the speech signal of “California Los Angeles”.
  • the word strings shown in FIG. 4 are registered in the speech recognition dictionary 23 of the first and second recognition engines 2a and 2b.
  • the first and second recognition candidate acquisition units 3a and 3b receive a recognition result candidate character string, a recognition result candidate reliability, and a recognition result candidate from the first and second recognition engines 2a and 2b.
  • the time length is acquired and output to the determination unit 4.
  • An example of the first and second recognition result candidates acquired by the first and second recognition candidate acquisition units 3a and 3b is shown in FIG.
  • the determination unit 4 starts from 4000 ms, which is the first recognition result candidate and the highest reliability “California Los Angeles”, and is the second recognition result candidate and the highest reliability of “California”.
  • a difference of 1500 ms is calculated by subtracting the time length of 2500 ms.
  • the determination unit 4 compares the time length difference 1500 ms with a predetermined first threshold.
  • the first threshold is set to 1000 ms in consideration of the difference in time length of the word strings registered in the speech recognition dictionary 23 of each recognition engine.
  • the determination unit 4 rejects all the second recognition result candidates.
  • the candidate having the highest reliability is “California” having the second recognition result candidate and the reliability of 6000.
  • reliability is used as a selection criterion, and “California Los Angeles” is uttered, but “California” obtained by the speech recognition of the second recognition engine 2b is final. It may be output as a recognition result.
  • the integration unit 5 sorts the first recognition result candidates in descending order of reliability.
  • the second recognition result candidate when the difference in time length of each recognition result candidate is smaller than the first threshold value and the second recognition result candidate is not rejected, the second recognition result based on the difference in time length of the recognition result candidate.
  • the reliability of each candidate recognition result candidate may be corrected and sorted based on the corrected reliability. For example, when the reliability is corrected for the second recognition result candidates shown in FIG. 6, first, the time length of all the second recognition result candidates and the recognition with the highest reliability among the first recognition result candidates. The difference with the time length of the result candidate is calculated. Next, a weight is calculated for each recognition result candidate from the difference in time length of all recognition result candidates, and the reliability is corrected by multiplying the reliability of each recognition result candidate by the weight. At this time, for example, when the difference is “0”, the weight is set to “1”, and the weight is made closer to 0 as the difference becomes larger, so that the reliability is reduced.
  • the speech recognition unit including the first recognition engine capable of recognizing a predetermined word string and the second recognition engine capable of recognizing a part of the word string. 2 and the first and second recognition result candidates based on the difference between the time lengths of the first and second recognition result candidates, which are the recognition results in the speech recognition of the first and second recognition engines 2a and 2b.
  • a determination unit 4 that employs one or more likely recognition result candidates.
  • the speech recognition unit 2 includes a first recognition engine that can recognize a predetermined word string and a second recognition engine that can recognize a part of the word string.
  • the determination unit 4 has a difference in time length between the first and second recognition result candidates, which is recognition by the first and second recognition engines 2a and 2b, equal to or greater than a predetermined first threshold.
  • the second recognition result candidate is rejected, and the first recognition result candidate is adopted as a probable candidate. In this way, by performing correct / incorrect determination based on the difference in time length of recognition result candidates, it is possible to accurately reject recognition result candidates that have been erroneously recognized.
  • the determination unit 4 recognizes the difference between the time lengths of the first and second recognition result candidates, which are the recognition results of the first and second recognition engines 2a and 2b.
  • the probability of the recognition result candidate is evaluated based on the reliability of the result candidate. In this way, it is possible to select a certain recognition result candidate with higher accuracy.
  • the determination part 4 changes a 1st threshold value according to the category of the word string made into recognition object. In this way, it is possible to select recognition result candidates with higher accuracy in consideration of the recognition mode.
  • FIG. FIG. 7 is a block diagram showing the configuration of the speech recognition apparatus according to Embodiment 2 of the present invention.
  • the speech recognition apparatus shown in FIG. 7 is an apparatus that is used as an input unit of a navigation apparatus or an audio apparatus that is mounted or brought into a vehicle, for example, as in the first embodiment.
  • the configuration includes a voice input unit 1, a voice recognition unit 2, first and second recognition candidate acquisition units 3a and 3b, a determination unit 4A, an integration unit 5 and a detection unit 6.
  • FIG. 7 the same components as those in FIG.
  • the correctness of the recognition result candidates is determined by comparing the time lengths of the first and second recognition result candidates, which are the recognition results in the speech recognition of two or more recognition engines.
  • the second embodiment includes a detection unit 6 separately from the recognition engine, and the determination unit 4A detects the speech utterance length of the voice acquired by the voice input unit 1 detected by the detection unit 6 (hereinafter, referred to as the speech duration). , Described as acquisition voice time length) as a reference value for correct / incorrect determination.
  • the detection unit 6 determines the acquired voice time length that is a reference value to be compared with the time length of each recognition result candidate in the determination unit 4A. For example, like the detection unit 20 included in the recognition engine, the detection unit 6 detects the acquired voice time length from the voice signal input by the voice input unit 1 and outputs it to the determination unit 4A.
  • the utterance time information may be calculated using a different algorithm for each recognition engine.
  • the acquired voice time length output from the detection unit 6 is a reference value for comparing recognition engines that use different algorithms. Examples of recognition engines that use different speech recognition algorithms include NuCon's VoCon, Google's Google speech search, Nagoya Institute of Technology and Kyoto University's Julius. The names of these recognition engines are registered as trademarks.
  • the voice input unit 1, the voice recognition unit 2, the first and second recognition candidate acquisition units 3a and 3b, the determination unit 4A, the integration unit 5 and the detection unit 6 are programs in which processes unique to the present invention are described. Can be realized as a specific means in which hardware and software cooperate.
  • FIG. 8 is a flowchart showing the operation of the speech recognition apparatus according to the second embodiment.
  • the first recognition engine 2 a and the second recognition engine 2 b perform voice recognition processing on the voice signal input from the voice input unit 1.
  • the detection unit 6 detects the acquired audio time length from the audio signal input by the audio input unit 1.
  • the first and second recognition candidate acquisition units 3a and 3b obtain the character string of the recognition result candidate, the reliability of the recognition result candidate, and the time length of the recognition result candidate from the first and second recognition engines 2a and 2b. get.
  • the speech recognition processing results of the first and second recognition engines 2a and 2b are output from the first and second recognition candidate acquisition units 3a and 3b to the determination unit 4. Further, the acquired voice time length detected by the detection unit 6 is output to the determination unit 4A as a reference value.
  • the determination unit 4A detects the character string of the recognition result candidate acquired by the first and second recognition candidate acquisition units 3a and 3b, the reliability of the recognition result candidate and the time length of the recognition result candidate, and the detection unit 6 detects The acquired voice time length that is the reference value is acquired (step ST1a).
  • the determination unit 4A calculates the difference between the time lengths of all the recognition result candidates acquired from the first and second recognition candidate acquisition units 3a and 3b and the acquired speech time length as the reference value. Find the absolute value. Subsequently, the determination unit 4A compares the absolute value of the difference with a predetermined second threshold value, and determines whether or not the absolute value of the difference is greater than or equal to the second threshold value (step ST2a). When the absolute value of the difference is equal to or greater than the second threshold (step ST2a; YES), the determination unit 4A rejects the recognition result candidate from which the absolute value of the difference is obtained (step ST3a). Thereafter, the process returns to step ST2a, and the correctness determination is repeated until all the recognition result candidates are completed.
  • the integration unit 5 integrates the remaining recognition result candidates that have not been rejected by the determination unit 4A out of the first and second recognition result candidates into one recognition result candidate group (step ST4a). Finally, the integration unit 5 sorts the recognition result candidates in the recognition result candidate group in descending order of reliability (step ST5a). Here, the integration unit 5 recognizes the recognition result for each recognition result candidate in the recognition result candidate group based on the difference between the acquired speech time length as the reference value calculated in step ST2a and the time length of the recognition result candidate. A correction is performed to reduce the reliability of the candidate.
  • the second recognition result candidate that could not be rejected is corrected in the direction of lowering the reliability. And you may sort based on the reliability after the said correction
  • FIG. 9 is a diagram illustrating a result of comparing the time length of the recognition result candidate and the acquired speech time length, and correctness determination based on the second threshold is performed on six recognition result candidates.
  • 4100 ms is set as the acquired voice time length and 800 ms is set as the second threshold for correctness determination.
  • the absolute value of the difference from the acquired speech time length is 100, which is smaller than the second threshold 800. Adopted as a candidate.
  • the absolute value of the difference from the acquired speech time length is 900, which is larger than the second threshold value 800, so this recognition result candidate is rejected.
  • the determination unit 4A performs the same process as described above on all recognition result candidates.
  • FIG. 10 is a diagram illustrating a process for determining an acquired voice time length that is a reference value using a setting value corresponding to a category of a word string to be recognized.
  • the detection unit 6 determines, as the start time, the time point when the amplitude exceeding the amplitude reference value is first detected along the time axis in the sound waveform of the input sound signal.
  • a period in which an amplitude that is less than the amplitude reference value along the time axis and that exceeds the amplitude reference value is detected is set as a termination candidate.
  • FIG. 10 shows a case where there are two utterance termination candidates.
  • Candidate (1) has an unvoiced interval of 0.7 s
  • candidate (2) has an unvoiced interval of 3.0 s.
  • the detection unit 6 is set with a third threshold value corresponding to the category of the word string to be recognized in order to detect the terminal time of the utterance. That is, when the silent section of the termination candidate continues for the third threshold or more, the detection unit 6 detects this candidate as the termination position of the input voice signal.
  • the third threshold is set to 1.0 s or more, and the telephone number recognition mode, ie, the recognition target and When the category of the word string to be set is “telephone number”, the threshold is set to 0.5 s or more.
  • the detection unit 6 detects the candidate (2) in which the silent section continues for 1.0 s or more as the end of the utterance.
  • the detection unit 6 detects the candidate (1) in which the silent period continues for 0.5 s or longer as the end of the utterance.
  • the third threshold for end detection may be changed according to the category of the word string to be recognized.
  • the detection unit 6 detects the end time of the utterance with the third threshold value corresponding to the category of the word string to be recognized as described above, and detects the acquired voice time length that is the reference value. That is, the detection unit 6 determines the acquired voice time length serving as the reference value based on the category of the recognition target word string and the voice waveform of the input voice. Since the user speaks according to the recognition mode of the speech recognition device, the reference value is determined based on the category of the word string to be recognized and the speech waveform of the input speech, so that the reference value corresponding to the actual input speech Can be detected. As a result, it is possible to employ a reliable recognition candidate with high accuracy.
  • FIG. 7 shows the case where the speech recognition unit 2 includes the first and second recognition engines 2a and 2b, the speech recognition unit 2 only needs to include two or more recognition engines.
  • the speech recognition unit 2 including the first and second recognition engines 2a and 2b that recognize the input speech, and the first and second recognition engines 2a and 2b.
  • the first and second recognition engines 2a are based on the difference between the time length of the recognition result candidate that is the recognition result and the acquired speech time length detected by the detection unit 6 different from the detection unit 20 of the recognition engine.
  • 2b and a determination unit 4A that adopts a probable recognition result candidate from among the recognition result candidates that are the recognition results in 2b.
  • the determination unit 4A has a difference between the time length of the recognition result candidate detected by the voice recognition of the first and second recognition engines 2a and 2b and the acquired voice time length.
  • the candidate of the recognition result which becomes more than the predetermined 2nd threshold value is rejected, and the rest is adopted as a probable recognition result candidate.
  • the detection unit 6 that determines the acquired voice time length based on the category of the word string to be recognized and the voice waveform of the input voice is provided.
  • any combination of each embodiment, any component of each embodiment can be modified, or any component can be omitted in each embodiment. .
  • the speech recognition apparatus is suitable for an input means such as an in-vehicle navigation device, for example, because a candidate for a recognition result that is probable from the speech recognition result of the recognition engine can be accurately adopted.
  • 1 speech input unit 2 speech recognition unit, 2a first recognition engine, 2b second recognition engine, 3a first recognition candidate acquisition unit, 3b second recognition candidate acquisition unit, 4 determination unit, 5 integration unit, 6,20 detection part, 21 voice signal processing part, 22 collation part, 23 voice recognition dictionary.

Abstract

 予め定められた単語列を認識可能な第1の認識エンジンと前記単語列の一部を認識可能な第2の認識エンジンからなる音声認識部2と、第1および第2の認識エンジン2a,2bの音声認識での認識結果である、第1および第2の認識結果候補の時間長の差に基づいて、第1および第2認識結果候補の中から、一または複数の確からしい認識結果候補を採用する判定部4を備える。

Description

音声認識装置
 この発明は、複数の音声認識結果から確からしい認識結果候補を採用して出力する音声認識装置に関する。
 従来、認識可能な語彙の分野、環境が異なる複数の認識エンジンを併用して音声認識を行い、得られた認識結果の中から確からしい認識結果を取得する音声認識装置が提案されている(例えば、特許文献1参照)。
特開2007-33671号公報
 従来は、複数の認識エンジンで得られた認識結果から最終的な認識結果を選択する際、複数の認識エンジンのそれぞれの基準で決定された認識結果の信頼度を比較して最も信頼度の高い認識結果を選択するか、または複数の認識エンジンの全ての認識結果を信頼度が高い順にソートして信頼度が高い認識結果を選択していた。
 このため、ある認識エンジンで認識可能な単語または単語列(以下、単語列と記載し、単語列には1つの単語も含むとする)の一部分と他の認識エンジンで認識可能な単語列が一致する場合、ある認識エンジンで認識されるべき結果が他の認識エンジンの結果として誤認識される可能性があるという課題があった。
 例えば、第1の認識エンジンと第1の認識エンジンよりも短い単語列を認識可能な第2の認識エンジンとを利用して、“California Los Angeles”と発話された場合を考える。この場合、第1の認識エンジンの認識結果が確からしいとして選択されるべきであるが、“California”という単語は、第2の認識エンジンでも認識可能である。すなわち、発話音声には“California”という第1および第2の認識エンジンで認識可能な単語が含まれているため、第1および第2の認識エンジンのそれぞれの基準で決定された認識結果の信頼度によっては、第2の認識エンジンの結果が最終的な認識結果として誤って選択される可能性がある。
 この発明は、上記のような課題を解決するためになされたもので、認識エンジンの音声認識結果から確からしい認識結果の候補を精度よく採用することができる音声認識装置を得ることを目的とする。
 この発明に係る音声認識装置は、発話された音声を入力する音声入力部と、音声入力部から取得した音声をそれぞれ認識する複数の認識エンジンからなる音声認識部と、複数の認識エンジンで認識した認識結果候補がそれぞれ有する時間長の差に基づいて、認識結果候補から一または複数の認識結果候補を採用する判定部とを備える。
 この発明によれば、認識エンジンの音声認識結果から確からしい認識結果の候補を精度よく採用することができるという効果がある。
この発明の実施の形態1に係る音声認識装置の構成を示すブロック図である。 認識エンジンの構成を示すブロック図である。 音声始終端検出の一例を示す図である。 第1および第2の認識エンジンで認識可能な単語列を例示する図である。 実施の形態1に係る音声認識装置の動作を示すフローチャートである。 第1および第2の認識エンジンの出力情報を例示する図である。 この発明の実施の形態2に係る音声認識装置の構成を示すブロック図である。 実施の形態2に係る音声認識装置の動作を示すフローチャートである。 認識結果候補の時間長と取得音声時間長とを比較した結果を例示する図である。 認識対象の単語列のカテゴリに応じた設定値を用いて発話時間の基準値を決定する処理を示す図である。
 以下、この発明をより詳細に説明するため、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
 図1は、この発明の実施の形態1に係る音声認識装置の構成を示すブロック図である。図1に示す音声認識装置は、例えば、車両内に搭載または持ち込みされたナビゲーション装置やオーディオ装置の入力手段として利用される装置である。その構成として、音声入力部1、音声認識部2、第1および第2の認識候補取得部3a,3b、判定部4および統合部5を備える。
 音声入力部1は、発話された音声を集音して入力信号を取得する機能を有し、例えば、マイクロフォンなどから入力された音声信号をデジタル信号に変換する。
 音声認識部2は、音声入力部1から出力された同一の音声信号をそれぞれ音声認識する第1および第2の認識エンジン2a,2bを備える。
 第1および第2の認識エンジン2a,2bは、入力された音声信号に対して音声認識処理を実施して、認識結果の文字列、認識結果の信頼度および認識結果の時間長を出力する。ここで、第1の認識エンジンは、第2の認識エンジンで認識可能な単語列の一部を含む単語列を、少なくとも一つ以上は認識可能であるものとする。
 なお、実施の形態1においては、第2の認識エンジン2bで認識可能な単語列を構成する単語数が、第1の認識エンジン2aで認識可能な単語列を構成する単語数以下であるものとして説明する。
 具体的には、第1の認識エンジン2aはアメリカの州名と市名を組み合わせた単語列を認識可能であり、第2の認識エンジン2bは州名を認識可能であるとする。
 また、この実施の形態1において、音声認識部2は2つの認識エンジンを備えるものとしているが、他の認識エンジンで認識可能な単語列の一部を含む単語列を少なくとも一つ以上は認識可能である認識エンジンを備えるならば、3つ以上の認識エンジンを備えていてもよい(実施の形態2においても同様である)。
 第1および第2の認識候補取得部3a,3bは、音声認識部2の第1および第2の認識エンジン2a,2bと接続している。第1および第2の認識候補取得部3a,3bは、第1および第2の認識エンジン2a,2bの音声認識処理結果から、認識結果の文字列を認識結果候補として取得し、さらに認識結果候補の信頼度およびこの認識結果候補の時間長を取得する。
 なお、以降の説明において、第1の認識候補取得部3aにより第1の認識エンジン2aから取得された認識結果候補を“第1の認識結果候補”と記載する。
 また、第2の認識候補取得部3bにより第2の認識エンジン2bから取得された認識結果候補を“第2の認識結果候補”と記載する。
 判定部4は、第1の認識結果候補の時間長と第2の認識結果候補の時間長との差に基づいて、認識結果候補の正誤判定を実施する。正誤判定において、判定部4は、誤認識と判定された認識結果候補を棄却し、残りの認識結果候補を確からしい認識結果候補として採用する。
 例えば、判定部4は、第1の認識結果候補であって、最も信頼度が高い認識結果候補の時間長と、第2の認識結果候補の全ての認識結果候補の時間長の差を算出する。そして、当該時間長の差が、予め定めた第1の閾値以上(または、閾値より大きい)である第2の認識結果候補を棄却する。そして、第1の認識結果候補と棄却されなかった第2の認識結果候補を採用し認識結果統合部5に出力する。
 他の方法として、例えば、第1の認識結果候補であって、最も信頼度が高い認識結果候補の時間長と、第2の認識結果候補であって、最も信頼度が高い認識結果候補の時間長との差を算出する。そして、当該時間長の差が予め定めた第1の閾値以上(または、閾値より大きい)である場合は、第2の認識結果候補を全て棄却し、第1の認識結果候補を採用する。そして、当該採用した認識結果候補を統合部5に出力する。
 統合部5は、第1および第2の認識候補取得部3a,3bが取得したそれぞれの認識結果候補のうち、判定部4が確からしいとして採用した認識結果候補を統合して一つの認識結果候補群とし、認識候補群における認識結果候補を信頼度の高い順にソートする。
 なお、統合部5は、判定部4によって第2の認識結果候補を全て棄却できなかった場合は、第1の認識結果候補であって、最も信頼度が高い認識結果候補の時間長と第2の認識結果候補のそれぞれの認識結果候補の時間長の差に基づいて、第2の認識結果候補のそれぞれの認識結果候補の信頼度を補正し、当該補正後の信頼度に基づいてソートするとしてもよい。
 図2は、認識エンジンの構成を示すブロック図である。第1および第2の認識エンジン2a,2bは、図2に示すように、検出部20、音声信号処理部21、照合部22および音声認識辞書23を備えて構成される。
 検出部20は、音声入力部1から出力された音声信号を入力して、この音声信号の発話の始端時間と終端時間を検出する。検出部20によって検出された始端時間と終端時間とから判断された音声信号の発話時間(有声区間)部分は、音声信号処理部21に出力される。
 図3は、音声始終端検出の一例を示す図であって、入力された音声信号全体から発話の始端時間と終端時間を検出して音声の無声区間と有声区間(発話時間)を分類している。図3に示すように、発話の始終端は、音声信号の振幅サイズによって決定される。
 例えば、音声信号の音声波形において、時間軸に沿って最初に振幅基準値を超える振幅が検出された時点を始端時間に決定する。また、時間軸に沿って最後に振幅基準値を超える振幅が検出された時点を終端時間に決定する。
 音声信号処理部21は、検出部20で検出された音声信号の有声区間部分を入力して、この有声区間部分に対して高速フーリエ変換、フィルタ分析、線形予測分析、ケプストラム分析などの信号処理を実施し、音声特徴パラメータを抽出する。抽出された音声特徴パラメータは、照合部22へ出力される。
 照合部22は、音声信号処理部21で抽出された音声信号の音声特徴パラメータと音声認識辞書23に格納される複数の音声特徴パラメータとを照合して、音声認識辞書23に登録されている音声特徴パラメータとの類似度が高い音声特徴パラメータが得られた認識結果を出力する。このとき、照合部22は、類似度の高さを正規化した値を認識結果の信頼度として出力する。さらに、照合処理の際に算出された認識結果の時間長を出力する。
 音声認識辞書23は、認識対象となる一つ以上の単語列がその音声特徴パラメータとともに登録された辞書データである。実施の形態1において、第1および第2の認識エンジン2a,2bは、異なる長さの単語列が登録された音声認識辞書23を有している。
 第1の認識エンジン2aの音声認識辞書23には、第2の認識エンジン2bの音声認識辞書23に登録されている単語列の一部を含む単語列が、少なくとも一つ以上登録されている。
 音声認識辞書23に登録される単語列は音声認識装置の認識モードに応じて変化する。例えば、住所の認識モードが設定された場合、第1の認識エンジン2aの音声認識辞書23には、“California Los Angeles”、“California San Diego”といった住所のカテゴリに属する単語列が登録される。
 一方、第2の認識エンジン2bは、第1の認識エンジン2aよりも短い単語列を認識する認識エンジンであるので、“California”といった単語が、第2の認識エンジン2bの音声認識辞書23に登録される。
 このように、図4では、第2の認識エンジン2bの音声認識辞書23に登録されている“California”の単語は、第1の認識エンジン2aの音声認識辞書23に登録されている“California Los Angeles”、“California San Diego”などの単語列の一部分に重複している。
 なお、音声認識装置の認識モードである場合に、住所のカテゴリに属する単語列を音声認識辞書23に登録する例を示したが、名前の認識モードを設定することにより、第1および第2の認識エンジン2a,2bの音声認識辞書23には、名前のカテゴリに属する単語列が登録される。すなわち、モードを変更することにより、住所や名前以外のカテゴリに属する単語列も音声認識辞書23に登録することができる。
 なお、音声入力部1、音声認識部2、第1および第2の認識候補取得部3a,3b、判定部4および統合部5は、この発明に特有な処理が記述されたプログラムをマイクロコンピュータが実行することにより、ハードウェアとソフトウェアとが協働した具体的な手段として実現することができる。
 次に動作について説明する。
 図5は、実施の形態1に係る音声認識装置の動作を示すフローチャートである。
 最初に、上述のように異なる音声認識辞書23を有する第1の認識エンジン2aおよび第2の認識エンジン2bが、音声入力部1から入力された音声信号に対して音声認識処理を実施する(ステップST1)。このとき、図4で示すように、第1の認識エンジンは、第2の認識エンジンで認識可能な単語列の一部を含む単語列を、少なくとも一つ以上は認識可能であるものとする。
 次に、第1および第2の認識候補取得部3a,3bが、第1および第2の認識エンジン2a,2bから、認識結果候補の文字列、認識結果候補の信頼度および認識結果候補の時間長を取得する(ステップST2)。第1および第2の認識エンジン2a,2bの音声認識処理結果は、第1および第2の認識候補取得部3a,3bから判定部4へ出力される。
 判定部4は、第1の認識結果候補のうち信頼度が最も高い認識結果候補の時間長と、第2の認識結果候補のうち信頼度が最も高い認識結果候補の時間長との差分を算出する。このように第1および第2の認識エンジン2a,2bの音声認識でそれぞれ検出された認識結果候補の時間長の差と認識結果候補の信頼度とに基づいて認識結果の確からしさを評価することで、より精度よく確からしい認識結果候補を選別することが可能となる。
 次に、判定部4は、第1の認識結果候補であって、最も信頼度が高い認識結果候補の時間長と、第2の認識結果候補であって、最も信頼度が高い認識結果候補の時間長との差分が予め定めた第1の閾値以上であるか否かを判定する(ステップST3)。
 ここで、第1の閾値は、例えば、判定部4が、第1の認識エンジン2aの音声認識辞書23と第2の認識エンジン2bの音声認識辞書23とに登録されている単語列の時間長の差分を予め計算して、それらに平均などの統計的な処理を施して得た値とする。
 この場合、第1の閾値は、第1の認識エンジン2aの音声認識辞書23と第2の認識エンジン2bの音声認識辞書23に登録されている単語列のカテゴリに応じて可変的に設定される。
 すなわち、音声認識辞書23は、図4を用いて説明したように、音声認識装置の認識モードに対応したカテゴリに属する単語列が登録されるので、判定部4が、認識モードに応じて上記第1の閾値を変更することになる。このようにすることで、判定部4は、音声認識装置の認識モードも考慮してより精度よく認識結果候補を棄却することが可能となる。
 時間長の差分が第1の閾値以上である場合(ステップST3;YES)、判定部4は、第2の認識結果候補を棄却する(ステップST4)。このように、認識可能な単語列の長さが異なる認識エンジンを利用する場合において、認識結果候補の時間長の差分に基づく正誤判定を実施することによって誤認識された認識結果候補を精度よく棄却することが可能である。
 一方、認識結果候補の時間長の差分が第1の閾値未満であれば(ステップST3;NO)、第1および第2の認識結果候補が判定部4から統合部5へ出力される。統合部5は、判定部4から第1および第2の認識結果候補を取得すると、これらを1つの認識結果候補群に統合する(ステップST5)。
 統合部5は、第1および第2の認識結果候補を統合するか、または、ステップST4の処理で第2の認識候補が棄却されて残りの第1の認識結果候補が入力された場合、これらの認識結果候補を信頼度が高い順にソートする(ステップST6)。このようにすることで、確からしい認識結果候補を選別した結果を信頼度に応じてユーザに提示することができる。
 なお、認識結果候補の時間長の差分が第1の閾値未満(ステップST3;NO)であり、判定部4が、第2の認識結果候補を棄却できなかった場合は、ステップST3で算出した認識結果候補の時間長の差分に基づいて、第2の認識結果候補のそれぞれの認識結果候補の信頼度を補正し、当該補正後の信頼度に基づいてソートするとしてもよい。
 また、上位から予め定めた順位までを最終的な認識結果候補として出力してもよい。
 次に具体例を挙げて説明する。
 “California Los Angeles”という音声が発話された場合に、音声入力部1は、発話音声を集音して“California Los Angeles”という音声信号を第1および第2の認識エンジン2a,2bに出力する。
 第1および第2の認識エンジン2a,2bは、“California Los Angeles”の音声信号について音声認識処理を実施する。このとき、第1および第2の認識エンジン2a,2bの音声認識辞書23には、図4に示す単語列が登録されているものとする。
 次に、第1および第2の認識候補取得部3a,3bは、第1および第2の認識エンジン2a,2bから、認識結果候補の文字列、認識結果候補の信頼度、および認識結果候補の時間長を取得し判定部4に出力する。第1および第2の認識候補取得部3a,3bにより取得された、第1および第2の認識結果候補の一例を図6に示す。
 判定部4は、第1の認識結果候補であって最も信頼度が高い“California Los Angeles”の時間長である4000msから、第2の認識結果候補であって最も信頼度が高い“California”の時間長である2500msを差し引いた差分1500msを算出する。
 この後、判定部4は、時間長の差分1500msと予め定めた第1の閾値とを比較する。なお、第1の閾値は各認識エンジンの音声認識辞書23に登録されている単語列の時間長の差分を考慮して、1000msを設定している。
 それぞれの認識結果候補の時間長の差分である1500msは第1の閾値1000ms以上であるため、判定部4は、第2の認識結果候補を全て棄却する。
 例えば、第1および第2の認識結果候補のうち、信頼度が最も高い候補は、第2の認識結果候補で信頼度が6000の“California”である。このため、従来では、信頼度を選択基準としており、“California Los Angeles”という音声が発話されたにもかかわらず、第2の認識エンジン2bの音声認識で得られた“California”が最終的な認識結果として出力される可能性がある。
 これに対して、この発明では、認識結果候補の時間長の差分に基づき“California”が棄却されるため、正しい認識結果である“California Los Angeles”を的確に最終的な認識結果として採用することができる。
 最後に、統合部5は、第1の認識結果候補を信頼度の高い順にソートする。
 ここで、それぞれの認識結果候補の時間長の差分が第1の閾値より小さく、第2の認識結果候補が棄却されなかった場合、認識結果候補の時間長の差分に基づいて第2の認識結果候補のそれぞれの認識結果候補の信頼度を補正し、当該補正後の信頼度に基づいてソートするとしてもよい。
 例えば、図6に示した第2の認識結果候補を対象として信頼度を補正する場合、まず、全ての第2認識結果候補の時間長と第1の認識結果候補のうち最も信頼度が高い認識結果候補の時間長との差分を算出する。次に、全ての認識結果候補の時間長の差分から認識結果候補ごとに重みを計算し、各認識結果候補の信頼度にその重みを掛け合わすことで信頼度を補正する。このとき、例えば、差分が“0”の場合は重みを“1”とし、差分が大きくなるにつれて重みを0に近づけていくことで、信頼度を引き下げる方向に補正する。
 以上のように、この実施の形態1によれば、予め定められた単語列を認識可能な第1の認識エンジンと前記単語列の一部を認識可能な第2の認識エンジンからなる音声認識部2と、第1および第2の認識エンジン2a,2bの音声認識での認識結果である、第1および第2の認識結果候補の時間長の差に基づいて、第1および第2認識結果候補の中から、一または複数の確からしい認識結果候補を採用する判定部4を備える。
 このように構成することで、第1および第2の認識エンジン2a,2bでの認識結果である第1および第2の認識結果候補の中にある、明らかに誤った時間長を持つ認識結果候補を判別することができ、これ以外の認識結果候補を確からしい候補として採用することができる。すなわち、第1および第2の認識エンジン2a,2bでの認識結果である第1および第2の認識結果候補から、確からしい認識結果候補を精度よく採用することができる。
 また、この実施の形態1によれば、音声認識部2が、予め定められた単語列を認識可能な第1の認識エンジンと前記単語列の一部を認識可能な第2の認識エンジンとを有し、判定部4が、第1および第2の認識エンジン2a,2bでの認識である第1および第2の認識結果候補の時間長の差が予め定めた第1の閾値以上である場合に、第2の認識結果候補を棄却し、第1の認識結果候補を確からしい候補として採用する。このように認識結果候補の時間長の差分に基づく正誤判定を実施することによって、誤認識された認識結果候補を精度よく棄却することが可能である。
 さらに、この実施の形態1によれば、判定部4が、第1および第2の認識エンジン2a,2bでの認識結果である、第1および第2の認識結果候補の時間長の差と認識結果候補の信頼度とに基づいて認識結果候補の確からしさを評価する。このようにすることで、より精度よく確からしい認識結果候補を選別することが可能となる。
 さらに、この実施の形態1によれば、判定部4が、認識対象とする単語列のカテゴリに応じて第1の閾値を変更する。このようにすることで、認識モードも考慮してより精度よく認識結果候補を選別することが可能となる。
実施の形態2.
 図7は、この発明の実施の形態2に係る音声認識装置の構成を示すブロック図である。図7に示す音声認識装置は、実施の形態1と同様に、例えば車両内に搭載または持ち込みされたナビゲーション装置やオーディオ装置の入力手段として利用される装置である。
 その構成として音声入力部1、音声認識部2、第1および第2の認識候補取得部3a,3b、判定部4A、統合部5および検出部6を備える。
 なお、図7において、図1と同一構成要素には同一符号を付して説明を省略する。
 上記実施の形態1では、2つ以上の認識エンジンの音声認識での認識結果である第1および第2の認識結果候補の時間長を比較して認識結果候補の正誤を判定した。
 これに対して、実施の形態2は、認識エンジンとは別に検出部6を備えており、判定部4Aは、検出部6が検出した、音声入力部1が取得した音声の発話時間長(以下、取得音声時間長と記載する)を正誤判定の基準値として使用する。
 検出部6は、判定部4Aで、各認識結果候補の時間長と比較される基準値である取得音声時間長を決定する。例えば、検出部6は、認識エンジンに含まれる検出部20と同様に、音声入力部1で入力された音声信号から取得音声時間長を検出して判定部4Aに出力する。
 なお、第1および第2の認識エンジン2a,2bでは、認識エンジンごとに異なる音声認識処理を行ってもよいため、認識エンジンごとに異なるアルゴリズムで発話時間情報が算出されることがある。
 また、検出部6から出力される取得音声時間長は、異なるアルゴリズムを使用する認識エンジンを比較する基準値となる。異なる音声認識アルゴリズムを使用する認識エンジンとしては、例えばNuance社のVoCon、Google社のGoogle音声検索、名古屋工業大学と京都大学のJuliusなどが挙げられる。なお、これらの認識エンジンの名称は、それぞれ商標登録されている。
 なお、音声入力部1、音声認識部2、第1および第2の認識候補取得部3a,3b、判定部4A、統合部5および検出部6は、この発明に特有な処理が記述されたプログラムをマイクロコンピュータが実行することで、ハードウェアとソフトウェアとが協働した具体的な手段として実現することができる。
 次に動作について説明する。
 図8は、実施の形態2に係る音声認識装置の動作を示すフローチャートである。
 最初に、第1の認識エンジン2aおよび第2の認識エンジン2bが、音声入力部1から入力された音声信号に対して音声認識処理を実施する。このとき、検出部6が、音声入力部1で入力された音声信号から取得音声時間長を検出する。
 第1および第2の認識候補取得部3a,3bが、第1および第2の認識エンジン2a,2bから、認識結果候補の文字列、認識結果候補の信頼度、および認識結果候補の時間長を取得する。第1および第2の認識エンジン2a,2bの音声認識処理結果は、第1および第2の認識候補取得部3a,3bから判定部4へ出力される。また、検出部6が検出した取得音声時間長は、基準値として判定部4Aへ出力される。
 判定部4Aは、第1および第2の認識候補取得部3a,3bにより取得された認識結果候補の文字列、認識結果候補の信頼度および認識結果候補の時間長、および、検出部6が検出した基準値となる取得音声時間長を取得する(ステップST1a)。
 次いで、判定部4Aは、第1および第2の認識候補取得部3a,3bから取得した全ての認識結果候補の時間長と基準値とする取得音声時間長との差分を計算し、この差分の絶対値を求める。
 続いて、判定部4Aは、上記差分の絶対値と予め定めた第2の閾値とを比較して、差分の絶対値が第2の閾値以上であるか否かを判定する(ステップST2a)。
 上記差分の絶対値が第2の閾値以上である場合(ステップST2a;YES)、判定部4Aは、上記差分の絶対値が得られた認識結果候補を棄却する(ステップST3a)。この後、ステップST2aの処理に戻り、全ての認識結果候補について完了するまで正誤判定が繰り返される。
 次に、統合部5は、第1および第2の認識結果候補のうち、判定部4Aによって棄却されなかった残りの認識結果候補を1つの認識結果候補群に統合する(ステップST4a)。
 最後に、統合部5は、認識結果候補群における認識結果候補を信頼度の高い順にソートする(ステップST5a)。ここで、統合部5は、認識結果候補群におけるそれぞれの認識結果候補に対して、ステップST2aで計算した基準値とする取得音声時間長と認識結果候補の時間長の差分に基づいて、認識結果候補の信頼度を引き下げる補正を行う。
 すなわち、棄却できなかった第1の認識結果候補がそれぞれ有する時間長と取得音声時間長との差に基づいて棄却できなかった第1の認識結果候補の信頼度を引き下げる方向にそれぞれ補正するとともに、棄却できなかった第2の認識結果候補がそれぞれ有する時間長と取得音声時間長との差に基づいて棄却できなかった第2の認識結果候補の信頼度を引き下げる方向にそれぞれ補正する。そして、当該補正後の信頼度に基づいてソートするとしてもよい。また、上位から予め定めた順位までを最終的な認識結果候補として出力してもよい。
 次に具体例を挙げて説明する。
 図9は認識結果候補の時間長と取得音声時間長とを比較した結果を例示する図であり、6つの認識結果候補に対して第2の閾値による正誤判定を実施している。図9において、取得音声時間長として4100msが設定され、正誤判定の第2の閾値として800msが設定されているものとする。
 例えば、認識結果候補“California Los Angeles”の場合、取得音声時間長との差分の絶対値を算出すると、100となり、第2の閾値800よりも小さいため、この認識結果候補は、確からしい認識結果候補として採用される。
 一方、認識結果候補“California San Jose”の場合は、取得音声時間長との差分の絶対値が900となり、第2の閾値800よりも大きいため、この認識結果候補は棄却される。
 判定部4Aは、全ての認識結果候補に対して上記と同様の処理を実施する。
 また、基準値となる取得音声時間長は、音声認識装置の認識モード、すなわち認識対象とする単語列のカテゴリに応じて検出部6によって決定される。
 図10は、認識対象とする単語列のカテゴリに応じた設定値を用いて基準値となる取得音声時間長を決定する処理を示す図である。検出部6は、入力された音声信号の音声波形において、時間軸に沿って最初に振幅基準値を超える振幅が検出された時点を始端時間に決定する。
 また、時間軸に沿って、振幅基準値未満の振幅となりその後に振幅基準値を超える振幅が検出された期間を終端候補とする。
 図10では、発話の終端候補が2箇所存在する場合を示している。候補(1)は無声区間が0.7sであり、候補(2)は無声区間が3.0sである。
 また、検出部6には、発話の終端時間を検出するため、認識対象とする単語列のカテゴリに応じた第3の閾値が設定されている。
 すなわち、終端候補の無声区間が第3の閾値以上継続した場合、検出部6は、この候補を入力された音声信号の終端位置として検出する。
 図10の場合は、住所の認識モード、すなわち認識対象とする単語列のカテゴリが“住所”の場合、第3の閾値が1.0s以上に設定され、電話番号の認識モード、すなわち認識対象とする単語列のカテゴリが“電話番号”では閾値が0.5s以上に設定される。
 住所の認識モードが設定されている場合、検出部6は、無声区間が1.0s以上継続する候補(2)を発話の終端として検出する。また、電話番号の認識モードが設定されている場合、検出部6は、無声区間が0.5s以上継続する候補(1)を発話の終端として検出する。なお、終端検出のための第3の閾値は、認識対象とする単語列のカテゴリ応じて変更してもよい。
 検出部6は、上述のように認識対象とする単語列のカテゴリに応じた第3の閾値で発話の終端を検出して基準値となる取得音声時間長を検出する。すなわち、検出部6は、認識対象の単語列のカテゴリと入力音声の音声波形に基づいて基準値となる取得音声時間長を決定している。
 ユーザは音声認識装置の認識モードに応じた発話を行うため、認識対象とする単語列のカテゴリと入力音声の音声波形に基づいて基準値を決定することで、実際の入力音声に対応した基準値を検出することができる。これにより、確からしい認識候補を精度よく採用することが可能である。
 なお、図7では、音声認識部2が、第1および第2の認識エンジン2a,2bを備える場合を示したが、音声認識部2は2つ以上の認識エンジンを備えていればよい。
 以上のように、この実施の形態2によれば、入力音声を音声認識する第1および第2の認識エンジン2a,2bからなる音声認識部2と、第1および第2の認識エンジン2a,2bの認識結果である認識結果候補の時間長と認識エンジンが有する検出部20とは別の検出部6により検出された取得音声時間長との差に基づいて、第1および第2の認識エンジン2a,2bでの認識結果である認識結果候補の中から、確からしい認識結果候補を採用する判定部4Aとを備える。
 このように構成することで、上記実施の形態1と同様に、第1および第2の認識エンジン2a,2bでの認識結果である認識結果候補の中にある、明らかに誤った時間長を持つ認識結果候補を判別することができ、これ以外の認識結果候補を確からしい候補として採用することができる。すなわち、第1および第2の認識エンジン2a,2bでの認識結果である認識結果候補から、確からしい認識結果候補を精度よく採用することができる。
 また、この実施の形態2によれば、判定部4Aが、第1および第2の認識エンジン2a,2bの音声認識でそれぞれ検出された認識結果候補の時間長と取得音声時間長との差が予め定めた第2の閾値以上になる認識結果の候補を棄却し、残りを確からしい認識結果候補として採用する。
 このように、認識結果候補の時間長と取得音声時間長との差に基づく正誤判定を実施することによって、誤認識された認識結果候補を精度よく棄却することが可能である。
 さらに、この実施の形態2によれば、認識対象の単語列のカテゴリと入力音声の音声波形に基づいて取得音声時間長を決定する検出部6を備える。
 このように構成することで、実際の入力音声に対応した基準値を検出することができる。これにより、確からしい認識結果候補を精度よく採用することが可能である。
 なお、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
 この発明に係る音声認識装置は、認識エンジンの音声認識結果から確からしい認識結果の候補を精度よく採用することができるので、例えば車載ナビゲーション装置などの入力手段に好適である。
 1 音声入力部、2 音声認識部、2a 第1の認識エンジン、2b 第2の認識エンジン、3a 第1の認識候補取得部、3b 第2の認識候補取得部、4 判定部、5 統合部、6,20 検出部、21 音声信号処理部、22 照合部、23 音声認識辞書。

Claims (7)

  1.  発話された音声を入力する音声入力部と、
     前記音声入力部から取得した音声をそれぞれ認識する複数の認識エンジンからなる音声認識部と、
     前記複数の認識エンジンで認識した認識結果候補がそれぞれ有する時間長の差に基づいて前記認識結果候補から一または複数の認識結果候補を採用する判定部とを備える音声認識装置。
  2.  前記音声認識部は、予め定められた単語列を認識可能な第1の認識エンジンと前記単語列の一部を認識可能な第2の認識エンジンとを有し、
     前記判定部は、前記第1の認識エンジンで認識した第1の認識結果候補が有する時間長から前記第2の認識エンジンで認識した第2の認識結果候補が有する時間長を差し引いた時間長が予め定めた第1の閾値以上である場合には、前記第2の認識結果候補を棄却し、前記第1の認識結果候補を採用することを特徴とする請求項1記載の音声認識装置。
  3.  前記差し引いた時間長に基づいて、前記判定部によって棄却されなかった前記第2の認識結果候補の信頼度を引き下げる方向に補正する統合部をさらに備えることを特徴とする請求項2記載の音声認識装置。
  4.  前記判定部は、認識対象とする単語列のカテゴリに応じて前記予め定めた第1の閾値を変更することを特徴とする請求項2記載の音声認識装置。
  5.  前記取得した音声の始端から終端までの取得音声時間長を検出する検出部をさらに備え、
     前記判定部は、前記複数の認識エンジンで認識した認識結果候補がそれぞれ有する時間長と前記取得音声時間長との差が予め定めた第2の閾値以上となる認識結果候補を棄却することを特徴とする請求項1記載の音声認識装置。
  6.  前記判定部によって棄却されなかった認識結果候補がそれぞれ有する時間長と前記取得音声時間長との差に基づいて、前記棄却されなかった認識結果候補の信頼度を引き下げる方向にそれぞれ補正する統合部をさらに備えることを特徴とする請求項5記載の音声認識装置。
  7.  認識対象とする単語列のカテゴリと、前記取得した音声の終端検出の閾値とに基づいて前記取得音声時間長を決定することを特徴とする請求項5記載の音声認識装置。
PCT/JP2013/082227 2013-11-29 2013-11-29 音声認識装置 WO2015079568A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2014509532A JP5583301B1 (ja) 2013-11-29 2013-11-29 音声認識装置
CN201380019801.6A CN104823235B (zh) 2013-11-29 2013-11-29 声音识别装置
DE112013001772.5T DE112013001772B4 (de) 2013-11-29 2013-11-29 Spracherkennungssystem
US14/374,324 US9424839B2 (en) 2013-11-29 2013-11-29 Speech recognition system that selects a probable recognition resulting candidate
PCT/JP2013/082227 WO2015079568A1 (ja) 2013-11-29 2013-11-29 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/082227 WO2015079568A1 (ja) 2013-11-29 2013-11-29 音声認識装置

Publications (1)

Publication Number Publication Date
WO2015079568A1 true WO2015079568A1 (ja) 2015-06-04

Family

ID=51617794

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/082227 WO2015079568A1 (ja) 2013-11-29 2013-11-29 音声認識装置

Country Status (5)

Country Link
US (1) US9424839B2 (ja)
JP (1) JP5583301B1 (ja)
CN (1) CN104823235B (ja)
DE (1) DE112013001772B4 (ja)
WO (1) WO2015079568A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109791767A (zh) * 2016-09-30 2019-05-21 罗伯特·博世有限公司 用于语音识别的系统和方法

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10134425B1 (en) * 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
CN108701459A (zh) * 2015-12-01 2018-10-23 纽昂斯通讯公司 将来自各种语音服务的结果表示为统一概念知识库
US10062385B2 (en) * 2016-09-30 2018-08-28 International Business Machines Corporation Automatic speech-to-text engine selection
CN106601257B (zh) * 2016-12-31 2020-05-26 联想(北京)有限公司 一种声音识别方法、设备和第一电子设备
CN110299136A (zh) * 2018-03-22 2019-10-01 上海擎感智能科技有限公司 一种用于语音识别的处理方法及其系统
TWI682386B (zh) * 2018-05-09 2020-01-11 廣達電腦股份有限公司 整合式語音辨識系統及方法
US11150866B2 (en) * 2018-11-13 2021-10-19 Synervoz Communications Inc. Systems and methods for contextual audio detection and communication mode transactions
KR102577589B1 (ko) * 2019-10-22 2023-09-12 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
CN112435671B (zh) * 2020-11-11 2021-06-29 深圳市小顺智控科技有限公司 汉语精准识别的智能化语音控制方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0772899A (ja) * 1993-09-01 1995-03-17 Matsushita Electric Ind Co Ltd 音声認識装置
JPH09292899A (ja) * 1996-04-26 1997-11-11 Nec Corp 音声認識装置
JP2007033671A (ja) * 2005-07-25 2007-02-08 Nec Corp 音声認識システム、音声認識方法、および音声認識プログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5526466A (en) * 1993-04-14 1996-06-11 Matsushita Electric Industrial Co., Ltd. Speech recognition apparatus
TW323364B (ja) * 1993-11-24 1997-12-21 At & T Corp
JPH11311994A (ja) * 1998-04-30 1999-11-09 Sony Corp 情報処理装置および方法、並びに提供媒体
DE69937823T2 (de) * 1999-07-08 2008-12-24 Sony Deutschland Gmbh Verfahren zum Ermitteln eines Zuverlässigkeitsmasses für die Spracherkennung
US7228275B1 (en) * 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers
US8756058B2 (en) * 2006-02-23 2014-06-17 Nec Corporation Speech recognition system, speech recognition result output method, and speech recognition result output program
US8364481B2 (en) * 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
JP5530729B2 (ja) * 2009-01-23 2014-06-25 本田技研工業株式会社 音声理解装置
EP2221806B1 (en) * 2009-02-19 2013-07-17 Nuance Communications, Inc. Speech recognition of a list entry
CN102013253B (zh) * 2009-09-07 2012-06-06 株式会社东芝 基于语音单元语速的差异的语音识别方法及语音识别系统
JP5668553B2 (ja) * 2011-03-18 2015-02-12 富士通株式会社 音声誤検出判別装置、音声誤検出判別方法、およびプログラム
WO2014064324A1 (en) * 2012-10-26 2014-05-01 Nokia Corporation Multi-device speech recognition
CN103065627B (zh) * 2012-12-17 2015-07-29 中南大学 基于dtw与hmm证据融合的特种车鸣笛声识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0772899A (ja) * 1993-09-01 1995-03-17 Matsushita Electric Ind Co Ltd 音声認識装置
JPH09292899A (ja) * 1996-04-26 1997-11-11 Nec Corp 音声認識装置
JP2007033671A (ja) * 2005-07-25 2007-02-08 Nec Corp 音声認識システム、音声認識方法、および音声認識プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109791767A (zh) * 2016-09-30 2019-05-21 罗伯特·博世有限公司 用于语音识别的系统和方法
CN109791767B (zh) * 2016-09-30 2023-09-05 罗伯特·博世有限公司 用于语音识别的系统和方法

Also Published As

Publication number Publication date
JPWO2015079568A1 (ja) 2017-03-16
DE112013001772B4 (de) 2020-02-13
CN104823235A (zh) 2015-08-05
CN104823235B (zh) 2017-07-14
DE112013001772T5 (de) 2015-08-06
US9424839B2 (en) 2016-08-23
US20150348539A1 (en) 2015-12-03
JP5583301B1 (ja) 2014-09-03

Similar Documents

Publication Publication Date Title
JP5583301B1 (ja) 音声認識装置
EP1936606B1 (en) Multi-stage speech recognition
JP3826032B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
EP2048655B1 (en) Context sensitive multi-stage speech recognition
US20170278512A1 (en) Directional keyword verification method applicable to electronic device and electronic device using the same
JP5200712B2 (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
EP1734509A1 (en) Method and system for speech recognition
US11132998B2 (en) Voice recognition device and voice recognition method
JPH04255900A (ja) 音声認識装置
KR101122591B1 (ko) 핵심어 인식에 의한 음성 인식 장치 및 방법
CN108806691B (zh) 语音识别方法及系统
JP2016177045A (ja) 音声認識装置および音声認識プログラム
Mengusoglu et al. Use of acoustic prior information for confidence measure in ASR applications.
JPH03167600A (ja) 音声認識装置
KR100998230B1 (ko) 화자 독립 음성 인식 처리 방법
KR20140035164A (ko) 음성인식시스템의 동작방법
US20210398521A1 (en) Method and device for providing voice recognition service
KR20210052563A (ko) 문맥 기반의 음성인식 서비스를 제공하기 위한 방법 및 장치
JP4281369B2 (ja) 音声認識装置
JP2001175276A (ja) 音声認識装置及び記録媒体
JP3039095B2 (ja) 音声認識装置
Singh et al. Environment Detection Methods using Speech Signals-A Review
KR20000025827A (ko) 음성인식시스템에서의 반음소모델 구축방법및 그를 이용한 발화 검증방법
Silaghi et al. A new evaluation criteria for keyword spotting techniques and a new algorithm.
Kitaoka et al. Detection and recognition of correction utterances on misrecognition of spoken dialog system

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2014509532

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14374324

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 1120130017725

Country of ref document: DE

Ref document number: 112013001772

Country of ref document: DE

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13898396

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 13898396

Country of ref document: EP

Kind code of ref document: A1