WO2016006038A1 - 音声認識システム及び音声認識方法 - Google Patents

音声認識システム及び音声認識方法 Download PDF

Info

Publication number
WO2016006038A1
WO2016006038A1 PCT/JP2014/068191 JP2014068191W WO2016006038A1 WO 2016006038 A1 WO2016006038 A1 WO 2016006038A1 JP 2014068191 W JP2014068191 W JP 2014068191W WO 2016006038 A1 WO2016006038 A1 WO 2016006038A1
Authority
WO
WIPO (PCT)
Prior art keywords
speech recognition
speech
recognition
unit
input
Prior art date
Application number
PCT/JP2014/068191
Other languages
English (en)
French (fr)
Inventor
直哉 杉谷
岡登 洋平
道弘 山崎
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to CN201480080290.3A priority Critical patent/CN106663421B/zh
Priority to JP2016532819A priority patent/JP5996152B2/ja
Priority to US15/302,576 priority patent/US10115394B2/en
Priority to PCT/JP2014/068191 priority patent/WO2016006038A1/ja
Priority to DE112014006795.4T priority patent/DE112014006795B4/de
Publication of WO2016006038A1 publication Critical patent/WO2016006038A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Definitions

  • the present invention relates to a speech recognition system and a speech recognition method for performing speech recognition to be output from an output unit.
  • each of the plurality of speech recognition units determines a candidate character string (a character string such as a vocabulary that is highly likely to match the input speech) corresponding to the input speech as a result of speech recognition, A score value indicating the accuracy of each candidate character string (possibility that each candidate character string matches the input speech) is calculated.
  • a candidate character string a character string such as a vocabulary that is highly likely to match the input speech
  • a score value indicating the accuracy of each candidate character string is calculated.
  • the score values for several candidate character strings are different between a plurality of speech recognition units, there is a problem that the score values cannot be simply compared between the plurality of speech recognition units.
  • Patent Literature 1 a candidate character string having the highest score value is obtained by statistically processing different score values in a plurality of voice recognition units, normalizing them to a score value that can be compared between the plurality of voice recognition units. Has been proposed as a whole recognition result.
  • the input speech is recognized by the first speech recognition unit using a plurality of recognition dictionaries, and the resulting candidate character string having the higher score value is stored in the secondary determination dictionary. Then, a technique for recognizing input speech by a second speech recognition unit using the secondary determination dictionary has been proposed.
  • score values that differ between a plurality of speech recognition units are statistically processed and normalized to a score value that can be compared between the plurality of speech recognition units.
  • the score values cannot be normalized to the extent that they can be appropriately compared, and as a result, the validity is high. There is a problem that the recognition result cannot be obtained.
  • the present invention has been made in view of the above problems, and an object thereof is to provide a technique capable of obtaining a highly valid recognition result while suppressing wasteful processing.
  • the speech recognition system is a speech recognition system that performs speech recognition to be output from an output unit, and acquires a recognition result including a candidate character string corresponding to the input speech by recognizing the input speech.
  • the third voice recognition unit recognizes the input voice based on the recognition results acquired by the first, second and third voice recognition units and the first and second voice recognition units
  • the third speech recognition unit is made to recognize the input speech by using the dictionary including the candidate character string acquired by at least one of the first and second speech recognition units, and the recognition result obtained thereby is output.
  • a control unit for outputting to the control unit.
  • the speech recognition method is a speech recognition method for performing speech recognition to be output from the output unit, and by recognizing an input speech, a recognition result including a candidate character string corresponding to the input speech is obtained. Based on the recognition results acquired by the first and second voice recognition units among the first, second and third voice recognition units to be acquired, it is determined that the third voice recognition unit recognizes the input voice.
  • the third speech recognition unit recognizes the input speech using the dictionary including the candidate character string acquired by at least one of the first and second speech recognition units, and the recognition result obtained thereby A speech recognition method that causes the output unit to output.
  • FIG. 1 is a block diagram illustrating a main configuration of a speech recognition apparatus according to Embodiment 1.
  • FIG. It is a figure which shows an example of the recognition result of the input sound which concerns on Embodiment 1.
  • FIG. 1 is a block diagram showing a configuration of a speech recognition apparatus according to Embodiment 1.
  • FIG. 6 is a diagram for explaining an example of an index according to Embodiment 1.
  • FIG. 3 is a flowchart showing an operation of the speech recognition apparatus according to the first embodiment. It is a figure for demonstrating an example of the parameter
  • FIG. It is a figure for demonstrating an example of the parameter
  • 4 is a block diagram illustrating a configuration of a speech recognition apparatus according to Embodiment 2.
  • FIG. It is a block diagram which shows the main structures of the speech recognition system which concerns on another modification. It is a block diagram which shows the main structures of the speech recognition system which concerns on another modification.
  • FIG. 1 is a block diagram showing the main configuration of the speech recognition apparatus 1 according to Embodiment 1 of the present invention.
  • the speech recognition apparatus 1 in FIG. 1 includes a first speech recognition unit 11, a second speech recognition unit 12, a third speech recognition unit 13, a control unit 14, and a recognition result output unit 15. Yes.
  • the speech recognition apparatus 1 in FIG. 1 performs speech recognition to be output from the recognition result output unit 15 that is an output unit.
  • the recognition result output unit 15 may be, for example, an output terminal that outputs the recognition result obtained by voice recognition to another device, a display device that displays the recognition result, or the recognition result as a voice. It may be an audio output device that outputs.
  • the recognition result output unit 15 is provided in the voice recognition device 1, but when the recognition result output unit 15 is a display device or a voice output device, the recognition result output unit 15 is Instead of being provided in the speech recognition device 1, it may be provided in another device.
  • FIG. 2 is a diagram illustrating an example of recognition results acquired by the first to third voice recognition units 11 to 13.
  • the recognition results of the first to third speech recognition units 11 to 13 are not only the candidate character strings but also the accuracy of each candidate character string (each candidate character string can match the input speech)
  • the score value indicating the sex) is further included.
  • the control unit 14 is realized by, for example, a processor such as a CPU executing a program stored in a storage device.
  • a processor such as a CPU executing a program stored in a storage device.
  • the third speech recognition unit 13 is made to recognize the input speech using the dictionary including the candidate character strings acquired by the second speech recognition units 11 and 12, and the recognition result obtained thereby is sent to the recognition result output unit 15. Output.
  • the determination as to whether or not the third voice recognition unit 13 is to perform voice recognition may be performed by the voice recognition device 1, and the recognition results acquired by the first and second voice recognition units 11 and 12 are By being given to a device outside the speech recognition device 1, it may be performed by the device.
  • the third speech recognition unit 13 includes a candidate character string acquired by the first and second speech recognition units 11 and 12. To recognize the input voice. Thereby, for example, even if the score values of the candidate character strings acquired by the first and second speech recognition units 11 and 12 vary to such an extent that they cannot be compared, a score with a standard for the candidate character strings is unified. The value can be calculated by the third speech recognition unit 13. That is, since the score values of the first and second speech recognition units 11 and 12 can be substantially normalized, as a result, a highly valid recognition result can be obtained.
  • the control unit 14 causes the third speech recognition unit 13 to recognize the input speech based on the recognition results acquired by the first and second speech recognition units 11 and 12, 3 to recognize the input voice.
  • the recognition results of the first and second speech recognition units 11 and 12 are similar to each other, as in the case where the recognition results of the first and second speech recognition units 11 and 12 are not completely coincident but similar.
  • the third speech recognition unit 13 can recognize the input speech. Accordingly, it is possible to prevent the third voice recognition unit 13 from performing voice recognition more than necessary, and thus it is possible to suppress useless processing.
  • FIG. 3 is a block diagram showing the main configuration and additional configuration of the speech recognition apparatus 1 according to the first embodiment.
  • the voice recognition device 1 is connected to the voice input unit 51.
  • the voice input unit 51 is composed of, for example, a microphone and receives voice uttered by a user or the like.
  • the voice input unit 51 outputs the received voice as input voice to the first and second voice recognition units 11 and 12 and the voice storage unit 21.
  • the voice storage unit 21 temporarily stores the input voice received from the voice input unit 51. For example, the voice storage unit 21 stores the input voice received from the voice input unit 51 until the next input voice is received from the voice input unit 51.
  • the first and second dictionary storage units 11a and 12a and the temporary dictionary storage unit 13a are composed of a storage device such as a semiconductor memory.
  • the first to third speech recognition engines 11b, 12b, and 13b are realized by, for example, the processor executing a program including a speech recognition algorithm (for example, a hidden Markov model).
  • the first dictionary storage unit 11a stores a dictionary including a plurality of vocabularies, words or documents.
  • the first speech recognition engine 11b recognizes the input speech received from the speech input unit 51 using the dictionary in the first dictionary storage unit 11a. Specifically, the first speech recognition engine 11b determines a candidate character string (FIG. 2) corresponding to the input speech from vocabulary, words or documents included in the dictionary of the first dictionary storage unit 11a. Then, the score value (FIG. 2) of the candidate character string is calculated. Then, the first speech recognition engine 11b outputs a recognition result including the candidate character string and the score value to the control unit 14 (recognition result evaluation unit 14a).
  • both a dictionary and an algorithm are used between the first and second speech recognition units 11 and 12.
  • a different configuration or a configuration in which one of a dictionary and an algorithm (recognition method) is different between the first and second speech recognition units 11 and 12 is assumed.
  • the control unit 14 includes a recognition result evaluation unit 14a and a dictionary registration unit 14b.
  • the recognition result evaluation unit 14a shown in FIG. 3 does not completely match the recognition results acquired by the first and second speech recognition units 11 and 12, and the order distance is equal to or less than a predetermined threshold ( If it is difficult to clearly determine which one is appropriate), it is determined that the third voice recognition unit 13 recognizes the input voice. In other cases, the recognition result evaluation unit 14a determines that the third speech recognition unit 13 does not recognize the input speech.
  • the threshold value used for the determination is set based on, for example, setting values (the number of candidate character strings that can be acquired, that is, the number of list displays) and actual measurement values of the first and second speech recognition engines 11b and 12b. .
  • the recognition result evaluation unit 14a determines that the third voice recognition unit 13 does not recognize the input voice, the recognition result obtained by one of the first and second voice recognition units 11 and 12 is recognized as the recognition result. Output to the output unit 15. That is, the recognition result evaluation unit 14a (control unit 14) does not allow the third speech recognition unit 13 to recognize the input speech based on the recognition results acquired by the first and second speech recognition units 11 and 12. When it is determined, the recognition result output unit 15 outputs the recognition result acquired by one of the first and second speech recognition units 11 and 12.
  • the dictionary registration unit 14b generates the above dictionary as a list of candidate character strings, for example.
  • the dictionary registration unit 14b stores (registers) the generated dictionary in the temporary dictionary storage unit 13a.
  • the second voice recognition unit 12 is configured not to perform the same voice recognition as the first voice recognition unit 11, but similarly, the third voice recognition unit 13
  • the first and second voice recognition units 11 and 12 are configured not to perform the same voice recognition.
  • the dictionary stored in the temporary dictionary storage unit 13a includes both the candidate character strings acquired by the first and second speech recognition units 11 and 12, and the third The candidate character strings in the dictionary of the speech recognition unit 13 may not be included only in the respective dictionary of the first and second speech recognition units 11 and 12. This corresponds to the fact that the dictionary of the third speech recognition unit 13 is substantially different from the dictionary of each of the first and second speech recognition units 11 and 12, and thus the third speech recognition unit 13. Is not necessarily different from the algorithms of the first and second speech recognition units 11 and 12.
  • the recognition result output unit 15 outputs the recognition result acquired by any of the first to third voice recognition units 11 to 13.
  • the recognition result output unit 15 may output a plurality of candidate character strings sorted into score values as in the recognition result shown in FIG. 2, or output only the candidate character string having the highest score value. May be.
  • FIG. 5 is a flowchart showing the operation of the speech recognition apparatus 1 according to the first embodiment.
  • step S1 the first and second speech recognition units 11 and 12 recognize input speech.
  • step S2 the recognition result evaluation unit 14a calculates an index indicating the evaluation of the recognition result based on the recognition results of the first and second speech recognition units 11 and 12.
  • step S4 the dictionary registration unit 14b generates a dictionary from the candidate character strings acquired by the first and second speech recognition units 11 and 12.
  • step S5 the temporary dictionary storage unit 13a stores the dictionary generated in step S4.
  • step S6 the third voice recognition unit 13 (third voice recognition engine 13b) recognizes the input voice using the dictionary stored in the temporary dictionary storage unit 13a.
  • the candidate character string used for the voice recognition is deleted from the temporary dictionary storage unit 13a.
  • the control unit 14 performs the third speech based on the recognition results acquired by the first and second speech recognition units 11 and 12.
  • the recognition unit 13 recognizes the input speech
  • the input is input to the third speech recognition unit 13 using the dictionary including the candidate character strings acquired by the first and second speech recognition units 11 and 12.
  • the speech is recognized, and the recognition result obtained thereby is output to the recognition result output unit 15.
  • it is possible to obtain a highly valid recognition result while suppressing unnecessary processing as described above.
  • the control unit 14 determines that the third speech recognition unit 13 does not recognize the input speech based on the recognition results acquired by the first and second speech recognition units 11 and 12. If it is, the recognition result output unit 15 outputs the recognition result acquired by one of the first and second speech recognition units 11 and 12. As a result, when the recognition results of the first and second speech recognition units 11 and 12 are completely different from each other and it is not difficult to clearly determine which one is appropriate, one appropriate recognition result is obtained. Can be output.
  • the third voice recognition unit 13 recognizes the input voice based on the index (here, the order distance). Thereby, it can be determined whether it is difficult to clearly determine which of the recognition results of the first and second speech recognition units 11 and 12 is appropriate.
  • the candidate character string used for the recognition is deleted from the temporary dictionary storage unit 13a.
  • the index for determining whether or not the third voice recognition unit 13 recognizes the input voice is the order distance.
  • the index is not limited to this.
  • the above-described index is the maximum score value acquired by each of the first and second speech recognition units 11 and 12.
  • the maximum score value acquired by the first speech recognition unit 11 is referred to as “first maximum score value”
  • the maximum score value acquired by the second speech recognition unit 12 is “ The maximum score value of 2 will be described.
  • the recognition result evaluation unit 14a does not completely match the recognition results acquired by the first and second speech recognition units 11 and 12, and the first and second speech recognition units 11 , 12 when the first and second maximum score values are both smaller than the predetermined first and second threshold values or larger than the first and second threshold values. It is determined that the third voice recognition unit 13 recognizes the input voice. In other cases, the recognition result evaluation unit 14a determines that the third speech recognition unit 13 does not recognize the input speech.
  • the first threshold is set based on, for example, the set value (upper limit value of the score value) and the actual measurement value of the first speech recognition engine 11b
  • the second threshold is, for example, the second speech recognition engine 12b. Is set based on the set value (upper limit value of the score value) and the actual measurement value.
  • FIG. 6A and FIG. 6B are diagrams for explaining an example of an index according to the first modification.
  • FIG. 6A shows an example of the recognition result acquired by the first speech recognition unit 11
  • FIG. 6B shows the recognition result acquired by the second speech recognition unit 12. An example is shown.
  • the upper limit value of the score value of the first speech recognition unit 11 is “1000”, and half of the value “500” is set as the first threshold value.
  • the upper limit value of the score value of the second speech recognition unit 12 is “10000”, and half the value “5000” is set as the second threshold value.
  • the recognition result evaluation unit 14a determines that the third voice recognition unit 13 does not perform voice recognition.
  • the first maximum score value is smaller than the first threshold
  • the second maximum score value is larger than the second threshold
  • the third speech recognition engine 13b is the second speech recognition engine 12b. Only when they are different from each other, the recognition result evaluation unit 14a may determine that the third speech recognition unit 13 does not perform speech recognition.
  • the first maximum score value is larger than the first threshold value
  • the second maximum score value is smaller than the second threshold value
  • the third speech recognition engine 13b is connected to the first speech recognition engine 11b. Only when they are different, the recognition result evaluation unit 14a may determine that the third speech recognition unit 13 does not perform speech recognition. According to this, the calculation with the same score calculation criterion can be omitted.
  • the index for determining whether or not the third speech recognition unit 13 recognizes the input speech is based on the candidate character strings acquired by the first and second speech recognition units 11 and 12. It is a similarity indicating the degree of matching.
  • the recognition result evaluation unit 14a has a threshold value in which the recognition results acquired by the first and second speech recognition units 11 and 12 do not completely match and the similarity is determined in advance.
  • the threshold value is set based on, for example, set values (the number of candidate character strings that can be acquired, that is, the number of list displays), actual measurement values, and the like of the first and second speech recognition engines 11b and 12b.
  • the recognition result evaluation unit 14 a acquires the number of candidate character strings acquired by the first speech recognition unit 11 (hereinafter referred to as “first total candidate number”) and the second speech recognition unit 12.
  • the number of candidate character strings (hereinafter referred to as “second total number of candidates”) is calculated.
  • the first total number of candidates is “6”
  • the second total number of candidates is “5”.
  • the recognition result evaluation unit 14a indicates the number of common candidate character strings (hereinafter referred to as “common candidate number”) among the candidate character strings acquired by the first and second speech recognition units 11 and 12. calculate.
  • the number of common candidates is the total number “4” of the candidate character strings A to D.
  • the recognition result evaluation unit 14a calculates the similarity by applying the first total number of candidates, the second total number of candidates, and the number of common candidates to the following equation (1).
  • FIGS. 7A and 7B are used.
  • Recognition results are not completely matched, and the similarity (“0.53”) is equal to or greater than the threshold (“0.25”). It is determined that the voice recognition unit 13 recognizes the voice.
  • the third voice recognition unit 13 is to recognize the input voice based on the index (here, similarity). Can do. Therefore, as in the first embodiment, it can be determined whether it is difficult to clearly determine which of the recognition results of the first and second speech recognition units 11 and 12 is appropriate.
  • the above-described index is any one of the order distance, the first and second maximum score values, and the similarity.
  • the present invention is not limited to this, and the above-described index only needs to include at least one of the order distance, the first and second maximum score values, and the similarity.
  • the following formulas (2) to (5) in which the order distance, the first and second maximum score values, and the similarity are appropriately combined may be applied to the index.
  • the same determination as similarity is performed.
  • the following equations (4) and (5) have the same properties as the order distance, the same determination as the order distance is performed.
  • the degree of similarity is not limited to that described in the second modification, and the order distance is not limited to that described in the first embodiment.
  • the dictionary stored in the temporary dictionary storage unit 13a is generated only from the candidate character strings acquired by the first speech recognition unit 11.
  • the candidate character string in the dictionary of the third speech recognition unit 13 is always included only in the dictionary of the first speech recognition unit 11. This corresponds to the fact that the dictionary of the third speech recognition unit 13 is substantially the same as the dictionary of the first speech recognition unit 11. Therefore, in this configuration, in order to prevent the third voice recognition unit 13 from performing the same voice recognition as the first voice recognition unit 11, the third voice recognition unit 13 includes the first voice recognition unit 13.
  • An algorithm different from that of the speech recognition unit 11 is applied.
  • the algorithm different from the first speech recognition unit 11 mentioned here includes, for example, the algorithm of the second speech recognition unit 12.
  • FIG. 8 is a block diagram showing the configuration of the speech recognition apparatus 1 according to Embodiment 2 of the present invention.
  • the same or similar components as those described above are denoted by the same reference numerals, and different portions are mainly described.
  • the third dictionary storage unit 13 c is included in the third voice recognition unit 13 and stores a unique dictionary in the third voice recognition unit 13.
  • the third speech recognition unit 13 recognizes input speech using the dictionary stored in the temporary dictionary storage unit 13a and the dictionary stored in the third dictionary storage unit 13c. That is, the third speech recognition unit 13 uses a dictionary unique to the third speech recognition unit 13 together with a dictionary including the candidate character strings acquired by the first and second speech recognition units 11 and 12. Recognize input speech.
  • FIG. 9 is a block diagram showing the main configuration of the speech recognition apparatus 1 according to this modification.
  • the first voice recognition unit 11 is provided in the first server 61, and the first communication unit 71 that receives the recognition result acquired by the first voice recognition unit 11 is a voice recognition device. 1 may be provided. Even if it is such a structure, the effect similar to Embodiment 1 can be acquired.
  • FIG. 10 is a block diagram showing another main configuration of the speech recognition apparatus 1 according to this modification.
  • the first and second speech recognition units 11 and 12 are provided in the first and second servers 61 and 62, respectively, and are acquired by the first and second speech recognition units 11 and 12.
  • the speech recognition apparatus 1 may be provided with first and second communication units 71 and 72 that receive the recognition result. Even if it is such a structure, the effect similar to Embodiment 1 can be acquired.
  • the voice recognition device 1 described above is installed in a navigation device, a Portable Navigation Device, a communication terminal (for example, a mobile terminal such as a mobile phone, a smartphone, and a tablet) that can be mounted on a vehicle, and these.
  • a communication terminal for example, a mobile terminal such as a mobile phone, a smartphone, and a tablet
  • the present invention can also be applied to a speech recognition system constructed as a system by appropriately combining application functions and servers.
  • each function or each component of the speech recognition device 1 described above may be distributed and arranged in each device that constructs the system, or may be concentrated on any device. Good.
  • the present invention can be freely combined with each embodiment and each modification within the scope of the invention, or can be appropriately modified and omitted with each embodiment and each modification.
  • 1 speech recognition device 11 first speech recognition unit, 12 second speech recognition unit, 13 third speech recognition unit, 14 control unit, 15 recognition result output unit.

Abstract

 無駄な処理を抑制しつつ、妥当性の高い認識結果が得られる技術を提供することを目的とする。音声認識装置1は、第1~第3の音声認識部11~13と、制御部14とを備える。制御部14は、第1及び第2の音声認識部11,12で取得された認識結果に基づいて、第3の音声認識部13に入力音声を認識させると判定された場合に、第1及び第2の音声認識部11,12の少なくとも一方で取得された候補文字列を含む辞書を用いて第3の音声認識部13に入力音声を認識させる。

Description

音声認識システム及び音声認識方法
 本発明は、出力部から出力すべき音声認識を行う音声認識システム及び音声認識方法に関する。
 従来の音声認識装置に用いる音声認識の技術は、認識率、演算量及びハードウェアリソースに応じて特化されている。例えば、車載の音声認識装置には、車載用に特化された音声認識(ローカル認識)が採用されており、高い耐騒音性及び応答性などを利点として有する。また、例えば、外部からネットワークを介して受信した音声データを認識するサーバの音声認識装置には、サーバ用に特化された音声認識(サーバ認識)が採用されており、多数または新しい語彙を含む辞典が使用可能であること、及び、高い演算量で音声認識が可能であることを利点として有する。
 ここで、近年、用途の多様化などを理由に、ローカル認識とサーバ認識とを組み合わせて両者の利点を得る構成が検討されている。しかしながら、複数の音声認識部を用いる構成では、それぞれの音声認識エンジンの認識方式や、認識に用いる辞書(認識辞書)が異なるため、それぞれの認識結果を単純に比較することができないという問題がある。
 具体的には、複数の音声認識部のそれぞれでは、音声認識の結果として、入力音声に対応する候補文字列(入力音声に一致する可能性が高い語彙などの文字列)が決定されるとともに、各候補文字列の正確性(各候補文字列が入力音声と一致する可能性)を示すスコア値が算出される。しかしながら、いくつかの候補文字列に対するスコア値が複数の音声認識部間で異なる場合には、複数の音声認識部間でスコア値を単純に比較することができないという問題がある。
 そこで、この問題に対して様々な技術が提案されている。例えば、特許文献1には、複数の音声認識部にて異なるスコア値を統計的に処理して、複数の音声認識部間で比較可能なスコア値に正規化し、最もスコア値が高い候補文字列を、全体の認識結果として出力する技術が提案されている。
 また、例えば、特許文献2には、複数の認識辞書を用いて第1の音声認識部にて入力音声を認識し、その結果であるスコア値が上位の候補文字列を二次判定辞書に格納し、当該二次判定辞書を用いて第2の音声認識部にて入力音声を認識させる技術が提案されている。
特開2005-003997号公報 特開2008-197356号公報
 上述したように、特許文献1の技術では、複数の音声認識部間にて異なるスコア値を統計的に処理して、複数の音声認識部間で比較可能なスコア値に正規化する。しかしながら、例えば、複数の音声認識部間にて異なるスコア値が算出された候補文字列が多数ある場合には、適切に比較できる程度にまでスコア値を正規化しきれず、結果として妥当性の高い認識結果を得ることができないという問題がある。
 また、特許文献2の技術では、一段階目の音声認識で十分正確な結果が得られている場合であっても、二段階目の音声認識も行うので、無駄な処理が生じているという問題がある。
 そこで、本発明は、上記のような問題点を鑑みてなされたものであり、無駄な処理を抑制しつつ、妥当性の高い認識結果が得られる技術を提供することを目的とする。
 本発明に係る音声認識システムは、出力部から出力すべき音声認識を行う音声認識システムであって、入力音声を認識することによって、当該入力音声に対応する候補文字列を含む認識結果を取得する第1、第2及び第3の音声認識部と、第1及び第2の音声認識部で取得された認識結果に基づいて、第3の音声認識部に入力音声を認識させると判定された場合に、第1及び第2の音声認識部の少なくとも一方で取得された候補文字列を含む辞書を用いて第3の音声認識部に入力音声を認識させ、それによって得られた認識結果を出力部に出力させる制御部とを備える。
 また、本発明に係る音声認識方法は、出力部から出力すべき音声認識を行う音声認識方法であって、入力音声を認識することによって、当該入力音声に対応する候補文字列を含む認識結果を取得する第1、第2及び第3の音声認識部のうち、第1及び第2の音声認識部で取得された認識結果に基づいて、第3の音声認識部に入力音声を認識させると判定された場合に、第1及び第2の音声認識部の少なくとも一方で取得された候補文字列を含む辞書を用いて第3の音声認識部に入力音声を認識させ、それによって得られた認識結果を出力部に出力させる、音声認識方法。
 本発明によれば、無駄な処理を抑制しつつ、妥当性の高い認識結果を得ることができる。
 本発明の目的、特徴、態様および利点は、以下の詳細な説明と添付図面とによって、より明白となる。
実施の形態1に係る音声認識装置の主要な構成を示すブロック図である。 実施の形態1に係る入力音声の認識結果の一例を示す図である。 実施の形態1に係る音声認識装置の構成を示すブロック図である。 実施の形態1に係る指標の一例を説明するための図である。 実施の形態1に係る音声認識装置の動作を示すフローチャートである。 変形例1に係る指標の一例を説明するための図である。 変形例2に係る指標の一例を説明するための図である。 実施の形態2に係る音声認識装置の構成を示すブロック図である。 その他の変形例に係る音声認識システムの主要な構成を示すブロック図である。 その他の変形例に係る音声認識システムの主要な構成を示すブロック図である。
 <実施の形態1>
 以下の説明では、本発明に係る音声認識システムが、音声認識装置単体に適用された場合を例にして主に説明する。
 図1は、本発明の実施の形態1に係る音声認識装置1の主要な構成を示すブロック図である。図1の音声認識装置1は、第1の音声認識部11と、第2の音声認識部12と、第3の音声認識部13と、制御部14と、認識結果出力部15とを備えている。
 図1の音声認識装置1は、出力部である認識結果出力部15から出力すべき音声認識を行う。認識結果出力部15は、例えば音声認識によって得られた認識結果を他の装置に出力する出力端子であってもよいし、認識結果を表示する表示装置であってもよいし、認識結果を音声出力する音声出力装置であってもよい。なお、図1の構成では、認識結果出力部15は音声認識装置1に備えられているが、認識結果出力部15が表示装置または音声出力装置などである場合には、認識結果出力部15は音声認識装置1に備えられずに、他の装置に備えられてもよい。
 第1~第3の音声認識部11~13は、例えば、複数の語彙、単語または文書を含む辞書、及び、プログラムを記憶した半導体メモリなどの記憶装置と、Central Processing Unit(以下「CPU」と記す)などのプロセッサが上記プログラムを実行することで実現される機能とから構成される。このように構成された第1~第3の音声認識部11~13は、入力音声を認識することによって、入力音声に対応する候補文字列(入力音声に一致する可能性が高い語彙、単語または文書などの文字列)を含む認識結果を取得(生成)する。
 図2は、第1~第3の音声認識部11~13で取得される認識結果の一例を示す図である。本実施の形態1では、第1~第3の音声認識部11~13の認識結果は、候補文字列だけでなく、各候補文字列の正確性(各候補文字列が入力音声と一致する可能性)を示すスコア値をさらに含んでいる。以下、一例として、スコア値が大きいほど候補文字列の正確性が高いものとして説明する。
 制御部14は、例えばCPUなどのプロセッサが記憶装置に記憶されたプログラムを実行することによって実現される。制御部14は、第1及び第2の音声認識部11,12で取得された認識結果に基づいて、第3の音声認識部13に入力音声を認識させると判定された場合に、第1及び第2の音声認識部11,12で取得された候補文字列を含む辞書を用いて第3の音声認識部13に入力音声を認識させ、それによって得られた認識結果を認識結果出力部15に出力させる。
 第3の音声認識部13に音声認識させるか否かの判定は、音声認識装置1で行われてもよいし、第1及び第2の音声認識部11,12で取得された認識結果が、音声認識装置1の外部の装置に与えられることにより、当該装置で行われてもよい。
 以上のような本実施の形態1に係る音声認識装置1によれば、第3の音声認識部13が、第1及び第2の音声認識部11,12で取得された候補文字列を含む辞書を用いて入力音声を認識する。これにより、例えば、第1及び第2の音声認識部11,12で取得された候補文字列のスコア値が比較できない程度にばらついていても、当該候補文字列に対して基準が統一されたスコア値を第3の音声認識部13で算出することができる。つまり、実質的に第1及び第2の音声認識部11,12のスコア値を正規化することができるので、その結果として、妥当性の高い認識結果を得ることができる。
 また、制御部14は、第1及び第2の音声認識部11,12で取得された認識結果に基づいて、第3の音声認識部13に入力音声を認識させると判定された場合に、第3の音声認識部13に入力音声を認識させる。これにより、第1及び第2の音声認識部11,12の認識結果が完全に一致していないけれども似ている場合のように、第1及び第2の音声認識部11,12の認識結果のどちらが適切かを明確に判定することが困難である場合に、第3の音声認識部13に入力音声を認識させることができる。したがって、第3の音声認識部13の音声認識を必要以上に行わないようにすることができるので、無駄な処理を抑制することができる。
 次に、音声認識装置1の主要な構成要素だけでなく、付加的な構成要素についても説明する。ただし、以下の内容は、上述の内容の一例を説明したものであり、本発明は以下の内容に限ったものではない。
 図3は、本実施の形態1に係る音声認識装置1の主要な構成及び付加的な構成を示すブロック図である。
 音声認識装置1は、音声入力部51と接続されている。音声入力部51は、例えばマイクなどから構成され、ユーザなどが発した音声を受け取る。音声入力部51は、受け取った音声を入力音声として第1及び第2の音声認識部11,12、並びに音声記憶部21に出力する。
 音声記憶部21は、音声入力部51から受け取った入力音声を一時的に記憶する。例えば、音声記憶部21は、音声入力部51から受け取った入力音声を、次に音声入力部51から入力音声を受け取るまで記憶する。
 第1の音声認識部11は、第1辞書記憶部11aと、第1音声認識エンジン11bとを含んでいる。同様に、第2の音声認識部12は、第2辞書記憶部12aと、第2音声認識エンジン12bとを含んでおり、第3の音声認識部13は、一時辞書記憶部13aと、第3音声認識エンジン13bとを含んでいる。
 第1及び第2辞書記憶部11a,12a、並びに一時辞書記憶部13aは、例えば半導体メモリなどの記憶装置から構成されている。第1~第3音声認識エンジン11b,12b,13bは、例えばプロセッサが音声認識用のアルゴリズム(例えば隠れマルコフモデルなど)を含むプログラムを実行することによって実現される。
 次に、第1の音声認識部11の第1辞書記憶部11a及び第1音声認識エンジン11bについて詳細に説明する。
 第1辞書記憶部11aには、複数の語彙、単語または文書などを含む辞書が記憶されている。第1音声認識エンジン11bは、第1辞書記憶部11aの辞書を用いて、音声入力部51から受け取った入力音声を認識する。具体的には、第1音声認識エンジン11bは、第1辞書記憶部11aの辞書に含まれる語彙、単語または文書などの中から、入力音声に対応する候補文字列(図2)を決定するとともに、当該候補文字列のスコア値(図2)を算出する。そして、第1音声認識エンジン11bは、候補文字列及びスコア値を含む認識結果を、制御部14(認識結果評価部14a)に出力する。
 第2の音声認識部12の第2辞書記憶部12a及び第2音声認識エンジン12bも、第1辞書記憶部11a及び第1音声認識エンジン11bと同様に構成されている。ただし、第2の音声認識部12は、第1の音声認識部11と完全に同じ音声認識を行わないように構成されている。仮に、第2の音声認識部12が、第1の音声認識部11と完全に同じ音声認識を行う場合には、同じ入力音声に対して同じ認識結果しか得られないからである。
 第1及び第2の音声認識部11,12が異なる音声認識を行う構成としては、例えば、辞書及びアルゴリズム(認識方式)の両方が、第1及び第2の音声認識部11,12の間で異なる構成、あるいは、辞書及びアルゴリズム(認識方式)の一方が、第1及び第2の音声認識部11,12の間で異なる構成が想定される。
 第3の音声認識部13の一時辞書記憶部13a及び第3音声認識エンジン13bについては後で詳細に説明する。
 制御部14は、認識結果評価部14a及び辞書登録部14bを含んでいる。
 認識結果評価部14aは、第1及び第2の音声認識部11,12で取得された認識結果(候補文字列及びスコア値)の評価を示す指標を算出し、当該指標に基づいて第3の音声認識部13に入力音声を認識させるか否かを判定する。
 図4(a)~図4(f)は、本実施の形態1に係る指標の一例を説明するための図である。本実施の形態1では、認識結果評価部14aは、上述の指標として、第1及び第2の音声認識部11,12で取得されたスコア値順に並べられた候補文字列の順序が異なる度合を示す順序距離を算出する。
 以下、順序距離の算出について説明する。図4(a)には、第1の音声認識部11で取得された認識結果の一例が、候補文字列をスコア値順に並べた状態で示されており、図4(b)には、第2の音声認識部12で取得された認識結果の一例が、候補文字列をスコア値順に並べた状態で示されている。
 図4(c)には、第1の音声認識部11で取得された候補文字列(図4(a))のうち、第2の音声認識部12で取得された候補文字列(図4(b))と共通する候補文字列A~C,E,Fがスコア順に並べられて示されている。
 図4(f)には、第2の音声認識部12で取得された候補文字列(図4(b))のうち、第1の音声認識部11で取得された候補文字列(図4(a))と共通する候補文字列A~C,E,Fがスコア順に並べられて示されている。
 図4(d)及び図4(e)には、図4(c)の第1の音声認識部11に関する候補文字列の順序を入れ替えて、図4(f)の第2の音声認識部12に関する候補文字列の順序と一致させるまでの途中経過が示されている。具体的には、図4(c)の順序から図4(d)の順序に移行する1回目の順序入れ替えでは、候補文字列Cと候補文字列Aとの順序が入れ替えられている。図4(d)の順序から図4(e)の順序に移行する2回目の順序入れ替えでは、候補文字列Cと候補文字列Bとの順序が入れ替えられている。図4(e)の順序から図4(f)の順序に移行する3回目の順序入れ替えでは、候補文字列Fと候補文字列Eとの順序が入れ替えられている。
 上述の順序距離は、順序入れ替えの回数に相当しており、図4(c)~図4(f)の例では「3」となる。
 図3の認識結果評価部14aは、第1及び第2の音声認識部11,12で取得された認識結果が完全に一致せず、かつ、順序距離が予め定められた閾値以下である場合(どちらが適切かを明確に判定することが困難である場合)には、第3の音声認識部13に入力音声を認識させると判定する。認識結果評価部14aは、それ以外の場合には、第3の音声認識部13に入力音声を認識させないと判定する。
 例えば、判定に用いられる閾値が「4」に設定されている場合において、図4(a)及び図4(b)の認識結果が取得された場合には、図4(a)及び図4(b)の認識結果は順序が完全に一致しておらず、かつ、順序距離(「3」)は閾値(「4」)以下であることから、認識結果評価部14aは、第3の音声認識部13に音声認識させると判定する。
 なお、判定に用いられる閾値は、例えば、第1及び第2音声認識エンジン11b,12bの設定値(取得可能な候補文字列の個数、つまりリスト表示個数)及び実測値などに基づいて設定される。
 認識結果評価部14aは、第3の音声認識部13に入力音声を認識させないと判定した場合には、第1及び第2の音声認識部11,12の一方で取得された認識結果を認識結果出力部15に出力させる。すなわち、認識結果評価部14a(制御部14)は、第1及び第2の音声認識部11,12で取得された認識結果に基づいて、第3の音声認識部13に入力音声を認識させないと判定された場合に、第1及び第2の音声認識部11,12の一方で取得された認識結果を認識結果出力部15に出力させる。
 なお、第1及び第2の音声認識部11,12の認識結果のどちらを認識結果出力部15に出力させるかは、例えば、ユースケース、音声認識エンジンの特性などに基づく信頼性(信頼度)を考慮して初期設定などの段階で予め設定される。このため、第1及び第2の音声認識部11,12の認識結果が似ていない程度に全く異なる場合には、第1及び第2の音声認識部11,12の認識結果のどちらが適切かを明確に判定することが困難ではなく、第1及び第2の音声認識部11,12のうち予め決定された信頼性の高い一方の認識結果が出力されることになる。
 認識結果評価部14aは、第3の音声認識部13に入力音声を認識させると判定した場合には、第1及び第2の音声認識部11,12で取得された候補文字列とを、辞書登録部14bに出力する。
 辞書登録部14bは、認識結果評価部14aから入力された第1及び第2の音声認識部11,12の候補文字列を統合して、第3の音声認識部13に用いられる辞書を生成する。この辞書の生成は、認識結果評価部14aから第1及び第2の音声認識部11,12の候補文字列が入力された場合、すなわち、認識結果評価部14aが第3の音声認識部13に入力音声を認識させると判定した場合に行われる。
 辞書登録部14bは、例えば候補文字列のリストとして、上述の辞書を生成する。辞書登録部14bは、生成した辞書を一時辞書記憶部13aに記憶(登録)する。
 第3の音声認識部13は、上述したように、一時辞書記憶部13aと、第3音声認識エンジン13bとを含んでいる。
 一時辞書記憶部13aには、辞書登録部14bによって生成された辞書が記憶される。第3音声認識エンジン13bは、一時辞書記憶部13aの辞書を用いて、音声記憶部21に記憶された入力音声を認識することによって、当該入力音声に対応する候補文字列及びスコア値を含む認識結果を取得(生成)し、当該認識結果を認識結果出力部15に出力する。なお、本実施の形態1では、第3の音声認識部13が入力音声を認識するごとに、当該認識に用いられた候補文字列は、一時辞書記憶部13aから消去されるものとする。
 上述したように、第2の音声認識部12は、第1の音声認識部11と完全に同じ音声認識を行わないように構成されているが、同様に、第3の音声認識部13は、第1及び第2の音声認識部11,12と完全に同じ音声認識を行わないように構成されている。ただし、本実施の形態1では、一時辞書記憶部13aに記憶された辞書は、第1及び第2の音声認識部11,12で取得された候補文字列の両方を含んでおり、第3の音声認識部13の辞書の候補文字列が、第1及び第2の音声認識部11,12の各々の辞書のみに含まれないことがある。このことは、第3の音声認識部13の辞書が、第1及び第2の音声認識部11,12の各々の辞書と実質的に異なることに相当することから、第3の音声認識部13のアルゴリズムは、第1及び第2の音声認識部11,12のアルゴリズムと必ずしも異ならなくてもよい。
 認識結果出力部15は、第1~第3の音声認識部11~13のいずれかで取得された認識結果を出力する。認識結果出力部15は、例えば、図2に示した認識結果のようにスコア値にソートされた複数の候補文字列を出力してもよいし、スコア値が最も高い候補文字列のみを出力してもよい。
 <動作>
 図5は、本実施の形態1に係る音声認識装置1の動作を示すフローチャートである。
 まずステップS1にて、第1及び第2の音声認識部11,12は、入力音声を認識する。
 ステップS2にて、認識結果評価部14aは、第1及び第2の音声認識部11,12の認識結果に基づいて、当該認識結果の評価を示す指標を算出する。
 ステップS3にて、認識結果評価部14aは、算出した指標に基づいて、第3の音声認識部13に入力音声を認識させるか否かを判定する。本実施の形態1では、当該指標は順序距離であることから、第1及び第2の音声認識部11,12の認識結果が完全に一致せず、かつ、順序距離が予め定められた閾値以下である場合には、第3の音声認識部13に入力音声を認識させると判定してステップS4に進み、それ以外の場合にはステップS8に進む。
 ステップS4にて、辞書登録部14bは、第1及び第2の音声認識部11,12で取得された候補文字列から辞書を生成する。
 ステップS5にて、一時辞書記憶部13aは、ステップS4で生成された辞書を記憶する。
 ステップS6にて、第3の音声認識部13(第3音声認識エンジン13b)は、一時辞書記憶部13aに記憶された辞書を用いて、入力音声を認識する。なお、第3の音声認識部13による音声認識後には、当該音声認識に用いられた候補文字列は、一時辞書記憶部13aから消去される。
 ステップS7にて、認識結果出力部15は、第3の音声認識部13で取得された認識結果を出力する。その後、図5に示す動作を終了する。
 ステップS3からステップS8に進んだ場合、認識結果出力部15は、第1及び第2の音声認識部11,12の一方で取得された認識結果を出力する。その後、図5に示す動作を終了する。
 <効果>
 以上のような本実施の形態1に係る音声認識装置1によれば、制御部14は、第1及び第2の音声認識部11,12で取得された認識結果に基づいて、第3の音声認識部13に入力音声を認識させると判定された場合に、第1及び第2の音声認識部11,12で取得された候補文字列を含む辞書を用いて第3の音声認識部13に入力音声を認識させ、それによって得られた認識結果を認識結果出力部15に出力させる。これにより、上述したように無駄な処理を抑制しつつ、妥当性の高い認識結果を得ることができる。
 また本実施の形態1では、制御部14は、第1及び第2の音声認識部11,12で取得された認識結果に基づいて、第3の音声認識部13に入力音声を認識させないと判定された場合に、第1及び第2の音声認識部11,12の一方で取得された認識結果を認識結果出力部15に出力させる。これにより、第1及び第2の音声認識部11,12の認識結果が似ていない程度に全く異なり、どちらが適切かを明確に判定することが困難ではない場合には、適切な一方の認識結果を出力することができる。
 また本実施の形態1では、指標(ここでは順序距離)に基づいて第3の音声認識部13に入力音声を認識させるか否かが判定される。これにより、第1及び第2の音声認識部11,12の認識結果のどちらが適切かを明確に判定することが困難か否かを判定することができる。
 また本実施の形態1では、第3の音声認識部13が入力音声を認識するごとに、当該認識に用いられた候補文字列は、一時辞書記憶部13aから消去される。これにより、第3の音声認識部13は、通常、入力音声と関係性が低い候補文字列を用いて、入力音声を認識しなくて済むので、無駄な処理を抑制する効果を高めることができる。
 <変形例1>
 実施の形態1では、第3の音声認識部13に入力音声を認識させるか否かを判定するための指標は、順序距離であった。しかしながら、当該指標はこれに限ったものではない。本変形例1では、上述の指標は、第1及び第2の音声認識部11,12でそれぞれ取得された最大のスコア値である。以下、第1の音声認識部11で取得された最大のスコア値を、「第1の最大のスコア値」と記し、第2の音声認識部12で取得された最大のスコア値を、「第2の最大のスコア値」と記して説明する。
 本変形例1では、認識結果評価部14aは、第1及び第2の音声認識部11,12で取得された認識結果が完全に一致せず、かつ、第1及び第2の音声認識部11,12で取得された第1及び第2の最大のスコア値が両者とも、予め定められた第1及び第2の閾値よりも小さいか、または第1及び第2の閾値よりも大きい場合には、第3の音声認識部13に入力音声を認識させると判定する。また、認識結果評価部14aは、それ以外の場合には、第3の音声認識部13に入力音声を認識させないと判定する。なお、第1の閾値は、例えば、第1音声認識エンジン11bの設定値(スコア値の上限値)及び実測値などに基づいて設定され、第2の閾値は、例えば、第2音声認識エンジン12bの設定値(スコア値の上限値)及び実測値などに基づいて設定される。
 図6(a)及び図6(b)は、本変形例1に係る指標の一例を説明するための図である。図6(a)には第1の音声認識部11で取得された認識結果の一例が示されており、図6(b)には、第2の音声認識部12で取得された認識結果の一例が示されている。
 第1の音声認識部11のスコア値の上限値は「1000」であり、その半分の値「500」が第1の閾値として設定されている。第2の音声認識部12のスコア値の上限値は「10000」であり、その半分の値「5000」が第2の閾値として設定されている。
 図6(a)の例では、第1の音声認識部11で取得された第1の最大のスコア値は「300」であり、第1閾値「500」よりも小さい。また、図6(b)の例では、第2の音声認識部12で取得された第2の最大のスコア値は「4000」であり、第2閾値「5000」よりも小さい。このため、図6(a)及び図6(b)の認識結果が得られた場合には、図4(a)及び図4(b)の認識結果は順序が完全に一致しておらず、かつ、第1及び第2の最大のスコア値がそれぞれ、第1及び第2の閾値よりも小さいことから、認識結果評価部14aは、第3の音声認識部13に音声認識させると判定する。
 同様に、第1及び第2の音声認識部11,12で取得された認識結果が完全に一致せず、かつ、第1及び第2の最大のスコア値がそれぞれ、第1及び第2の閾値よりも大きい場合にも、認識結果評価部14aは、第3の音声認識部13に音声認識させると判定する。
 一方、第1の最大のスコア値が第1の閾値よりも大きく、かつ第2の最大のスコア値が第2の閾値よりも小さい場合、または、第1の最大のスコア値が第1の閾値よりも小さく、かつ第2の最大のスコア値が第2の閾値よりも大きい場合などには、認識結果評価部14aは、第3の音声認識部13に音声認識させないと判定する。
 以上のような本変形例1によれば、実施の形態1と同様に、指標(ここでは第1及び第2の最大のスコア値)に基づいて第3の音声認識部13に入力音声を認識させるか否かを判定することができる。したがって、実施の形態1と同様に、第1及び第2の音声認識部11,12の認識結果のどちらが適切かを明確に判定することが困難か否かを判定することができる。
 なお、例えば、第1の最大のスコア値が第1の閾値よりも小さく、第2の最大のスコア値が第2の閾値よりも大きく、かつ第3音声認識エンジン13bが第2音声認識エンジン12bと異なる場合にのみ、認識結果評価部14aは、第3の音声認識部13に音声認識させないと判定してもよい。同様に、第1の最大のスコア値が第1の閾値よりも大きく、第2の最大のスコア値が第2の閾値よりも小さく、かつ第3音声認識エンジン13bが第1音声認識エンジン11bと異なる場合にのみ、認識結果評価部14aは、第3の音声認識部13に音声認識させないと判定してもよい。これによれば、スコア算出基準が同一となる演算を省略することができる。
 <変形例2>
 本変形例2では、第3の音声認識部13に入力音声を認識させるか否かを判定するための指標は、第1及び第2の音声認識部11,12で取得された候補文字列が一致する度合を示す類似度である。
 また、本変形例2では、認識結果評価部14aは、第1及び第2の音声認識部11,12で取得された認識結果が完全に一致せず、かつ、類似度が予め定められた閾値以上である場合には、第3の音声認識部13に入力音声を認識させると判定し、それ以外の場合には、第3の音声認識部13に入力音声を認識させないと判定する。なお、閾値は、例えば、第1及び第2音声認識エンジン11b,12bの設定値(取得可能な候補文字列の個数、つまりリスト表示個数)及び実測値などに基づいて設定される。
 図7(a)及び図7(b)は、本変形例2に係る指標の一例を説明するための図である。図7(a)には第1の音声認識部11で取得された認識結果の一例が示されており、図7(b)には、第2の音声認識部12で取得された認識結果の一例が示されている。なお、図7(a)及び図7(b)に示されるように、本変形例2ではスコア値は必須ではない。
 まず、認識結果評価部14aは、第1の音声認識部11で取得された候補文字列の個数(以下「第1全候補数」と記す)と、第2の音声認識部12で取得された候補文字列の個数(以下「第2全候補数」と記す)とを算出する。図7(a)の例では、第1全候補数は「6」であり、図7(b)の例では、第2全候補数は「5」である。
 次に、認識結果評価部14aは、第1及び第2の音声認識部11,12で取得された候補文字列のうち、共通する候補文字列の個数(以下「共通候補数」と記す)を算出する。図7(a)及び図7(b)の例では、共通候補数は、候補文字列A~Dの合計の個数「4」である。
 認識結果評価部14aは、第1全候補数、第2全候補数、及び共通候補数を次式(1)に適用することにより、類似度を算出する。図7(a)及び図7(b)の例では、類似度は「0.53=(4/6*4/5)」となる。
Figure JPOXMLDOC01-appb-M000001
 例えば、上記閾値が「0.25」に設定されており、かつ、図7(a)及び図7(b)の認識結果が取得された場合には、図7(a)及び図7(b)の認識結果は個数が完全に一致しておらず、かつ、類似度(「0.53」)は閾値(「0.25」)以上であることから、認識結果評価部14aは、第3の音声認識部13に音声認識させると判定する。
 以上のような本変形例2によれば、実施の形態1と同様に、指標(ここでは類似度)に基づいて第3の音声認識部13に入力音声を認識させるか否かを判定することができる。したがって、実施の形態1と同様に、第1及び第2の音声認識部11,12の認識結果のどちらが適切かを明確に判定することが困難か否かを判定することができる。
 <変形例3>
 以上の説明では、上述の指標は、順序距離と、第1及び第2の最大のスコア値と、類似度とのいずれか1つであった。しかしこれに限ったものではなく、上述の指標は、順序距離と、第1及び第2の最大のスコア値と、類似度との少なくともいずれか1つを含むものであればよい。
 例えば、指標には、順序距離と、第1及び第2の最大のスコア値と、類似度とが適宜組み合わされた次式(2)~(5)が適用されてもよい。なお、次式(2)及び次式(3)は、類似度と同様の性質を有するので、類似度と同様の判定が行われる。一方、次式(4)及び次式(5)は、順序距離と同様の性質を有するので、順序距離と同様の判定が行われる。このことからも分かるように、類似度は変形例2で説明したものには限ったものではなく、順序距離は実施の形態1で説明したものに限ったものではない。
Figure JPOXMLDOC01-appb-M000002
Figure JPOXMLDOC01-appb-M000003
Figure JPOXMLDOC01-appb-M000004
Figure JPOXMLDOC01-appb-M000005
 以上のような本変形例3によっても、実施の形態1と同様に、第1及び第2の音声認識部11,12の認識結果のどちらが適切かを明確に判定することが困難か否かを判定することができる。
 <変形例4>
 実施の形態1では、辞書登録部14bは、第1及び第2の音声認識部11,12で取得された候補文字列の両方から、一時辞書記憶部13aに記憶される辞書を生成した。しかしこれに限ったものではなく、本変形例4のように、辞書登録部14bは、第1及び第2の音声認識部11,12の一方で取得された候補文字列から、一時辞書記憶部13aに記憶される辞書を生成してもよい。
 ここで、一時辞書記憶部13aに記憶される辞書が、第1の音声認識部11で取得された候補文字列のみから生成される構成を想定する。本構成では、第3の音声認識部13の辞書の候補文字列が、第1の音声認識部11の辞書のみに必ず含まれることになる。このことは、第3の音声認識部13の辞書が、第1の音声認識部11の辞書と実質的に同じであることに相当する。したがって、本構成において、第3の音声認識部13が、第1の音声認識部11と完全に同じ音声認識を行わないようにするためには、第3の音声認識部13に、第1の音声認識部11と異なるアルゴリズムが適用されることになる。なお、ここでいう第1の音声認識部11と異なるアルゴリズムには、例えば第2の音声認識部12のアルゴリズムが含まれる。
 同様に、一時辞書記憶部13aに記憶される辞書が、第2の音声認識部12で取得された候補文字列のみから生成される構成において、第3の音声認識部13が、第2の音声認識部12と完全に同じ音声認識を行わないようにするためには、第3の音声認識部13には、第2の音声認識部12と異なるアルゴリズムが適用されることになる。なお、ここでいう第2の音声認識部12と異なるアルゴリズムには、例えば第1の音声認識部11のアルゴリズムが含まれる。
 なお、上述した変形例1~4は、実施の形態1だけでなく、次に説明する実施の形態2にも適用されてもよい。
 <実施の形態2>
 図8は、本発明の実施の形態2に係る音声認識装置1の構成を示すブロック図である。なお、本実施の形態2に係る音声認識装置1において、以上で説明した構成要素と同一または類似するものについては同じ参照符号を付し、異なる部分について主に説明する。
 図8の音声認識装置1は、図3の音声認識装置1の構成に加えて、第3辞書記憶部13cを備えている。この第3辞書記憶部13cは、第3の音声認識部13に含まれており、第3の音声認識部13に固有の辞書を記憶している。第3の音声認識部13は、一時辞書記憶部13aに記憶された辞書と、第3辞書記憶部13cに記憶された辞書とを用いて入力音声の認識を行う。つまり、第3の音声認識部13は、第1及び第2の音声認識部11,12で取得された候補文字列を含む辞書とともに、第3の音声認識部13に固有の辞書も用いて、入力音声の認識を行う。
 <効果>
 以上のような本実施の形態2に係る音声認識装置1によれば、第1及び第2の音声認識部11,12では認識され難い語彙などの存在が予測される場合などには、その語彙などを第3辞書記憶部13cの辞書に含めておくことにより、妥当性の高い認識結果を得る効果を高めることができる。
 <その他の変形例>
 図9は、本変形例に係る音声認識装置1の主要な構成を示すブロック図である。図9に示すように、第1の音声認識部11が第1のサーバ61に設けられ、第1の音声認識部11で取得された認識結果を受信する第1の通信部71が音声認識装置1に設けられてもよい。このような構成であっても、実施の形態1と同様の効果を得ることができる。
 図10は、本変形例に係る音声認識装置1の別の主要な構成を示すブロック図である。図10に示すように、第1及び第2の音声認識部11,12が第1及び第2のサーバ61,62にそれぞれ設けられ、第1及び第2の音声認識部11,12で取得された認識結果を受信する第1及び第2の通信部71,72が音声認識装置1に設けられてもよい。このような構成であっても、実施の形態1と同様の効果を得ることができる。
 また、以上に説明した音声認識装置1は、車両に搭載可能な備え付けられたナビゲーション装置、Portable Navigation Device、通信端末(例えば携帯電話、スマートフォン、及びタブレットなどの携帯端末)、及びこれらにインストールされるアプリケーションの機能、並びにサーバなどを適宜に組み合わせてシステムとして構築される音声認識システムにも適用することができる。この場合、以上で説明した音声認識装置1の各機能あるいは各構成要素は、前記システムを構築する各機器に分散して配置されてもよいし、いずれかの機器に集中して配置されてもよい。
 なお、本発明は、その発明の範囲内において、各実施の形態及び各変形例を自由に組み合わせたり、各実施の形態及び各変形例を適宜、変形、省略したりすることが可能である。
 本発明は詳細に説明されたが、上記した説明は、すべての態様において、例示であって、本発明がそれに限定されるものではない。例示されていない無数の変形例が、本発明の範囲から外れることなく想定され得るものと解される。
 1 音声認識装置、11 第1の音声認識部、12 第2の音声認識部、13 第3の音声認識部、14 制御部、15 認識結果出力部。

Claims (11)

  1.  出力部から出力すべき音声認識を行う音声認識システムであって、
     入力音声を認識することによって、当該入力音声に対応する候補文字列を含む認識結果を取得する第1、第2及び第3の音声認識部と、
     前記第1及び前記第2の音声認識部で取得された前記認識結果に基づいて、前記第3の音声認識部に前記入力音声を認識させると判定された場合に、前記第1及び前記第2の音声認識部の少なくとも一方で取得された前記候補文字列を含む辞書を用いて前記第3の音声認識部に前記入力音声を認識させ、それによって得られた前記認識結果を前記出力部に出力させる制御部と
    を備える、音声認識システム。
  2.  請求項1に記載の音声認識システムであって、
     前記制御部は、
     前記第1及び前記第2の音声認識部で取得された前記認識結果に基づいて、前記第3の音声認識部に前記入力音声を認識させないと判定された場合に、前記第1及び前記第2の音声認識部の一方で取得された前記認識結果を前記出力部に出力させる、音声認識システム。
  3.  請求項1に記載の音声認識システムであって、
     前記第3の音声認識部は、
     前記候補文字列を含む辞書とともに、前記第3の音声認識部に固有の辞書も用いて、前記入力音声の認識を行う、音声認識システム。
  4.  請求項1に記載の音声認識システムであって、
     前記第1及び前記第2の音声認識部で取得された前記候補文字列が一致する度合を示す類似度に基づいて、第3の前記音声認識部に前記入力音声を認識させるか否かが判定される、音声認識システム。
  5.  請求項4に記載の音声認識システムであって、
     前記第1及び前記第2の音声認識部で取得された前記認識結果が完全に一致せず、かつ、前記類似度が予め定められた閾値以上である場合には、第3の前記音声認識部に前記入力音声を認識させると判定され、それ以外の場合には、第3の前記音声認識部に前記入力音声を認識させないと判定される、音声認識システム。
  6.  請求項1に記載の音声認識システムであって、
     前記第1及び前記第2の音声認識部でそれぞれ取得された認識結果は、前記候補文字列の正確性を示すスコア値をさらに含み、
     前記第1及び前記第2の音声認識部でそれぞれ取得された最大の前記スコア値と、前記第1及び前記第2の音声認識部で取得された前記候補文字列が一致する度合を示す類似度と、前記第1及び前記第2の音声認識部で取得された前記スコア値順に並べられた前記候補文字列の順序が異なる度合を示す順序距離との少なくともいずれか1つを含む指標に基づいて、第3の前記音声認識部に前記入力音声を認識させるか否かが判定される、音声認識システム。
  7.  請求項6に記載の音声認識システムであって、
     前記指標は前記類似度であり、
     前記第1及び前記第2の音声認識部で取得された前記認識結果が完全に一致せず、かつ、前記類似度が予め定められた閾値以上である場合には、第3の前記音声認識部に前記入力音声を認識させると判定され、それ以外の場合には、第3の前記音声認識部に前記入力音声を認識させないと判定される、音声認識システム。
  8.  請求項6に記載の音声認識システムであって、
     前記指標は前記順序距離であり、
     前記第1及び前記第2の音声認識部で取得された前記認識結果が完全に一致せず、かつ、前記順序距離が予め定められた閾値以下である場合には、第3の前記音声認識部に前記入力音声を認識させると判定され、それ以外の場合には、第3の前記音声認識部に前記入力音声を認識させないと判定される、音声認識システム。
  9.  請求項6に記載の音声認識システムであって、
     前記指標は前記最大のスコア値であり、
     前記第1及び前記第2の音声認識部で取得された前記認識結果が完全に一致せず、かつ、前記第1及び前記第2の音声認識部で取得された第1及び第2の前記最大のスコア値が両者とも、予め定められた第1及び第2の閾値よりも小さいか、または前記第1及び前記第2の閾値よりも大きい場合には、第3の前記音声認識部に前記入力音声を認識させると判定され、それ以外の場合には、第3の前記音声認識部に前記入力音声を認識させないと判定される、音声認識システム。
  10.  請求項1に記載の音声認識システムであって、
     前記第3の音声認識部が前記入力音声を認識するごとに、当該認識に用いられた前記候補文字列を前記辞書から消去する、音声認識システム。
  11.  出力部から出力すべき音声認識を行う音声認識方法であって、
     入力音声を認識することによって、当該入力音声に対応する候補文字列を含む認識結果を取得する第1、第2及び第3の音声認識部のうち、前記第1及び前記第2の音声認識部で取得された前記認識結果に基づいて、前記第3の音声認識部に前記入力音声を認識させると判定された場合に、前記第1及び前記第2の音声認識部の少なくとも一方で取得された前記候補文字列を含む辞書を用いて前記第3の音声認識部に前記入力音声を認識させ、それによって得られた前記認識結果を前記出力部に出力させる、音声認識方法。
PCT/JP2014/068191 2014-07-08 2014-07-08 音声認識システム及び音声認識方法 WO2016006038A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201480080290.3A CN106663421B (zh) 2014-07-08 2014-07-08 声音识别系统以及声音识别方法
JP2016532819A JP5996152B2 (ja) 2014-07-08 2014-07-08 音声認識システム及び音声認識方法
US15/302,576 US10115394B2 (en) 2014-07-08 2014-07-08 Apparatus and method for decoding to recognize speech using a third speech recognizer based on first and second recognizer results
PCT/JP2014/068191 WO2016006038A1 (ja) 2014-07-08 2014-07-08 音声認識システム及び音声認識方法
DE112014006795.4T DE112014006795B4 (de) 2014-07-08 2014-07-08 Spracherkennungssystem und Spracherkennungsverfahren

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/068191 WO2016006038A1 (ja) 2014-07-08 2014-07-08 音声認識システム及び音声認識方法

Publications (1)

Publication Number Publication Date
WO2016006038A1 true WO2016006038A1 (ja) 2016-01-14

Family

ID=55063714

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/068191 WO2016006038A1 (ja) 2014-07-08 2014-07-08 音声認識システム及び音声認識方法

Country Status (5)

Country Link
US (1) US10115394B2 (ja)
JP (1) JP5996152B2 (ja)
CN (1) CN106663421B (ja)
DE (1) DE112014006795B4 (ja)
WO (1) WO2016006038A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106663421B (zh) * 2014-07-08 2018-07-06 三菱电机株式会社 声音识别系统以及声音识别方法
JP6659514B2 (ja) * 2016-10-12 2020-03-04 東芝映像ソリューション株式会社 電子機器及びその制御方法
CN109273000B (zh) * 2018-10-11 2023-05-12 河南工学院 一种语音识别方法
US11380315B2 (en) * 2019-03-09 2022-07-05 Cisco Technology, Inc. Characterizing accuracy of ensemble models for automatic speech recognition by determining a predetermined number of multiple ASR engines based on their historical performance
US11107475B2 (en) * 2019-05-09 2021-08-31 Rovi Guides, Inc. Word correction using automatic speech recognition (ASR) incremental response

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02195400A (ja) * 1989-01-24 1990-08-01 Canon Inc 音声認識装置
JPH0683388A (ja) * 1992-09-04 1994-03-25 Fujitsu Ten Ltd 音声認識装置
JP2004138914A (ja) * 2002-10-18 2004-05-13 Fujitsu Ltd 音声認識用辞書調整装置及び方法
JP2005003997A (ja) * 2003-06-12 2005-01-06 Toyota Motor Corp 音声認識装置および音声認識方法ならびに車両
JP2008089625A (ja) * 2006-09-29 2008-04-17 Honda Motor Co Ltd 音声認識装置、音声認識方法及び音声認識プログラム
JP2008197356A (ja) * 2007-02-13 2008-08-28 Denso Corp 音声認識装置および音声認識方法

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5712957A (en) * 1995-09-08 1998-01-27 Carnegie Mellon University Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists
US6922669B2 (en) * 1998-12-29 2005-07-26 Koninklijke Philips Electronics N.V. Knowledge-based strategies applied to N-best lists in automatic speech recognition systems
US7016835B2 (en) * 1999-10-29 2006-03-21 International Business Machines Corporation Speech and signal digitization by using recognition metrics to select from multiple techniques
GB2383459B (en) * 2001-12-20 2005-05-18 Hewlett Packard Co Speech recognition system and method
US20030149566A1 (en) * 2002-01-02 2003-08-07 Esther Levin System and method for a spoken language interface to a large database of changing records
US7386454B2 (en) * 2002-07-31 2008-06-10 International Business Machines Corporation Natural error handling in speech recognition
US20040138885A1 (en) * 2003-01-09 2004-07-15 Xiaofan Lin Commercial automatic speech recognition engine combinations
EP1595245B1 (en) * 2003-02-21 2009-04-22 Voice Signal Technologies Inc. Method of producing alternate utterance hypotheses using auxiliary information on close competitors
JP5255769B2 (ja) * 2003-11-21 2013-08-07 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル
US8589156B2 (en) * 2004-07-12 2013-11-19 Hewlett-Packard Development Company, L.P. Allocation of speech recognition tasks and combination of results thereof
US7809567B2 (en) * 2004-07-23 2010-10-05 Microsoft Corporation Speech recognition application or server using iterative recognition constraints
US9020966B2 (en) * 2006-07-31 2015-04-28 Ricoh Co., Ltd. Client device for interacting with a mixed media reality recognition system
US9128926B2 (en) * 2006-10-26 2015-09-08 Facebook, Inc. Simultaneous translation of open domain lectures and speeches
JP4867654B2 (ja) * 2006-12-28 2012-02-01 日産自動車株式会社 音声認識装置、および音声認識方法
KR101415534B1 (ko) * 2007-02-23 2014-07-07 삼성전자주식회사 다단계 음성인식장치 및 방법
JP4812029B2 (ja) * 2007-03-16 2011-11-09 富士通株式会社 音声認識システム、および、音声認識プログラム
US8204746B2 (en) 2007-03-29 2012-06-19 Intellisist, Inc. System and method for providing an automated call center inline architecture
WO2009040382A1 (en) * 2007-09-27 2009-04-02 Siemens Aktiengesellschaft Method and system for identifying information related to a good
EP2048655B1 (en) * 2007-10-08 2014-02-26 Nuance Communications, Inc. Context sensitive multi-stage speech recognition
US8364481B2 (en) 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
US8180641B2 (en) * 2008-09-29 2012-05-15 Microsoft Corporation Sequential speech recognition with two unequal ASR systems
US8140328B2 (en) * 2008-12-01 2012-03-20 At&T Intellectual Property I, L.P. User intention based on N-best list of recognition hypotheses for utterances in a dialog
US8700399B2 (en) * 2009-07-06 2014-04-15 Sensory, Inc. Systems and methods for hands-free voice control and voice search
US8484031B1 (en) * 2011-01-05 2013-07-09 Interactions Corporation Automated speech recognition proxy system for natural language understanding
US9245525B2 (en) * 2011-01-05 2016-01-26 Interactions Llc Automated speech recognition proxy system for natural language understanding
JP6317111B2 (ja) * 2011-02-22 2018-04-25 スピーク・ウィズ・ミー・インコーポレイテッドSpeak With Me,Inc. ハイブリッド型クライアントサーバ音声認識
CN103650034A (zh) * 2011-07-05 2014-03-19 三菱电机株式会社 语音识别装置及导航装置
WO2013078388A1 (en) * 2011-11-21 2013-05-30 Robert Bosch Gmbh Methods and systems for adapting grammars in hybrid speech recognition engines for enhancing local sr performance
US9009049B2 (en) * 2012-06-06 2015-04-14 Spansion Llc Recognition of speech with different accents
US9190057B2 (en) * 2012-12-12 2015-11-17 Amazon Technologies, Inc. Speech model retrieval in distributed speech recognition systems
US9858038B2 (en) * 2013-02-01 2018-01-02 Nuance Communications, Inc. Correction menu enrichment with alternate choices and generation of choice lists in multi-pass recognition systems
CN106663421B (zh) * 2014-07-08 2018-07-06 三菱电机株式会社 声音识别系统以及声音识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02195400A (ja) * 1989-01-24 1990-08-01 Canon Inc 音声認識装置
JPH0683388A (ja) * 1992-09-04 1994-03-25 Fujitsu Ten Ltd 音声認識装置
JP2004138914A (ja) * 2002-10-18 2004-05-13 Fujitsu Ltd 音声認識用辞書調整装置及び方法
JP2005003997A (ja) * 2003-06-12 2005-01-06 Toyota Motor Corp 音声認識装置および音声認識方法ならびに車両
JP2008089625A (ja) * 2006-09-29 2008-04-17 Honda Motor Co Ltd 音声認識装置、音声認識方法及び音声認識プログラム
JP2008197356A (ja) * 2007-02-13 2008-08-28 Denso Corp 音声認識装置および音声認識方法

Also Published As

Publication number Publication date
JPWO2016006038A1 (ja) 2017-04-27
CN106663421A (zh) 2017-05-10
DE112014006795T5 (de) 2017-03-16
US20170140752A1 (en) 2017-05-18
DE112014006795B4 (de) 2018-09-20
JP5996152B2 (ja) 2016-09-21
CN106663421B (zh) 2018-07-06
US10115394B2 (en) 2018-10-30

Similar Documents

Publication Publication Date Title
US11562736B2 (en) Speech recognition method, electronic device, and computer storage medium
KR102494139B1 (ko) 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법
US9390711B2 (en) Information recognition method and apparatus
US9558741B2 (en) Systems and methods for speech recognition
JP5996152B2 (ja) 音声認識システム及び音声認識方法
JP5868544B2 (ja) 音声認識装置および音声認識方法
US9697819B2 (en) Method for building a speech feature library, and method, apparatus, device, and computer readable storage media for speech synthesis
US10916246B2 (en) Information processing device, in-vehicle device, and storage medium
US10170122B2 (en) Speech recognition method, electronic device and speech recognition system
EP2963644A1 (en) Audio command intent determination system and method
CN106030698B (zh) 用于智能个人助理应用的方法、系统和计算机可读介质
JP6869835B2 (ja) 音声認識システム、端末装置、及び辞書管理方法
EP3501024B1 (en) Systems, apparatuses, and methods for speaker verification using artificial neural networks
US10866948B2 (en) Address book management apparatus using speech recognition, vehicle, system and method thereof
CN111522937B (zh) 话术推荐方法、装置和电子设备
JP6468258B2 (ja) 音声対話装置および音声対話方法
US10600405B2 (en) Speech signal processing method and speech signal processing apparatus
JP5342629B2 (ja) 男女声識別方法、男女声識別装置及びプログラム
JP2015102805A (ja) 音声認識システム、電子装置、サーバー、音声認識方法および音声認識プログラム
CN117378006A (zh) 混合多语种的文本相关和文本无关说话者确认
JP2005092310A (ja) 音声キーワード認識装置
US11308936B2 (en) Speech signal processing method and speech signal processing apparatus
CN111933150A (zh) 一种基于双向补偿机制的文本相关说话人识别方法
TW201730874A (zh) 語音辨識方法、電子裝置及語音辨識系統

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14897039

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2016532819

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 15302576

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 112014006795

Country of ref document: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14897039

Country of ref document: EP

Kind code of ref document: A1