WO2006075648A1 - 音声認識システム、音声認識方法及び音声認識プログラム - Google Patents

音声認識システム、音声認識方法及び音声認識プログラム Download PDF

Info

Publication number
WO2006075648A1
WO2006075648A1 PCT/JP2006/300269 JP2006300269W WO2006075648A1 WO 2006075648 A1 WO2006075648 A1 WO 2006075648A1 JP 2006300269 W JP2006300269 W JP 2006300269W WO 2006075648 A1 WO2006075648 A1 WO 2006075648A1
Authority
WO
WIPO (PCT)
Prior art keywords
prefetch
distance
value
buffer
distance value
Prior art date
Application number
PCT/JP2006/300269
Other languages
English (en)
French (fr)
Inventor
Shinya Ishikawa
Kiyoshi Yamabana
Original Assignee
Nec Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nec Corporation filed Critical Nec Corporation
Priority to JP2006552956A priority Critical patent/JP5103907B2/ja
Priority to EP06711592A priority patent/EP1852847A4/en
Priority to CN2006800024298A priority patent/CN101120397B/zh
Publication of WO2006075648A1 publication Critical patent/WO2006075648A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing

Definitions

  • Speech recognition system speech recognition method, and speech recognition program
  • the present invention relates to a speech recognition system, speech recognition method, and speech recognition program suitable for, for example, high-accuracy and high-speed large vocabulary continuous speech recognition (LVCSR).
  • LVCSR large vocabulary continuous speech recognition
  • Non-Patent Document 1 In recent years, as described in Non-Patent Document 1, attempts have been actively made to realize high-precision and high-speed LVCSR. In this LVCSR, the search space is very large, so the design of the search algorithm is important. In this search algorithm, the “look-ahead” method, which considers not only the cumulative score up to the nodes on the trellis but also the cumulative score after that node (estimated value), is widely used in the search process. .
  • a speech recognition system related to this technology is shown in Fig. 5 as the first conventional example. Hereinafter, description will be made based on this drawing.
  • a speech recognition system 700 of the first conventional example includes a data processing device 710 and a data storage device 720.
  • the data storage device 720 stores an audio buffer 721 that stores audio over a plurality of frames, and a prefetch value of audio that is created by processing the audio accumulated in the audio buffer 721 in the opposite direction to the audio.
  • the data processing device 710 creates a pre-read value and stores the pre-read value in the pre-read value buffer 722.
  • the distance for the pre-read means 711, the distance in the speech buffer 721 and the pre-read value buffer 722 is used to perform normal word matching processing. Calculation ⁇ Word string matching means 712 is provided.
  • the speech recognition system 700 operates as follows. First, the distance calculation 'prefetching means 711 operates as follows. Wait until the time-series data of the input audio features is accumulated in the audio buffer 721, then process the audio in reverse order of time to create prefetch values for each frame, and store them in the prefetch value buffer 722. accumulate. When the processing is completed for the audio buffer 721, the distance calculation / word string collating means 712 is notified of this. Continued The distance calculation / word string matching means 712 operates as follows. Continuous word matching is performed with reference to the speech buffer 721 and the prefetch value buffer 722. When the processing in the speech buffer 721 and the prefetch value buffer 722 is completed, the distance calculation / prefetch means 711 is notified of this.
  • the distance calculation / prefetch means 711 waits again until data is accumulated in the audio buffer 721 and repeats the same processing.
  • the continuous word matching result is held in the distance calculation 'word string matching means 712, and the result is output when all the speech feature values are processed.
  • FIG. 6 the speech recognition system described in Patent Document 1 is shown in FIG. 6 as a second conventional example.
  • description will be given based on this drawing.
  • the speech recognition system 800 of the second conventional example has a three-stage processing unit including an analysis unit 801, a plurality of word level processors 821 to 823, and a plurality of sentence level processors 861 and 862.
  • each word level processor 821 to 823 and each sentence level processor 861, 862 input / output in synchronization with the speech signal input to the analysis unit 801, that is, parallel processing is performed.
  • the processing speed can be increased as compared with the case where the whole is performed by a single processor.
  • 804 is a data transfer unit
  • 807 is a transfer instruction unit
  • 808 is a priority order changing unit
  • 831, 832, 833, 851, and 852 are FIFOs.
  • Non-Patent Document 1 “Examination of hypothesis restriction method based on phoneme graph for large vocabulary continuous speech recognition” IPSJ Journal vol.40, No.4 Apr 1999, Takaaki Hori, Nao Oka Raw, Masaharu Kato, Akinori Ito, Masaki Yoshida
  • Patent Document 1 Japanese Patent Laid-Open No. 4 232998 “Voice Recognition Device”
  • an object of the present invention is to provide a voice recognition system and the like that can perform higher-speed recognition by realizing parallelization of the voice recognition system corresponding to the first conventional example. .
  • FIG. 7 shows a speech recognition system that is a premise of the present invention.
  • the voice recognition system 900 is composed of a data processing device 910 and a data storage device 920.
  • the data processing device 910 includes distance calculation means 911, prefetching means 912 that performs only prefetching, and word string matching means 913 that performs only word matching.
  • the data storage device 920 has one distance value buffer 921 and one prefetch value buffer 922 that can accommodate a plurality of frames.
  • the distance calculation means 911 calculates distance values for all acoustic models, and the prefetching means 912 and the word string matching means 913 in the subsequent stage do not newly calculate distances. However, in such a speech recognition system 900, as shown in the time chart of FIG. 8, one processing power cannot be performed at the same time.
  • the speech recognition system includes a distance calculation unit that generates a distance value between a sequentially input speech feature amount and each acoustic model, and a parallel generation of the distance value by the distance calculation unit.
  • the prefetching means for generating the prefetch value using the distance value already generated by the distance calculation means the generation of the distance value by the distance calculation means and the prefetching value by the prefetching means, It has a word string collating unit that performs word collation using the distance value already generated by the distance calculating unit and the prefetched value already generated by the prefetching unit to generate a recognition result.
  • the three means can execute processing in parallel, high-speed speech recognition is possible.
  • each of the distance value buffers includes a plurality of distance value buffers that store the distance values generated by the distance calculation means and a plurality of prefetch value buffers that store the prefetch values generated by the prefetch means.
  • the distance value is written by the distance calculation means, the distance value is read by the prefetching means, and then the distance value is read by the word string matching means.
  • the prefetch value is written by the prefetch means, and then the prefetch value is read by the word string matching means, and the distance calculation means writes the distance value!
  • the distance value buffer from which the reading means reads out the distance value is different from the distance value buffer from which the word string matching means reads out the distance value, and the prefetching means is the prefetched value.
  • the prefetch value buffer may be different from the prefetch value buffer from which the word string matching means reads the prefetch value.
  • a noferer length determination unit that determines a nofafer length of the distance value buffer or the prefetch value buffer so that the processing amounts of the distance calculation unit, the prefetching unit, and the word matching unit are uniform. May be further provided.
  • the optimum buffer length for the speed is determined by the buffer length determining means, so that the recognition speed is improved.
  • the operation of the distance calculating means, the prefetching means, and the word string collating means is monitored, and when the distance calculating means can no longer write the distance value in the distance value buffer, and When the prefetching means and the word string collating means have read all the distance values from the distance value buffer, and when the prefetching means can no longer write the prefetched values to the prefetched value buffer, and the word string
  • the collation means reads all the prefetch values from the prefetch value buffer
  • the distance value buffer used for writing by the distance calculation means is used for the next read of the prefetch means, and the prefetch means reads.
  • the distance value buffer used is used for the next reading of the word string matching means, and the distance used for the reading of the word string matching means
  • the value buffer is used for the next writing of the distance calculation means
  • the prefetch value buffer used for writing by the prefetching means is used for the next reading of the word string matching means, and is used for the reading of the word string matching means.
  • a pre-reading value buffer may be provided for a next writing after the pre-reading means. In this case, the effect of the present invention can be obtained with a minimum number of buffers.
  • the speech recognition method includes a distance calculation step for generating a distance value between the sequentially input speech feature and each acoustic model, and the generation of the distance value in the distance calculation step.
  • a prefetch step for generating a prefetch value using the distance value already generated in the distance calculation step, and generation of the distance value in the distance calculation step.
  • word recognition is performed using the distance value already generated in the distance calculation step and the prefetch value already generated in the prefetch step. And a word string collating step to be generated.
  • the speech recognition program according to the present invention is a computer that constitutes a speech recognition system, a function that generates a distance value between the sequentially input speech feature and each acoustic model, and the distance value.
  • a function of generating a recognition result by performing word collation using the already generated distance value and the already generated prefetch value is executed.
  • the first speech recognition system of the present invention has a plurality of prefetch value buffers and distance value buffers each capable of storing a plurality of frames on a shared memory, and distance calculation, prefetching and speech recognition.
  • the second speech recognition system of the present invention has buffer length determining means in addition to the first speech recognition system. This buffer length determination means communicates with the distance calculation, prefetching and voice recognition means, and determines the length of the buffer used by the distance calculation, prefetching and voice recognition means.
  • a speech recognition system may be provided that includes a distance calculation unit, a prefetching unit, and a word string collation unit, which operate in parallel.
  • the speech recognition system includes a plurality of distance value buffers and prefetch value buffers, and separate buffers are used for the distance calculation means, the prefetch means, and the word string collation means, and the processed buffer is changed from the distance calculation process to the prefetch process.
  • the speech recognition system may be characterized in that it performs parallel processing by passing from prefetch processing to word collation processing.
  • the speech recognition system may include a buffer length determining unit that communicates with the distance calculating unit, the prefetching unit, and the word collating unit to determine the buffer length.
  • a distance value between a sequentially input speech feature and each acoustic model is generated.
  • a process for generating a prefetch value using the already generated distance value, and a process for generating a recognition result by performing word matching using the already generated distance value and the already generated prefetch value is executed.
  • FIG. 1 is a block diagram showing a first embodiment of a speech recognition system according to the present invention.
  • the speech recognition system 100 is characterized by including a distance calculation unit 111, a prefetching unit 121, and a word string collating unit 131.
  • the distance calculation unit 111 generates a distance value between the sequentially input speech feature and each acoustic model.
  • the prefetch unit 121 generates a prefetch value using the distance value already generated by the distance calculation unit 111 when the distance calculation unit 111 is generating a distance value.
  • the word string collating means 131 is configured such that the distance calculation means 111 generates a distance value, and the prefetching means 121 generates a prefetching value. Using the pre-read value already generated by means 121, word matching is performed to generate a recognition result. In this way, since the three means can execute processing in parallel, high-speed speech recognition is possible.
  • the speech recognition system 100 includes a plurality of distance value buffers 141 to 145 storing the distance values generated by the distance calculation unit 111 and a plurality of prefetch values generated by the prefetch unit 121.
  • Prefetch value buffers 151 to 153 are provided. In each of the distance value buffers 141 to 145, the distance value is written by the distance calculation unit 111, the distance value is read by the prefetching unit 121, and then the distance value is read by the word string matching unit 131. In each of the prefetch value buffers 151 to 153, the prefetch value is written by the prefetch means 121, and then the prefetch value is read by the word string collating means 131.
  • the speech recognition system 100 of this embodiment includes data processing devices 110, 120, and 130 that operate under program control, and a data storage device 140 that stores information. Since the data processing devices 110, 120, and 130 have different processors, parallel processing is possible. If a processor capable of parallel processing is used, a single data processing device can be used.
  • the data storage device 140 includes distance value buffers 141, 142, 143, prefetch value buffers 151, 152, zero or more distance value buffers 144, zero or more distance value buffers 145, and zero or more And a prefetch value buffer 153 on the upper side.
  • the number of buffers in the distance value buffer 145 and the number of buffers in the prefetch buffer 153 are the same.
  • the distance value buffers 141 to 145 are buffers corresponding to voices in a certain frame section, and store the distance values of the acoustic models for the voice feature values input in each frame.
  • Prefetch value buffers 151 to 153 are buffers corresponding to the sound of a certain frame section and its distance value, and hold prefetch values that are superior or inferior to each recognition unit calculated from the acoustic information after that frame in each frame. Yes.
  • the data processing device 110 includes distance calculation means 111
  • the data processing device 120 includes prefetching means 121
  • the data processing device 130 includes word string matching means 131.
  • the distance calculation means 111 calculates the distance value between the acoustic feature quantity and each acoustic model for each time-series frame of the input voice feature quantity, and writes it in the distance value buffer 141.
  • the prefetching unit 121 reads a distance value from the distance value buffer 142, calculates a prefetch value that is superior / inferior information for each recognition unit of each frame in the distance value buffer 142, and writes it in the prefetch value buffer 151. .
  • the word string collating unit 131 reads the distance value and the prefetch value in the same frame from the distance value buffer 143 and the prefetch value buffer 152, and selects the collation word appropriately using the prefetch value of each recognition unit, and performs frame synchronization. Word recognition is performed on the word, and a recognition result for the entire utterance is generated.
  • FIG. 2 is a time chart showing the operation of the speech recognition system 100.
  • the operation of the speech recognition system 100 will be described with reference to FIG. 1 and FIG.
  • the distance calculation means 111 secures the distance value buffer 141 in the data storage device 140 ((1) in FIG. 2). Next, time-series data of acoustic features is analyzed as analyzed speech. Is supplied to the distance calculation means 111. Then, the distance calculation means 111 calculates a distance value in synchronization with the input sound time series, and writes this in the distance value buffer 141. When the distance value buffer 141 becomes full, it is allocated at the end of the plurality of distance value buffers 144, a new distance value buffer 141 is secured in the data storage device 140, and the processing is continued.
  • the prefetching means 121 also extracts the distance value of each frame, calculates the prefetch value for each recognition unit of each frame, and calculates this prefetch value. Write to buffer 151.
  • the look-ahead value buffer 151 becomes full, the distance value buffer 142 is added to the end of the plurality of distance value buffers 145, and the look-ahead value buffer 151 is added to the end of the plurality of look-ahead value buffers 153. In this case and immediately after the start of the operation, the distance value buffer 142 and the look-ahead value buffer 151 are not provided. Therefore, the first one is taken out from the plurality of distance value buffers 144 to be used as the distance value buffer 142, a new prefetch value buffer 151 is secured in the data storage device 140, and the processing is continued.
  • the distance value buffer processed by the distance calculation means 111 is processed by the prefetching means 121 in that order.
  • A, B, C, and D are prefetch value buffers corresponding to the distance value buffers (1X2X3X4), respectively.
  • the word string collating means 131 takes the distance value of each frame and the prefetch value of each recognition unit, and uses the prefetch value. Then, word matching is performed in frame synchronization while appropriately selecting matching words, and a recognition result for one utterance is generated.
  • the distance value buffer 143 and the look-ahead value buffer 152 release the memory.
  • the distance value buffer 143 and the look-ahead value buffer 152 are not given, so the first one from the plurality of distance value buffers 145 and the look-ahead value buffers 153 (in FIG. 2, (1 ) And A, (2) and B, (3) and C, and (4) and D) are taken as distance value buffer 143 and look-ahead value buffer 152, respectively, and the processing is continued.
  • the recognition result up to that point is output as the final speech recognition result.
  • the distance calculation means 111, the prefetching means 121, and the word string matching means 131 which are the three processing means, can be independently processed in parallel.
  • the voice recognition speed is improved as compared with the voice recognition system of the example.
  • the speech recognition system 100 of the present embodiment can be summarized as follows.
  • the distance calculation unit 111 receives time-series data of speech feature values, calculates distance values between all acoustic models and each frame in frame synchronization, and writes them in the distance value buffer 141.
  • the distance value buffer 14 1 becomes full, it is added to the end of a plurality of distance value buffers 144 waiting to be delivered to the prefetch means 121.
  • the prefetching means 121 receives the distance value buffer 142 from the plurality of distance value buffers 144, calculates a prefetch value that is superior or inferior for each recognition unit in each frame, and writes it in the prefetch value buffer 151.
  • the distance calculation means 131 When the prefetch value buffer 151 becomes full, the distance calculation means 131 is added to the end of the plurality of distance value buffers 145 and prefetch value buffer 153 that are waiting to be delivered.
  • the word string collation means 131 receives the distance value buffer 143 and the prefetch value buffer 152 from the plurality of distance value buffers 145 and the prefetch value buffer 153, and selects the collation words appropriately using the prefetch values, and performs the entire utterance for frame synchronization. Recognize and generate recognition results. In this way, speech recognition can be performed at high speed by processing each path of multipath speech recognition in parallel.
  • FIG. 3 is a block diagram showing a second embodiment of the speech recognition system according to the present invention.
  • the speech recognition apparatus 200 is characterized by including a buffer length determination unit 211.
  • the buffer length determination unit 211 determines the buffer lengths of the distance value buffers 141 to 145 or the prefetch value buffer 151 to 153 so that the processing amounts of the distance calculation unit 111, the prefetching unit 121, and the word matching unit 131 are uniform. To do.
  • the buffer length determining means 211 determines the optimum buffer length for the speed, so that the recognition speed is improved.
  • the speech recognition apparatus 200 is different in that the data processing apparatus 210 includes a buffer length determining unit 211 in addition to the configuration of the data processing apparatus 110 in FIG.
  • the buffer length determining unit 211 includes a distance calculating unit 111, a prefetching unit 121, and a word string collating unit 131.
  • To calculate the optimal buffer length For example, when the difference between the execution time per buffer of either the prefetching means 121 or the word string matching means 131 and the execution time per buffer of the distance calculation means 131 exceeds a certain value, only the delay amount Increase the buffer length.
  • the distance calculating unit 111 receives the buffer length from the buffer length determining unit 211, and brings the length of the distance value buffer after the received time closer to the buffer length within a range in which the calculated distance value is not discarded. Operations other than those described above are the same as in the first embodiment.
  • the speed of the prefetching process is improved by increasing the length of one buffer, and the prefetching accuracy is also improved. Therefore, the speed of the word string collating means 131 is also improved.
  • the prefetching means 121 and the word string matching means 131 are increased by increasing the buffer length from the most upstream distance calculation means 111. At the same time, since the speed is increased, the processing amount of the three processing means can be made more uniform.
  • FIG. 4 is a block diagram showing a third embodiment of the speech recognition system according to the present invention.
  • the speech recognition system 300 is characterized by including a buffer management unit 341.
  • the buffer management means 341 monitors the operations of the distance calculation means 311, the prefetching means 321 and the word string matching means 331, and when the distance calculation means 311 can no longer write the distance value in the distance value buffer 141, the prefetching means 321 When the word string matching means 331 reads all the distance values from the distance value buffers 142 and 143, and when the prefetch means 321 can no longer write the prefetch values into the prefetch value buffer 151, the word string matching means 331 When all the prefetch values are read from the prefetch value buffer 152, the distance value buffer 141 is used for the next read of the prefetch means 321 and the distance value buffer 142 is used for the next read of the word string matching means 331.
  • the prefetch value buffer 151 is for the next reading of the word string matching means 331
  • the prefetch value buffer 152 is the prefetcher 321 of the following for writing. According to this embodiment, the effects of the present invention can be obtained with a minimum number of buffers.
  • the speech recognition system 300 is a data that operates under program control.
  • the data storage device 350 includes distance value buffers 141, 142, and 143 and prefetch value buffers 151 and 152.
  • the distance value buffers 141, 142, and 143 are buffers corresponding to voices in a certain frame section, and store the distance values of each acoustic model with respect to the voice feature values input in each frame.
  • Prefetch value buffers 151 and 152 are buffers corresponding to the sound of a certain frame section and its distance value, and hold prefetch values that are superior or inferior to each recognition unit calculated for the sound information power after that frame in each frame. is doing.
  • the data processing device 310 includes distance calculation means 311, the data processing device 320 includes prefetching means 321, the data processing device 330 includes word string matching means 331, and the data processing device 340 includes buffer management means 341. .
  • the distance calculation means 331 calculates the acoustic feature value and the distance value of each acoustic model for each time-series frame of the input voice feature value, and writes this to the distance value buffer 141.
  • the prefetch means 321 reads the distance value from the distance value buffer 142, calculates a prefetch value that is superior / inferior information for each recognition unit of each frame in the buffer, and writes this in the prefetch value buffer 151.
  • the word string collating means 331 reads the distance value and the prefetch value in the same frame from the distance value buffer 143 and the prefetch value buffer 152, and selects the collation word appropriately using the prefetch value of each recognition unit, and performs frame synchronization. Word matching is performed on the vowel, and a recognition result is generated for the entire utterance.
  • the time series data of the acoustic feature amount is supplied to the distance calculation means 311 as the analyzed voice.
  • the distance calculation means 311 calculates a distance value in synchronization with the input acoustic time series and writes it in the distance value buffer 141. When the distance value buffer 141 becomes full, it waits.
  • the prefetching means 321 also extracts the distance value of each frame, calculates the prefetch value for each recognition unit of each frame, and writes it in the prefetch value buffer 151. When the prefetch value buffer 151 becomes full, a wait state is entered.
  • the word string collating means 331 takes the distance value of each frame and the prefetch value of each recognition unit, While appropriately selecting collation words using pre-read values, word collation is performed in frame synchronization to generate a single utterance recognition result.
  • a wait state is entered.
  • the buffer management means 341 monitors the status of the distance calculation means 311, the prefetching means 321, and the word string matching means 331, and when all are in a waiting state, the distance value buffer 141 is transferred to the distance value buffer 142.
  • the distance value buffer 142 is moved to the distance value buffer 143, the distance value buffer 143 is moved to the distance value buffer 141, the prefetch value buffer 151 and the prefetch value buffer 152 are switched, and then the distance calculation means 331, the prefetch means 321 and The waiting state of the word string collating means 331 is canceled.
  • the word string collating means 331 When the data to be processed disappears in the distance value buffer 143 and the prefetch value buffer 152, the word string collating means 331 outputs the recognition result up to that point as the final speech recognition result.
  • the speech recognition system 300 of the present embodiment since the distance calculation means 311, the prefetching means 321 and the word string matching means 331, which are three processing means, can be independently processed in parallel, the first conventional technique The voice recognition speed is improved as compared with the voice recognition system of the example.
  • FIG. 1 is a block diagram showing a first embodiment of a speech recognition system according to the present invention.
  • FIG. 2 is a time chart showing the operation of the voice recognition system of FIG.
  • FIG. 3 is a block diagram showing a second embodiment of the speech recognition system according to the present invention.
  • FIG. 4 is a block diagram showing a third embodiment of the speech recognition system according to the present invention.
  • FIG. 5 is a block diagram showing a first conventional example of a speech recognition system.
  • FIG. 6 is a block diagram showing a second conventional example of a speech recognition system.
  • FIG. 7 is a block diagram showing a speech recognition system as a premise of the present invention.
  • FIG. 8 is a time chart showing the operation of the speech recognition system of FIG.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 マルチパス音声認識の各パスを並列して処理することで、高速に音声認識を行う。 【解決手段】 距離計算手段111は、音声特徴量の時系列データに関するフレーム同期の全音響モデルと各フレームの距離値を距離値バッファ141に書き込む。先読み手段121は、複数の距離値バッファ144~142から距離値を受け取り、各認識単位の優劣である先読み値を計算し、先読み値バッファ142に書き込む。単語列照合手段131は複数の距離値バッファ145及び先読み値バッファ153~距離値バッファ143及び先読み値バッファ152から情報を受け取り、先読み値を利用して適宜照合単語を取捨選択しながらフレーム同期に発声全体を認識し、認識結果を生成する。

Description

明 細 書
音声認識システム、音声認識方法及び音声認識プログラム
技術分野
[0001] 本発明は、例えば高精度かつ高速な大語彙連続音声認識 (Large Vocabulary Con tinuous Speech Recognition:LVCSR)に適した音声認識システム、音声認識方法及 び音声認識プログラムに関する。
背景技術
[0002] 近年、非特許文献 1に記載されて 、るように、高精度かつ高速な LVCSRを実現し ようとする試みが盛んになされている。この LVCSRでは、探索空間が非常に大きくな るため、探索アルゴリズムの設計は重要である。この探索アルゴリズムにおいて、探索 の過程でトレリス上の節点までの累積スコアだけでなく当該節点以降の累積スコア( の推定値)も併せて考慮する「先読み」 t 、う方法が広く用いられて 、る。この技術に 関連する音声認識システムを、第一従来例として図 5に示す。以下、この図面に基づ き説明する。
[0003] 第一従来例の音声認識システム 700は、データ処理装置 710及びデータ記憶装 置 720によって構成されている。データ記憶装置 720は、複数フレームに渡る音声を 蓄積する音声バッファ 721と、音声バッファ 721に蓄積された音声に対して、音声と は逆向きに処理して作成される音声の先読み値を保存する先読み値バッファ 722と 、を備える。データ処理装置 710は、前記先読み値を作成し先読み値バッファ 722に 保存する距離計算'先読み手段 711と、音声バッファ 721及び先読み値バッファ 722 の各値を利用して通常の単語照合処理を行う距離計算 ·単語列照合手段 712とを備 える。
[0004] 音声認識システム 700は以下のように動作する。まず、距離計算'先読み手段 711 は、次のように動作する。入力される音声特徴量の時系列データが音声バッファ 721 に蓄積されるまで待ち、その後その音声を時間と逆順に処理して各フレームに対す る先読み値を作成し、これを先読み値バッファ 722に蓄積する。音声バッファ 721に 対して処理が完了すると、距離計算 ·単語列照合手段 712にその旨を通知する。続 いて、距離計算 ·単語列照合手段 712は、次のように動作する。音声バッファ 721及 び先読み値バッファ 722を参照して連続単語照合を行い、音声バッファ 721及び先 読み値バッファ 722内の処理が完了すると、距離計算 ·先読み手段 711にその旨を 通知する。その後、距離計算'先読み手段 711は、音声バッファ 721にデータが蓄積 されるまで再び待ち、同様の処理を繰り返す。連続単語照合結果は距離計算'単語 列照合手段 712内に保持されており、全ての音声特徴量を処理した時点で結果が 出力される。
[0005] 次に、特許文献 1に記載された音声認識システムを、第二従来例として図 6に示す 。以下、この図面に基づき説明する。
[0006] 第二従来例の音声認識システム 800は、分析部 801と、複数の単語レベルプロセ ッサ 821〜823と、複数の文レベルプロセッサ 861, 862とから成る三段の処理部を 持つ。音声認識システム 800によれば、分析部 801に入力される音声信号に同期し て各単語レベルプロセッサ 821〜823及び各文レベルプロセッサ 861, 862力入力 · 出力を行うことにより、すなわち並列処理を行うことにより、全体を単一のプロセッサで 行う場合に比べて、処理を高速化できる。なお、 804はデータ転送部、 807は転送指 示部、 808は優先順位変更部、 831, 832, 833, 851, 852は FIFOである。
[0007] 非特許文献 1 :「大語彙連続音声認識のための音素グラフに基づく仮説制限法の検 討」情報処理学会論文誌 vol.40, No.4 1999年 4月、堀貴明、岡直生、加藤正治、伊 藤彰典、好田正紀
特許文献 1:特開平 4 232998号公報「音声認識装置」
発明の開示
発明が解決しょうとする課題
[0008] し力しながら、第一従来例の問題点は、一つの処理手段で逐次的に処理するので 、組込み向けの低電力 CPUでは認識速度が不十分なことである。これを第二従来例 のように複数の処理手段で行えば高速ィ匕が期待できるものの、第二従来例ではフレ ーム同期に処理を行うことが前提となっている。そのため、複数のフレームをバッファ に貯めた後、時間と逆順に処理を行う必要がある先読み処理を含む第一従来例に お!、ては、これをそのまま組み合わせることはできな!、。 [0009] そこで、本発明の目的は、第一従来例に相当する音声認識システムの並列化を実 現することにより、更に高速な認識が可能となる、音声認識システム等を提供すること にある。
課題を解決するための手段
[0010] 本発明の前提となる音声認識システムを、図 7に示す。以下、図 7に基づき説明す る。この音声認識システム 900は、データ処理装置 910及びデータ記憶装置 920に よって構成される。データ処理装置 910は、距離計算手段 911と、先読みのみを行う 先読み手段 912と、単語照合のみを行う単語列照合手段 913とを有する。データ記 憶装置 920は、複数のフレームを収容可能な距離値バッファ 921及び先読み値バッ ファ 922を一つずつ有する。距離計算手段 911は、全音響モデルに対する距離値を 計算し、後段の先読み手段 912及び単語列照合手段 913において新たに距離計算 を行わない。しかしながら、このような音声認識システム 900では、図 8のタイムチヤ一 トに示すように、同時に一つの処理し力行うことができな 、。
[0011] そこで、本発明に係る音声認識システムは、順次入力した音声特徴量と各音響モ デルとの間の距離値を生成する距離計算手段と、前記距離計算手段による距離値 の生成と並行して、前記距離計算手段で既に生成された距離値を用いて先読み値 を生成する先読み手段と、前記距離計算手段による距離値の生成及び前記先読み 手段による先読み値の生成と並行して、前記距離計算手段で既に生成された距離 値及び前記先読み手段で既に生成された先読み値を用いて単語照合を行って認識 結果を生成する単語列照合手段を有することを特徴とするものである。このように、三 つの手段が並列的に処理を実行できるので、高速な音声認識が可能となる。
[0012] 例えば、前記距離計算手段で生成された距離値を格納する距離値バッファと、前 記先読み手段で生成された先読み値を格納する先読み値バッファとをそれぞれ複数 備え、前記各距離値バッファは、前記距離計算手段で前記距離値が書き込まれ、そ の後前記先読み手段で前記距離値が読み出され、その後前記単語列照合手段で 前記距離値が読み出され、前記各先読み値バッファは、前記先読み手段で前記先 読み値が書き込まれ、その後前記単語列照合手段で前記先読み値が読み出され、 前記距離計算手段が前記距離値を書き込んで!/ヽる前記距離値バッファと、前記先読 み手段が前記距離値を読み出して!/ヽる前記距離値バッファと、前記単語列照合手段 が前記距離値を読み出している前記距離値バッファとはそれぞれ異なり、かつ、前記 先読み手段が前記先読み値を書き込んで 、る前記先読み値バッファと、前記単語列 照合手段が前記先読み値を読み出している前記先読み値バッファとはそれぞれ異な る、としてちよい。
[0013] また、前記距離計算手段、前記先読み手段及び前記単語照合手段の処理量が均 一になるように、前記距離値バッファ又は前記先読み値バッファのノ ッファ長を決定 するノ ッファ長決定手段を更に備えた、としてもよい。この場合は、バッファ長決定手 段によって、速度に対して最適なバッファ長が決定されるので、認識速度が向上する
[0014] 更に、前記距離計算手段、前記先読み手段及び前記単語列照合手段の動作を監 視し、前記距離計算手段が前記距離値バッファに前記距離値をこれ以上書き込めな くなつた時、かつ前記先読み手段及び前記単語列照合手段が前記距離値バッファ から前記距離値を全て読み出した時、かつ前記先読み手段が前記先読み値バッフ ァにこれ以上前記先読み値を書き込めなくなった時、かつ前記単語列照合手段が前 記先読み値バッファから前記先読み値を全て読み出した時に、前記距離計算手段 が書き込みに用いていた前記距離値バッファを前記先読み手段の次の読み出し用と し、前記先読み手段が読み出しに用いていた前記距離値バッファを前記単語列照 合手段の次の読み出し用とし、前記単語列照合手段の読み出しに用いていた前記 距離値バッファを前記距離計算手段の次の書き込み用とし、前記先読み手段が書き 込みに用いていた前記先読み値バッファを前記単語列照合手段の次の読み出し用 とし、前記単語列照合手段の読み出しに用いていた前記先読み値バッファを前記先 読み手段の次の書き込み用とする、ノ ッファ管理手段を更に備えた、としてもよい。こ の場合は、最小限のバッファ数で、本発明の効果が得られる。
[0015] 本発明に係る音声認識方法は、順次入力した音声特徴量と各音響モデルとの間の 距離値を生成する距離計算ステップと、この距離計算ステップにおける前記距離値 の生成と並行して、当該距離計算ステップで既に生成された距離値を用いて先読み 値を生成する先読みステップと、前記距離計算ステップにおける前記距離値の生成 と、前記先読みステップにおける前記先読み値の生成とに並行して、前記距離計算 ステップで既に生成された距離値及び前記先読みステップで既に生成された先読み 値を用いて単語照合を行って認識結果を生成する単語列照合ステップとを有するこ とを特徴とするものである。
[0016] 本発明に係る音声認識プログラムは、音声認識システムを構成するコンピュータ〖こ 、順次入力した音声特徴量と各音響モデルとの間の距離値を生成する機能と、前記 距離値を継続して生成して 、る時に、既に生成された距離値を用いて先読み値を生 成する機能と、前記距離値を継続して生成して ヽる時及び前記先読み値を継続して 生成している時に、既に生成された距離値及び既に生成された先読み値を用いて単 語照合を行って認識結果を生成する機能を実行させることを特徴とするものである。
[0017] さらに、本発明の第一の音声認識システムは、共有メモリ上に、複数のフレームを 収めることができる先読み値バッファ及び距離値バッファをそれぞれ複数有し、また 距離計算、先読み及び音声認識を行う各手段を有し、これらの三手段において、複 数フレームを納めることができるバッファを単位としたバッチ的な三並列処理を行うシ ステムとする。また、本発明の第二の音声認識システムは、第一の音声認識システム に加えて、バッファ長決定手段を有する。このバッファ長決定手段は、距離計算、先 読み及び音声認識手段と通信を行って、距離計算、先読み及び音声認識手段で用 V、るバッファの長さを決定する。
[0018] 更に、距離計算手段と先読み手段と単語列照合手段を備え、それらが並列して動 作することを特徴とする音声認識システムとしてもよい。また、前記音声認識システム において、距離値バッファと先読み値バッファとを複数備え、距離計算手段、先読み 手段及び単語列照合手段において別々のバッファを用い、処理済のバッファを距離 計算処理から先読み処理へ、先読み処理から単語照合処理へと受け渡して並列処 理することを特徴とする音声認識システムとしてもよい。また、前記音声認識システム において、距離計算手段、先読み手段及び単語照合手段と通信し、バッファ長を決 定するバッファ長決定手段を持つことを特徴とする音声認識システムとしてもよい。 発明の効果
[0019] 本発明によれば、順次入力した音声特徴量と各音響モデルとの間の距離値を生成 する処理と、既に生成された距離値を用いて先読み値を生成する処理と、既に生成 された距離値及び既に生成された先読み値を用いて単語照合を行って認識結果を 生成する処理とを実行することにより、複数の処理を並列的に実行できるので、音声 の認識速度を向上できる。
発明を実施するための最良の形態
[0020] 図 1は、本発明に係る音声認識システムの第一実施形態を示すブロック図である。
以下、この図面に基づき説明する。
[0021] 本実施形態の音声認識システム 100は、距離計算手段 111、先読み手段 121及 び単語列照合手段 131を備えたことを特徴とする。距離計算手段 111は、順次入力 した音声特徴量と各音響モデルとの間の距離値を生成する。先読み手段 121は、距 離計算手段 111が距離値を生成している時に、距離計算手段 111で既に生成され た距離値を用いて先読み値を生成する。単語列照合手段 131は、距離計算手段 11 1が距離値を生成して 、る時及び先読み手段 121が先読み値を生成して 、る時に、 距離計算手段 111で既に生成された距離値及び先読み手段 121で既に生成された 先読み値を用いて単語照合を行って認識結果を生成する。このように、三つの手段 が並列的に処理を実行できるので、高速な音声認識が可能となる。
[0022] また、音声認識システム 100は、距離計算手段 111で生成された距離値を格納す る複数の距離値バッファ 141〜145と、先読み手段 121で生成された先読み値を格 納する複数の先読み値バッファ 151〜 153とを備えて 、る。各距離値バッファ 141〜 145は、距離計算手段 111で距離値が書き込まれ、その後先読み手段 121で距離 値が読み出され、その後単語列照合手段 131で距離値が読み出される。各先読み 値バッファ 151〜153は、先読み手段 121で先読み値が書き込まれ、その後単語列 照合手段 131で先読み値が読み出される。ある時に、距離計算手段 111が距離値を 書き込んでいる距離値バッファ 141と、先読み手段 121が距離値を読み出している 距離値バッファ 142と、単語列照合手段 131が距離値を読み出している距離値バッ ファ 143とは、それぞれ異なる。先読み手段 121が先読み値を書き込んでいる先読 み値バッファ 151と、単語列照合手段 131が先読み値を読み出して 、る先読み値バ ッファ 152とは、それぞれ異なる。 [0023] 更に詳しく説明する。本実施形態の音声認識システム 100は、プログラム制御によ り動作するデータ処理装置 110, 120, 130と、情報を記憶するデータ記憶装置 140 とを含む。データ処理装置 110, 120, 130は、それぞれ異なるプロセッサを有する ので、並列処理が可能である。なお、並列処理が可能なプロセッサを用いれば、デ ータ処理装置を一つにすることもできる。
[0024] データ記憶装置 140は、距離値バッファ 141, 142, 143と、先読み値バッファ 151 , 152と、 0個以上の距離値バッファ 144と、 0個以上の距離値バッファ 145と、 0個以 上の先読み値バッファ 153とを備えている。距離値バッファ 145のバッファ数と先読 み値バッファ 153のバッファ数とは同数である。距離値バッファ 141〜145は、あるフ レーム区間の音声に対応したバッファであり、各フレームで入力された音声特徴量に 対する各音響モデルの距離値を保存している。先読み値バッファ 151〜153は、ある フレーム区間の音声及びその距離値に対応したバッファであり、各フレームで、その フレーム以降の音響情報から計算した各認識単位に対する優劣である先読み値を 保持している。
[0025] データ処理装置 110は距離計算手段 111を備え、データ処理装置 120は先読み 手段 121を備え、データ処理装置 130は単語列照合手段 131を備える。距離計算 手段 111は、入力される音声特徴量の時系列の各フレームに対し、その音響特徴量 と各音響モデルとの距離値を計算して、距離値バッファ 141に書き込む。先読み手 段 121は、距離値バッファ 142から距離値を読み出し、その距離値バッファ 142内の 各フレームの各認識単位に対して、その優劣情報である先読み値を計算し、先読み 値バッファ 151に書き込む。単語列照合手段 131は、距離値バッファ 143及び先読 み値バッファ 152から同フレームにおける距離値及び先読み値を読み出し、各認識 単位の先読み値を用いて照合単語を適宜取捨選択しながら、フレーム同期に単語 照合を行って、その発声全体に対する認識結果を生成する。
[0026] 図 2は、音声認識システム 100の動作を示すタイムチャートである。以下、図 1及び 図 2に基づき、音声認識システム 100の動作を説明する。
[0027] 処理の始めに、距離計算手段 111は距離値バッファ 141をデータ記憶装置 140内 に確保する(図 2では (1))。続いて、分析済みの音声として音響特徴量の時系列デー タが、距離計算手段 111に供給される。すると、距離計算手段 111は、入力される音 響時系列に同期して距離値を計算し、これを距離値バッファ 141に書き込む。距離 値バッファ 141がー杯になった時、それを複数の距離値バッファ 144の末尾にカロえ、 新たに距離値バッファ 141をデータ記憶装置 140内に確保し、処理を継続する。
[0028] 先読み手段 121は、距離値バッファ 142が与えられている時は、そこ力も各フレー ムの距離値を取り出し、各フレームの各認識単位に対して先読み値を計算し、これを 先読み値バッファ 151に書き込む。先読み値バッファ 151がー杯になった場合は、距 離値バッファ 142を複数の距離値バッファ 145の末尾に追加するとともに、先読み値 ノ ッファ 151を複数の先読み値バッファ 153の末尾に追加する。この場合及び動作 開始直後は、距離値バッファ 142及び先読み値バッファ 151が与えられていない。そ のため、複数の距離値バッファ 144から先頭のものを取り出して距離値バッファ 142 とし、新たに先読み値バッファ 151をデータ記憶装置 140内に確保し、処理を継続す る。
[0029] これにより、図 2の距離値バッファ (1X2X3X4)で示すように、距離計算手段 111で処 理された距離値バッファは、その順に先読み手段 121で処理される。図 2において、 A、 B、 C、 Dはそれぞれ距離値バッファ (1X2X3X4)に対応する先読み値バッファであ る。
[0030] 単語列照合手段 131は、距離値バッファ 143及び先読み値バッファ 152が与えら れている時は、そこ力 各フレームの距離値と各認識単位の先読み値とを取り出し、 先読み値を用いて照合単語を適宜取捨選択しながら、フレーム同期に単語照合を 行って、一発声の認識結果を生成する。距離値バッファ 143内及び先読み値バッフ ァ 152内の全てのフレームを処理した時は、距離値バッファ 143及び先読み値バッフ ァ 152はメモリを開放する。この時及び動作開始直後は、距離値バッファ 143及び先 読み値バッファ 152が与えられていないので、複数の距離値バッファ 145及び複数 の先読み値バッファ 153から先頭のもの(図 2においては、(1)と A、(2)と B、(3)と C、 (4) と D)を取り出してそれぞれ距離値バッファ 143及び先読み値バッファ 152とし、処理 を継続する。この時、取り出すバッファが無くなれば発声終端であるので、そこまでの 認識結果を最終的な音声認識結果として出力する。 [0031] 本実施形態の音声認識システム 100によれば、三つの処理手段である距離計算手 段 111、先読み手段 121及び単語列照合手段 131が独立して並列に処理できるの で、第一従来例の音声認識システムに比べて音声認識速度が向上する。
[0032] また、本実施形態の音声認識システム 100は、次のように要約できる。距離計算手 段 111は、音声特徴量の時系列データを受け取り、フレーム同期に全音響モデルと 各フレームとの距離値を計算し、距離値バッファ 141に書き込む。距離値バッファ 14 1がー杯になると、先読み手段 121への引渡し待ちの複数の距離値バッファ 144の 末尾に追加する。先読み手段 121は、複数の距離値バッファ 144から距離値バッフ ァ 142を受け取り、各フレームにおいて各認識単位の優劣である先読み値を計算し、 先読み値バッファ 151に書き込む。先読み値バッファ 151がー杯になると距離計算 手段 131への引渡し待ちの複数の距離値バッファ 145及び先読み値バッファ 153の 末尾にそれぞれ追加する。単語列照合手段 131は複数の距離値バッファ 145及び 先読み値バッファ 153から距離値バッファ 143及び先読み値バッファ 152を受け取り 、先読み値を利用して適宜照合単語を取捨選択しながらフレーム同期に発声全体を 認識し、認識結果を生成する。このように、マルチパス音声認識の各パスを並列して 処理することにより、高速に音声認識を行うことができる。
[0033] 図 3は、本発明に係る音声認識システムの第二実施形態を示すブロック図である。
以下、この図面に基づき説明する。ただし、図 1と同じ部分は同じ符号を付すことによ り説明を省略する。
[0034] 本実施形態の音声認識装置 200は、バッファ長決定手段 211を備えたことを特徴と する。バッファ長決定手段 211は、距離計算手段 111、先読み手段 121及び単語照 合手段 131の処理量が均一になるように、距離値バッファ 141〜145又は先読み値 ノ ッファ 151〜153のバッファ長を決定する。本実施形態によれば、バッファ長決定 手段 211によって、速度に対して最適なバッファ長が決定されるので、認識速度が向 上する。
[0035] 更に詳しく説明する。音声認識装置 200は、データ処理装置 210が、図 1のデータ 処理装置 110の構成に加え、バッファ長決定手段 211を有する点で異なる。バッファ 長決定手段 211は、距離計算手段 111、先読み手段 121及び単語列照合手段 131 と通信を行い、最適なバッファ長を計算する。例えば、先読み手段 121及び単語列 照合手段 131のいずれかの 1バッファあたりの実行時間と距離計算手段 131の 1バッ ファあたりの実行時間との差がある値以上になった時、その遅れ分だけバッファ長を 長くする。距離計算手段 111は、バッファ長決定手段 211からバッファ長を受け取り、 計算済みの距離値を捨てない範囲で、受け取った時刻以降の距離値バッファの長さ を上記バッファ長に近づける。上述した以外の動作は第一実施形態と同じである。
[0036] 次に、本実施形態の効果について説明する。先読み手段 121がある場合、 1バッフ ァの長さを長めにすることで先読み処理の速度も向上し、先読み精度も向上する。し たがって、単語列照合手段 131の速度も向上する。本実施形態では、先読み手段 1 21及び単語列照合手段 131に処理の遅れが起きたときに最上流の距離計算手段 1 11からバッファ長を長くすることにより、先読み手段 121及び単語列照合手段 131と もに高速ィ匕されるので、三つの処理手段の処理量をより均一化できる。
[0037] 図 4は、本発明に係る音声認識システムの第三実施形態を示すブロック図である。
以下、この図面に基づき説明する。ただし、図 1と同じ部分は同じ符号を付すことによ り説明を省略する。
[0038] 本実施形態の音声認識システム 300は、バッファ管理手段 341を備えたことを特徴 とする。バッファ管理手段 341は、距離計算手段 311、先読み手段 321及び単語列 照合手段 331の動作を監視し、距離計算手段 311が距離値バッファ 141に距離値を これ以上書き込めなくなった時、かつ先読み手段 321及び単語列照合手段 331が 距離値バッファ 142, 143から距離値を全て読み出した時、かつ先読み手段 321が 先読み値バッファ 151にこれ以上先読み値を書き込めなくなった時、かつ単語列照 合手段 331が先読み値バッファ 152から先読み値を全て読み出した時に、距離値バ ッファ 141を先読み手段 321の次の読み出し用とし、距離値バッファ 142を単語列照 合手段 331の次の読み出し用とし、距離値バッファ 143を距離計算手段 311の次の 書き込み用とし、先読み値バッファ 151を単語列照合手段 331の次の読み出し用と し、先読み値バッファ 152を先読み手段 321の次の書き込み用とする。本実施形態 によれば、最小限のバッファ数で、本発明の効果が得られる。
[0039] 更に詳しく説明する。音声認識システム 300は、プログラム制御により動作するデー タ処理装置 310, 320, 330, 340と、情報を記憶するデータ記憶装置 350とを含む
[0040] データ記憶装置 350は、距離値バッファ 141, 142, 143と、先読み値バッファ 151 , 152とを備えている。距離値バッファ 141, 142, 143は、あるフレーム区間の音声 に対応したバッファであり、各フレームで入力された音声特徴量に対する各音響モデ ルの距離値を保存している。先読み値バッファ 151, 152は、あるフレーム区間の音 声及びその距離値に対応したバッファであり、各フレームで、そのフレーム以降の音 響情報力 計算した各認識単位に対する優劣である先読み値を保持している。
[0041] データ処理装置 310は距離計算手段 311を備え、データ処理装置 320は先読み 手段 321を備え、データ処理装置 330は単語列照合手段 331を備え、データ処理 装置 340はバッファ管理手段 341を備える。距離計算手段 331は、入力される音声 特徴量の時系列の各フレームに対し、その音響特徴量と各音響モデルの距離値を 計算して、これを距離値バッファ 141に書き込む。先読み手段 321は、距離値バッフ ァ 142から距離値を読み出し、そのバッファ内の各フレームの各認識単位に対して、 その優劣情報である先読み値を計算し、これを先読み値バッファ 151に書き込む。単 語列照合手段 331は、距離値バッファ 143及び先読み値バッファ 152から同フレー ムにおける距離値及び先読み値を読み出し、各認識単位の先読み値を用いて照合 単語を適宜取捨選択しながら、フレーム同期に単語照合を行って、その発声全体に 対する認識結果を生成する。
[0042] 次に、音声認識システム 300の動作にっ 、て説明する。分析済みの音声として音 響特徴量の時系列データが、距離計算手段 311に供給される。距離計算手段 311 は、入力される音響時系列に同期して距離値を計算し、距離値バッファ 141に書き 込む。距離値バッファ 141がー杯になった時、待ち状態になる。先読み手段 321は、 距離値バッファ 142が与えられている時は、そこ力も各フレームの距離値を取り出し、 各フレームの各認識単位に対して先読み値を計算し、先読み値バッファ 151に書き 込む。先読み値バッファ 151がー杯になった場合、待ち状態になる。
[0043] 単語列照合手段 331は、距離値バッファ 143及び先読み値バッファ 152が与えら れている時は、そこ力 各フレームの距離値と各認識単位の先読み値とを取り出し、 先読み値を用いて照合単語を適宜取捨選択しながら、フレーム同期に単語照合を 行って、一発声の認識結果を生成する。距離値バッファ 143及び先読み値バッファ 1 52内の全てのフレームを処理した時、待ち状態になる。
[0044] バッファ管理手段 341は、距離計算手段 311、先読み手段 321及び単語列照合手 段 331の状態を監視し、全て待ち状態になった時、距離値バッファ 141を距離値バッ ファ 142へ、距離値バッファ 142を距離値バッファ 143へ、距離値バッファ 143を距 離値バッファ 141へ移動し、先読み値バッファ 151と先読み値バッファ 152とを入れ 替え、その後、距離計算手段 331、先読み手段 321及び単語列照合手段 331の待 ち状態を解除する。
[0045] 単語列照合手段 331は、処理するデータが距離値バッファ 143及び先読み値バッ ファ 152内に無くなれば発声終端であるので、そこまでの認識結果を最終的な音声 認識結果として出力する。
[0046] 本実施形態の音声認識システム 300によれば、三つの処理手段である距離計算手 段 311、先読み手段 321及び単語列照合手段 331が独立して並列に処理できるの で、第一従来例の音声認識システムに比べて音声認識速度が向上する。
図面の簡単な説明
[0047] [図 1]本発明に係る音声認識システムの第一実施形態を示すブロック図である。
[図 2]図 1の音声認識システムの動作を示すタイムチャートである。
[図 3]本発明に係る音声認識システムの第二実施形態を示すブロック図である。
[図 4]本発明に係る音声認識システムの第三実施形態を示すブロック図である。
[図 5]音声認識システムの第一従来例を示すブロック図である。
[図 6]音声認識システムの第二従来例を示すブロック図である。
[図 7]本発明の前提となる音声認識システムを示すブロック図である。
[図 8]図 7の音声認識システムの動作を示すタイムチャートである。
符号の説明
[0048] 100, 200, 300 音声認識システム
110, 120, 130, 210, 310, 320, 330, 340 データ処理装置
140, 350 データ記憶装置 141, 142, 143, 144, 145 距離値バッファ
151, 152, 153 先読み値バッファ
111, 311 距離計算手段
121, 321 先読み手段
131, 331 単語列照合手段
211 バッファ長決定手段
341 バッファ管理手段

Claims

請求の範囲
[1] 順次入力した音声特徴量と各音響モデルとの間の距離値を生成する距離計算手 段と、
前記距離計算手段による距離値の生成と並行して、前記距離計算手段で既に生 成された距離値を用いて先読み値を生成する先読み手段と、
前記距離計算手段による距離値の生成及び前記先読み手段による先読み値の生 成と並行して、前記距離計算手段で既に生成された距離値及び前記先読み手段で 既に生成された先読み値を用いて単語照合を行って認識結果を生成する単語列照 合手段と、
を備えたことを特徴とする音声認識システム。
[2] 前記距離計算手段で生成された距離値を格納する距離値バッファと、
前記先読み手段で生成された先読み値を格納する先読み値バッファとをそれぞれ 複数備え、
前記各距離値バッファは、前記距離計算手段からの前記距離値の書き込み、前記 先読み手段への前記距離値の読み出し、及び前記単語列照合手段への前記距離 値の読み出しの動作が行われ、
前記各先読み値バッファは、前記先読み手段からの前記先読み値の書き込み、及 び前記単語列照合手段への前記先読み値の読み出しの動作が行われ、
前記距離計算手段からの前記距離値が書き込まれている前記距離値バッファと、 前記先読み手段への前記距離値が読み出されている前記距離値バッファと、前記単 語列照合手段への前記距離値が読み出されている前記距離値バッファとはそれぞ れ異なり、
かつ、前記先読み手段からの前記先読み値が書き込まれて!/、る前記先読み値バッ ファと、前記単語列照合手段への前記先読み値が読み出されている前記先読み値 ノ ッファとはそれぞれ異なる、
請求項 1記載の音声認識システム。
[3] 前記距離計算手段、前記先読み手段及び前記単語照合手段の処理量が均一に なるように、前記距離値バッファ又は前記先読み値バッファのバッファ長を決定する バッファ長決定手段を更に備えた、
請求項 2記載の音声認識システム。
[4] バッファ管理手段を備え、
前記バッファ管理手段は、
前記距離計算手段、前記先読み手段及び前記単語列照合手段の動作を監視する 機能と、
前記距離計算手段が前記距離値バッファに前記距離値を必要以上書き込めなくな り、かつ前記先読み手段及び前記単語列照合手段が前記距離値バッファから前記 距離値を全て読み出し、かつ前記先読み手段が前記先読み値バッファに必要以上 前記先読み値を書き込めなくなり、かつ前記単語列照合手段が前記先読み値バッフ ァ力 前記先読み値を全て読み出したことを条件として、
前記距離計算手段が書き込みに用いていた前記距離値バッファを前記先読み手 段の次の読み出し用とし、前記先読み手段が読み出しに用いていた前記距離値バッ ファを前記単語列照合手段の次の読み出し用とし、前記単語列照合手段の読み出 しに用いて!/、た前記距離値バッファを前記距離計算手段の次の書き込み用とし、前 記先読み手段が書き込みに用いて 、た前記先読み値バッファを前記単語列照合手 段の次の読み出し用とし、前記単語列照合手段の読み出しに用いていた前記先読 み値バッファを前記先読み手段の次の書き込み用として動作させる機能を有する請 求項 2記載の音声認識システム。
[5] 順次入力した音声特徴量と各音響モデルとの間の距離値を生成する距離計算ステ ップと、
この距離計算ステップにおける前記距離値の生成と並行して、当該距離計算ステツ プで既に生成された距離値を用いて先読み値を生成する先読みステップと、 前記距離計算ステップにおける前記距離値の生成と、前記先読みステップにおけ る前記先読み値の生成とに並行して、前記距離計算ステップで既に生成された距離 値及び前記先読みステップで既に生成された先読み値を用いて単語照合を行って 認識結果を生成する単語列照合ステップと、
を備えたことを特徴とする音声認識方法。
[6] 前記距離計算ステップで生成された距離値を格納する距離値バッファと、前記先 読みステップで生成された先読み値を格納する先読み値バッファとをそれぞれ複数 用い、
前記距離値バッファに対して、前記距離計算ステップにおける前記距離値の書き 込みと、前記先読みステップにおける前記距離値の読み出しと、前記単語列照合ス テツプにおける前記距離値の読み出しとを並行して行い、
前記先読み値バッファに対して、前記先読みステップにおける前記先読み値の書 き込みと、前記単語列照合ステップにおける前記先読み値の読み出しとを並行して 行い、
前記距離計算ステップで前記距離値を書き込んで!/ヽる前記距離値バッファと、前記 先読みステップで前記距離値を読み出して!/ヽる前記距離値バッファと、前記単語列 照合ステップで前記距離値を読み出して 、る前記距離値バッファとを異ならせ、かつ 、前記先読みステップで前記先読み値を書き込んでいる前記先読み値バッファと、前 記単語列照合ステップで前記先読み値を読み出している前記先読み値バッファとを それぞれ異ならせる請求項 5記載の音声認識方法。
[7] 前記距離計算ステップ、前記先読みステップ及び前記単語照合ステップの処理量 を均一にするように、前記距離値バッファ又は前記先読み値バッファのバッファ長を 決定する請求項 6記載の音声認識方法。
[8] 前記距離計算ステップ、前記先読みステップ及び前記単語列照合ステップの動作 を監視するノ ッファ管理ステップを備え、
前記バッファ管理ステップにお 、て、
前記距離計算ステップで前記距離値バッファに前記距離値を必要以上書き込めな くなり、かつ前記先読みステップ及び前記単語列照合ステップで前記距離値バッファ から前記距離値を全て読み出した時、かつ前記先読みステップで前記先読み値バッ ファに必要以上前記先読み値を書き込めなくなり、かつ前記単語列照合ステップで 前記先読み値バッファから前記先読み値を全て読み出したことを条件として、 前記距離計算ステップで書き込みに用いて 、た前記距離値バッファを前記先読み ステップでの次の読み出し用とし、前記先読みステップで読み出しに用いていた前記 距離値バッファを前記単語列照合ステップでの次の読み出し用とし、前記単語列照 合ステップで読み出しに用いて 、た前記距離値バッファを前記距離計算ステップで の次の書き込み用とし、前記先読みステップで書き込みに用いていた前記先読み値 ノ ッファを前記単語列照合ステップでの次の読み出し用とし、前記単語列照合ステツ プで読み出しに用いて 、た前記先読み値バッファを前記先読みステップでの次の書 き込み用として動作させる請求項 6記載の音声認識方法。
[9] 音声認識システムを構成するコンピュータに、
順次入力した音声特徴量と各音響モデルとの間の距離値を生成する機能と、 前記距離値を継続して生成している時に、既に生成された距離値を用いて先読み 値を生成する機能と、
前記距離値を継続して生成して 、る時及び前記先読み値を継続して生成して 、る 時に、既に生成された距離値及び既に生成された先読み値を用いて単語照合を行 つて認識結果を生成する機能を実行させることを特徴とする音声認識プログラム。
[10] 前記生成された距離値を書込み及び読み出すための距離値バッファの機能と、前 記生成された先読み値を書込み及び読み出すための先読み値バッファの機能を複 数実行させ、
前記距離値バッファによる書込みと読み出しの機能を並行処理させ、かつ前記先 読み値バッファによる書込みと読み出しの機能を並行処理させる請求項 9記載の音 声認識プログラム。
[11] 前記距離計算手段、前記先読み手段及び前記単語照合手段の処理量を均一に するように、前記距離値バッファ又は前記先読み値バッファのバッファ長を決定する 機能を実行させる請求項 10記載の音声認識プログラム。
[12] 前記距離計算手段、前記先読み手段及び前記単語列照合手段の動作を監視する ノ ッファ管理機能を実行させ、
前記バッファ管理機能は、
前記距離値バッファに前記距離値を必要以上書き込めなくなくなり、前記距離値バ ッファから前記距離値を全て読み出した時、かつ前記先読み手段が前記先読み値 ノ ッファに必要以上前記先読み値を書き込めなくなった時、かつ前記単語列照合手 段が前記先読み値バッファ力 前記先読み値を全て読み出したことを条件として、 前記距離計算手段が書き込みに用いていた前記距離値バッファを前記先読み手 段の次の読み出し用とし、前記先読み手段が読み出しに用いていた前記距離値バッ ファを前記単語列照合手段の次の読み出し用とし、前記単語列照合手段の読み出 しに用いて!/、た前記距離値バッファを前記距離計算手段の次の書き込み用とし、前 記先読み手段が書き込みに用いて 、た前記先読み値バッファを前記単語列照合手 段の次の読み出し用とし、前記単語列照合手段の読み出しに用いていた前記先読 み値バッファを前記先読み手段の次の書き込み用として機能させる請求項 10記載 の音声認識プログラム。
PCT/JP2006/300269 2005-01-17 2006-01-12 音声認識システム、音声認識方法及び音声認識プログラム WO2006075648A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2006552956A JP5103907B2 (ja) 2005-01-17 2006-01-12 音声認識システム、音声認識方法及び音声認識プログラム
EP06711592A EP1852847A4 (en) 2005-01-17 2006-01-12 VOICE RECOGNITION SYSTEM, VOICE RECOGNITION METHOD, AND VOICE RECOGNITION PROGRAM
CN2006800024298A CN101120397B (zh) 2005-01-17 2006-01-12 语音识别系统、语音识别方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005-008542 2005-01-17
JP2005008542 2005-01-17

Publications (1)

Publication Number Publication Date
WO2006075648A1 true WO2006075648A1 (ja) 2006-07-20

Family

ID=36677673

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/300269 WO2006075648A1 (ja) 2005-01-17 2006-01-12 音声認識システム、音声認識方法及び音声認識プログラム

Country Status (5)

Country Link
US (1) US7930180B2 (ja)
EP (1) EP1852847A4 (ja)
JP (1) JP5103907B2 (ja)
CN (1) CN101120397B (ja)
WO (1) WO2006075648A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009047838A (ja) * 2007-08-17 2009-03-05 Toshiba Corp 音声認識装置及びその方法
JP2015501011A (ja) * 2011-12-19 2015-01-08 スパンション エルエルシー 音響処理ユニットインタフェース

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140028174A (ko) * 2012-07-13 2014-03-10 삼성전자주식회사 음성 인식 방법 및 이를 적용한 전자 장치
US9196250B2 (en) * 2012-11-16 2015-11-24 2236008 Ontario Inc. Application services interface to ASR
CN111783431B (zh) * 2019-04-02 2024-05-24 北京地平线机器人技术研发有限公司 利用语言模型预测词出现概率及语言模型训练方法和装置
CN110335621A (zh) * 2019-05-28 2019-10-15 深圳追一科技有限公司 音频处理的方法、系统及相关设备
WO2021033889A1 (en) 2019-08-20 2021-02-25 Samsung Electronics Co., Ltd. Electronic device and method for controlling the electronic device
CN111933146B (zh) * 2020-10-13 2021-02-02 苏州思必驰信息科技有限公司 语音识别系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63208138A (ja) * 1987-02-25 1988-08-29 Hitachi Ltd デ−タベ−スのバツフア割当て管理方式
JPH0345840B2 (ja) * 1983-06-02 1991-07-12 Matsushita Electric Ind Co Ltd
JPH06214595A (ja) * 1993-01-20 1994-08-05 Asahi Chem Ind Co Ltd 音声認識方法
JP3011001B2 (ja) * 1993-12-28 2000-02-21 日本電気株式会社 バッファ制御システム
JP3226716B2 (ja) * 1994-05-31 2001-11-05 日本電気株式会社 音声認識装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2595495B2 (ja) * 1982-09-03 1997-04-02 日本電気株式会社 パタンマッチング装置
FR2554623B1 (fr) * 1983-11-08 1986-08-14 Texas Instruments France Procede d'analyse de la parole independant du locuteur
US5241649A (en) * 1985-02-18 1993-08-31 Matsushita Electric Industrial Co., Ltd. Voice recognition method
US4989249A (en) * 1987-05-29 1991-01-29 Sanyo Electric Co., Ltd. Method of feature determination and extraction and recognition of voice and apparatus therefore
JP2554747B2 (ja) 1989-07-12 1996-11-13 松下電器産業株式会社 空調機器における室外ユニット
JPH04232998A (ja) 1990-12-27 1992-08-21 Nec Corp 音声認識装置
US6249761B1 (en) 1997-09-30 2001-06-19 At&T Corp. Assigning and processing states and arcs of a speech recognition model in parallel processors
JP2000206984A (ja) 1999-01-20 2000-07-28 Mitsubishi Electric Corp 音声認識装置
US6442520B1 (en) 1999-11-08 2002-08-27 Agere Systems Guardian Corp. Method and apparatus for continuous speech recognition using a layered, self-adjusting decoded network
JP3893911B2 (ja) 2001-07-12 2007-03-14 日本電気株式会社 音声認識システム
CA2359544A1 (en) * 2001-10-22 2003-04-22 Dspfactory Ltd. Low-resource real-time speech recognition system using an oversampled filterbank
GB2384901B (en) * 2002-02-04 2004-04-21 Zentian Ltd Speech recognition circuit using parallel processors
CN1201285C (zh) * 2002-11-20 2005-05-11 中国科学院声学研究所 一种语音识别中的并行搜索方法
JP4413867B2 (ja) * 2003-10-03 2010-02-10 旭化成株式会社 データ処理装置及びデータ処理装置制御プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0345840B2 (ja) * 1983-06-02 1991-07-12 Matsushita Electric Ind Co Ltd
JPS63208138A (ja) * 1987-02-25 1988-08-29 Hitachi Ltd デ−タベ−スのバツフア割当て管理方式
JPH06214595A (ja) * 1993-01-20 1994-08-05 Asahi Chem Ind Co Ltd 音声認識方法
JP3011001B2 (ja) * 1993-12-28 2000-02-21 日本電気株式会社 バッファ制御システム
JP3226716B2 (ja) * 1994-05-31 2001-11-05 日本電気株式会社 音声認識装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HORI ET AL.: "Daigoi Renzoku Onsei Ninshiki no Tameno Onso Graph ni Motozuku Kasetsu Seigen Ho no Kento", TRANSACTIONS OF INFORMATION PROCESSING SOCIETY OF JAPAN, vol. 40, no. 4, 15 April 1999 (1999-04-15), pages 1365 - 1373, XP003007336 *
JER MIN JOU ET AL.: "An efficient VLSI architecture for HMM-based speech recognition", THE 8TH IEEE INTERNATIONAL CONFERENCE ON ELECTRONICS, CIRCUITS AND SYSTEMS (ICECS 2001), vol. 1, 2 September 2001 (2001-09-02), pages 469 - 472, XP010563035 *
ORTMANNS S. ET AL.: "Look-ahead techniques for fast beam speech", 1997 INTERNATIONAL CONFERENCE ON ACOUSTICS SPEECH AND SIGNAL PROCESSING, vol. 3, 21 April 1997 (1997-04-21), pages 1783 - 1786, XP010226484 *
See also references of EP1852847A4 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009047838A (ja) * 2007-08-17 2009-03-05 Toshiba Corp 音声認識装置及びその方法
JP2015501011A (ja) * 2011-12-19 2015-01-08 スパンション エルエルシー 音響処理ユニットインタフェース

Also Published As

Publication number Publication date
CN101120397A (zh) 2008-02-06
EP1852847A4 (en) 2008-05-21
US20080133237A1 (en) 2008-06-05
JPWO2006075648A1 (ja) 2008-08-07
CN101120397B (zh) 2011-08-17
US7930180B2 (en) 2011-04-19
JP5103907B2 (ja) 2012-12-19
EP1852847A1 (en) 2007-11-07

Similar Documents

Publication Publication Date Title
US6735588B2 (en) Information search method and apparatus using Inverse Hidden Markov Model
US9230541B2 (en) Keyword detection for speech recognition
WO2006075648A1 (ja) 音声認識システム、音声認識方法及び音声認識プログラム
JP6495850B2 (ja) 情報処理装置、情報処理方法、プログラムおよび認識システム
US20050159952A1 (en) Pattern matching for large vocabulary speech recognition with packed distribution and localized trellis access
JPH09127978A (ja) 音声認識方法及び装置及びコンピュータ制御装置
US7072835B2 (en) Method and apparatus for speech recognition
JP5447373B2 (ja) 言語モデルスコア先読み値付与装置およびその方法ならびにプログラム記録媒体
JP4940057B2 (ja) 音声認識装置及びその方法
JP2012063611A (ja) 音声認識結果検索装置、音声認識結果検索方法および音声認識結果検索プログラム
US20220301578A1 (en) Method and apparatus with decoding in neural network for speech recognition
JP4801108B2 (ja) 音声認識装置、方法、プログラム及びその記録媒体
JP4801107B2 (ja) 音声認識装置、方法、プログラム及びその記録媒体
JP3969079B2 (ja) 音声認識装置および方法、記録媒体、並びにプログラム
Savitha Deep recurrent neural network based audio speech recognition system
JPWO2013125203A1 (ja) 音声認識装置、音声認識方法およびコンピュータプログラム
JP2005091504A (ja) 音声認識装置
JP3893911B2 (ja) 音声認識システム
JP4883717B2 (ja) 音声認識方法および装置ならびに音声認識プログラムおよびその記録媒体
JPH11212591A (ja) パターン認識方法及びパターン認識装置並びにパターン認識プログラムが記録された記録媒体
JP2002229589A (ja) 音声認識装置
JP2023028902A (ja) 音声認識装置及び方法、並びにコンピュータプログラム
JP2001100789A (ja) 連続音声認識装置の音素認識性能測定装置
JP5381973B2 (ja) 音声認識装置、音声認識方法、及び、音声認識プログラムが記録された記録媒体
CN117765934A (zh) 语音识别方法、系统和存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
DPE2 Request for preliminary examination filed before expiration of 19th month from priority date (pct application filed from 20040101)
WWE Wipo information: entry into national phase

Ref document number: 11793806

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2006552956

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 200680002429.8

Country of ref document: CN

Ref document number: 2006711592

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

WWP Wipo information: published in national office

Ref document number: 2006711592

Country of ref document: EP