WO2003107326A1 - 音声認識方法及びその装置 - Google Patents

音声認識方法及びその装置 Download PDF

Info

Publication number
WO2003107326A1
WO2003107326A1 PCT/JP2002/005847 JP0205847W WO03107326A1 WO 2003107326 A1 WO2003107326 A1 WO 2003107326A1 JP 0205847 W JP0205847 W JP 0205847W WO 03107326 A1 WO03107326 A1 WO 03107326A1
Authority
WO
WIPO (PCT)
Prior art keywords
section
free
free section
point
mountain
Prior art date
Application number
PCT/JP2002/005847
Other languages
English (en)
French (fr)
Inventor
利行 花沢
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to JP2004514058A priority Critical patent/JPWO2003107326A1/ja
Priority to US10/511,158 priority patent/US20050165604A1/en
Priority to CNA028291026A priority patent/CN1628337A/zh
Priority to PCT/JP2002/005847 priority patent/WO2003107326A1/ja
Priority to EP02738666A priority patent/EP1513135A1/en
Publication of WO2003107326A1 publication Critical patent/WO2003107326A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection

Definitions

  • the present invention relates to a speech recognition method and apparatus for improving recognition performance under noise.
  • Speech recognition is performed by comparing the power of an input signal with a preset threshold, detecting a section that is equal to or greater than the threshold as a speech section, and performing pattern matching with a standard pattern prepared in advance.
  • FIG. 5 shows a speech recognition apparatus described in Japanese Patent Application Laid-Open No. 63-300295.
  • FIG. 4 is a block diagram showing an example of the configuration. In this example, a case where word recognition of a specific speaker is performed will be described.
  • is the total number of frames of the input signal 2.
  • the characteristic vector X (t) is, for example, an LPC cepstrum obtained by LPC analysis.
  • the number of zero crossings z (t) is used to detect a voiced sound section. That is, since the voiced sound concentrates its power on the low frequency components, the number of zero crossings z (t) is small, so in this example, as described later, the voice power is equal to or more than a predetermined value and the number of zero crossings z (t) is A small section is regarded as a voiced sound.
  • P (t) the power of the input signal
  • Z (t) the time series 5 of the zero-crossing frequency
  • a frame whose voice power exceeds a predetermined threshold is detected as the beginning PB of the voice section, and a frame whose voice power falls below the threshold is detected as the end PE of the voice section.
  • a frame in which the number of zero crossings Z (t) is less than a predetermined threshold is detected as the start end ZB of the voiced sound section, and a frame in which the number is equal to or more than the threshold is detected as the end ZE of the voiced sound section.
  • PB is the first frame of the start free section
  • ZB is the last frame of the start free section.
  • voiced sound The section from the end ZE of the section to the end PE of the voice section is determined as the end free section Efree2 ⁇ ZE, PE ⁇ .
  • ZE is the first frame of the last free section
  • PE is the last frame of the last free section.
  • the standard pattern 10 stored in the standard pattern memory 9 and the pattern matching by DP matching for example, are combined with all the start and end points in the start-free section and the end-free section. And the one with the smallest distance value is regarded as the recognition result.
  • the feature vector X (t) is, for example, the LPC cepstrum obtained by LPC (Linear Predictive Coding) analysis.
  • one end-point free section is limited on the assumption that there is a correct start and end of the voice section between the detected voice section and the voiced sound section.
  • there are various types of unsteady noise and there is a low risk of being judged to be a voiced section because the number of zero-crossings is small in noise where power is concentrated in the low region of the spectrum, such as noise in automobiles. Is big. Has noise If it is determined to be a vocal sound, pattern matching is performed including the noise section, which may cause erroneous recognition.
  • the present invention has been made to solve the above-mentioned problem, and does not require determination of a voiced sound between which it is difficult to make an accurate determination, and efficiently limits an end-free section to improve speech recognition accuracy.
  • An object of the present invention is to provide a voice recognition device. Disclosure of the invention
  • a voice recognition method includes: an analysis step of acoustically analyzing an input voice and outputting power with respect to the input signal; and detecting a section in which the power continuously exceeds a predetermined threshold as a mountain section.
  • the peak section with the maximum power is defined as the maximum section, and it is assumed that there is a start free section before the point at which the maximum section falls below the threshold, and the section ends after the point at which the maximum section exceeds the threshold.
  • An end-free section determining step of outputting a combination of a start-free section and an end-free section assuming that a free section exists, and a step specified by the start-free section and the end-free section of the combination.
  • the collation step may include the steps of: identifying each pattern and a standard pattern specified by a combination of all the start-free sections and the end-free sections output by the end-free section. In this configuration, pattern matching is performed.
  • the speech recognition method is characterized in that the end point free section
  • the determination step is configured so that, of the detected mountain sections, the mountain section having the largest power accumulation is set as the maximum mountain section.
  • the analysis step outputs power for each detection point
  • the end point free section determination means outputs the power for each of the detection points in the detected mountain section.
  • the peak section in which the sum of the powers of a predetermined number of higher-order detection points out of the power is the maximum is defined as the maximum peak section.
  • the width of a range in which the start free section is assumed to exist and the width of a range in which the end free section is assumed to exist Are different for each mountain section.
  • the analysis step outputs power for each frame, and the end-point free section determining means determines that the power falls below the threshold when the power falls below the threshold. And a frame whose power exceeds the threshold value is defined as a point exceeding the threshold value.
  • the speech recognition device is a speech recognition device comprising: an analysis unit that performs acoustic analysis of an input voice and outputs power with respect to the input signal;
  • the peak section with the maximum power is defined as the maximum section, and it is assumed that there is a start-free section before the point at which the maximum section falls below the threshold.
  • the matching unit may include a pattern and a standard pattern specified by a combination of all the start free sections and the end free sections output by the end free section. It is designed to perform pattern matching with the application.
  • the end-point-free-section determining means is configured such that, among the detected peak sections, a peak section where power accumulation is maximum is set as a maximum peak section. Things.
  • the analysis means outputs power for each detection point, and the end point free section determination means determines the detection point of the detected mountain section.
  • the peak section in which the sum of the powers of a predetermined number of higher-order detection points in each power is the maximum is set as the maximum peak section.
  • the endpoint free section determining means assumes that the start free section exists near a point where a mountain section before the maximum mountain section exceeds the threshold.
  • the configuration is such that it is assumed that the terminal free section exists near a point where a mountain section after the maximum mountain section falls below the threshold.
  • the end point free section determining means may include a range of a range where the start free section is assumed to exist and a range of a range where the end free section is assumed to exist. The width is different for each mountain section.
  • the analysis unit outputs power for each frame, and the end point free section determination unit determines that the power falls below the threshold when the power falls below the threshold. And a frame whose power exceeds the threshold is regarded as a point exceeding the threshold.
  • FIG. 1 is a configuration diagram of a speech recognition device according to Embodiments 1 and 2 of the present invention
  • FIG. 2 is an explanatory diagram of a method of determining a start free section and an end free section according to the first embodiment of the present invention.
  • FIG. 3 is an explanatory diagram of a method of determining a start-free section and an end-free section according to the second embodiment of the present invention.
  • FIG. 4 is an explanatory diagram of a method for determining a start free section and an end free section according to the second embodiment of the present invention.
  • FIG. 5 is a configuration diagram of a conventional speech recognition apparatus
  • FIG. 6 is an explanatory diagram of a method of determining a start-free section and an end-free section according to a conventional technique.
  • FIG. 1 is a block diagram illustrating a configuration of a speech recognition device according to a first embodiment of the present invention.
  • 1 is a signal input terminal for inputting a signal
  • 2 is an input signal input from the signal input terminal
  • 3 is an analysis means for performing an acoustic analysis on the input signal
  • 4 is a value calculated by the analysis means 3.
  • 5 is the time series of the input signal characteristic vector calculated by the analysis means 3
  • 6 is the end point series based on the input signal time series 5.
  • 8 is the end free section information output by the end free section determining means 6
  • 9 is the standard pattern used in the matching process for speech recognition.
  • 10 is a standard pattern used in a matching process for voice recognition
  • 11 is a matching means for performing pattern matching with a standard pattern of each word.
  • the feature vector x (t) is, for example, the LPC cepstrum obtained by LPC analysis.o
  • T is the total number of frames of the input signal 2.
  • the feature vector X (t) is, for example, an LPC cepstrum obtained by LPC (linear prediction) analysis.
  • C ⁇ P (t) is obtained, for example, by taking the logarithm of the sum of squares of the digital values of the input signal in the frame.
  • B (i) is the beginning of the mountain section, that is, the frame whose power exceeds the threshold.
  • E (i) is the end of the mountain section, that is, a frame whose power is less than the threshold.
  • equation (1) calculates the power intensity for each mountain section as the sum of all the powers in the section. Whether to use (1) or (2) should be selected according to the type of environmental noise assumed when using the speech recognition device and the speech to be recognized.
  • Equation (1) a rgm ax (i) PR ( ⁇ ) (3)
  • the end point free section determination means 6 calculates the section from the starting point B 1 of the first peak section to the starting point B (I) of the peak section with the highest power intensity according to the equations (4) and (5).
  • bfL is the first frame of the start free section
  • bfR is the last frame of the start free section
  • the start margin is set.
  • bml and bm2 are predetermined constants of 0 or more.
  • the end free section determination means 6 determines the end of the last mountain section.
  • efL is the first frame of the end free section
  • efR is the last frame of the end free section.
  • the terminal margins em l and em2 are predetermined constants of 0 or more.
  • Figure 2 shows the start free section BF and the end free section determined by the above processing.
  • efl. E (I)-eml (6)
  • efR E (N) + bm2 (7)
  • Section EF ⁇ efL, efH ⁇ is output as end point free section information 8.
  • the standard pattern of each word stored in the standard pattern memory 9 is a combination of the start-free section and all the start-ends in the end-free section.
  • Perform pattern matching with REF (i), which is 10. This process is sequentially performed on all of the standard patterns REF (i) (i l, 2, 3,..., K).
  • the standard pattern with the smallest difference is recognized and output as 1 result 1 2.
  • DP matching is used as a pattern matching method.
  • the present embodiment is based on the assumption that, under noise, "the peak with the highest intensity is not background noise, but speech or a part thereof to be recognized.”
  • DP matching is used as a pattern matching method.
  • HMM Hidden Markov Model
  • continuous speech recognition, word recognition and The same effect can be obtained for voice.
  • Example 2
  • the start point B (i), (i l, 2,3, ...
  • bfL (i) is the first frame of the i-th start-end free section and is obtained by equation (8).
  • BfR (i) is the last frame of the i-th start-free section and is obtained by equation (9).
  • the starting margin bmL (i) and bmR (i) are predetermined constants of 0 or more.
  • e £ L (i) is the first frame of the i-th end free section
  • efR (i) is the last frame of the i-th end free section.
  • the start margins emL (i) and emR (i) are predetermined constants of 0 or more.
  • Figure 3 shows the start-free one section and the end-free section determined by the above processing.
  • the starting margins bmL (i) and bmR (i) are the starting margins — interval BF (i ) May be set to different values, or may be set to a common value.
  • the margin bfLl on the left side of the first start free section BF1 is a free section outside the voice, so even if the value is increased, the danger of partial matching increases significantly. do not do.
  • the right side of the first free start section BF1 and the second and subsequent free start sections may be within the voice section, and the values of the start margins bmL (i) and bm; R (i) Setting a large value increases the possibility of partial matching.
  • the start margins on the left and right sides of the second and subsequent start-free sections and the right-side start margin of the first start-free section are combined with the left-side start margin of the first and subsequent start-free sections. If the value is smaller than 0 or 0, the free area inside The interval becomes smaller or becomes 0, which has the effect of suppressing partial matching.
  • end margins emL (i) and emR (i) may be set to different values for each end free section EF (i), or may be set to a common value.
  • the margin efR (N-I + l) on the right side of the last end free one section EF (N-I + 1) is a free section to the outside of the voice, so even if the value is increased, partial matching is performed. The danger is not so great.
  • the values of the end margins emL (i) and emR (i) may be large because the left side of the last end section and the other end section may be within the voice section. Setting a higher value increases the possibility of partial matching.
  • the end margins on the left and right sides of the other end-free section and the left side of the last end-free section are smaller or 0 than the right margin of the last end-free section.
  • the start margin is set to the left and right sides of the second and subsequent start free sections
  • the right start margin of the first start free section is set to 0
  • the end margin is set to other than the last.
  • the figure shows the case where the terminal margins on both the left and right sides of the terminal free section and the terminal margin on the left side of the last terminal free section are 0.
  • DP matching is used as the pattern matching.
  • the embodiment 1 In addition to the restriction on the end free section described in Section 2, the start free section is limited to the section before and after the rise of the peak, and the end free section is limited to the section before and after the end of the power peak. Thus, erroneous recognition due to partial matching can be further reduced.
  • the present invention is configured as described above, it is not necessary to judge a voiced sound section for which it is difficult to make an accurate judgment, and the end point free section is efficiently limited so as not to be included in the speech as much as possible. This makes it possible to reduce erroneous recognition due to partial matching.
  • the present invention is configured as described above, it is possible to select a combination of the start and end having the smallest difference from the standard pattern from all the combinations of the start and end.
  • the present invention is configured as described above, speech recognition in an environment in which spike-like noise in which the instantaneous signal power becomes large but the instantaneous signal power becomes large can be generated although the duration of the power peak is short. Effect It can be done efficiently.
  • the present invention is configured as described above, the duration of the peak of the power is long, but the maximum value of the power is not large, and the voice recognition is efficiently performed in an environment where noise can be generated. This is possible.
  • the present invention is configured as described above, it is possible to reduce detection errors at the start and end.
  • the present invention is configured as described above, it is possible to reduce the risk of partial matching while reducing the start and end points and detection errors.
  • the present invention since the present invention is configured as described above, it can be applied to a speech recognition device that performs acoustic analysis on a frame basis.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Mobile Radio Communication Systems (AREA)

Description

明 細 書
音声認識方法及びその装置 技術分野
本発明は、 騒音下の認識性能を改善する音声認識方法及 びその装置に関するものである。 背景技術
音声認識は、 入力信号のパワーを予め設定した閾値と比 較して閾値以上の区間を音声区間として検出し、 予め用意 してある標準パターンとパターンマッチングを行う こ とに よってなされる。
しかし騒音下では、 騒音のパワーレベルが前記閾値を越 えるこ とがあるため、 音声区間検出を誤るこ ととなり、 誤 認識の原因となるという問題点があった。 そのための対策 として、 音声区間の始端と終端を一意に定めず、 始端と終 端の取り得る組み合わせの全ての区間に対してパターンマ ツチングを行う端点フ リーと呼ばれる認識方法がある。 し かし全ての区間に対してパターンマッチングを行う と 「東 大阪(ひがしおおさか)」 という発声が 「大阪(おおさか)」 と 認識される等の部分マッチングによる誤認識が問題となる , これを低減するため、 従来から始端と終端の取り得る組 み合わせの範囲を制限する、 すなわち端点フ リーの範囲を 制限する技術がある。 この技術の一例として特開昭 6 3 - 3 0 0 2 9 5がある。
図 5は、 特開昭 6 3 - 3 0 0 2 9 5記載の音声認識装置 の一構成例を示すブロ ック図である。 本例では、 特定話者 の単語認識を行う場合を説明する。 信号の入力端 1から入 力信号 2を入力'すると、分析手段 3は入力信号 2を A/D変 換し、 フ レームと呼ぶ短い時間区間ごとに分割して、 各フ レームごとに音響分析を行い、 各フ レームごとに特徴べク トル X(t) = 1 ,2 ,3,... , )の時系列 4、 およびパワー P(t)と 零交差回数 Z (t) (t二 1,2,3,... ,T)の時系列 5を計算して出力 する。 こ こで Τ は、 入力信号 2の全フ レーム数である。 特 徴べク トル X(t)は、例えば LPC分析によって得られる LPC ケプス トラムとする。 零交差回数 z(t)は、 有声音区間の検 出に用いる。 すなわち有声音は低周波数成分にパワーが集 中するため、 零交差回数 z(t)は少ないので、 本例では後述 するよう に、 音声パワーが所定値以上でかつ零交差回数 z(t)が少ない区間を有声音であるとみなしている。
有声音決定手段 7 は、 入力信号のパワー: P(t)と零交差回 数 Z(t) (t= l ,2,3 , ...,T)の時系列 5 とを入力として、 図 6 に 示すよう に、 音声パワーが予め定めた閾値を上回るフ レー ムを音声区間の始端 PB、 閾値を下回るフ レームを音声区 間の終端端 PE として検出する。 また検出した音声区間内 で、 零交差回数 Z(t)が予め定めた閾値未満となるフレーム を有声音区間の始端 ZB、 閾値以上となるフレームを有声 音区間の終端 ZE と して検出する。
そして、 前記音声区間の始端 PB から有声音区間の始端 ZB までの区間を、 始端フ リ 一区間 Bfree = {PB , B}として 決定する。 こ,こで: PBは、 始端フ リー区間の先頭フレーム、 ZB は始端フ リ ー区間の最終フ レームである。 また有声音 区間の終端 ZE から音声区間の終端 PE までの区間を、 終 端フ リー区間 Efree二 {ZE, PE}として決定する。 ここで ZE は、 終端フ リ ー区間の先頭フレーム、 PE は終端フ リー区 間の最終フ レームである。
有声音決定手段 7 は、 前記始端フ リ ー区間 Bむ ee={PB, ZB}と終端フ リ一区間 Efree={ZE, PE}を端点フ リ一区間情 報 8 として出力する。
照合手段 6 は、 特徴べク トルの時系列 4 と、 端点フ リ一 区間情報 8である始端フ リ一区間 Bfree={PB ,ZB}と、 終端 フ リ一区間 Efree = {ZE ,PE}とを入力として、 始端フ リー区 間と終端フ リ一区間内の全ての始終端の組み合わせで、 標 準パターンメ モ リ 9 に格納されている標準パターン 1 0 と、 例えば DP マッチングによるパターンマッチングを行い、 距離値が最小のものを認識結果とする。 なお、 標準パター ンメモリ 9 には、 予め認識対象とする各単語の標準パター ン REF(i),(i= l,2,3,... ,K)として、 各単語の特徴べク トルの 時系列が格納されているものとする。 ここで Kは、 標準パ タ ー ン の数であ る 。 特徴べ ク ト ル X(t)は 、 例え ば LPC(Linear Predictive Coding)分析によ っ て得られる LPCケプス トラムとする。
以上述べたよう に、 従来技術では検出された音声区間と 有声音区間の間に正しい音声区間の始終端が存在すると仮 定して、 端点フ リ一区間を制限している。 しかし非定常騷 音の種類は様々で、 自動車内騷音のよう に、 スペク トルの 低域にパワーが集中している騷音では零交差回数が少ない ため、 有声音区間と判定される危険性が大きい。 騒音が有 声音と判定された場合には、 騒音区間を含めてパターンマ ツチングを行うため、 誤認識の原因となる。
この発明は上記課題を解決をするためになされたもので、 正確な判定が困難な有声音お間の判定を必要とせず、 効率 的に端点フ リー区間を制限して、 音声認識精度を改善する 音声認識装置を提供するこ とを目的とする。 発明の開示
第 1 の発明に係る音声認識方法は、 入力音声を音響分析 しこの入力信号についてパワーを出力する分析ステップと、 前記パワーが所定の閾値を連続して超える区間を山区間と して検出し、 パワーが最大となる山区間を最大山区間とし て、 その最大山区間が前記閾値を下回る点以前に始端フ リ —区間が存在すると仮定し、 前記最大山区間が前記閾値を 上回る点以降に終端フ リ一区間が存在すると仮定して始端 フ リ ー区間と終端フ リ ー区間の組み合わせを出力する端点 フリ ー区間決定ステップと、 前記組み合わせの始端フ リー 区間と終端フ リ ー区間により特定されるパター ンと標準パ ターンとのパターンマッチングを行う照合ステップとを備 えたものである。
第 2の発明に係る音声認識方法は、前記照合ステツプが、 前記端点フ リ一区間が出力するすべての始端フ リー区間と 終端フ リー区間の組み合わせにより特定される各パタ一ン と標準パターンとのパターンマッチングを行う構成とされ たものである。
第 3の発明に係る音声認識方法は、 前記端点フ リ一区間 決定ステツプが、 検出された前記山区間のう ち、 パワーの 累積が最大となる山区間を最大山区間とする構成とされた ものである。
第 4の発明に係る音声認識方法は、前記分析ステツプが、 検出点毎にパワーを出力し、 前記端点フ リ ー区間決定手段 が、 検出された前記山区間のう ち、 前記検出点毎のパワー のう ち上位の所定の個数の検出点のパワーの和が最大とな る山区間を最大山区間とする構成とされたものである。 第 5の発明に係る音声認識方法は、 前記端点フ リ一区間 決定ステップが、 前記最大山区間以前の山区間が前記閾値 を上回る点の近傍に前記始端フ リ ー区間が存在すると仮 ¾ し、 前記最大山区間以後の山区間が前記閾値を下回る点の 近傍に前記終端フ リ ー区間が存在する と仮定する構成とさ れたものである。
第 6の発明に係る音声認識方法は、 前記端点フ リー区間 決定ステップが、 前記始端フ リ ー区間が存在すると仮定す る範囲の幅と前記終端フ リー区間が存在すると仮定する範 囲の幅とを、各山区間毎に異なる構成とされたものである。 第 7の発明に係る音声認識方法は、前記分析ステツプが、 フ レーム毎にパワーを出力し、 前記端点フ リ ー区間決定手 段が、 パワーが前記閾値を下回るフ レームを前記閾値を下 回る点とし、 パワーが前記閾値を上回るフ レームを前記閾 値を上回る点とする構成とされたものである。
第 8の発明に係る音声認識装置は、 入力音声を音響分析 しこの入力信号についてパワーを出力する分析手段と、 前 記パワーが所定の閾値を連続して超える区間を山区間とし て検出し、パワーが最大となる山区間を最大山区間として、' その最大山区間が前記閾値を下回る点以前に始端フ リ ー区 間が存在すると仮定し、 前記最大山区間が前記閾値を上回 る点以降に終端フ リ一区間が存在する と仮定して始端フ リ 一区間と終端フ リー区間の組み合わせを出力する端点フ リ 一区間決定手段と、 前記組み合わせの始端フ リー区間と終 端フ リー区間により特定されるパターンと標準パターンと のパターンマッチングを行う照合手段とを備えたものであ る o
第 9の発明に係る音声認識装置は、 前記照合手段が、 前記 端点フ リ ー区間が出力するすべての始端フ リ 一区間と終端 フ リ 一区間の組み合わせにより特定される各パターンと標 準パター ンとのパターンマッチングを行う構成とされたも のである。
第 1 0の発明に係る音声認識装置は、 前記端点フ リ一区間 決定手段が、 検出された前記山区間のうち、 パワーの累積 が最大となる山区間を最大山区間とする構成とされたもの である。
第 1 1 の発明に係る音声認識装置は、 前記分析手段が、 検 出点毎にパワーを出力し、前記端点フ リ一区間決定手段が、 検出された前記山区間のう ち、 前記検出点毎のパワーのう ち上位の所定の個数の検出点のパワーの和が最大となる山 区間を最大山区間とする構成とされたものである。
第 1 2 の発明に係る音声認識装置は、 前記端点フ リ ー区間 決定手段が、 前記最大山区間以前の山区間が前記閾値を上 回る点の近傍に前記始端フ リー区間が存在すると仮定し、 前記最大山区間以後の山区間が前記閾値を下回る点の近傍 に前記終端フ リ ー区間が存在すると仮定する構成とされた ものである。
第 1 3の発明に係る音声認識装置は、 前記端点フ リ ー区間 決定手段が、 前記始端フ リ一区間が存在すると仮定する範 囲の幅と前記終端フ リー区間が存在すると仮定する範囲の 幅とを、 各山区間毎に異なる構成とされたものである。 第 1 4の発明に係る音声認識装置は、 前記分析手段が、 フ レーム毎にパワーを出力し、 前記端点フリ一区間決定手段 が、 パワーが前記閾値を下回るフ レームを前記閾値を下回 る点とし、 パワーが前記閾値を上回るフレームを前記閾値 を上回る点とする構成とされたものである。 図面の簡単な説明
図 1 は本発明の実施例 1 と実施例 2 による音声認識装置 の構成図、
図 2は本発明の実施例 1 の始端フ リ ー区間と終端フ リ ー 区間の決定方法の説明図、
図 3は本発明の実施例 2の始端フ リー区間と終端フ リー 区間の決定方法の説明図、 '
図 4は本発明の実施例 2の始端フ リ一区間と終端フ リ一 区間の決定方法の説明図、
図 5は従来の技術による音声認識装置の構成図、 図 6は従来の技術による始端フ リー区間と終端フ リー区 間の決定方法の説明図である。 発明を実施するための最良の形態
実施例 1 .
図 1 は、 本発明に係る実施例 1の音声認識装置の構成を 示すブロ ック図である。 同図において、 1 は信号の入力を 行う信号入力端、 2は信号入力端 1 によって入力された入 力信号、 3は入力信号 2について音響分析を行う分析手段、 4は分析手段 3 によって算出される入力信号の特徴べク ト ルの時系列、 5 は分析手段 3 によって算出される入力信号 のパヮ一の時系列、 6 は入力信号のパヮ一の時系列 5 に基 づいて端点フ リ一区間を決定する端点フ リ ー区間決定手段、 8は端点フ リー区間決定手段 6 によって出力される端点フ リ一区間情報、 9 は音声認識のための照合処理において用 いられる標準パタ一ンを記憶する標準パターンメ モリ、 1 0は音声認識のための照合処理において用いられる標準パ ターン、 1 1 は各単語の標準パターンとのパターンマッチ ングを行う照合手段である。
本実施例では、 特定話者の単語認識を行う場合を説明す る。 標準パターンメ モ リ 9 には、 予め認識対象とする各単 語の標準パターン REF(i), (i=l ,2 ,3,...,K)として、 各単語の 特徴ベク トルの時系列が格納されているものとする。 ここ で; は、 標準パターンの数である。 特徴べク トル x(t)は、 例えば LPC分析によって得られる LPCケプス トラムとす る o
次に動作について説明する。 信号入力端 1から入力信号 2を入力すると、分析手段 3は入力信号 2を A/D変換した 後、 短い時間区間ごとにフ レームと呼ばれる単位に分割し て、 各フレームごとに音響分析を行ってそのフレームの特 徵ベク トル X(t) =1,2,3,..., )の時系列 4、 およびパワー P(t) (t=l,2,3,...,T)の時系列 5を計算して出力する。 ここ で、 T は入力信号 2の全フ レーム数である。 特徴べク トル X(t)は、 例えば LPC (線形予測)分析によって得られる LPC ケプス トラムとする。 ハ°ヮ一 P(t)は、 例えばフレーム内の 入力信号のディ ジタル値を 2乗和して対数をとることによ つて得られる。
端点フ リ 一区間決定手段 6 は、 入力信号のパワー P(t) (t=l,2,3,...,T)を入力として、 図 2に示すよう に、 パワーが 予め定めた閾値を越えたフレームが所定数以上連続する区 間を、 山区間 H(i)={B(i), E(i)}(i=l,2,3,...N)として検出す る。 ここで、 B(i)は山区間の始端、 すなわちパワーが前記 閾値を越えたフ レームである。 また、 E(i)は山区間の終端、 すなわちパワーが前記閾値未満となったフレームである。 N は検出された山区間の個数である。 図 2の例では、 N=3 である。
次に、 端点フ リー区間決定手段 6は、 (1 )式あるいは(2) 式によって、 各山区間 PH(i) = {B(i), E(i)Ki=l,2,3,...N)のパ ヮ一強度 PK(i)(i=l,2,3,...N)を計算し、(3 )式にしたがって パワー強度が最大の山をパワー強度最大山区間 PH(I)とし て検出する。( 2 )式において、 t(i,j)は各山区間 PH(i)= (i), E(i)}の区間内のフレームで、 ノ ヮ一が; j番目に大きいフレ ームとする。 したがって、 t(i,l)は、 山区間 PH(i)内でパヮ —が最大のフレームとなる。 このこ とより、 (2 )式は、 各 山区間について、当該区間内でパワーが大きい上位 M個の パワー値を用いてパワー強度を計算しているこ とになる。 一方(1 )式は、 各山区間について、 当該区間内の全パワー の和としてパワー強度を計算している。(1 )、 (2 )式のいず れを用いるかについては、 音声認識装置の使用時に想定さ れる環境騒音の種類や認識対象とする音声によって、 選択 すればよい。
PK(i) = P(t), ( i=l, 2, 3, .."Λ ( 1)
t=B(i)
M
PK(i) =∑P(t(i, j')), {i=l, 2, 3, ...,N) (2)
l =a rgm ax( i)PR (ι) (3) 本実施例では、 パワー強度最大山区間は音声である と仮 定するので、 例えばパワーの山の継続時間は短いが、 瞬間 的な信号パワーが大き く なるスパイク状の騒音では( 1 )式 を用い、 逆にパワーの山の継続時間は長いが、 フ レーム毎 のパワーは大き く ない騒音では(2 )式を用いるこ とにより 騷音区間がパワー強度最大山区間とならないよう にするこ とができる。
次に端点フ リ一区間決定手段 6 は、(4 )、 (5 )式にしたが つて最初の山区間の始端 B 1 から、 パワー強度最大山区間 の始端 B (I)までの区間に、 始端マ一ジン bm l, bm2を加え た区間を、 始端フ リ 一区間 BF={bfL , bfil}として決定する。 ここで、 bfL は始端フ リ ー区間の先頭フ レーム、 bfR は始 端フ リ ー区間の最終フ レームであり、 また始端マ一ジン bm l , bm2 は、 予め定めた 0以上の定数である。 bfL = B(I) -bml (4) bfR = B(I) +bm2 (5) 次に(6 )、 (7 )式にしたがって、端点フ リ ー区間決定手段 6は最後の山区間の終端 E (N)から、パワー強度最大山区間 の始端 E (I)までの区間に、 終端マ一ジン em l, em2を加え た区間を、 終端フリ一区間 EF = {efL, efR}として決定する。 ここで、 efL は終端フリ ー区間の先頭フレーム、 efR は終 端フ リー区間の最終フレームである。 終端マージン em l , em2 は、 予め定めた 0以上の定数である。 以上の処理によ り決定された始端フ リ一区間 BF と終端フ リ一区間を図 2 に示す。 efl. = E(I) - eml (6) efR = E(N) + bm2 (7) 端点フ リ ー区間決定手段 6 は、 前記始端フ リ ー区間 BF={bfL , bfR}と終端フ リー区間 EF = {efL, efH}を、 端点フ リー区間情報 8 として出力する。
照合手段 1 1 は、 特徴べク トルの時系列 4 と、 端点フ リ —区間情報 8による始端フ リ一区間 BF={bfL, bfR}と終端 フ リー区間 EF = {efL, efR}とを入力として、 始端フ リー区 間と終端フ リ一区間内の全ての始終端の組み合わせで標準 パターンメモリ 9に格納されている各単語の標準パターン 1 0である REF(i)とパターンマッチングを行う。この処理 を標準パターン REF(i) (i=l ,2 , 3,...,K)の全てに対して順 次行い、 これら全ての始終端の組み合わせと標準パターン との照合処理の結果、 最も差異の小さい標準パターンを認 1 結果 1 2 として出力する。 パターンマッチングの方法と しては、 例えば DPマッチングを用いる。
以上説明したとおり、本実施例は騒音下において、「パヮ —強度'最大の山は背景騒音ではなく、 認識対象とする音声 あるいはその一部である」 という仮定に基づいて、
(1) パワー強度最大の山の区間内には、 始端マ一ジン bm2 と終端マージン em l以上の端点フ リー区間を設定しない (2) 端点フ リーは、 パワー最大の山の跨がない、 すなわち パワー強度最大の山の後方には、始端フ リ一区間を含めず、 ハ°ヮ一強度最大の山の前方には終端フ リ一区間を含めない こ とに基づいて端点フ リ一区間を制限する ものである。 騷音下では、 人間の発声は大き く なるこ とが知られてお り、 殆どの騒音下で前記仮定が成立する。 本実施例による 音声認識装置は、 この仮定に基づく こ とにより、 正確な判 定が困難な有声音区間の判定を必要とせず、 効率的に端点 フ リ一区間が音声の内部に極力含まれないよう に制限する こ とによって、 部分マッチングによる誤認識を低減するこ とができる。
なお本実施例では、パターンマッチングの方法として DP マッチングを用いたが、 HMM (Hidden Markov Mo del)等の 他のパターンマッチング方法に対しても同様の効果が得ら れる。 また連続音声認識や、 不特定話者の単語認識や連続 音声においても同様の効果が得られる。 実施例 2 .
次に本発明の別の実施例に係る音声認識装置について説 明する。 本実施例による音声認識装置では、 端点フ リー区 間決定手段 6の動作を以下のよう に変更する。 すなわち、 まず端点フ リ一区間決定手段 6は、 入力信号のパワー P(t) (t=l,2,3,...,T)を入力として、実施例 1 と同様の動作によつ て、 パワーが予め定めた閾値を越えたフレームが所定数以 上連続する山区間 PH(i) = {B(i), E(i)}(i=l,2,3,...N)と、 パヮ —強度最大山区間 PH(I)を検出する。 次に、 パワー強度最 大山区間 PH(I)、 およびそれに先行する各山区間の始端 B(i), (i=l,2,3,...N)の前後に始端マ一ジン T ml, bm2を加え た 区 間 を 、 始 端 フ リ ー 区 間 BF(i)={bfL(i), bfR(i)} (i=l,2,...,I)とする。 こ こで、 bfL(i)は i 番目の始端フ リ ー 区間の先頭フ レームであり、 (8)式によって求める。 また bfR(i)は i番目の始端フ リー区間の最終フレームであって、 (9)式によつて求める。 始端マ一ジン bmL(i), bmR(i)は、 予 め定めた 0以上の定数である。 bfL(i) = B(i)-bmL(i), (i=l,2,3,...,N) (8) bfR(i) = B(i)+bmR(i), (i=l,2,3,...,N) (9) 次に(1 0 )、( 1 1 )式にしたがって、パワー強度最大山区 間 PH(I)、 およびそれに後続する各山区間の終端 E(i), (i=I,I+l,...,N)の前後に終端マージン eml, em2を加えた区 間を、 終端フ リ一区間 EF(i) = {efL(i), efR(i)} (i=l,2,...,N- 1+1)とする。 こ こで、 e£L(i)は i番目の終端フ リー区間の先 頭フレーム、 efR(i)は i番目の終 ¾フ リ一区間の最終フレー ムである。 始端マージン emL(i), emR(i)は、 予め定めた 0 以上の定数である。 以上の処理により決定された始端フ リ 一区間と終端フ リ ー区間を図 3 に示す。 β (ί) = E(/ -1+ - emL(i), {ϊ=1,2,3,...,Ν-Ι+ϊ) (10) efR(i) = E(J + emR(i), ( =1,2,3,...,N- 1+ϊ) (11) なお、 前記始端マ一ジン bmL(i)と bmR(i)は、 始端フ リ —区間 BF(i)ごとに異なる値に設定してもよいし、 共通の 値としてもよい。
始端フ リー区間を大き くすると、 始端の検出誤りには強 く なるが、 部分マッチングの危険性が大き く なるという ト レー ドォフの関係にある。 1番目の始端フ リ一区間 BF1の 左側のマ一ジン bfLl は、 音声の外側へのフ リ ー区間であ るため、 値を大き く しても、 部分マッチングの危険性はそ れほど増加しない。 しかし、 1番目の始端フ リー区間 BF1 の右側と 2番目以降の始端フ リ一区間は、 音声区間内であ る可能性があり、 始端マージン bmL(i)と bm;R(i)の値を大 き く設定すると、 部分マッチングの可能性が増す。
そこで、 2番目以降の始端フ リー区間の左右両側の始端 マ一ジンと、 1番目の始端フ リー区間の右側の始端マージ ンとを、 1番目以降の始端フ リー区間の左側の始端マージ ンより も小さな値若しく は 0 とすると、 内側でのフ リー区 間が小さ く なる、 あるいは 0 となり、 部分マッチングを抑 える効果がある。
同様に、 前記終端マージン emL(i)と emR(i)は、 終端フ リ 一区間 EF(i)ごとに異なる値に設定してもよいし、 共通 の値としてもよい。
最後の終端フ リ 一区間 EF(N-I+ 1)の右側のマー ジ ン efR(N-I+ l)は、 音声の外側へのフ リー区間であるため、 値 を大き く しても部分マッチングの危険性はそれほど大き く ならない。 しかし、 最後の終端フ リ一区間の左側と最後以 外の終端フ リ一区間は音声区間内である可能性があるため、 終端マ一ジン emL(i)と emR(i)の値を大き く設定すると部 分マッチングの可能性が増す。
そこで、 最後以外の終端フ リー区間の左右両側の終端マ —ジンと最後の終端フ リー区間の左側とを、 最後の終端フ リ 一区間の右側のマ一ジンより も小さな値若しく は 0 とす るこ とにより、 内側でのフ リー区間が小さ く なる、 あるい は 0 となり、 部分マッチングを抑える効果がある。
図 4 に、 始端マ一ジンを 2番目以降の始端フ リー区間の 左右両側の始端マ一ジンと、 1番目の始端フ リー区間の右 側の始端マージンを 0 とし、 また終端マージンを最後以外 の終端フ リ一区間の左右両側の終端マージンと、 最後の終 端フ リー区間の左側の終端マ一ジンを 0 とした場合を示す。
照合手段 1 0は、 特徴べク トルの時系列 4 と、 端点フ リ —区間情報 8である始端フ リ一区間 BF(i) = {bfL(i) , bfR(i)} (i=l,2,...,I)と、 終端フ リ 一 区間 EF(i) = {efL(i) , efR(i)} =1,2 , · . ·,Ν-Ι+ 1)とを入力として、始端フ リ一区間と終端フ リ一区間内の全ての始終端の組み合わせにより、 標準パ夕 —ンメモリ 9 に格納されている各単語の標準パターン 1 0 である EF(i)とパターンマッチングを行う。この処理を標 準パタ―ン REF(i) ,(i=l,2 , 3,... ,K)の全てに対して順次行い、 距離値が最小のものを認識結果 1 2 として出力する。 パタ —ンマッチングとしては、例えば DPマッチングを用いる。 実際の非定常騒音下では、 音声の始端と終端でパワーの 山の立上り と山の終端が観察されるこ とが多いので、 本実 施例に係る音声認識装置によれば、 実施の形態 1で説明し た端点フ リ一区間の制限に加え、 始端のフ リ一区間はパヮ 一の山の立上り前後の区間、 終端のフ リー区間はパワーの 山の終端の前後の区間に制限するこ とによって、 さ らに部 分マッチングによる誤認識を低減することができる。 産業上の利用の可能性
本発明は上記のよう に構成されているので、 正確な判定 が困難な有声音区間の判定を必要とせず、 効率的に端点フ リ ー区間が音声の内部に極力含まれないよう に制限するこ とによって、 部分マッチングによる誤認識を低減するこ と が可能となる。
また本発明は上記のよう に構成されているので、 全ての 始終端の組み合わせの中から、 標準パターンと最も差異の 小さい始終端の組み合わせを選択するこ とのが可能となる。
また本発明は上記のよう に構成されているので、 パワー の山の継続時間は短いが、 瞬間的な信号パワーが大き く な るスパイク状の騒音が発生しう る環境下での音声認識を効 率的に行う こ とが可能となる。
また本発明は上記のよう に構成されているので、 パワー の山の継続時間は長いが、 パワーの極大値は大き くない騷 音が発生しう る環境下での音声認識を効率的に行うこ とが 可能となる。
また本発明は上記のよう に構成されているので、 始端と 終端の検出誤りを少な くするこ とが可能となる。
また本発明は上記のよう に構成されているので、 始端と 終端と検出誤りを少な く しつつ、 部分マッチングの危険性 も抑えるこ とが可能となる。
また本発明は上記のよう に構成されているので、 フ レー ム単位で音響分析を行う音声認識装置に適用することが可 能となる。

Claims

請 求 の 範 囲
1 . 入力音声を音響分析しこの入力信号についてパワー を出力する分析ステツプと、
前記パワーが所定の閾値を連続して超える区間を山区間と して検出し、 パワーが最大となる山区間を最大山区間とし て、 その最大山区間が前記閾値を下回る点以前に始端フ リ 一区間が存在すると仮定し、 前記最大山区間が前記閾値を 上回る点以降に終端フ リ一区間が存在すると仮定して始端 フ リ ー区間と終端フ リ ー区間の組み合わせを出力する端点 フ リ ー区間決定ステップと、
前記組み合わせの始端フ リ ー区間と終端フ リ ー区間により 特定されるパターンと標準パターンとのパターンマツチン グを行う照合ステップとを備えたこ とを特徴とする音声認 識方法。 '
2 . 前記端点フ リー区間決定ステップは、 始端フ リ ー区 間と終端フ リー区間の組み合わせを複数出力し、 前記照合 ステツプは、 前記端点フ リ一区間決定ステップが出力する すべての始端フ リ一区間と終端フ リ一区間の組み合わせに より特定される各パターンと標準パターンとのパターンマ ツチングを行う構成とされたこ とを特徴とする請求の範囲 第 1項記載の音声認識方法。
3 . 前記端点フ リー区間決定ステップは、 検出された前 記山区間のう ち、 パワーの累積が最大となる山区間を最大 山区間とする構成とされたこ とを特徴とする請求の範囲第 1項乃至請求の範囲第 2項のいずれか一記載の音声認識方 法 o
4 . 前記分析ステップは、 検出点毎にパワーを出力し、 前記端点フ リー区間決定手段は、 検出された前記山区間の うち、 前記検出点毎のパワーのう ち上位の所定の個数の検 出点のパワーの和が最大となる山区間を最大山区間とする 構成とされたこ とを特徴とする請求の範囲第 1項乃至請求 の範囲第 2項のいずれか一記載の音声認識方法。
5 . 前記端点フ リー区間決定ステップは、 前記最大山区 間以前の山区間が前記閾値を上回る点の近傍に前記始端フ リ一区間が存在すると仮定し、 前記最大山区間以後の山区 間が前記閾値を下回る点の近傍に前記終端フ リ一区間が存 在すると仮定する構成とされたこ とを特徴とする請求の範 囲第 1項乃至請求の範囲第 4項のいずれか一記載の音声認 識方法。
6 . 前記端点フ リー区間決定ステップは、 前記始端フ リ 一区間が存在すると仮定する範囲の幅と前記終端フ リー区 間が存在すると仮定する範囲の幅とを、 各山区間毎に異な る構成とされたこ とを特徴とする請求の範囲第 1項乃至請 求の範囲第 4項のいずれか一記載の音声認識方法。
7 . 前記分析ステップは、 フ レーム毎にパワーを出力し、 前記端点フ リ一区間決定手段は、 パワーが前記閾値を下回 るフ レームを前記閾値を下回る点とし、 パワーが前記閾値 を上回るフ レームを前記閾値を上回る点とする構成とされ たこ とを特徴とする請求の範囲第 1項乃至請求の範囲第 6 項のいずれか一記載の音声認識方法。
8 . 入力音声を音響分析しこの入力信号についてパワー を出力する分析手段と、
前記パヮ一が所定の閾値を連続して超える区間を山区間と して検出し、 パ'ヮ一が最大となる山区間を最大山区間とし て、 その最大山区間が前記閾値を下回る点以前に始端フ リ —区間が存在すると仮定し、 前記最大山区間が前記閾値を 上回る点以降に終端フ リ一区間が存在すると仮定して始端 フ リ 一区間と終端フ リ ー区間の組み合わせを出力する端点 フ リ ー区間決定手段と、
前記組み合わせの始端フ リ一区間と終端フ リ一区間により 特定されるパターンと標準パタ一ンとのパターンマツチン グを行う照合手段とを備えたこ とを特徴とする音声認識装 o
9 . 前記端点フ リ一区間決定手段は、 始端フ リ一区間と 終端フ リ ー区間の組み合わせを複数出力し、 前記照合手段 は、 前記端点フ リ ー区間決定手段が出力するすべての始端 フ リー区間と終端フ リ ー区間の組み合わせにより特定され る各パターンと標準パターンとのパターンマッチングを行 う構成とされたこ とを特徴とする請求の範囲第 8項記載の 音声認識装置。
1 0 . 前記端点フ リ 一区間決定手段は、 検出された前記 山区間のうち、 パワーの累積が最大となる山区間を最大山 区間とする構成とされたこ とを特徴とする請求の範囲第 8 項乃至請求の範囲第 9項のいずれか一記載の音声認識装置。
1 1 . 前記分析手段は、 検出点毎にパワーを出力し、 前記端点フリー区間決定手段は、 検出された前記山区間の うち、 前記検出点毎のパワーのう ち上位の所定の個数の検 出点のパワーの和が最大となる山区間を最大山区間とする 構成とされたこ とを特徴とする請求の範囲第 8項乃至請求 の範囲第 9項のいずれか一記載の音声認識装置。
1 2 . 前記端点フ リー区間決定手段は、 前記最大山区間 以前の山区間が前記閾値を上回る点の近傍に前記始端フ リ —区間が存在すると仮定し、 前記最大山区間以後の山区間 が前記閾値を下回る点の近傍に前記終端フ リ—区間が存在 すると仮定する構成とされたこ とを特徴とする請求の範囲 第 8項乃至請求の範囲第 1 1項のいずれか一記載の音声認
1 3 . 前記端点フ リ一区間決定手段は、 前記始端フ リ一 区間が存在すると仮定する範囲の幅と前記終端フ リ一区間 が存在すると仮定する範囲の幅とを、 各山区間毎に異なる 構成とされたこ とを特徴とする請求の範囲第 8項乃至請求 の範囲第 1 1項のいずれか一記載の音声認識装置。
1 4 . 前記分析手段は、 フ レーム毎にパワーを出力し、 前記端点フ リ ー区間決定手段は、 パワーが前記閾値を下回 るフ レームを前記閾値を下回る点とし、 パワーが前記閾値 を上回るフ レームを前記閾値を上回る点とする構成とされ たこ.とを特徴とする請求の範囲第 8項乃至請求の範囲第 1 3項のいずれか一記載の音声認識装置。
PCT/JP2002/005847 2002-06-12 2002-06-12 音声認識方法及びその装置 WO2003107326A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2004514058A JPWO2003107326A1 (ja) 2002-06-12 2002-06-12 音声認識方法及びその装置
US10/511,158 US20050165604A1 (en) 2002-06-12 2002-06-12 Speech recognizing method and device thereof
CNA028291026A CN1628337A (zh) 2002-06-12 2002-06-12 语音识别方法及其装置
PCT/JP2002/005847 WO2003107326A1 (ja) 2002-06-12 2002-06-12 音声認識方法及びその装置
EP02738666A EP1513135A1 (en) 2002-06-12 2002-06-12 Speech recognizing method and device thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2002/005847 WO2003107326A1 (ja) 2002-06-12 2002-06-12 音声認識方法及びその装置

Publications (1)

Publication Number Publication Date
WO2003107326A1 true WO2003107326A1 (ja) 2003-12-24

Family

ID=29727345

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2002/005847 WO2003107326A1 (ja) 2002-06-12 2002-06-12 音声認識方法及びその装置

Country Status (5)

Country Link
US (1) US20050165604A1 (ja)
EP (1) EP1513135A1 (ja)
JP (1) JPWO2003107326A1 (ja)
CN (1) CN1628337A (ja)
WO (1) WO2003107326A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3673507B2 (ja) * 2002-05-16 2005-07-20 独立行政法人科学技術振興機構 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム
CN100580770C (zh) * 2005-08-08 2010-01-13 中国科学院声学研究所 基于能量及谐波的语音端点检测方法
KR101992676B1 (ko) 2012-07-26 2019-06-25 삼성전자주식회사 영상 인식을 이용하여 음성 인식을 하는 방법 및 장치
JPWO2014069076A1 (ja) * 2012-10-31 2016-09-08 日本電気株式会社 会話分析装置及び会話分析方法
JP6213476B2 (ja) * 2012-10-31 2017-10-18 日本電気株式会社 不満会話判定装置及び不満会話判定方法
WO2014069122A1 (ja) * 2012-10-31 2014-05-08 日本電気株式会社 表現分類装置、表現分類方法、不満検出装置及び不満検出方法
JP6358093B2 (ja) * 2012-10-31 2018-07-18 日本電気株式会社 分析対象決定装置及び分析対象決定方法
US20140278393A1 (en) * 2013-03-12 2014-09-18 Motorola Mobility Llc Apparatus and Method for Power Efficient Signal Conditioning for a Voice Recognition System
US9786274B2 (en) * 2015-06-11 2017-10-10 International Business Machines Corporation Analysis of professional-client interactions
TWI672690B (zh) * 2018-03-21 2019-09-21 塞席爾商元鼎音訊股份有限公司 人工智慧語音互動之方法、電腦程式產品及其近端電子裝置
CN108877778B (zh) 2018-06-13 2019-09-17 百度在线网络技术(北京)有限公司 语音端点检测方法及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61143800A (ja) * 1984-12-18 1986-07-01 株式会社東芝 音声認識装置
EP0237934A1 (en) * 1986-03-19 1987-09-23 Kabushiki Kaisha Toshiba Speech recognition system
JPH0293696A (ja) * 1988-09-30 1990-04-04 Sanyo Electric Co Ltd 音声認識装置
JPH08292787A (ja) * 1995-04-20 1996-11-05 Sanyo Electric Co Ltd 音声・非音声判別方法
JP2000250565A (ja) * 1999-02-25 2000-09-14 Ricoh Co Ltd 音声区間検出装置、音声区間検出方法、音声認識方法およびその方法を記録した記録媒体

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69128582T2 (de) * 1990-09-13 1998-07-09 Oki Electric Ind Co Ltd Methode zur Phonemunterscheidung

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61143800A (ja) * 1984-12-18 1986-07-01 株式会社東芝 音声認識装置
EP0237934A1 (en) * 1986-03-19 1987-09-23 Kabushiki Kaisha Toshiba Speech recognition system
JPH0293696A (ja) * 1988-09-30 1990-04-04 Sanyo Electric Co Ltd 音声認識装置
JPH08292787A (ja) * 1995-04-20 1996-11-05 Sanyo Electric Co Ltd 音声・非音声判別方法
JP2000250565A (ja) * 1999-02-25 2000-09-14 Ricoh Co Ltd 音声区間検出装置、音声区間検出方法、音声認識方法およびその方法を記録した記録媒体

Also Published As

Publication number Publication date
JPWO2003107326A1 (ja) 2005-10-20
US20050165604A1 (en) 2005-07-28
EP1513135A1 (en) 2005-03-09
CN1628337A (zh) 2005-06-15

Similar Documents

Publication Publication Date Title
US8140330B2 (en) System and method for detecting repeated patterns in dialog systems
US7409341B2 (en) Speech recognizing apparatus with noise model adapting processing unit, speech recognizing method and computer-readable medium
JP3004883B2 (ja) 終話検出方法及び装置並びに連続音声認識方法及び装置
WO2003107326A1 (ja) 音声認識方法及びその装置
CN112489692A (zh) 语音端点检测方法和装置
JP2996019B2 (ja) 音声認識装置
KR20180127020A (ko) 자연어 대화체 음성 인식 방법 및 장치
JP2000250593A (ja) 話者認識装置及び方法
JP2006010739A (ja) 音声認識装置
JPS60114900A (ja) 有音・無音判定法
JPH06110488A (ja) 音声検出方法および音声検出装置
JP3428805B2 (ja) 音声認識のための音声区間始端補正方法及び装置並びに音声認識方法
JP3868798B2 (ja) 音声認識装置
JPH07230293A (ja) 音声認識装置
JP2666296B2 (ja) 音声認識装置
JPH0772899A (ja) 音声認識装置
JP4391031B2 (ja) 音声認識装置
JP6451171B2 (ja) 音声認識装置、音声認識方法、及び、プログラム
JP2003280678A (ja) 音声認識装置
JPH0484197A (ja) 連続音声認識装置
WO2020223797A1 (en) Methods and devices for detecting an attack in a sound signal to be coded and for coding the detected attack
JPH01185599A (ja) 音声認識装置
KR20010091093A (ko) 음성 인식 및 끝점 검출방법
JP2000352987A (ja) 音声認識装置
JP2901976B2 (ja) パターン照合予備選択方式

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 2004514058

Country of ref document: JP

AK Designated states

Kind code of ref document: A1

Designated state(s): CN JP US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 10511158

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 20028291026

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2002738666

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 2002738666

Country of ref document: EP

WWW Wipo information: withdrawn in national office

Ref document number: 2002738666

Country of ref document: EP