JPS63289599A - Segmentation apparatus - Google Patents

Segmentation apparatus

Info

Publication number
JPS63289599A
JPS63289599A JP62125439A JP12543987A JPS63289599A JP S63289599 A JPS63289599 A JP S63289599A JP 62125439 A JP62125439 A JP 62125439A JP 12543987 A JP12543987 A JP 12543987A JP S63289599 A JPS63289599 A JP S63289599A
Authority
JP
Japan
Prior art keywords
segment
input speech
segment boundary
boundary
standard pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62125439A
Other languages
Japanese (ja)
Inventor
浩明 服部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP62125439A priority Critical patent/JPS63289599A/en
Publication of JPS63289599A publication Critical patent/JPS63289599A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は不特定話者の音声認識におけるセグメンテーシ
ョン装置の改良に関する。
DETAILED DESCRIPTION OF THE INVENTION (Field of Industrial Application) The present invention relates to an improvement of a segmentation device for speech recognition of unspecified speakers.

(従来の技術とその問題点) 音節または音素などの単語よりも小さなセグメントを用
いて音声認識を行う方法においては入力音声をセグメン
トへ分割する精度、即ちセグメンテーションの精度が認
識率へ与える影響が非常に大きい、認識対象が特定話者
の場合には各話者に依存した特徴量を用いることが出来
るが、対象が不特定話者の場合には各話者毎に音響的特
徴が異なるから、入力音声の音響的特徴だけから当該入
力音声をセグメントに分割する従来のセグメンテーショ
ン装置では、極端なセグメンテーション誤りを生じてし
まうことがあった。従来装置にはこのような問題点があ
った。
(Prior art and its problems) In methods of speech recognition using segments smaller than words, such as syllables or phonemes, the accuracy of dividing input speech into segments, that is, the accuracy of segmentation, has a significant effect on the recognition rate. If the recognition target is a specific speaker, it is possible to use features that depend on each speaker, but if the target is an unspecified speaker, the acoustic features differ for each speaker. Conventional segmentation devices that divide input speech into segments based only on the acoustic characteristics of the input speech sometimes result in extreme segmentation errors. Conventional devices have had such problems.

そこで、本発明は、あらかじめセグメントの境界が存在
する範囲を推定することにより極端なセグメンテーショ
ン誤りを避け、セグメンテーションを精度良く行おうと
するものである。
Therefore, the present invention attempts to avoid extreme segmentation errors and perform segmentation with high accuracy by estimating in advance the range in which segment boundaries exist.

(問題点を解決するための手段) 前述の問題点を解決するために本発明が提供する手段は
、音節または音素などの単語よりも小さなセグメントを
用いて音声認識を行う装置であって、入力音声から音響
的特徴パラメータを抽出する手段と、単語標準パターン
として特徴パラメータとセグメント境界と該セグメント
境界の特徴を記憶する手段と、前記音響的特徴パラメー
タを用いて前記入力音声と前記単語標準パターンを時間
的に対応付けて前記単語標準パターンの前記セグメント
境界に対応する前記入力音声の時点を求める手段と、前
記セグメント境界の特徴を用いて前記時点からある範囲
内で前記入力音声のセグメント境界を探す手段とを含ん
でなることを特徴とする。
(Means for Solving the Problems) Means provided by the present invention to solve the above-mentioned problems is an apparatus that performs speech recognition using segments smaller than words, such as syllables or phonemes, means for extracting acoustic feature parameters from speech; means for storing feature parameters, segment boundaries, and features of the segment boundaries as word standard patterns; means for determining a point in time of the input speech that corresponds to the segment boundary of the standard word pattern in a temporal manner; and searching for a segment boundary of the input speech within a certain range from the point in time using characteristics of the segment boundary. It is characterized by comprising means.

(作用) 入力音声は音響的特徴パラメータ抽出手段により特徴パ
ラメータの時系列へ変換される。ここで特徴パラメータ
とは音響的な特徴を反映したパラメータである0日本音
響学会誌Vo 127、No1、p483〜490 (
1971−09) 、迫江、千葉“動的計画法を利用し
た音声の時間正規化に基づく連続単語認識”に述べられ
たバタンマツチング法(以下、DPマツチングと呼ぶ)
を用いれば、入力音声の特徴パラメータ時系列とあらか
じめ登録された単語標準パターンとを時間的に対応付け
ることが出来る。そこで、あらかじめ標準パターンをセ
グメントに分割した結果を記憶しておけばWA準パター
ンのセグメント境界に対応する入力音声の時点(以下、
セグメント境界候補と呼ぶ)を求めることが出来る。実
際のセグメント境界はこのようにして求めたセグメント
境界候補の近傍に存在すると考えられるので、セグメン
ト境界候補を含む別に定められる区間においてセグメン
ト境界を探すことにより効率よくセグメンテーションが
行われる。また、セグメント境界候補近傍にてセグメン
ト境界を探す際には、既に探すべきセグメントが分かっ
ているので適切な特徴パラメータを選択してセグメント
境界が求められる。特定話者の場合にはDPマツチング
の結果得られる単語標準パターンとの距離を用いて単語
認識を行うことも勿論可能であるが、不特定話者の場合
には十分な認識精度が得られないためここでは入力音声
と標準パターンとの時間的対応付けのみを行う。従って
、単語認識を行う場合に比べて少ない数の特徴パラメー
タを記憶しておけば良く、記憶量、計算量を減らすこと
が出来る。
(Operation) Input speech is converted into a time series of feature parameters by the acoustic feature parameter extraction means. Here, the feature parameters are parameters that reflect acoustic characteristics.0 Journal of the Acoustical Society of Japan Vo 127, No. 1, p.
1971-09), Sakoe, Chiba, "Continuous word recognition based on temporal normalization of speech using dynamic programming", the slam matching method (hereinafter referred to as DP matching)
By using , it is possible to temporally associate the feature parameter time series of input speech with pre-registered word standard patterns. Therefore, if you store the results of dividing the standard pattern into segments in advance, it is possible to store the results of dividing the standard pattern into segments.
(referred to as segment boundary candidates) can be found. Since the actual segment boundary is considered to exist in the vicinity of the segment boundary candidate obtained in this way, segmentation can be efficiently performed by searching for the segment boundary in a separately determined section that includes the segment boundary candidate. Furthermore, when searching for a segment boundary near a segment boundary candidate, since the segment to be searched for is already known, the segment boundary can be found by selecting appropriate feature parameters. In the case of specific speakers, it is of course possible to perform word recognition using the distance from the word standard pattern obtained as a result of DP matching, but in the case of unspecified speakers, sufficient recognition accuracy cannot be obtained. Therefore, only the temporal correspondence between the input voice and the standard pattern is performed here. Therefore, it is only necessary to store a smaller number of feature parameters than when performing word recognition, and the amount of storage and calculation can be reduced.

(実施例) 第1図は本発明の一実施例を示すブロック図、第2図は
入力音声と標準パターンの時間的対応付は方法を例示す
る図、第3図は本発明によるセグメント境界の決定方法
の一例を説明するための図である。以下に動作を簡単に
説明する。
(Example) Fig. 1 is a block diagram showing an embodiment of the present invention, Fig. 2 is a diagram illustrating a method for temporally associating input speech and standard patterns, and Fig. 3 is a diagram illustrating a method for temporally associating input speech and standard patterns. FIG. 3 is a diagram for explaining an example of a determination method. The operation will be briefly explained below.

いま、入力音声“3″を3つのセグメント/s/、/a
/、/N/にセグメンテーションするものとする。入力
音声は音響分析部1において特徴パラメータの時系列へ
変換される。ここでいう特徴パラメータとは音響的な特
徴を反映したパラメータであればよく、フィルタバンク
の出力、メルケプストラム係数、零交差数、フォルマン
ト周波数等が上げられる。記憶部2にはあらかじめ単語
標準パターンとして各単語の特徴パラメータとセグメン
ト境界およびセグメント境界の特徴を登録しておく、照
合部3は記憶部2から単語標準パターンを読み出し、分
析部1の出力とマツチングを行う。
Now, the input voice “3” is divided into three segments /s/, /a
Segmentation is performed into /, /N/. The input speech is converted into a time series of feature parameters in the acoustic analysis section 1. The feature parameters here may be any parameters that reflect acoustic features, such as the output of a filter bank, mel cepstral coefficients, number of zero crossings, formant frequency, etc. The feature parameters of each word, segment boundaries, and features of the segment boundaries are registered in advance in the storage unit 2 as a word standard pattern.The matching unit 3 reads the word standard pattern from the storage unit 2 and matches it with the output of the analysis unit 1. I do.

DPマツチングにより最適化が行われた後、最適値を与
えるバスをたどることにより、入力音声と標準パターン
を対応付けることができ、セグメント境界候補を求める
ことが出来る。第2図に時間的対応付けの様子を示す、
第2図において21は単語標準パターンのエネルギー包
絡を、22は入力音声のエネルギー包絡を表し、23は
マツチング平面、24は最適値を与えるパスを示す0図
において破線は対応付けられたセグメント境界を表す。
After optimization is performed by DP matching, by tracing the bus that gives the optimal value, it is possible to associate the input voice with the standard pattern, and to find segment boundary candidates. Figure 2 shows the temporal correspondence.
In Figure 2, 21 represents the energy envelope of the word standard pattern, 22 represents the energy envelope of the input speech, 23 represents the matching plane, and 24 represents the path that gives the optimal value. represent.

セグメント境界候補を探す区間を決定するには様々な方
法がある。いまセグメント境界候補が時点iであるとす
ると、 1) 固定値とする方法。
There are various methods for determining the interval to search for segment boundary candidates. Assuming that the segment boundary candidate is at time i, 1) A method of setting it to a fixed value.

ある値jにたいして、区間を[i−j、i+j]とする
For a certain value j, let the interval be [i-j, i+j].

2) 1)に標準パターンとの時間長の違いを反映させ
た方法。
2) A method that reflects the difference in time length from the standard pattern in 1).

入力音声が標準パターンのα倍の継続長を持つ場合、区
間を[1−jXα、i+jXα]とする。
When the input voice has a duration α times that of the standard pattern, the interval is set to [1−jXα, i+jXα].

等が考えられる。etc. are possible.

この様にして定められた区間[il、i2]においてセ
グメント境界候補を探す際には探すべきセグメント境界
候補の音響的特徴を考慮することが出来る。即ち、先の
例において、セグメント/ s /と/a/の境界を探
す場合にはセグメント/ S /においては3 kH2
以上の周波数へのエネルギーの集中がみられると言う知
見に基づき、全周波数領域におけるエネルギーに占める
3 kH7以上のエネルギーの割合の変化量を求め、そ
れが前記区間[12、i2]において最小値を取る時点
をセグメント境界として求めればよい、記憶部2にはこ
の様なセグメント境界の特徴を記憶しておく。
When searching for a segment boundary candidate in the interval [il, i2] defined in this way, it is possible to take into consideration the acoustic characteristics of the segment boundary candidate to be searched for. That is, in the previous example, when searching for the boundary between segments /s/ and /a/, 3 kH2 for segment /S/
Based on the knowledge that there is a concentration of energy in the above frequency range, we calculated the amount of change in the ratio of energy above 3 kHz to the energy in the entire frequency range, and found that it was the minimum value in the interval [12, i2]. It is only necessary to find the time point taken as a segment boundary, and the storage unit 2 stores the characteristics of such a segment boundary.

境界決定部4は照合部3の結果から探索区間を決定し、
記憶部2からセグメント境界の特徴を読みだし、分析部
1からの分析結果からセグメント境界を決定する。第3
図において31は入力音声のエネルギー包絡を示し、3
2は全周波数領域におけるエネルギーに占める3 kH
z以上のエネルギーの割合の変化量を示す、第3図にお
いて、iはセグメント境界候補、i′は区間[il、i
2]において32の全周波数領域におけるエネルギーに
占める3 kH2以上のエネルギーの割合の変化量が最
小値を取る時点として求められたセグメント境界である
The boundary determining unit 4 determines a search interval from the result of the matching unit 3,
The characteristics of the segment boundaries are read from the storage unit 2, and the segment boundaries are determined from the analysis results from the analysis unit 1. Third
In the figure, 31 indicates the energy envelope of the input voice, and 3
2 is 3 kHz of energy in the entire frequency range
In FIG. 3, which shows the amount of change in the proportion of energy equal to or higher than z, i is a segment boundary candidate, and i' is an interval [il, i
2], the segment boundary is determined as the point in time when the amount of change in the ratio of energy of 3 kHz or more to the energy in all 32 frequency regions takes a minimum value.

(発明の効果) 以上のように本発明による装置によれば、不特定話者の
音声を高い精度でセグメンテーションすることができ、
高精度の音声認識装置の実現が可能となる。
(Effects of the Invention) As described above, according to the device according to the present invention, speech of unspecified speakers can be segmented with high accuracy.
It becomes possible to realize a highly accurate speech recognition device.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の一実施例を示すブロック図、第2図は
入力音声と標準パターンの時間的対応材は方法を例示す
る図、第3図は本発明によるセグメント境界の決定方法
の一例を説明するための図である。 図において、1は音響分析部、2は単語標準パターン記
憶部、3は照合部、4は境界決定部、21は入力音声の
エネルギー包絡、22は単語標準パターンのエネルギー
包絡、23はマツチング平面、24はマツチングパス、
31は入力音声のエネルギー包絡、32は全周波数領域
におけるエネルギーに占める3kllz以上のエネルギ
ーの割合の変化量である。
FIG. 1 is a block diagram showing an embodiment of the present invention, FIG. 2 is a diagram illustrating a method for temporally corresponding input speech and standard patterns, and FIG. 3 is an example of a method for determining segment boundaries according to the present invention. FIG. In the figure, 1 is an acoustic analysis unit, 2 is a word standard pattern storage unit, 3 is a matching unit, 4 is a boundary determination unit, 21 is an energy envelope of input speech, 22 is an energy envelope of a word standard pattern, 23 is a matching plane, 24 is matching pass,
31 is the energy envelope of the input voice, and 32 is the amount of change in the ratio of energy of 3 kllz or more to the energy in the entire frequency range.

Claims (1)

【特許請求の範囲】[Claims] 音節または音素などの単語よりも小さなセグメントを用
いて音声認識を行う装置において、入力音声から音響的
特徴パラメータを抽出する手段と、単語標準パターンと
して特徴パラメータとセグメント境界と該セグメント境
界の特徴を記憶する手段と、前記音響的特徴パラメータ
を用いて前記入力音声と前記単語標準パターンを時間的
に対応付けて前記単語標準パターンの前記セグメント境
界に対応する前記入力音声の時点を求める手段と、前記
セグメント境界の特徴を用いて前記時点からある範囲内
で前記入力音声のセグメント境界を探す手段とを含んで
なることを特徴とするセグメンテーション装置。
In a device that performs speech recognition using segments smaller than words such as syllables or phonemes, a means for extracting acoustic feature parameters from input speech, and storing feature parameters, segment boundaries, and features of the segment boundaries as word standard patterns. means for temporally associating the input speech and the word standard pattern using the acoustic feature parameter to determine a time point in the input speech corresponding to the segment boundary of the word standard pattern; and means for searching for a segment boundary of the input speech within a certain range from the point in time using boundary characteristics.
JP62125439A 1987-05-21 1987-05-21 Segmentation apparatus Pending JPS63289599A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62125439A JPS63289599A (en) 1987-05-21 1987-05-21 Segmentation apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62125439A JPS63289599A (en) 1987-05-21 1987-05-21 Segmentation apparatus

Publications (1)

Publication Number Publication Date
JPS63289599A true JPS63289599A (en) 1988-11-28

Family

ID=14910113

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62125439A Pending JPS63289599A (en) 1987-05-21 1987-05-21 Segmentation apparatus

Country Status (1)

Country Link
JP (1) JPS63289599A (en)

Similar Documents

Publication Publication Date Title
JPH02195400A (en) Speech recognition device
CN108335699A (en) A kind of method for recognizing sound-groove based on dynamic time warping and voice activity detection
JPS5972496A (en) Single sound identifier
JPS59121100A (en) Continuous voice recognition equipment
JPH09319392A (en) Voice recognition device
JPS61219099A (en) Voice recognition equipment
JP2001312293A (en) Method and device for voice recognition, and computer- readable storage medium
JPS63289599A (en) Segmentation apparatus
JP2002516419A (en) Method and apparatus for recognizing at least one keyword in a spoken language by a computer
JP4576612B2 (en) Speech recognition method and speech recognition apparatus
Niederjohn et al. Computer recognition of the continuant phonemes in connected English speech
US20240144934A1 (en) Voice Data Generation Method, Voice Data Generation Apparatus And Computer-Readable Recording Medium
JPS6147999A (en) Voice recognition system
JP2864511B2 (en) Speaker identification method and device
JPH0228160B2 (en)
JPH0619497A (en) Speech recognizing method
JPH026079B2 (en)
JPS59170894A (en) Voice section starting system
JP2000137495A (en) Device and method for speech recognition
JPS6069694A (en) Segmentation of head consonant
JPS63173100A (en) Keyword extractor
JPH0130160B2 (en)
JPH0634176B2 (en) Voice segmentation device
JPS6395499A (en) Voice segmentation apparatus
JPS59124394A (en) Monosyllabic voice recogntion system