JPS63191199A - Voiced plosive consonant identifier - Google Patents

Voiced plosive consonant identifier

Info

Publication number
JPS63191199A
JPS63191199A JP61304702A JP30470286A JPS63191199A JP S63191199 A JPS63191199 A JP S63191199A JP 61304702 A JP61304702 A JP 61304702A JP 30470286 A JP30470286 A JP 30470286A JP S63191199 A JPS63191199 A JP S63191199A
Authority
JP
Japan
Prior art keywords
point
speaker
plosive
vowel
voiced
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61304702A
Other languages
Japanese (ja)
Inventor
小林 敦仁
均 岩見田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP61304702A priority Critical patent/JPS63191199A/en
Publication of JPS63191199A publication Critical patent/JPS63191199A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 〔概要〕 本発明は、不特定話者を対象とした有声破裂子音相互を
識別する装置において、特に、事前に使用者くよって発
声された少数の学習データにより話者適応を行う場合に
おいて、学習時に検出精度が不安定な破裂時点を基点と
せず、後続母音側から逆時間方向に音声分析されて得ら
れたスペクトル時系列を用いることにより、安定して話
者分析化を行えるようにしたものである。
[Detailed Description of the Invention] [Summary] The present invention provides a device for identifying voiced plosive consonants that targets unspecified speakers. When performing adaptation, speaker analysis can be performed stably by using the spectral time series obtained by performing voice analysis in the reverse temporal direction from the subsequent vowel side, rather than using the rupture point as the base point, where detection accuracy is unstable during learning. It is designed so that it can be changed.

〔産業上の利用分野〕[Industrial application field]

本発明は音声認識装置1%に、有声破裂子音間の相互を
識別する方式に関する。音声ga装置特に単音節認識装
置は基本的に68個の単音節で全ての日本語語いを構成
できることから、キーボード入力のかわりとして文章入
力に用いることができ、音声ワードプロセ、すとして現
在実用化がはかられている。しかし、単音節音声認識に
おいては、ff#頭の子音部の特徴の違いが大きな比重
を占めており、従来から単語音声認識装置等で用いられ
ている方式ではその特徴を捉えきれない。特に発声!!
構が非常に類似している子音群内の相互識な 別は難しく、その高精度ニ識別方法が必要とされている
。一方、不特定話者を対象とじ九音声認識装置は少数語
いを対象に実用化がはかられているが5話者変動要因を
吸収することは容易ではなく。
The present invention relates to a method for mutually identifying voiced plosive consonants in a speech recognition device. Speech Ga devices, especially monosyllable recognition devices, can basically form all Japanese words with 68 monosyllables, so they can be used to input sentences instead of keyboard input, and are currently being put into practical use as voice word processors. is being measured. However, in monosyllabic speech recognition, differences in the characteristics of the consonant part at the beginning of ff# account for a large proportion of the difference, and the methods conventionally used in word speech recognition devices cannot capture these characteristics. Especially speaking! !
It is difficult to distinguish between consonant groups that have very similar structures, and a high-precision discrimination method is needed. On the other hand, speech recognition devices for non-specific speakers have been put into practical use for a small number of words, but it is not easy to absorb the variable factors of speakers.

高い識別率を得ることは非常に困難である。これに対し
ては使用者に事前に少数の学習用発声t−要求し、その
データをもとに話者への適応化を行うという方法もとら
れている。
It is very difficult to obtain a high identification rate. To deal with this, a method has been adopted in which a small number of learning utterances are requested from the user in advance, and adaptation to the speaker is performed based on the data.

〔従来の技術〕[Conventional technology]

従来の有声破裂子音識別方式としては、破裂時点直後の
破裂部スペクトル時系列量として用いる方式や、破裂時
点から後続母音にいたるスペクトル時系列を用いる方式
が一般的である。また、不特定話者を対象とした有声破
裂子音識別方式−おいては、事前に多数話者が発声した
音声データから標準パターンを作成し、それを辞書とし
て照合。
Conventional methods for identifying voiced plosive consonants generally include a method that uses a plosive part spectrum time series immediately after the plosive point, or a method that uses a spectral time series from the plosive point to the following vowel. In addition, in the voiced plosive consonant identification method for unspecified speakers, a standard pattern is created in advance from voice data uttered by multiple speakers and compared against it in a dictionary.

判定するという方法がとられている。A method of judgment is used.

ところで、不特定話者を対象とした有声破裂子音識別方
式において、識別率を上げるため、使用者に事前に少数
の発声を要求し9話者適応化を行う場合がある。従来は
、破裂時点を基点に入力音声から学習用データであるス
ペクトルあるいはスペクトル時系列を得ていた。第3図
にスペクトル時系列を用いた場合の従来例を示す。
By the way, in a voiced plosive consonant identification method targeted at unspecified speakers, in order to increase the identification rate, the user may be requested to utter a small number of utterances in advance to perform nine-speaker adaptation. Conventionally, a spectrum or spectral time series, which is learning data, was obtained from input audio based on the point of rupture. FIG. 3 shows a conventional example in which a spectral time series is used.

図中、11はマイクロホン、12はA/D変換器、13
はA/Dデータメモリ、14は破裂時点検出部、15は
周波数分析部、16は学習用スペクトル時系列メモリ、
17は話者適応化部、18は不特定話者用辞書である。
In the figure, 11 is a microphone, 12 is an A/D converter, and 13
is an A/D data memory, 14 is a rupture point detection section, 15 is a frequency analysis section, 16 is a spectral time series memory for learning,
17 is a speaker adaptation unit, and 18 is a dictionary for unspecified speakers.

マイクロホン11から入力された学習用音声は。The learning audio input from the microphone 11 is as follows.

A/D変換器12によりアナログ−ディジタル変換され
、A/Dデータメモリ13に格納される。
Analog-to-digital conversion is performed by the A/D converter 12 and stored in the A/D data memory 13.

メモ+713に格納された音声信号から破裂音特有の破
裂現象の生じた時点(破裂時点)t−破裂時点検出部1
4で検出する。その破裂時点を基点に後続母音側に周波
数分析部13でスペクトル分析がなされ、スペクトル時
系列が求められる。このスペクトル時系列は学習用スペ
クトル時系列メモリ16に格納される。話者適応化部1
7では、このスペクトル時系列をもとに不特定話者用辞
書18内に格納されている標準バター/の話者学習を行
う。
From the audio signal stored in the memo+713, the time point at which the plosive phenomenon peculiar to plosive sounds occurs (the rupture point) t - the rupture point detection unit 1
4 to detect. A frequency analysis unit 13 performs spectrum analysis on the subsequent vowel side based on the point of rupture, and obtains a spectrum time series. This spectral time series is stored in the learning spectral time series memory 16. Speaker adaptation unit 1
In step 7, speaker learning of the standard butter/ stored in the dictionary 18 for unspecified speakers is performed based on this spectrum time series.

〔発明が解決しようとする問題点〕[Problem that the invention seeks to solve]

従来、不特定話者を対象とした有声破裂子音識別方式(
破裂時点から後続母音にいたるスペクトル系列を特徴量
として用いる場合)における話者適応化法においては、
使用者が事前に発声した少数の音声をもとに、tず破裂
時点を検出し、その破裂時点から後続母音にいえるスペ
クトル時系列を用いて、学習を行い不特定話者用辞書を
使用話者に適応化させている。しかし、破裂時点の自動
検出率は話者・発声により大きく変動する。従って、学
習時に用いるスペクトル時系列を破裂時点を基点に抽出
することは、学習データの信頼性を著しく損なうことと
なり、学習により識別率の向上、即ち9話者適応化を正
確く行うことはできない。
Conventionally, voiced plosive consonant identification methods (
In the speaker adaptation method in which the spectral sequence from the plosive point to the following vowel is used as a feature quantity,
Based on a small number of sounds uttered by the user in advance, the point at which the tzu ruptures is detected, and the spectral time series that can be applied to the subsequent vowel from that point to the point at which the tzu ruptures is used for learning and speech using a dictionary for non-specific speakers. It is adapted to people. However, the automatic detection rate at the point of rupture varies greatly depending on the speaker and utterance. Therefore, extracting the spectral time series used during learning based on the burst point will significantly impair the reliability of the training data, and it will not be possible to improve the classification rate through learning, that is, to accurately adapt to nine speakers. .

〔問題点を解決するための手段〕[Means for solving problems]

@1図は本発明による有声破裂子音識別装置の原理プロ
、り図であり1図中、1は後続1竪上り時点検出回路、
2は分析位置設定回路、3は周波数分析回路、4は不特
定話者用辞書、5は破裂時点検出回路、6は話者適応化
回路である。
@Figure 1 is a diagram showing the principle of the voiced plosive consonant identification device according to the present invention.
2 is an analysis position setting circuit, 3 is a frequency analysis circuit, 4 is a dictionary for unspecified speakers, 5 is a burst point detection circuit, and 6 is a speaker adaptation circuit.

本発明では、マイクロホンから入力、A/D変換された
音声信号に関して、まず、後続母音立上り時点検出回路
1で後続母音立上り時点を検出する。そして、その時点
をもとに分析位置設定回路2により設定された分析位置
に従って0周波数分析回路3で逆時間方向に周波数分析
する。破裂時点検出回路5では、予め不特定話者用辞書
4に格納されているバズパー(或いは無音)の標準パタ
ーンとの照合によシ破裂時点近傍のスペクトルを有する
時点を検出する。その後得られた後続母音立上がり時点
から破裂時点までのスペクトルを用いて不特定話者用辞
書の話者適応化を話者適応化回路6で行う。
In the present invention, first, the subsequent vowel rise time detection circuit 1 detects the subsequent vowel rise time with respect to the audio signal input from the microphone and A/D converted. Then, based on that point in time, the zero frequency analysis circuit 3 performs frequency analysis in the reverse time direction according to the analysis position set by the analysis position setting circuit 2. The rupture point detection circuit 5 detects a time point having a spectrum near the rupture point by comparing it with a standard pattern of buzz buzz (or silence) stored in advance in the dictionary 4 for unspecified speakers. Thereafter, the speaker adaptation circuit 6 performs speaker adaptation of the speaker-independent dictionary using the obtained spectrum from the rising point of the subsequent vowel to the rupture point.

〔作用〕[Effect]

本発明においては、学習用音声から得られたスペクトル
時系列は、後続母音立上がり時点を基準に逆時間方向に
スペクトル分析して得られたものであり9発声者・発声
毎に検出精度が不安定な破裂時点を基点に得ていた従来
のスペクトル時系列より、より安定した学習データを得
ることができ。
In the present invention, the spectral time series obtained from the learning speech is obtained by performing spectrum analysis in the reverse time direction with reference to the rising point of the subsequent vowel, and the detection accuracy is unstable for each of the nine speakers and utterances. It is possible to obtain more stable learning data than the conventional spectral time series, which is obtained based on the point of rupture.

話者学習が正確に行われる。Speaker learning is performed accurately.

〔実施例〕〔Example〕

第2図は1本発明の一実施例による不特定話者全対象と
した有声破裂子音識別装置のプロ、り図である。
FIG. 2 is a schematic diagram of a voiced plosive consonant identification device for all unspecified speakers according to an embodiment of the present invention.

図中、マイクロホン21から入力された学習用離散単音
節音声(有声破裂音)は、A/D変換器22によりアナ
ログ−ディジタル変換され、A/Dデータメモリ23に
格納される。A/Dゲータメモリ23に格納された音声
信号から後続母音立上がり時点検出回路24にて後続母
音の立上がり時点を検出する。即ち、音声パワー演算回
路25にて音声パワ一時系列を計算する。今、音声信号
をy (t)とすれば、音声パワーPはP=Σy”(t
)(Nはフレーム長)で定義する。
In the figure, a learning discrete monosyllabic voice (voiced plosive) inputted from a microphone 21 is converted from analog to digital by an A/D converter 22 and stored in an A/D data memory 23. A subsequent vowel rise time detection circuit 24 detects the rise time of the subsequent vowel from the audio signal stored in the A/D gator memory 23. That is, the audio power calculation circuit 25 calculates the audio power temporal series. Now, if the audio signal is y (t), the audio power P is P=Σy''(t
) (N is the frame length).

上記定義に従って、フレーム周期Mで音声パワ一時系列
を求める。その音声パワ一時系列は音声パワ一時系列用
メモリ28に格納される。次ぎに。
According to the above definition, an audio power temporal sequence is determined with a frame period M. The audio power temporal series is stored in the audio power temporal series memory 28. Next.

その音声パワ一時系列をもとに後続する母音の定常部を
母音定常部検出回路26で検出する。ここでの処理は、
音声パワ一時系列において、そのパワーが大きく、かつ
その変動があるい色値以下になる時点を検出し、母音の
定常部開始時点とする。
Based on the speech power temporal sequence, the steady part of the following vowel is detected by the vowel steady part detection circuit 26. The processing here is
In the speech power temporal series, a point in time when the power is large and the variation thereof is less than or equal to a certain color value is detected, and is determined as the starting point in the steady part of the vowel.

次に母音立上がり時点検出回路27において母音の立上
がり時点を検出する。ここでは、母音の定常部開始時点
の音声パワー値より、ある決められたパワー値だけパワ
ーが低下する時点を求め、その時点を母音の立上がり時
点とする。次に9回路24で検出された後続母音の立上
がり時点を基点として分析位置設定回路29の指示に従
って、逆時間方向にFFT演算回路30にて周波数分析
がなされる。その結果得られるスペクトルと不特定話者
用辞書34に格納されているバズパー及び無音の標準ス
ペクトルバタンとのバタン間距離ラバタン間距離演算回
路32にて演算する。不特定話者用辞書34に格納され
ているバズバー及び無音の標準スペクトルバタンは予め
多数の話者の音声から作成されたものである。このバタ
ン間距離をもとに破裂部判定回路33にて破裂部のスペ
クトルであるか否かの判定を行い、学習用スペクトル時
系列メモリ35に格納するとともに、破裂部に到達して
いない場合には、再び分析位置設定回路29にもどり、
逆時間方向に周波数分析を継続する。破裂部に到達した
場合には9次のステ、プに進む。次のステップではまず
、データ選択回路36によって、学習用スペクトル時系
列メモリ35に格納されているスペクトル時系列から母
音立上がり時点のスペクトルと過渡部中心付近のスペク
トルと破裂時点のスペクトル時系列を選択する。このス
ペクトル時系列と不特定話者用辞書34に格納されてい
る標準スペクトル時系列バタンとのスペクトル距離をス
ペクトル距離演算回路37にて計算する。なお、学習用
発声はその発声内容が既知であり、それは入力部39よ
り話者から指示される。また、不特定話者用辞書34に
格納されている各カテゴリの標準スペクトル時系列バタ
ンは予め多数の話者から作成(例えば、クラスタリング
手法等により選択された代表バタン)されたものである
。また不特定話者用辞書34内のbl。
Next, the vowel rising time detection circuit 27 detects the vowel rising time. Here, the time point at which the power decreases by a certain predetermined power value from the voice power value at the start of the steady part of the vowel is determined, and that time point is defined as the vowel's rising point. Next, frequency analysis is performed in the FFT calculation circuit 30 in the reverse time direction based on the rising point of the subsequent vowel detected by the 9 circuit 24 and according to instructions from the analysis position setting circuit 29. The inter-bang distance between the resulting spectrum and the buzzer and silent standard spectra stored in the speaker-independent dictionary 34 is calculated by the inter-bang distance calculation circuit 32. The buzz bars and silent standard spectrum bangs stored in the speaker-independent dictionary 34 are created in advance from the voices of many speakers. Based on this inter-bang distance, the rupture part determination circuit 33 determines whether the spectrum is the rupture part, stores it in the learning spectrum time series memory 35, and if the rupture part has not been reached. returns to the analysis position setting circuit 29 again,
Continue frequency analysis in the reverse time direction. If the rupture part is reached, proceed to the ninth step. In the next step, first, the data selection circuit 36 selects the spectrum at the vowel rise time, the spectrum near the center of the transition part, and the spectrum time series at the rupture time from the spectrum time series stored in the learning spectrum time series memory 35. . The spectral distance calculation circuit 37 calculates the spectral distance between this spectral time series and the standard spectral time series bang stored in the speaker-independent dictionary 34. Note that the utterance content of the learning utterance is already known, and is instructed by the speaker through the input unit 39. Further, the standard spectrum time series patterns for each category stored in the speaker-independent dictionary 34 are created in advance from a large number of speakers (for example, representative patterns selected by a clustering method, etc.). Also, bl in the dictionary for unspecified speakers 34.

b2.b3は各々破裂時点のスペクトル、過渡部中心時
点のスペクトル、母音立上がり時点のスペクトルである
。スペクトル距離演算回路37によるスペクトル距離演
算の結果、設定されたいき値以下のスペクトル距離をも
つ標準スペクトル時系列バタンに対して、辞書14内の
フラグ領域(Fl。
b2. b3 are the spectrum at the rupture point, the spectrum at the center of the transition part, and the spectrum at the vowel rise point, respectively. As a result of the spectral distance calculation by the spectral distance calculation circuit 37, the flag area (Fl) in the dictionary 14 is detected for the standard spectral time series button whose spectral distance is less than or equal to the set threshold value.

−・)にフラグをあげる。このフラグが立った標準スペ
クトル時系列バタンか使用話者に適応化した辞書となる
。認識時においては、辞書選択回路38にて、フラグを
参照して、使用話者に適応化した辞書項目を選択して識
別を行う。
-・) Raise a flag. The standard spectrum time series with this flag set will be a dictionary adapted to the speaker who is using it. At the time of recognition, the dictionary selection circuit 38 refers to the flag and selects a dictionary item adapted to the speaker used for identification.

〔発明の効果〕〔Effect of the invention〕

本発明によれば2発声音、カテゴリ毎に不安定な破裂時
点を基準にするのではなく、比較的安定した後続母音の
立上がり時点を基準として逆時間方向に学習用スペクト
ル時系列を求めることができ、安定した学習データに工
り、使用する話者に対する話者適応効果が大きい。
According to the present invention, instead of using the unstable rupture point for each category of two-voiced sounds as a reference, it is possible to obtain a learning spectral time series in the reverse time direction using the relatively stable rising point of the subsequent vowel as a reference. It is possible to create stable learning data, and has a great effect on speaker adaptation for the speaker using it.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の原理プロ、り図。 第2図は本発明の一実施例の有声破裂子音識別装置のブ
ロック図。 第3図は従来技術の構成例でちる。 第1図において、1は後続母音立上がり時点検出回路、
2は分析位置設定回路、3は周波数分析回路、4は不特
定話者用辞書、5は破裂時点検出回路、6は話者適応化
回路である。 ・′ミン 木金明Q原狸プロ・リフ図 % 1  図 仇東栽衝n構べ例 第 3 図
Figure 1 is a diagram showing the principle of the present invention. FIG. 2 is a block diagram of a voiced plosive consonant identification device according to an embodiment of the present invention. FIG. 3 shows an example of the configuration of the prior art. In FIG. 1, 1 is a subsequent vowel rising point detection circuit;
2 is an analysis position setting circuit, 3 is a frequency analysis circuit, 4 is a dictionary for unspecified speakers, 5 is a burst point detection circuit, and 6 is a speaker adaptation circuit.・'Minki Kinmei Q Hara Tanuki Pro Riff Diagram % 1 Figure 2 Tosai Cho n Composition Example Figure 3

Claims (1)

【特許請求の範囲】 入力された有声破裂音に関してその後続母音の立上り時
点を検出する後続母音立上り検出手段(1)と、 上記後続母音の立上り時点をもとに分析位置を設定する
分析位置設定手段(2)と、 上記設定された分析位置に従って逆時間方向に周波数分
析する周波数分析手段(3)と、 事前に多数話者から抽出した無音およびバスバーのスペ
クトルを含むスペクトル時系列情報を格納する不特定話
者用辞書(4)と、 上記周波数分析手段(3)より出力される情報と上記不
特定話者用辞書(4)内の無音およびバスバー情報とを
照合することにより入力される有声破裂音の破裂時点を
検出する破裂時点検出手段(5)と、得られた後続母音
立上り時点から破裂時点までのスペクトルを用いて上記
不特定話者用辞書の話者適応化処理を行なう話者適応化
手段(6)とをそなえたことを特徴とする有声破裂子音
識別装置。
[Scope of Claims] Subsequent vowel rise detection means (1) for detecting the rise point of a subsequent vowel regarding an inputted voiced plosive, and analysis position setting that sets an analysis position based on the rise point of the subsequent vowel. means (2); frequency analysis means (3) for performing frequency analysis in the reverse time direction according to the analysis position set above; and storing spectrum time series information including silence and bus bar spectra extracted from multiple speakers in advance. Voiced information inputted by comparing the information output from the speaker-independent dictionary (4) and the frequency analysis means (3) with the silence and busbar information in the speaker-independent dictionary (4). A plosive point detection means (5) for detecting the plosive point of a plosive, and a speaker who performs speaker adaptation processing of the speaker-independent dictionary using the obtained spectrum from the rising point of the subsequent vowel to the plosive point. A voiced plosive consonant identification device comprising: an adaptation means (6).
JP61304702A 1986-12-18 1986-12-18 Voiced plosive consonant identifier Pending JPS63191199A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61304702A JPS63191199A (en) 1986-12-18 1986-12-18 Voiced plosive consonant identifier

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61304702A JPS63191199A (en) 1986-12-18 1986-12-18 Voiced plosive consonant identifier

Publications (1)

Publication Number Publication Date
JPS63191199A true JPS63191199A (en) 1988-08-08

Family

ID=17936188

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61304702A Pending JPS63191199A (en) 1986-12-18 1986-12-18 Voiced plosive consonant identifier

Country Status (1)

Country Link
JP (1) JPS63191199A (en)

Similar Documents

Publication Publication Date Title
Sethu et al. Speaker normalisation for speech-based emotion detection
JPS6138479B2 (en)
JPS63165900A (en) Conversation voice recognition system
JPS63191199A (en) Voiced plosive consonant identifier
KR100677224B1 (en) Speech recognition method using anti-word model
JPS63217399A (en) Voice section detecting system
KR100236962B1 (en) Method for speaker dependent allophone modeling for each phoneme
JPS62289898A (en) Voiced plosive consonant identification system
JPS6148897A (en) Voice recognition equipment
JPS63161499A (en) Voice recognition equipment
JP2760096B2 (en) Voice recognition method
JP2578771B2 (en) Voice recognition device
JPS62280800A (en) Plosive consonant identification system
JPS607492A (en) Monosyllable voice recognition system
JPS60170900A (en) Syllabic voice standard pattern registration system
JPS6027433B2 (en) Japanese information input device
JPH0640274B2 (en) Voice recognizer
JPS6375800A (en) Voice recognition equipment
JPS5915999A (en) Monosyllable recognition equipment
JPS6126099A (en) Extraction of voice fundamental frequency
JPS5859498A (en) Voice recognition equipment
JPH02205898A (en) Voice recognizing device
JPS6120879B2 (en)
JPS6027000A (en) Pattern matching
JPS6242200A (en) Voice recognition equipment