JPS6410080B2 - - Google Patents

Info

Publication number
JPS6410080B2
JPS6410080B2 JP56213731A JP21373181A JPS6410080B2 JP S6410080 B2 JPS6410080 B2 JP S6410080B2 JP 56213731 A JP56213731 A JP 56213731A JP 21373181 A JP21373181 A JP 21373181A JP S6410080 B2 JPS6410080 B2 JP S6410080B2
Authority
JP
Japan
Prior art keywords
pattern
speech
section
syllable
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP56213731A
Other languages
Japanese (ja)
Other versions
JPS58116600A (en
Inventor
Junichi Ichikawa
Takayuki Ooyama
Yasuo Sato
Osamu Terao
Hidekazu Shiratori
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP56213731A priority Critical patent/JPS58116600A/en
Publication of JPS58116600A publication Critical patent/JPS58116600A/en
Publication of JPS6410080B2 publication Critical patent/JPS6410080B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 (1) 発明の技術分野 本発明は入力音声パターンの最後尾音節の無声
化又は非無声化に拘らずその入力音声パターンを
認識させ得る標準パターンを登録しうる標準パタ
ーン登録方式に関する。
[Detailed Description of the Invention] (1) Technical Field of the Invention The present invention provides a standard pattern that can register a standard pattern that can recognize an input speech pattern regardless of whether the last syllable of the input speech pattern is devoiced or unvoiced. Regarding registration method.

(2) 技術の背景 音声認識システムにおける認識手段の1つとし
て予め標準パターンを登録しておき、このパター
ンと入力音声パターンとを照合してその一致から
入力音声を認識する技法が用いられている。この
技法において、入力音声パターンの最後尾音節が
言葉によつては無声化してしまい、音声認識上の
1つの障害となつている。
(2) Background of the technology As one of the recognition methods in speech recognition systems, a technique is used in which a standard pattern is registered in advance, this pattern is compared with an input speech pattern, and the input speech is recognized based on the match. . In this technique, the last syllable of the input speech pattern becomes devoiced depending on the word, which is an obstacle in speech recognition.

(3) 従来技術と問題点 このような不都合を解決すべく、最後尾音節が
無声化し易い言葉については何回かその言葉を発
声し、その平均化したパターンを標準パターンと
して登録しておき、認識すべき入力音声パターン
との照合を行うか、上記発声して得られたパター
ンを複数個登録してこれと音声認識のための照合
を行う如き技法が用いられている。
(3) Prior Art and Problems In order to solve these inconveniences, for words whose final syllables tend to be devoiced, the words are uttered several times and the averaged pattern is registered as a standard pattern. Techniques are used, such as matching the input speech pattern to be recognized, or registering a plurality of patterns obtained by the above-mentioned utterances and matching them for speech recognition.

しかしながら、これらは標準パターンの登録に
際して使用者に負担をかける割に認識率の向上が
望めないばかりでなく、上記後者の技法にあつて
は標準パターンを登録しておくための記憶容量の
増大も避けられない。
However, these methods not only impose a burden on the user when registering the standard patterns but cannot expect to improve the recognition rate, and in the case of the latter technique, the storage capacity required to register the standard patterns also increases. Inevitable.

(4) 発明の目的 本発明は上述の如き従来技法の有する欠点に鑑
みて創案されたもので、その目的は使用者に負担
をかけず認識率の向上を促し、しかも記憶容量の
増大もない標準パターン登録方式を提供すること
にある。
(4) Purpose of the Invention The present invention was devised in view of the drawbacks of the conventional techniques as described above, and its purpose is to improve the recognition rate without imposing any burden on the user, and without increasing the storage capacity. The objective is to provide a standard pattern registration method.

(5) 発明の構成 そして、この目的は最後尾音節が無声化し易い
単語の標準パターンの登録に際し、その単語の発
声された音声パターンの最後尾音節を、平均音声
パターンから得られる無声化した最後尾音節及び
無声化していない最後尾音節と入れ替えて第1及
び第2の合成音声パターンを発生し、これら合成
音声パターンと上記発声された音声パターンとを
照合して照合距離の大きい合成音声パターン及び
上記発声された音声パターンを標準パターンとし
て登録することによつて達成される。
(5) Structure of the Invention The purpose of this invention is to register the standard pattern of a word whose final syllable is easily devoiced, and to convert the final syllable of the uttered speech pattern of the word into the devoiced final syllable obtained from the average speech pattern. First and second synthesized speech patterns are generated by replacing the tail syllable and the last syllable that has not been devoiced, and these synthesized speech patterns are compared with the uttered speech pattern to generate a synthesized speech pattern with a large matching distance and a synthesized speech pattern. This is achieved by registering the uttered voice pattern as a standard pattern.

(6) 発明の実施例 以下、添付図面を参照しながら、本発明の実施
例を説明する。
(6) Embodiments of the invention Hereinafter, embodiments of the invention will be described with reference to the accompanying drawings.

第1図は本発明方式を実施した音声認識システ
ムを示す。1はマイクロホン、2は周波数分析
部、3はパラメータ抽出部、4はセグメンテーシ
ヨン部、5はパターンバツフア、6は切換え手
段、7はパターン照合部、8は標準パターン記憶
部で、これらは従来の音声認識システムを構成し
ている。
FIG. 1 shows a speech recognition system implementing the method of the present invention. 1 is a microphone, 2 is a frequency analysis section, 3 is a parameter extraction section, 4 is a segmentation section, 5 is a pattern buffer, 6 is a switching means, 7 is a pattern matching section, and 8 is a standard pattern storage section. It constitutes a conventional speech recognition system.

そのパターンバツフア5と標準パターン記憶部
8との間に標準パターン作成部9が介設されて本
発明が上記従来の音声認識システム内で実施され
ている。そして、パターンバツフア5も本発明構
成の一部をなし、本発明の具体的構成は第2図に
示されている。
A standard pattern creation section 9 is interposed between the pattern buffer 5 and the standard pattern storage section 8, and the present invention is implemented within the above-mentioned conventional speech recognition system. The pattern buffer 5 also constitutes a part of the structure of the present invention, and a specific structure of the present invention is shown in FIG.

第2図において、10はパターンバツフア(第
1図の参照番号5と同じ)で、これには入力音声
パターンの内の最後尾音節以外のパターン部をA
で、また最後尾音節を0で示してある。11,1
2は夫々、パターンバツフア10から入力音声パ
ターンを受ける合成部にある。合成部11は非無
声化音節パターン供給部13へ接続されている。
In FIG. 2, 10 is a pattern buffer (same as reference numeral 5 in FIG. 1).
Also, the last syllable is indicated by 0. 11,1
2 are in synthesis sections that receive input speech patterns from the pattern buffer 10, respectively. The synthesis section 11 is connected to a devoiced syllable pattern supply section 13 .

この供給部には、複数人の発声から得られる平
均音声パターンから求められた無声化していない
最後尾音節のパターンが記憶されており、合成部
11へ供給される。
This supply section stores a pattern of the last syllable that is not devoiced, which is determined from an average speech pattern obtained from the utterances of a plurality of people, and supplies it to the synthesis section 11 .

また、合成部12は無声化音声パターン供給部
14へ接続されている。この供給部14には、複
数人の発声から得られる平均音声パターンから求
められた無声化した最後尾音節のパターンが記憶
されており、合成部12へ供給される。
Furthermore, the synthesis section 12 is connected to a devoiced speech pattern supply section 14 . This supply section 14 stores a devoiced last syllable pattern obtained from the average speech pattern obtained from the utterances of a plurality of people, and supplies it to the synthesis section 12.

15,16は夫々、合成音声パターン記憶部で
ある。
15 and 16 are synthetic speech pattern storage units, respectively.

17,18は夫々、照合部で、照合部17は合
成音声パターン記憶部15とパターンバツフア1
0に接続され、記憶部15からの第1の合成音声
パターンとパターンバツフア10からの入力音声
パターンとを照合し、これら間の照合距離を出力
する。照合部18もまた、同様に、合成音声パタ
ーン記憶部16とパターンバツフア10とに接続
され、記憶部16からの第2の合成音声パターン
とパターンバツフア10からの入力音声パターン
とを照合し、これら間の照合距離を出力する。
17 and 18 are matching units, respectively, and the matching unit 17 includes the synthesized speech pattern storage unit 15 and the pattern buffer 1.
0, matches the first synthesized speech pattern from the storage section 15 and the input speech pattern from the pattern buffer 10, and outputs the matching distance between them. The matching section 18 is also connected to the synthetic speech pattern storage section 16 and the pattern buffer 10, and matches the second synthetic speech pattern from the storage section 16 with the input speech pattern from the pattern buffer 10. , output the matching distance between them.

19はパターン選択部であり、これは照合距離
の大きい合成音声パターンと入力音声パターンと
を選出して標準パターン記憶部20(第1図の参
照番号8と同じ)へ供給するように構成されてい
る。
19 is a pattern selection section, which is configured to select a synthesized speech pattern and an input speech pattern with a large matching distance and supply them to the standard pattern storage section 20 (same as reference numeral 8 in FIG. 1). There is.

次に、第2図装置を用いて入力音声パターンと
照合される標準パターンが登録されるまでの過程
を説明する。
Next, the process of registering a standard pattern to be matched with an input voice pattern using the apparatus shown in FIG. 2 will be explained.

音節がa1,a2,………aNから成り最後尾音節aN
が無声化し易い単語Aがマイクロホン1に向けて
発生され、その出力信号が従来と同様に、周波数
分析部2、パラメータ抽出部3、セグメンテーシ
ヨン部4で処理され、その入力音声パターンAP
がパターンバツフア10に置かれる。
The syllables consist of a 1 , a 2 , ......a N , and the last syllable is a N
A word A that is likely to be devoiced is generated toward the microphone 1, and its output signal is processed by the frequency analysis section 2, parameter extraction section 3, and segmentation section 4 as in the conventional case, and the input speech pattern A P
is placed in the pattern buffer 10.

これに先立つて、非無声化パターン供給部13
には、上述した無声化していない最後尾音節aN
パターンaT Nが記憶され、また無声化パターン供給
部14には、上述した無声化した最後尾音節aN
パターンaU Nが記憶され、夫々のパターンは上記入
力音声パターンAPのパターンバツフア10から
の出力時に夫々の供給部から合成部11,12へ
供給される。
Prior to this, the devoicing pattern supply unit 13
, the pattern a T N of the unvoiced last syllable a N described above is stored, and the devoicing pattern supply unit 14 stores the pattern a U N of the devoiced final syllable a N described above. The respective patterns are supplied from the respective supply sections to the synthesis sections 11 and 12 when the input audio pattern AP is output from the pattern buffer 10.

これらの供給を受ける合成部11,12におい
て次のような処理がなされる。即ち、合成部11
においては、入力音声パターンAPの最後尾音節
aNのパターンと無声化していないパターンaT Nとが
入れ替えられて第1の合成音声パターンAT〔その
最後尾音節を“1”で示してある〕が発生され、
合成音声パターン記憶部15へ供給されてそこに
記憶される。また、合成部12においては、入力
音声パターンAPの最後尾音節aNのパターンが無
声化したパターンaU Nと入れ替えられて第2の合成
音声パターンAU〔その最後尾音節を“2”で示し
てある〕が発生され、合成音声パターン記憶部1
6へ供給されてそこに記憶される。
The following processing is performed in the combining units 11 and 12 that receive these supplies. That is, the synthesis section 11
, the last syllable of the input speech pattern A P
The pattern of a N and the unvoiced pattern a T N are exchanged to generate a first synthesized speech pattern A T [the last syllable of which is indicated by "1"],
The signal is supplied to the synthesized speech pattern storage section 15 and stored there. In addition, in the synthesis unit 12, the pattern of the last syllable a N of the input speech pattern A P is replaced with the devoiced pattern a U N to form a second synthesized speech pattern A U [the last syllable is "2"]. ] is generated, and the synthesized speech pattern storage unit 1
6 and stored there.

合成音声パターン記憶部15の第1の合成音声
パターンAT及びパターンバツフア10の入力音
声パターンAPが照合部17へ供給され、これら
両パターンが照合されてその両者間の照合距離が
出力される。これと並行して、合成音声パターン
記憶部16の第2の合成音声パターンAU及びパ
ターンバツフア10の入力音声パターンAPが照
合部18へ供給され、これら両パターンが照合さ
れてそれら両者間の照合距離が出力される。
The first synthesized speech pattern A T in the synthesized speech pattern storage section 15 and the input speech pattern A P in the pattern buffer 10 are supplied to the matching section 17, these two patterns are matched, and the matching distance between them is output. Ru. In parallel with this, the second synthesized speech pattern A U of the synthesized speech pattern storage section 16 and the input speech pattern A P of the pattern buffer 10 are supplied to the collation section 18, and these two patterns are collated. The matching distance of is output.

これら両照合距離がパターン選択部19へ供給
され、そこにおいて照合距離の大きい合成音声パ
ターンAU又はATが選択されて出力されると共に
入力音声パターンAPが出力される。
Both of these matching distances are supplied to the pattern selection section 19, where the synthesized speech pattern A U or AT with the larger matching distance is selected and output, and the input speech pattern AP is also output.

これら両パターンが標準パターンとして標準パ
ターン記憶部20に記憶される。
Both of these patterns are stored in the standard pattern storage section 20 as standard patterns.

このような登録は唯一回の操作で完了する。ま
た、その標準パターンには、上述の如き登録のた
めに発声された単語に無声化が生じているか否か
に拘わらず、その単語について発声された音声パ
ターンと、その単語のための最後尾音節が無声化
していない音声パターン又は最後尾音節が無声化
した音声パターンとが標準パターンとして含まれ
ているから、上述のような登録後に上記登録され
た標準パターンに対応する単語が無声化されて発
声されようが、また無声化せずに発声されよう
が、その音声を認識しうるから、その認識率を向
上させうる。これに加えて、一つの単語毎に数多
くの標準パターンを登録する場合に比し記憶容量
が少なくて済むばかりでなく処理も簡略化する。
Such registration is completed in a single operation. In addition, the standard pattern includes the sound pattern uttered for the word and the last syllable for the word, regardless of whether or not the word uttered is devoiced for registration as described above. Since the standard pattern includes a speech pattern in which the last syllable is not devoiced or a speech pattern in which the last syllable is devoiced, after registration as described above, the word corresponding to the registered standard pattern is devoiced and uttered. Since the speech can be recognized regardless of whether the speech is uttered without devoicing, the recognition rate can be improved. In addition, compared to the case where a large number of standard patterns are registered for each word, not only does the storage capacity become smaller, but the processing is also simplified.

(7) 発明の効果 以上の説明から明らかなように、本発明によれ
ば、次の効果が得られる。
(7) Effects of the invention As is clear from the above explanation, according to the present invention, the following effects can be obtained.

(1) 1回の操作で標準パターンを登録しうる。(1) Standard patterns can be registered in one operation.

(2) 従つて、登録処理の簡略化を達成しうる。(2) Therefore, the registration process can be simplified.

(3) このような標準パターンの登録において、音
声の認識率を向上させ得る等である。
(3) In registering such standard patterns, the speech recognition rate can be improved.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は本発明を実施する音声認識システムの
構成を示す図、第2図は本発明の実施例を示す図
である。 図中、10はパターンバツフア、11,12は
合成部、13は非無声化音節パターン供給部、1
4は無声化音節パターン供給部、15,16は合
成音声パターン記憶部、17,18は照合部、1
9はパターン選択部である。
FIG. 1 is a diagram showing the configuration of a speech recognition system implementing the present invention, and FIG. 2 is a diagram showing an embodiment of the present invention. In the figure, 10 is a pattern buffer, 11 and 12 are synthesis units, 13 is a devoiced syllable pattern supply unit, and 1
4 is a devoiced syllable pattern supply unit, 15 and 16 are synthesized speech pattern storage units, 17 and 18 are collation units, 1
9 is a pattern selection section.

Claims (1)

【特許請求の範囲】[Claims] 1 最後尾音節が無声化し易い単語の標準パター
ンの登録に際し、その単語の発声された音声パタ
ーンの最後尾音節を、平均音声パターンから得ら
れる無声化した最後尾音節及び無声化していない
最後尾音節と入れ替えて第1及び第2の合成音声
パターンを発生し、これら合成音声パターンと上
記発声された音声パターンとを照合して照合距離
の大きい合成音声パターン及び上記発声された音
声パターンを標準パターンとして登録することを
特徴とする標準パターン登録方式。
1. When registering a standard pattern for a word whose final syllable is likely to be devoiced, the final syllable of the vocalized speech pattern of the word is determined by devoicing the final syllable obtained from the average speech pattern and the final unvoiced syllable. , generate first and second synthesized speech patterns, compare these synthesized speech patterns with the uttered speech pattern, and use the synthesized speech pattern with a large matching distance and the uttered speech pattern as a standard pattern. A standard pattern registration method characterized by registration.
JP56213731A 1981-12-29 1981-12-29 Standard pattern registration system Granted JPS58116600A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56213731A JPS58116600A (en) 1981-12-29 1981-12-29 Standard pattern registration system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56213731A JPS58116600A (en) 1981-12-29 1981-12-29 Standard pattern registration system

Publications (2)

Publication Number Publication Date
JPS58116600A JPS58116600A (en) 1983-07-11
JPS6410080B2 true JPS6410080B2 (en) 1989-02-21

Family

ID=16644059

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56213731A Granted JPS58116600A (en) 1981-12-29 1981-12-29 Standard pattern registration system

Country Status (1)

Country Link
JP (1) JPS58116600A (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6177897A (en) * 1984-09-26 1986-04-21 日本電信電話株式会社 Sentence-voice converter

Also Published As

Publication number Publication date
JPS58116600A (en) 1983-07-11

Similar Documents

Publication Publication Date Title
JP4867804B2 (en) Voice recognition apparatus and conference system
Jelinek et al. Perplexity—a measure of the difficulty of speech recognition tasks
JPS58130393A (en) Voice recognition equipment
JPS6024597A (en) Voice registration system
JPS6410080B2 (en)
JPH0225517B2 (en)
JPH0743599B2 (en) Computer system for voice recognition
JPH0283593A (en) Noise adaptive speech recognizing device
Kuah et al. A neural network-based text independent voice recognition system
JPS6126678B2 (en)
JPS61180297A (en) Speaker collator
JPS6312000A (en) Voice recognition equipment
JPH08110790A (en) Sound recognizing device
JPH01161399A (en) Method of suiting voice recognition apparatus to speaker
JPS59184940A (en) Voice word processor
JPS59107391A (en) Utterance training apparatus
JPS6134599A (en) Pattern recognition system
JPH0119596B2 (en)
JPS59176791A (en) Voice registration system
JPS608898A (en) Voice recognition equipment
Edwards Probabilistic vector model for voicing mode identification of intervocalic stop consonants
JPS59205680A (en) Pattern comparator
JPS59204897A (en) Voice recognition dictionary registration system
JPS59111698A (en) Voice recognition system
JPS6120996A (en) Voice recognition equipment