JPS6324297A - Voice dictionary generation system for specified speaker's voice recognition equipment - Google Patents

Voice dictionary generation system for specified speaker's voice recognition equipment

Info

Publication number
JPS6324297A
JPS6324297A JP61168528A JP16852886A JPS6324297A JP S6324297 A JPS6324297 A JP S6324297A JP 61168528 A JP61168528 A JP 61168528A JP 16852886 A JP16852886 A JP 16852886A JP S6324297 A JPS6324297 A JP S6324297A
Authority
JP
Japan
Prior art keywords
dictionary
specific
voice
speech
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61168528A
Other languages
Japanese (ja)
Inventor
笹沼 三郎
小牧 光弘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP61168528A priority Critical patent/JPS6324297A/en
Publication of JPS6324297A publication Critical patent/JPS6324297A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Abstract] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 [概 要] 本発明は特定話者音声圧ggli装置において、音声認
識辞書として、予め使用語の複数人による発声から作成
した共通辞書と、入力者の発声の共通辞書に対する認識
により誤認識する語についてのみ入力者専用に作成した
特定辞書とで構成するようにしたもので、これにより登
録のための発声回数と辞書領域を低減した。
[Detailed Description of the Invention] [Summary] The present invention provides a voice recognition dictionary for a specific speaker voice pressure ggli device, which uses a common dictionary created in advance from the utterances of words used by a plurality of people, and a common dictionary of input person's utterances. This system is configured with a specific dictionary created exclusively for the input user for words that are misrecognized due to recognition of words, thereby reducing the number of utterances and dictionary area required for registration.

〔産業上の利用分野〕[Industrial application field]

本発明は、特定話者音声認識装置における音声辞書作成
方式に関する。
The present invention relates to a speech dictionary creation method in a specific speaker speech recognition device.

特定話者音声認識装置は、使用に当って前もって人力者
の音声を登録し、認識時にその登録した音声に対し発声
した音声を比較照合し、認識結果とする。その登録と、
さらに認識率を高めるための登録された音声パラメタに
対する修正のための発声、即ち学習の回数を低減する方
が使用者にとっては望ましい。
When using a specific speaker speech recognition device, the speech of a skilled person is registered in advance, and during recognition, the uttered speech is compared against the registered speech and used as a recognition result. The registration and
Furthermore, it is desirable for the user to reduce the number of times of utterance, that is, learning, for correcting registered voice parameters in order to increase the recognition rate.

また、辞書領域についても、特定の人の辞書領域が少な
ければ少ないほど、同一装置に内蔵できる使用者の辞書
数が増える。或いは、使用者が少ないならば装置を小型
化できるので望ましいことである。
Also, regarding the dictionary area, the smaller the dictionary area for a specific person, the greater the number of user's dictionaries that can be built into the same device. Alternatively, if the number of users is small, it is desirable because the device can be made smaller.

[従来の技術] 従来例の特定話者音声認識装置の音声認識辞書作成方式
を第4図の装置構成図に示す。
[Prior Art] A speech recognition dictionary creation method of a conventional speaker-specific speech recognition device is shown in the device configuration diagram of FIG.

示す。show.

5は音声認識装置1に接続し、これを制御し、その音声
認識結果を利用する上位装置である。
Reference numeral 5 denotes a host device that connects to the speech recognition device 1, controls it, and uses the speech recognition results.

10は音声認識部に備えられる音声認識辞書である。10 is a speech recognition dictionary provided in the speech recognition section.

30は入力線、31は内部インタフェース線、32は外
部インタフェース線である。
30 is an input line, 31 is an internal interface line, and 32 is an external interface line.

従来は、第4図に示すように、音声認識辞書10は入力
者専用の特定辞書20だけで構成されていた。
Conventionally, as shown in FIG. 4, the speech recognition dictionary 10 was comprised only of a specific dictionary 20 dedicated to the input user.

即ち、音声入力を行う総ての者は、入力すべき総ての語
について発声し、その音声パラメタをそれぞれの入力者
専用の音声認識辞書として格納する登録という作業を行
う。
That is, all the people who perform voice input speak out all the words to be input, and perform the registration process of storing the voice parameters as a voice recognition dictionary dedicated to each inputter.

なおその後も、認識率を向上するために複数回の発声を
行い、音声認識辞書を修正する学習という作業を行う。
After that, in order to improve the recognition rate, the robot performs a learning process in which it utters the words multiple times and corrects the speech recognition dictionary.

[発明が解決しようとする問題点] 上記のように従来の特定話者音声入力装置の音声入力辞
書は、その登録および学習のために、各使用者による多
くの発声回数を必要とするものであった0 また、特定辞書だけで構成していたために、入力者′が
代る場合は、特定辞書全部を作り替え、または既に作成
しである場合は、外部記憶装置などを利用して総て入れ
替えなければならない。
[Problems to be Solved by the Invention] As mentioned above, the voice input dictionary of the conventional speaker-specific voice input device requires each user to speak a large number of times in order to register and learn the voice input dictionary. In addition, since it was configured with only a specific dictionary, if the person who inputs the data changes, the entire specific dictionary must be recreated, or if it has already been created, it can be completely rewritten using an external storage device, etc. Must be replaced.

また、複数人の音声人力辞書を内蔵する場合は、使用す
る人数分の総てを内蔵する大きな音声入力辞書を必要と
するという問題点があった。
Furthermore, when a plurality of voice input dictionaries are built in, there is a problem in that a large voice input dictionary containing all the voices for the number of users is required.

本発明は、このような従来の問題点を解消した。The present invention solves these conventional problems.

新規な特定話者音声入力装置の音声入力辞書作成方式を
提供しようとするものである。
The present invention aims to provide a new voice input dictionary creation method for a specific speaker voice input device.

E問題点を解決するための手段] 第1図は本発明の特定話者音声認識装置の音声認識辞書
作成方式の原理ブロック図を示す。
Means for Solving Problem E] FIG. 1 shows a block diagram of the principle of a speech recognition dictionary creation method for a specific speaker speech recognition apparatus of the present invention.

第1図おいて、21は共通辞書であり、予め使用する語
について数人または数十人の発声した音声パラメタに基
づいて作成しておく。
In FIG. 1, reference numeral 21 denotes a common dictionary, which is created in advance based on voice parameters uttered by several or dozens of people regarding the words to be used.

41は音声認識部に備えている音声パラメタ抽出機能で
ある。
41 is a speech parameter extraction function provided in the speech recognition section.

42は音声認識部に備えている比較照合機能である。42 is a comparison and verification function provided in the speech recognition section.

入力者の発声は音声パラメタ抽出部41により音比較照
合機能42により正しく入力されなかった語については
、その使用者用の特定辞書22として登録する。正しく
認識された語については特定辞書21には登録しない。
The utterances of the inputting person are processed by the sound parameter extraction section 41 and the sound comparison/verification function 42. Words that are not correctly inputted are registered in the specific dictionary 22 for that user. Correctly recognized words are not registered in the specific dictionary 21.

このように、音声認識辞書10を共通辞書21と、特定
辞書22で構成し、認識時には、使用者の音声パラメタ
を共通辞書21とその使用者用の特定辞書22と比較照
合して認識する。
In this way, the speech recognition dictionary 10 is composed of the common dictionary 21 and the specific dictionary 22, and during recognition, the speech parameters of the user are compared and recognized with the common dictionary 21 and the specific dictionary 22 for the user.

[作用] 音声認識辞書10を、共通辞書21と特定辞書22とに
分けて構成し、共通辞書21は既に作成されているため
、入力者による音声登録という特別の作業はなくなる。
[Operation] The speech recognition dictionary 10 is configured to be divided into a common dictionary 21 and a specific dictionary 22, and since the common dictionary 21 has already been created, there is no need for a special task of voice registration by the input person.

また、入力者特有の声のパターンは特定辞書22に収納
することにより、高い認識率を得られる。
Furthermore, by storing voice patterns unique to the input person in the specific dictionary 22, a high recognition rate can be obtained.

[実施例コ 以下第2図および第3図に示す実施例により、本発明を
さらに具体的に説明する。
[Example] The present invention will be explained in more detail with reference to an example shown in FIGS. 2 and 3.

第2図は本発明の実施例の装置構成図である。FIG. 2 is a diagram showing the configuration of an apparatus according to an embodiment of the present invention.

第2図において、第4図に示した従来例と異なる点は、
音声認識辞書10を共通辞書21と特定辞書22に分け
て構成した点である。
In Fig. 2, the differences from the conventional example shown in Fig. 4 are as follows.
This is because the speech recognition dictionary 10 is divided into a common dictionary 21 and a specific dictionary 22.

第3図は本発明の実施例における処理の流れを示す図で
ある。
FIG. 3 is a diagram showing the flow of processing in an embodiment of the present invention.

第3図において、21は共通辞書であって、使用する語
について予め数人或いは数十人の発声した音声パラメタ
を幾つかパターンに集約し、音声認識辞書10に内蔵し
ておく。
In FIG. 3, reference numeral 21 denotes a common dictionary, in which voice parameters of words to be used uttered by several or several dozen people are collected in advance into several patterns and stored in the voice recognition dictionary 10.

22は各入力者専用の特定辞書である。22 is a specific dictionary dedicated to each inputter.

23は入力者の発声から抽出した音声パラメタを示す。23 indicates audio parameters extracted from the input person's utterance.

以下、第2図および第3図を参照して、本実施例装置の
動作を説明する。
The operation of the apparatus of this embodiment will be described below with reference to FIGS. 2 and 3.

(1)入力者がマイク4から使用語を発声すると、マイ
ク4から入力された音声は、入力線30を経て特定話者
音声認識装置1の音声認識部2に入力される。
(1) When the input person utters a word to be used from the microphone 4, the voice input from the microphone 4 is input to the voice recognition unit 2 of the specific speaker voice recognition device 1 via the input line 30.

(2)音声認識部2では、入力された音声から音声パラ
メタ23を作成する。
(2) The speech recognition unit 2 creates speech parameters 23 from the input speech.

(3)作成された音声パラメタ23と共通辞書2】とを
照合し、一定の数値以上の差がある場合は、その音声パ
ラメタを特定辞書22として別に作成する。
(3) The created audio parameters 23 and the common dictionary 2] are compared, and if there is a difference of more than a certain value, the audio parameters are created separately as the specific dictionary 22.

例えば、A氏の第1番目の語の音声パラメタ231は共
通辞書21の総ての語と照合し、最も類似した語が予定
した階1語バラメク211であり、且つ一定の数値内の
差であったから特定辞書22にパラメタを作成しない。
For example, the audio parameter 231 of Mr. A's first word is checked against all the words in the common dictionary 21, and the most similar word is the planned floor 1 word barameku 211, and the difference is within a certain numerical value. Therefore, no parameters are created in the specific dictionary 22.

次に、第2番目の語の音声パラメタの隘2語パラメタ2
32は同様に総ての語と照合し最も類似した語が予定し
た患2語パラメタ212ではあったが、一定の数値以上
の差があった、または最も類似した語が予定した隘2語
パラメタ212でなかったから、特定辞書22に寛2語
A氏特定パラメタ221 として音声パラメタが収納さ
れる。
Next, the second word parameter 2 of the phonetic parameter of the second word.
Similarly, 32 was compared with all words and the most similar word was the scheduled two-word parameter 212, but there was a difference of more than a certain value, or the most similar word was the scheduled two-word parameter 212. 212, the voice parameter is stored in the specific dictionary 22 as the Kan 2 language Mr. A specific parameter 221.

(4)同様に、8氏の場合も、発声した語のうち、共通
辞書21と一定の数値以上の差がある場合は、ltn語
B氏り定パラメタ222のように特定辞書22内に8氏
専用の辞書が作成される。
(4) Similarly, in the case of Mr. 8, if there is a difference of more than a certain value from the common dictionary 21 among the words uttered, 8 is added to the specific dictionary 22 as in the ltn word B limit parameter 222. A dictionary exclusively for him will be created.

(5)音声認識時には、以上のようにして作成された特
定辞書22について、上位装置5および音声入力制御部
3により入力者の指定を行い、特定辞書22内の個人別
の辞書を限定して照合する辞書を決定する。従って、音
声認識は共通辞書21および特定辞書22中の指定され
た個人辞書と照合して行われる。
(5) At the time of speech recognition, the host device 5 and the voice input control unit 3 specify the input person for the specific dictionary 22 created as described above, and limit the individual dictionaries in the specific dictionary 22. Decide which dictionary to check. Therefore, speech recognition is performed by comparing with designated personal dictionaries in the common dictionary 21 and the specific dictionary 22.

[発明の効果] 以上説明のように本発明によれば、予め作成された共通
辞書に合わない発声のみを特定辞書とすることで、数少
ない発声回数により高い認識率の辞書を作成することが
でき、また複数人の辞書を少ない辞@領域で構成でき、
音声認識装置の性能および操作性の向上に寄与する効果
は大である。
[Effects of the Invention] As explained above, according to the present invention, by using only the utterances that do not match the common dictionary created in advance as a specific dictionary, it is possible to create a dictionary with a high recognition rate with a small number of utterances. , Also, dictionaries for multiple people can be configured with fewer dictionary @ areas,
The effect of contributing to improving the performance and operability of the speech recognition device is significant.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の原理ブロック図、 第2図は本発明の実施例の装置構成図、第3図は本発明
の実施例の処理の流れを示す図、第4図は従来例の装置
構成図である。 図面において、 ■は特定話者音声認識装置、 2は音声認識部、3は音
声入力制御部、     4はマイク、5は上位装置、
       10は音声認識辞書、20は特定辞書(
従来)、   2]は共通辞書、22は特定辞書(本発
明)、  23は音声パラメタ、30は人力線、 31は内部インタフェース線、 32は外部インタフェース線、 41は音声パラメタ抽出機能、 42は比較照合機能、 211〜214は共通辞書内各語パラメタ、22L 2
22は特定辞書22中パラメタ、231〜233は各音
声パラメタ、 をそれぞれ示す。 1N1.、′ 本発明の原理ブロック図 第  4  図
Fig. 1 is a block diagram of the principle of the present invention, Fig. 2 is a block diagram of a device according to an embodiment of the present invention, Fig. 3 is a diagram showing the processing flow of an embodiment of the present invention, and Fig. 4 is a diagram of a conventional device. FIG. In the drawings, ■ is a specific speaker voice recognition device, 2 is a voice recognition unit, 3 is a voice input control unit, 4 is a microphone, 5 is a host device,
10 is a speech recognition dictionary, 20 is a specific dictionary (
2] is a common dictionary, 22 is a specific dictionary (invention), 23 is a voice parameter, 30 is a human power line, 31 is an internal interface line, 32 is an external interface line, 41 is a voice parameter extraction function, 42 is a comparison Verification function, 211 to 214 are parameters for each word in the common dictionary, 22L 2
22 is a parameter in the specific dictionary 22, and 231 to 233 are audio parameters. 1N1. ,' Fig. 4 Block diagram of the principle of the present invention

Claims (2)

【特許請求の範囲】[Claims] (1)特定話者音声認識装置の備える音声認識辞書(1
0)として、 複数話者が使用語について発声した音声パラメタから作
成した共通辞書(21)と、 入力者が使用語について発声した音声パラメタから作成
した特定辞書(22)とをもって構成し、入力者の発声
した音声を、前記共通辞書(21)および前記特定辞書
(22)中の当該入力者用辞書と比較照合することによ
り認識するよう構成したことを特徴とする特定話音声認
識装置の音声辞書作成方式。
(1) Speech recognition dictionary provided by the specific speaker speech recognition device (1
0), it consists of a common dictionary (21) created from the audio parameters uttered by multiple speakers regarding the words used, and a specific dictionary (22) created from the audio parameters uttered by the inputter about the words used. A speech dictionary of a specific speech speech recognition device, characterized in that the speech dictionary is configured to recognize the speech uttered by comparing and collating the speech uttered with the dictionary for the inputting person in the common dictionary (21) and the specific dictionary (22). Creation method.
(2)上記特定辞書(22)が、使用者による使用語の
発声のうち、前記共通辞書(21)との比較照合により
認識不可能であった語の音声パラメタのみから作成され
たものであることを特徴とする特許請求の範囲第1項記
載の特定話者音声認識装置の音声辞書作成方式。
(2) The specific dictionary (22) is created from only the audio parameters of words spoken by the user that were unrecognizable through comparison with the common dictionary (21). A speech dictionary creation method for a specific speaker speech recognition device according to claim 1.
JP61168528A 1986-07-17 1986-07-17 Voice dictionary generation system for specified speaker's voice recognition equipment Pending JPS6324297A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61168528A JPS6324297A (en) 1986-07-17 1986-07-17 Voice dictionary generation system for specified speaker's voice recognition equipment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61168528A JPS6324297A (en) 1986-07-17 1986-07-17 Voice dictionary generation system for specified speaker's voice recognition equipment

Publications (1)

Publication Number Publication Date
JPS6324297A true JPS6324297A (en) 1988-02-01

Family

ID=15869690

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61168528A Pending JPS6324297A (en) 1986-07-17 1986-07-17 Voice dictionary generation system for specified speaker's voice recognition equipment

Country Status (1)

Country Link
JP (1) JPS6324297A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005128076A (en) * 2003-10-21 2005-05-19 Ntt Docomo Inc Speech recognition system for recognizing speech data from terminal, and method therefor

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005128076A (en) * 2003-10-21 2005-05-19 Ntt Docomo Inc Speech recognition system for recognizing speech data from terminal, and method therefor

Similar Documents

Publication Publication Date Title
US10074363B2 (en) Method and apparatus for keyword speech recognition
US7974843B2 (en) Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer
EP1233406A1 (en) Speech recognition adapted for non-native speakers
Rudnicky et al. Interactive problem solving with speech
Chuctaya et al. Isolated automatic speech recognition of Quechua numbers using MFCC, DTW and KNN
US20020095282A1 (en) Method for online adaptation of pronunciation dictionaries
JPS62502571A (en) Personal identification through voice analysis
JPS597998A (en) Continuous voice recognition equipment
JPS6324297A (en) Voice dictionary generation system for specified speaker's voice recognition equipment
JPH05100693A (en) Computer-system for speech recognition
Rathor et al. Speech recognition and system controlling using Hindi language
JP4622106B2 (en) Person identification system
JPH06161488A (en) Speech recognizing device
JPS59117632A (en) Voice input system
JPS6126678B2 (en)
JPS61180297A (en) Speaker collator
JP2000056794A (en) Speech recognition system and record medium
Bornet et al. Secured vocal access to telephone servers
JPH0217038B2 (en)
Chiba Consonant discrimination using the formant coarticulation model
Akintola et al. Speech Processing Algorithm for Automatic Speaker Recognition-Based Telephone Voice Dialing in Yorùbá
JP2520392B2 (en) Word speech recognizer
JPH01285998A (en) Speech recognizing device
JPS60241097A (en) Voice recognition applying equipment
JPS59176791A (en) Voice registration system