JPS6173199A - Voice preselection system for large-vocabulary word - Google Patents

Voice preselection system for large-vocabulary word

Info

Publication number
JPS6173199A
JPS6173199A JP59195621A JP19562184A JPS6173199A JP S6173199 A JPS6173199 A JP S6173199A JP 59195621 A JP59195621 A JP 59195621A JP 19562184 A JP19562184 A JP 19562184A JP S6173199 A JPS6173199 A JP S6173199A
Authority
JP
Japan
Prior art keywords
word
words
cluster
matching
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59195621A
Other languages
Japanese (ja)
Inventor
沢井 秀文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP59195621A priority Critical patent/JPS6173199A/en
Publication of JPS6173199A publication Critical patent/JPS6173199A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 肢五分立 本発明は、大語党単語音声認識における単語の予備選択
方式に関する。
DETAILED DESCRIPTION OF THE INVENTION The present invention relates to a pre-selection method for words in large word speech recognition.

l米及血 単語辞書項目間の距離を基に単語集合を数個〜数十個の
クラスタに予めクラスタリングを行い、各クラスタの中
心単語とのマツチングを行う大語党単語音声予備選択法
については、例えば、「日本音π学会講演論文集1−1
−2.PP3〜・↓。
Regarding the preliminary word phonetic selection method, which clusters a set of words into several to several dozen clusters in advance based on the distances between the entries in the rice and blood word dictionary, and matches them with the central word of each cluster. , for example, "Japanese π Society Lecture Proceedings 1-1
-2. PP3~・↓.

“大語霊単語音声認識のための単語の予備選択法の検討
”松井新、坂野正三、城戸健−二に記載されているが、
上記方法では、計算量は直接認識を行う場合に比べて1
5〜23%しか減少せず、認識率も212単語に対して
86〜95%と十分な値が得られていない。
It is described in “Study of preliminary word selection method for speech recognition of big words” by Arata Matsui, Shozo Sakano, and Kenji Kido.
In the above method, the amount of calculation is 1 compared to the case of direct recognition.
The reduction is only 5 to 23%, and the recognition rate is 86 to 95% for 212 words, which is not a sufficient value.

旦直 本発明は、上述のごとき実情に鑑みてなされたもので、
DPマツチングの際の単語間距離に基づいて類似単語同
士をグループ(クラスタと呼ぶ)に大分類し、各クラス
タの中心単語を登録しておき、未知入力単語とこれら各
中心単語とのDPマツチングを行って入力単語が属する
クラスタを決定後、クラスタ内の単語についてのみDP
マツチングを改めて行って認識処理の高速化を図ったも
のである。
The present invention was made in view of the above-mentioned circumstances.
Similar words are roughly classified into groups (called clusters) based on the distance between words during DP matching, the central word of each cluster is registered, and DP matching is performed between unknown input words and each of these central words. After determining the cluster to which the input word belongs, DP is applied only to the words within the cluster.
This is an attempt to speed up the recognition process by performing matching again.

ハ 本発明は、上記目的を達成するため、大語覚単語音声認
識を行う音声認識装置において、辞書単語間でDPマツ
チングを行って各単語間距離を計算して計算結果のテー
ブルをメモリーに蓄積しておく手段と、この単語間距離
テーブルに基づいて、辞書単語内の類似単語同士をグル
ープ化する単語のクラスタリング手段とを有し、各クラ
スタ内で中心単語を登録しておき、未知入力単語が入力
された時に、予め登録しておいた前記クラスタの中心単
語とのマツチングをDPマツチングによって行い、認識
単語が存在するクラスタを予備的に選択した後に、前記
クラスタ内の単語についてのみ改めてDPマツチングを
行うことを特徴としたものである。以下、本発明の実施
例に基づいて説明する。
C. In order to achieve the above object, the present invention performs DP matching between dictionary words, calculates the distance between each word, and stores a table of calculation results in a memory in a speech recognition device that performs speech recognition of large words. and a word clustering means for grouping similar words in the dictionary words based on this inter-word distance table, registering the central word in each cluster, and is input, DP matching is performed to match the central word of the cluster registered in advance, and after preliminary selection of the cluster in which the recognized word exists, DP matching is performed again only for the words within the cluster. It is characterized by the following. Hereinafter, the present invention will be explained based on examples.

第1図は、辞書単語登録時に於けるシステム構成図で、
図中、1はN個の登録用辞書単語音声n1=1.2.・
・・、Nの入力端子部、2はスペクトル解析部、3は辞
書単語ni同士のDPマツチング部、4は単語間距離テ
ーブル作成部、5は単語のクラスタリング部、6はクラ
スタの中心単語登録部で、まず、入力部1よりN個の登
録用単語音声が入力され、スペクトル解析81;2で周
波数分析か行われ、DPマツチング部3で登録用単語N
個同士のDPマツチングが行われる。実際には、自分自
身との単語間距離はOであり、また組み合わせの対称性
から一意的な組み合わせ総数(N’ −N)72回のD
Pマツチングを行えばよい。而して、登録単語niとn
j (ni、nj−1,2,・・・、N)間の単語間距
離テーブルD (ni、nj )を単語間距離テーブル
作成部4で作成する。
Figure 1 is a system configuration diagram when registering dictionary words.
In the figure, 1 indicates N dictionary word sounds for registration n1=1.2.・
..., N input terminal section, 2 is a spectrum analysis section, 3 is a DP matching section between dictionary words ni, 4 is an inter-word distance table creation section, 5 is a word clustering section, 6 is a cluster center word registration section First, N registration word sounds are input from the input unit 1, frequency analysis is performed in the spectrum analysis 81;2, and the registration word N is input in the DP matching unit 3.
DP matching between individuals is performed. In reality, the distance between words and itself is O, and due to the symmetry of combinations, the total number of unique combinations (N' - N) is 72 D
P matching can be performed. Therefore, the registered words ni and n
An inter-word distance table D (ni, nj) between j (ni, nj-1, 2, . . . , N) is created by an inter-word distance table creation unit 4.

第2図は、上述のようにして作成した単語間距離テーブ
ルの一例を示す図で、該テーブルは、対角成分がOの対
称行列となる。即ち、 D= (ni、nj ) =O: ni =njD= 
(ni、nj ) =D (nj、ni ) ≠O:n
i ≠njni、nj =1. 2.−、 Nである。
FIG. 2 is a diagram showing an example of an inter-word distance table created as described above, and the table is a symmetric matrix with O diagonal elements. That is, D= (ni, nj) =O: ni =njD=
(ni, nj) = D (nj, ni) ≠O:n
i≠njni, nj =1. 2. -, N.

次に、上述のごとくして作成した単語間距離テーブル4
を基にして、類似単語同士をグループ分けする単語のク
ラスタリングをクラスタリング部5で行い、このとき、
各クラスタごとに中心単語を単語登録部6に登録してお
く。
Next, inter-word distance table 4 created as described above.
Based on this, the clustering unit 5 performs word clustering to group similar words, and at this time,
A central word for each cluster is registered in the word registration section 6.

第3図は、単語のクラスタリングの概念図であり、図中
、7は人語全単語音声の集合、7aはそれぞれ単語のク
ラスタの1つを表わし、7bは前記クラスタ7aの中心
単語、7Cはクラスタ7aに属する辞書単語の1つを表
わす。なお、クラスタリングのアルゴリズムの詳細につ
いては後述する。
FIG. 3 is a conceptual diagram of word clustering. In the figure, 7 is a set of all human word sounds, 7a each represents one of the word clusters, 7b is the central word of cluster 7a, and 7C is Represents one of the dictionary words belonging to cluster 7a. Note that details of the clustering algorithm will be described later.

第4図は、未知入力音声Xの認識時に於けるシステム構
成図で、図中、8は未知入力音声入力部、2はスペクト
ル解析部、9は第1図に示した登録部6に登録した各ク
ラスタの中心単語とのDPマツチング部、10はクラス
タ選定部、11は選定したクラスタ内の辞書単語とのD
Pマツチング部、12は単語同定部、13は認識結果出
力部で、未知人力音声Xは、スペクトル解析部2で周波
数分析され、第1図の登録部6に登録したクラスタの中
心単語(例えば第3図7b)とのDPマツチングがDP
マツチング部9で行われ、このとき最も距離の短い中心
単語が属するクラスタがクラスタ選定部IOで決定され
る(第3図でば7aが決定クラスタとなる)。次に、ク
ラスタ選定部10で決定されたクラスタに属する単語に
ついて、未知入力音声XとのDPマツチングをDPマツ
チング部11で行い、最小距離となる単語を単語選定部
12で決定し、認識結果出力部13にて認識結果として
出力する。
FIG. 4 is a system configuration diagram when recognizing unknown input voice DP matching unit with the center word of each cluster, 10 is a cluster selection unit, 11 is D with the dictionary word in the selected cluster.
P matching unit, 12 is a word identification unit, and 13 is a recognition result output unit.The unknown human voice 3) DP matching with Figure 7b) is DP
This is performed by the matching unit 9, and the cluster to which the central word with the shortest distance belongs is determined by the cluster selection unit IO (in FIG. 3, 7a is the determined cluster). Next, the DP matching unit 11 performs DP matching with the unknown input speech X for the words belonging to the cluster determined by the cluster selection unit 10, and the word selection unit 12 determines the word with the minimum distance, and outputs the recognition result. The unit 13 outputs the result as a recognition result.

第5図は、単語のクラスタリングアルゴリズムの一例を
示すゼネラルフローチャートであり、図中、14は初期
化ブロック、15は単語のクラスタリング部、16は単
語間距離の平均値の計算部、17はクラスタリングの定
當性判定部、18は中心単語登録部、19は各クラスタ
内での中心単語の再計算部、20は単語間距離更新部お
よび繰り返し数mのカウンタ部である。
FIG. 5 is a general flowchart showing an example of a word clustering algorithm. In the figure, 14 is an initialization block, 15 is a word clustering section, 16 is a calculation section for the average value of distance between words, and 17 is a clustering block. 18 is a central word registration section; 19 is a recalculation section for the central word within each cluster; 20 is an inter-word distance updating section and a counter section for the number of repetitions m.

第6図は、単語のクラスタリングアルゴリズムの他の例
を示すフローチャートで、21の初期化ブロックで大語
党中の任急の単語に1を選択し、22てクラスタリング
レベルのカウンターアップをし、23で渚1から最も距
離の大きい単語π2を選択し、24で残りの単語全てに
ついてni  (i=1.2.・・・、k)との距離を
第2図に示したテーブル4を用いて求め、25で24で
求めた距離の最小値のうち最大となる距離を持つ単語を
n、+。
FIG. 6 is a flowchart showing another example of the word clustering algorithm, in which 1 is selected as the most important word in the large word group in the initialization block 21, the clustering level is countered up in 22, and the clustering level is countered in 23. In step 24, select the word π2 with the greatest distance from the beach 1, and in step 24, calculate the distance from ni (i=1.2...,k) using Table 4 shown in Figure 2. Find the word with the maximum distance among the minimum distances found in step 25 and n, +.

とし、26τLヤ1とし下1(i=1.2.  ・・・
、k)との距離がある閾値V2D (Ei、ne )よ
り小さければ、27でクラスタの中心単語nk  (k
=1゜2、・・・、K)を登録し、そうでなければ、2
8でクラスタリングのレベルkを1つ上げて24へ戻す
Then, 26τL ya 1 and lower 1 (i=1.2. . .
, k) is smaller than a certain threshold V2D (Ei, ne ), the central word nk (k
=1゜2,...,K), otherwise 2
At 8, raise the clustering level k by one and return it to 24.

なお、前記実施例においては、単語のクラスタリングを
行う際にクラスタ間の重なりを持たせなかったが、第7
図(a)に示すようにクラスタ間に重なりを持たせても
よい。また同図(b)のようにクラスタを木構造にする
ことにより、候補クラスタの決定に必要なり’Pマノチ
ンクの計算量を減少させることができる。また、第1候
補のクラスタ中心との単語間距離を基に闇値を設定し、
ある闇値内のクラスタを第1候補以外にも選択し、予備
選択率の向上を図ることもできる。また、闇値を設定す
る方法とは別に、第11頭補から第k(ffl補(k<
<K)までのクラスタを選択することもできる。また、
ある闇値内のクラスタのうち第に候補までのクラスタを
選択することにより、予備選択率の性能向上を図ること
もできる。
Note that in the above embodiment, there was no overlap between clusters when clustering words;
As shown in Figure (a), clusters may overlap. Furthermore, by forming the clusters into a tree structure as shown in FIG. 2(b), it is possible to reduce the amount of calculation required for determining candidate clusters. In addition, the darkness value is set based on the distance between the words from the cluster center of the first candidate,
It is also possible to select clusters within a certain dark value other than the first candidates to improve the preliminary selection rate. In addition, apart from the method of setting the darkness value, from the 11th complement to the k (ffl complement (k<
It is also possible to select clusters up to <K). Also,
By selecting the clusters up to the first candidate among the clusters within a certain dark value, it is also possible to improve the performance of the preliminary selection rate.

廟果 以上の説明から明らかなように、本発明によると、大語
党単語をDPマツチングの際の単語間距離に基づいて単
語クラスタに大分類し、各クラスタ中心の単語を登録し
ておき、未知入力音声か入力されたとき、前記クラスタ
中心の艙語とのDPマツチングにより候補クラスタを決
定じた後に、このクラスタ内の単語とのみDPマツチン
グを行って認識するようにしたので、人語?単語音声を
高速かつ正確に認識することが可能となる。
As is clear from the above explanation, according to the present invention, major words are roughly classified into word clusters based on the distance between words during DP matching, and the words at the center of each cluster are registered. When an unknown input voice is input, a candidate cluster is determined by DP matching with the foreign language at the center of the cluster, and then DP matching is performed only with words within this cluster to recognize it. It becomes possible to recognize word sounds quickly and accurately.

第2図 第3図 ア 第5図 7JfJ6図 簗7図 Cb) 手続補正書輸鋤 昭和59年11月22日 特許庁長官  志 賀  学  殿 2、発明の名称 大語索単語音声予備選択方式 3、補正をする者 事件との関係  特許出願人 オオタ り ナカマゴメ 住所  東京都大田区中馬込1丁目3番6号氏名(名称
)   (674)株 大会 社 リ コ −代表者 
 浜  1)   広 4、代 理 人 住 所     〒231  ItIt浜市中区不老町
1−2−7シヤトレ一イン横浜807号 6、補正の対象 7、補正の内容 (1)、明細書第2頁第9行目に記載の「松井新。
(Figure 2, Figure 3, Figure 5, Figure 7, Figure 7, Figure 7, Figure 7, Figure 7, Figure 7, Cb)) Procedural amendments imported November 22, 1981 Manabu Shiga, Commissioner of the Japan Patent Office 2, Name of invention large search word audio preliminary selection method 3 , Relationship with the case of the person making the amendment Patent applicant Ota Ri Nakamagome Address 1-3-6 Nakamagome, Ota-ku, Tokyo Name (674) Shares Daisha Rico - Representative
Hama 1) Hiro 4, Agent Address 6, 807-807, 1-2-7, Furo-cho, Naka-ku, Hama-shi, ItItItItItItItItI-Hama-shi, Naka-ku, Hama-shi, 231 Japan, Subject of amendment 7, Contents of amendment (1), Specification page 2 “Matsui Arata” written in the 9th line.

坂野正三、」を「村井新、牧野正三、」に補正する。"Shozo Sakano," is corrected to "Arata Murai, Shozo Makino,".

(2)、同第6頁第10行から11行目に記載の「単語
選定部12で」を「単語同定部12で」に補正する。
(2) "In the word selection section 12" written in lines 10 to 11 on page 6 is corrected to "in the word identification section 12."

(3)、同第7頁第8行目に記載の「テーブル4」を「
テーブル」に補正する。
(3), "Table 4" written on page 7, line 8 of the same page is "
Correct the table.

(4)、同第7頁第11行目に記載の 「閾値1/2D (n i、 n e) Jを(5)、
第5図及び第6図を別紙の通り補正する。
(4), “threshold 1/2D (n i, n e) J” described in page 7, line 11 of the same (5),
Figures 5 and 6 are corrected as shown in the attached sheet.

Claims (1)

【特許請求の範囲】[Claims] 大語彙単語音声認識を行う音声認識装置において、辞書
単語間でDPマッチングを行って各単語間距離を計算し
て計算結果のテーブルをメモリーに蓄積しておく手段と
、この単語間距離テーブルに基づいて、辞書単語内の類
似単語同士をグループ化する単語のクラスタリング手段
とを有し、各クラスタ内で中心単語を登録しておき、未
知入力単語が入力された時に、予め登録しておいた前記
クラスタの中心単語とのマッチングをDPマッチングに
よって行い、認識単語が存在するクラスタを予備的に選
択した後に、前記クラスタ内の単語についてのみ改めて
DPマッチングを行うことを特徴とする大語彙単語音声
予備選択方式。
In a speech recognition device that performs speech recognition of large vocabulary words, there is a means for performing DP matching between dictionary words to calculate the distance between each word and storing a table of calculation results in a memory, and a means for storing a table of calculation results in a memory, and It has a word clustering means for grouping similar words in the dictionary words, registers the central word in each cluster, and when an unknown input word is input, the word clustering means groups similar words in the dictionary words. Preliminary speech selection of large vocabulary words characterized by performing matching with the center word of a cluster by DP matching, preliminary selecting a cluster in which a recognized word exists, and then performing DP matching anew only for the words in the cluster. method.
JP59195621A 1984-09-18 1984-09-18 Voice preselection system for large-vocabulary word Pending JPS6173199A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59195621A JPS6173199A (en) 1984-09-18 1984-09-18 Voice preselection system for large-vocabulary word

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59195621A JPS6173199A (en) 1984-09-18 1984-09-18 Voice preselection system for large-vocabulary word

Publications (1)

Publication Number Publication Date
JPS6173199A true JPS6173199A (en) 1986-04-15

Family

ID=16344212

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59195621A Pending JPS6173199A (en) 1984-09-18 1984-09-18 Voice preselection system for large-vocabulary word

Country Status (1)

Country Link
JP (1) JPS6173199A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07261785A (en) * 1994-03-22 1995-10-13 Atr Onsei Honyaku Tsushin Kenkyusho:Kk Voice recognition method and voice recognition device
JPH0934486A (en) * 1995-07-19 1997-02-07 Sony Corp Method and device for voice acknowledgement, information forming method, and recording medium
JP2008292858A (en) * 2007-05-25 2008-12-04 Advanced Telecommunication Research Institute International Noise suppressing device, computer program, and voice recognition system

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07261785A (en) * 1994-03-22 1995-10-13 Atr Onsei Honyaku Tsushin Kenkyusho:Kk Voice recognition method and voice recognition device
JPH0934486A (en) * 1995-07-19 1997-02-07 Sony Corp Method and device for voice acknowledgement, information forming method, and recording medium
JP2008292858A (en) * 2007-05-25 2008-12-04 Advanced Telecommunication Research Institute International Noise suppressing device, computer program, and voice recognition system

Similar Documents

Publication Publication Date Title
WO2018149209A1 (en) Voice recognition method, electronic device, and computer storage medium
JP2795719B2 (en) Best priority search processing method based on difference of recognition distance
JP2607457B2 (en) Pattern recognition device
US7974843B2 (en) Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer
US20060229864A1 (en) Method, device, and computer program product for multi-lingual speech recognition
CN1157712C (en) Speed recognition device and method, and recording medium
EP2221806B1 (en) Speech recognition of a list entry
CN105096944B (en) Audio recognition method and device
US20080294433A1 (en) Automatic Text-Speech Mapping Tool
JP2006504173A (en) Scalable neural network based language identification from document text
CA2531455A1 (en) Improving error prediction in spoken dialog systems
CN102439660A (en) Voice-tag method and apparatus based on confidence score
CN114678027A (en) Error correction method and device for voice recognition result, terminal equipment and storage medium
JP5112978B2 (en) Speech recognition apparatus, speech recognition system, and program
TW495736B (en) Method for generating candidate strings in speech recognition
JPS6173199A (en) Voice preselection system for large-vocabulary word
CN107203512B (en) Method for extracting key elements from natural language input of user
CN109712607A (en) A kind of processing method, device and electronic equipment
CN112100313A (en) Data indexing method and system based on finest granularity segmentation
US8666729B1 (en) Processing natural language grammar
JP6805431B2 (en) Voice recognition device
WO2020133291A1 (en) Text entity recognition method and apparatus, computer device, and storage medium
CN116013278B (en) Speech recognition multi-model result merging method and device based on pinyin alignment algorithm
CN112435657B (en) Speech recognition method, device, computer equipment and storage medium
CN113938708B (en) Live audio error correction method, device, computing equipment and storage medium