JPS6331798B2 - - Google Patents

Info

Publication number
JPS6331798B2
JPS6331798B2 JP56193556A JP19355681A JPS6331798B2 JP S6331798 B2 JPS6331798 B2 JP S6331798B2 JP 56193556 A JP56193556 A JP 56193556A JP 19355681 A JP19355681 A JP 19355681A JP S6331798 B2 JPS6331798 B2 JP S6331798B2
Authority
JP
Japan
Prior art keywords
pattern
voiced
sounds
code
range
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP56193556A
Other languages
Japanese (ja)
Other versions
JPS5895399A (en
Inventor
Hiroyoshi Yuasa
Koichi Oomura
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Electric Works Co Ltd
Original Assignee
Matsushita Electric Works Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Works Ltd filed Critical Matsushita Electric Works Ltd
Priority to JP56193556A priority Critical patent/JPS5895399A/en
Publication of JPS5895399A publication Critical patent/JPS5895399A/en
Publication of JPS6331798B2 publication Critical patent/JPS6331798B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】[Detailed description of the invention]

本発明は被制御機器を音声メツセージによつて
操作するための音声メツセージ識別方法に関する
ものである。 第1図は本発明者らが開発した従来の音声メツ
セージ識別装置の概略構成を示すものであり、同
図において先ず音声はマイク1から入り、プリア
ンプ2で高域強調され、LOGアンプ3で対数変
換されてデジベル値に比例する出力になり、AC
アンプ4で交流成分のみが増幅される。次に低周
波用フイルタバンク5で低周波成分(1KHz以下)
をとり出し、高周波用フイルタバンク6で高周波
成分(5KHz〜12KHz)をとり出す。フイルタバ
ンク5,6は各帯域毎に帯域フイルタF1,F2
整流回路D1,D2,積分回路よりなる平均化回路
M1,M2で構成されている。低周波用フイルタバ
ンクの積分回路M1は時定数5〜10msec程度、高
周波フイルタバンクの積分回路M2は時定数1〜
2msec程度に設定されている。両フイルタバンク
5,6の各出力は差動アンプ7に入力され、その
出力すなわち高周波成分と低周波成分の差が時定
数20msec程度の積分回路よりなる平均化回路8
で平均化される。 この平均化回路8から出力されるアナログ信号
波形y(t)は入力音声中に含まれる有声音Vと
無声音Uの比率を表わしている。第2図a,bは
当社の音声制御式あんま椅子の音声入力例「もみ
下げセツト」に対するアナログ信号波形y(t)
を示したものであり、本実施例では有声音Vはプ
ラス、無声音Uはマイナスの値をとつている。こ
の信号電圧y(t)をV判定回路9およびU判定
回路10に加え、クロツク発生回路11からのク
ロツクCKによつて一定周期毎にサンプリングす
る。両判定回路9,10にはそれぞれ基準電圧
RVおよびRUが加えられ、サンプリング時にアナ
ログ信号電圧がプラス側の基準電圧RV以上であ
れば有声音V、マイナス側の基準電圧RU以下で
あれば無音声U、RVとRUとの間の値であれば無
音Sと判定する。第2図a,bにおいて、z(t)
は信号処理回路12から得られるVU判定出力信
号を示しており、無音声Uに対しては−1、無音
Sに対しては0、有声音に対しては+1の値をと
るようになつている。なお第2図aはLOGアン
プ3を使用した場合を、また同図bはLOGアン
プ3を除去した場合をそれぞれ示しており、両者
を比較すれば明らかなように、入力音声をフイル
タバンク5,6の前でLOG変換しておくと、有
声音Vと無声音Uの識別を確実に行なえるもので
ある。 次にLOGアンプ3を通す前のプリアンプ2の
出力は、例えば1.5KHz〜2.5KHzの帯域フイルタ
F3、整流回路D3、平均化回路M3からなるフイル
タバンク13と、2.5KHz〜3.5KHzの帯域フイル
タF4、整流回路D4、平均化回路M4から成るフイ
ルタバンク14によつて各周波数領域の特性成分
を抽出される。フイルタバンク13の出力である
低域音VLと、フイルタバンク14の出力である
高域音VHとは差動アンプ15により比較され、
平均化回路16により平均化される。平均化回路
16の出力はクロツクCKに同期して動作するVL
判定回路17およびVH判定回路18にそれぞれ
入力され、平均化回路16の出力電圧が基準電圧
RLよりも低いとVL成分と判定され、また基準電
圧RHよりも高いとVH成分と判定され、RLとRH
間であれば中域音VMと判定される。信号処理回
路19はVH,VL,およびVMの各成分を、それぞ
れ+1,0,−1の出力に3値化するものである。 信号処理回路12,19の各出力はI/Oポー
ト20を介してCPU21に読み込まれるもので
あり、読み込まれたデータは一旦入力パターンメ
モリ22に格納され、標準パターンメモリ23に
記憶されている複数個の標準パターンのうちどれ
に一番近いかを照合判定されて、その照合判定結
果に基いて被制御機器24を制御するようになつ
ている。これらの照合判定動作等はCPU21と
プログラムROM25、およびワーキングRAM
26を有するマイクロコンピユータ27により行
なつているものである。 しかるにかかる従来例においては、入力パター
ンと照合判定される標準パターンが1通りしかな
いために、音声メツセージの発声音が異なる場合
や、あるいは同一の発声音においても発声速度を
変えたり発声の態様を変えたりした場合には、音
声メツセージを正しく認識することができなくな
るという問題があつた。そこで従来、複数の発声
者の声を発録したり、あるいは同一の発声者につ
いて複数回の発声を登録したりして同一の音声メ
ツセージについて複数通りの標準パターンを用意
して、入力パターンがいずれか1つの標準パター
ンと一致したときにはその一致出力に応じて被制
御機器を制御するようにした音声メツセージ識別
方式が提案されているが、発声者の性別や年齢
差、あるいは方言による訛りなども考慮に入れて
様々な標準パターンを用意しておくものとする
と、標準パターンメモリ23の容量が著しく大き
くなるという問題があつた。 本発明は従来例のこのような問題点を解決する
ために為されたものであり、音声メツセージの発
声の態様な様々な変化を示しても確実に音声メツ
セージを認識することができ、しかも所要メモリ
容量をできるだけ少なく抑えることができるよう
にした音声メツセージ識別方法を提供することを
目的とするものである。 以下本発明の構成を図示実施例について説明す
る。第3図は本発明方法を実現する音声メツセー
ジ識別装置のブロツク図を示すものであり、同図
に示すように音声メツセージ識別装置は音響処理
部28と、周波数分析部29と、符号化処理部3
0と、照合判定部31とから構成されている。こ
のうち音響処理部28と周波数分析部29につい
ては、従来例の装置と同様の構成を有しており、
フイルタバンク5,6およびフイルタバンク1
3,14の後段に接続された判定回路32,33
は第1図における差動アンプ7,15から信号処
理回路12,19までの回路によつて構成されて
いる。ただし、帯域フイルタF3,F4の通過周波
数帯域は後述のようにそれぞれ0〜500Hzおよび
500Hz〜1KHzに設定されている。これらのI/O
ポート20よりも前段の回路はアナログICによ
つて構成され、I/Oポート20よりも後段の回
路はマイクロコンピユータにより構成されてい
る。符号化処理部30において、34は無音区間
を検出するためのSカウンタであり、有声音Vま
たは無声音Uが検出されるとリセツトされて音声
入力動作を開始させ、その後無音Sが一定時間
(約0.2秒)以上続くとカウントアツプして音声入
力動作を停止するようになつている。音声入力動
作は5〜20msecのサンプリング周期(実施例で
は5msecの周期)に従つて行なわれ、一方の判定
回路32からは有声音V,無声音U,および無音
Sの各符号とその継続時間とが入力されてメモリ
に格納され、また他方の判定回路33からは高域
音VH,中域音VM,および無域音VLの各符号とそ
の継続時間とが入力されてメモリに格納されるよ
うになつている。このようにしてメモリに一旦格
納された信号は波形整形処理部35,36により
整形処理される。 第4図aは波形整形処理部35において波形整
形される前の信号波形を示しており、また第4図
bは波形整形処理された後の信号波形を示してい
る。波形整形処理は第4図aの矢印a1に示すよう
に、有声音Vまたは無声音Uの継続時間の短いも
のを無音Sとする第1の処理と、第4図aの矢印
a2〜a6に示すように、有声音Vまたは無声音Uの
継続時間が比較的長いものの次に来る無音Sの期
間が短く、かつ無音Sに続く次の符号が無音Sの
前の符号と同じであれば、無音Sを消すようにす
る第2の処理とから構成されているものである。
第5図はかかる波形整形処理部35における波形
整形処理の手順に示すフローチヤートである。 このフローチヤートは、符号V,U,Sとその
継続時間とのリスト形式によりメモリに格納され
たデータを演算処理して新たなリスト形式のデー
タを作成し、再びメモリに格納するためのプログ
ラムを示している。まず整形前のリストはその最
初の符号がSであるか否かを判定し、最初の符号
がSでなければその継続時間が基準値T1よりも
大きいかどうかを判定される。継続時間が基準値
T1よりも大きくなければ、その符号VまたはU
を符号Sに変換して符号Sとその継続時間を整形
後のリストとしてメモリに書き込む。また継続時
間が基準値T1よりも大きければ、その符号Vま
たはUとその継続時間とを整形後のリストとして
そのまま転写する。そして次の符号Sの継続時間
が基準値T2よりも短いかどうかを判定し、基準
値T2よりも短かければ、その符号Sの次の符号
は符号Sの前の符号と同じであるかどうかを判定
する。同じでなければ符号Sとその継続時間とを
そのまま整形後のリストに転写する。また同じで
あれば符号Sを前後の符号UまたはVに変えて、
その変えた後の符号とその継続時間とを整形後の
リストとしてメモリに書き込む。さらに次の符号
Sについてその継続時間が基準値T2よりも短い
か否かを再び判定する。以上の演算処理動作は整
形前のすべてのリストが変換処理されるまで続け
られるものであり、変換処理が終了すると整形後
のリストの最後の符号がSであるかどうかを判定
し、最後の符号がSであればその符号Sを整形後
のリストから除去して、再び最後の符号がSであ
るかどうかを判定する。しかして最後の符号がS
でなければ一連の波形整形処理動作を終了するも
のであり、このときにメモリには、第4図bに示
すような波形整形処理された信号が符号U,V,
Sとその継続時間とのリスト形式で格納されてい
ることになる。また他方の波形整形処理部36に
おいても同様の演算処理動作が行なわれるもので
あり、符号VHおよび符号VLのうち継続時間の
短いものを符号VMに変換する動作と、符号VH
と符号VHとの間に挾まれた継続時間の短い符号
VMを符号VHに変換する動作と、符号VLと符号
VLとの間に挾まれた継続時間の短い符号VMを符
号VLに変換する動作とを行なうものである。 次に第6図は上記波形整形処理部35,36に
より形成された2系統のリストを1系統のリスト
にまとめるためのコンポジツト符号化処理部37
の処理動作を示すフローチヤートである。その動
作について説明すると、まず波形整形処理部35
によつて形成された符号U,V,Sとその継続時
間のリストを調べて、最初の符号がUまたはSで
あるかどうかを判定する。最初の符号がUまたは
Sであれば、その符号UまたはSとその継続時間
とがコンポジツト符号リストとしてメモリにその
まま転写される。また最初の符号がUまたはSで
はなくてVであるときには、波形整形処理部35
によつて形成された符号VH,VM,VLとその継続
時間のリストを調べて、符号Vの継続時間中にま
ず符号VHが含まれているかどうかを判定して含
まれている場合には、符号VHとその継続時間と
をコンポジツト符号リストとしてメモリに転写す
る。また符号VMおよびVLについても、符号Vの
継続時間中に含まれている場合には符号VM,VL
とその継続時間とがそれぞれコンポジツト符号リ
ストとしてメモリに転写される。 以上のようにしてコンポジツト符号リストが得
られるものであるが、本実施例のように、符号
V,U,Sの系統と、符号VH,VM,VLの系統と
について別々に波形整形処理を行なつてから、コ
ンポジツト符号化する方法(第7図a参照)の他
に、第7図bに示すように先にコンポジツト符号
化を行なつてから波形整形処理を行なう方法もあ
り得るものである。この場合には符号U,V,
VH,VLの各論理値に基いて第1表に示すような
論理演算を行なうことによりコンポジツト符号化
を行なうものである。
The present invention relates to a voice message identification method for operating a controlled device using voice messages. Figure 1 shows the schematic configuration of a conventional voice message identification device developed by the present inventors. In the figure, audio first enters from microphone 1, is high-frequency emphasized by preamplifier 2, and logarithmically processed by LOG amplifier 3. It is converted into an output proportional to the decibel value, and the AC
Only the AC component is amplified by the amplifier 4. Next, use low frequency filter bank 5 to filter out low frequency components (1KHz or less).
is taken out, and a high frequency component (5KHz to 12KHz) is taken out using a high frequency filter bank 6. The filter banks 5 and 6 include band filters F 1 , F 2 ,
Averaging circuit consisting of rectifier circuits D 1 , D 2 and an integrating circuit
It consists of M 1 and M 2 . Integrating circuit M 1 of the low frequency filter bank has a time constant of about 5 to 10 msec, and integrating circuit M 2 of the high frequency filter bank has a time constant of 1 to 10 msec.
It is set to about 2msec. The respective outputs of both filter banks 5 and 6 are input to a differential amplifier 7, and the output thereof, that is, the difference between the high frequency component and the low frequency component, is an averaging circuit 8 consisting of an integrating circuit with a time constant of about 20 msec.
is averaged. The analog signal waveform y(t) output from this averaging circuit 8 represents the ratio of voiced sound V to unvoiced sound U included in the input speech. Figures 2a and b show the analog signal waveform y(t) for the voice input example "kneading set" of our voice-controlled massage chair.
In this embodiment, the voiced sound V takes a positive value, and the unvoiced sound U takes a negative value. This signal voltage y(t) is applied to the V determination circuit 9 and the U determination circuit 10, and is sampled at regular intervals by the clock CK from the clock generation circuit 11. Both judgment circuits 9 and 10 each have a reference voltage.
R V and R U are added, and if the analog signal voltage is above the positive reference voltage R V during sampling, it is voiced V, and if it is below the negative reference voltage R U , it is voiceless U, R V and R U If the value is between , it is determined that there is no sound S. In Figure 2 a and b, z(t)
indicates the VU judgment output signal obtained from the signal processing circuit 12, which takes the value -1 for silent U, 0 for silent S, and +1 for voiced sound. There is. Figure 2a shows the case where the LOG amplifier 3 is used, and figure 2b shows the case where the LOG amplifier 3 is removed.As is clear from comparing the two, it is clear that the input audio is filtered by the filter bank 5, If LOG conversion is performed before step 6, voiced sounds V and unvoiced sounds U can be reliably distinguished. Next, the output of the preamplifier 2 before passing through the LOG amplifier 3 is filtered by a band filter of 1.5KHz to 2.5KHz, for example.
A filter bank 13 consisting of F 3 , a rectifier circuit D 3 and an averaging circuit M 3 and a filter bank 14 consisting of a 2.5KHz to 3.5KHz band filter F 4 , a rectifier circuit D 4 and an averaging circuit M 4 Characteristic components in the frequency domain are extracted. The low frequency sound V L which is the output of the filter bank 13 and the high frequency sound V H which is the output of the filter bank 14 are compared by a differential amplifier 15.
It is averaged by the averaging circuit 16. The output of the averaging circuit 16 is V L which operates in synchronization with the clock CK.
The output voltage of the averaging circuit 16 is input to the determination circuit 17 and the V H determination circuit 18, and the output voltage of the averaging circuit 16 is the reference voltage.
If it is lower than R L , it is determined to be a V L component, if it is higher than the reference voltage R H , it is determined to be a V H component, and if it is between R L and R H , it is determined to be a midrange sound V M. The signal processing circuit 19 converts each component of V H , V L , and VM into three values into outputs of +1, 0, and -1, respectively. Each output of the signal processing circuits 12 and 19 is read into the CPU 21 via the I/O port 20, and the read data is temporarily stored in the input pattern memory 22, and is then transferred to the plurality of data stored in the standard pattern memory 23. A comparison is made to determine which of the standard patterns is closest to the standard pattern, and the controlled device 24 is controlled based on the comparison and determination result. These verification and judgment operations are carried out by the CPU 21, program ROM 25, and working RAM.
This is carried out by a microcomputer 27 having 26. However, in such conventional examples, since there is only one standard pattern to be compared and determined with the input pattern, it is necessary to change the utterance rate or the manner of utterance even when the utterances of the voice message are different, or even for the same utterance. If this was changed, there was a problem that voice messages could no longer be recognized correctly. Conventionally, the voices of multiple speakers are recorded, or multiple utterances of the same speaker are registered to prepare multiple standard patterns for the same voice message. A voice message recognition method has been proposed that controls a controlled device according to the matching output when the message matches one standard pattern. If a variety of standard patterns were to be prepared in the standard pattern memory 23, there was a problem in that the capacity of the standard pattern memory 23 would become significantly large. The present invention has been made to solve these problems of the conventional example, and it is possible to reliably recognize a voice message even if there are various changes in the manner of utterance of the voice message. It is an object of the present invention to provide a voice message identification method that allows memory capacity to be kept as small as possible. The configuration of the present invention will be described below with reference to illustrated embodiments. FIG. 3 shows a block diagram of a voice message recognition device that implements the method of the present invention. As shown in the figure, the voice message recognition device includes an acoustic processing section 28, a frequency analysis section 29, and an encoding processing section. 3
0, and a comparison determination section 31. Of these, the acoustic processing section 28 and frequency analysis section 29 have the same configuration as the conventional device,
Filter banks 5, 6 and filter bank 1
Judgment circuits 32 and 33 connected to the subsequent stage of 3 and 14
is constituted by circuits from differential amplifiers 7 and 15 to signal processing circuits 12 and 19 in FIG. However, the pass frequency bands of band filters F 3 and F 4 are 0 to 500 Hz and 0 to 500 Hz, respectively, as described later.
It is set between 500Hz and 1KHz. These I/O
The circuit at the stage before the port 20 is composed of an analog IC, and the circuit at the stage after the I/O port 20 is composed of a microcomputer. In the encoding processing unit 30, 34 is an S counter for detecting a silent section, and when a voiced sound V or an unvoiced sound U is detected, it is reset and starts the voice input operation. If it continues for more than 0.2 seconds, the count-up will count up and the voice input operation will stop. The voice input operation is performed according to a sampling period of 5 to 20 msec (in the embodiment, a period of 5 msec), and one of the determination circuits 32 outputs each symbol of a voiced sound V, an unvoiced sound U, and a silent sound S and their durations. The other judgment circuit 33 inputs the codes and durations of the high-range sound V H , middle-range sound V M , and non-range sound V L and stores them in the memory. It is becoming more and more common. The signals once stored in the memory in this way are shaped by waveform shaping processing sections 35 and 36. FIG. 4a shows the signal waveform before waveform shaping in the waveform shaping processing section 35, and FIG. 4b shows the signal waveform after the waveform shaping process. The waveform shaping process includes a first process in which a voiced sound V or an unvoiced sound U with a short duration is treated as silence S, as shown by arrow a1 in FIG.
As shown in a 2 to a 6 , the duration of the voiced sound V or the unvoiced sound U is relatively long, but the duration of the silence S that follows is short, and the next code following the silence S is the same as the code before the silence S. If they are the same, then the second process erases the silence S.
FIG. 5 is a flowchart showing the procedure of waveform shaping processing in the waveform shaping processing section 35. This flowchart is a program for calculating data stored in memory in a list format of codes V, U, S and their durations to create new list format data and storing it in memory again. It shows. First, it is determined whether the first code of the list before formatting is S, and if the first code is not S, it is determined whether its duration is greater than the reference value T1 . Duration is standard value
If not greater than T 1 , its sign V or U
is converted into a code S, and the code S and its duration are written into the memory as a formatted list. If the duration is larger than the reference value T1 , the code V or U and the duration are directly transferred as a formatted list. Then, it is determined whether the duration of the next code S is shorter than the reference value T2 , and if it is shorter than the reference value T2 , the code next to that code S is the same as the code before the code S. Determine whether or not. If they are not the same, the code S and its duration are transferred as they are to the formatted list. If they are the same, change the code S to the previous or next code U or V,
The changed code and its duration are written into memory as a formatted list. Furthermore, it is determined again whether the duration of the next code S is shorter than the reference value T2 . The above arithmetic processing operation continues until all the lists before formatting have been converted, and when the conversion process is finished, it is determined whether the last sign of the list after formatting is S, and the last sign is If is S, that code S is removed from the formatted list, and it is again determined whether the last code is S. However, the last sign is S
If not, the series of waveform shaping operations is completed, and at this time, the waveform shaped signals as shown in FIG. 4b are stored in the memory with symbols U, V,
It is stored in the form of a list of S and its duration. Similar arithmetic processing operations are also performed in the other waveform shaping processing section 36, including an operation of converting the code V H and the code V L with the shorter duration into the code V M , and a code V H
and the short-duration code sandwiched between the code V H
Operation of converting V M to code V H , code V L and sign
It performs the operation of converting the short-duration code V M between the code V L and the code V L into the code V L. Next, FIG. 6 shows a composite encoding processing section 37 for combining the two lists formed by the waveform shaping processing sections 35 and 36 into one list.
3 is a flowchart showing the processing operation of FIG. To explain its operation, first, the waveform shaping processing section 35
Examine the list of codes U, V, S and their durations formed by and determine whether the first code is U or S. If the first code is U or S, that code U or S and its duration are transferred directly to memory as a composite code list. Further, when the first code is V instead of U or S, the waveform shaping processing unit 35
Examine the list of codes V H , V M , V L and their durations formed by , and first determine whether the code V H is included in the duration of the code V. If so, the codes V H and their durations are transferred to memory as a composite code list. Also, regarding the codes V M and V L , if they are included in the duration of the code V, the codes V M and V L
and its duration are each transferred to memory as a composite code list. A composite code list is obtained in the above manner, but as in this embodiment, waveform shaping is performed separately for the system of codes V, U, S and the system of codes V H , V M , V L. In addition to the method of performing composite encoding after processing (see Figure 7a), there is also a method of first performing composite encoding and then performing waveform shaping processing, as shown in Figure 7b. It is something. In this case, the symbols U, V,
Composite encoding is performed by performing logical operations as shown in Table 1 based on each logical value of V H and V L.

【表】 次に第8図は、階層化処理部38の処理動作を
示すフローチヤートである。階層化処理部38は
後段の照合判定部31におけるパターン照合を音
声の構造に合わせて段階的に行ない得るようにす
るためにコンポジツト符号リストから第1階層リ
ストと第2階層リストとを作成するものである。
このうち第1階層リストについては、符号U,
V,Sとその継続時間のみからなる符号リストと
同一であるので、波形整形処理部35の出力リス
トをそのまま転写するか、あるいはコンポジツト
符号リストにおける符号VH,VM,VLをすべて符
号Vに置き換えることによつて容易に得られるも
のである。次に第2階層リストについてはコンポ
ジツト符号リストのうち一続きの符号VH,VL
VMとその継続時間からなる符号リストを転写す
ることによつて得られるものである。したがつて
第1階層リストの中に符号Vがn個含まれている
ものとすると、第2階層リストもまたn個得られ
るようになつている。 さらに第9図は、上述のようにして得られた第
1階層リストと第2階層リストについて符号の継
続時間を正規化するための正規化処理部39の処
理動作を示すフローチヤートである。正規化処理
部39は符号U,V,Sとその継続時間からなる
第1階層リストと、符号VH,VM,VLとその継続
時間からなるn個の第2階層リストについてその
継続時間の総和が一定になるように時間軸上の正
規化を行なうものである。第2表は第1階層リス
トについて、符号V,U,Sとその継続時間TK
および正規化された継続時間TSの関係を示した
ものであり、継続時間TKはサンプル個数に対応
している。
[Table] Next, FIG. 8 is a flowchart showing the processing operation of the hierarchization processing section 38. The layering processing section 38 creates a first layer list and a second layer list from the composite code list so that pattern matching can be performed step by step according to the structure of the voice in the matching/judging section 31 at the subsequent stage. It is.
Among these, for the first layer list, the symbols U,
Since it is the same as a code list consisting only of V, S and their duration, either the output list of the waveform shaping processing section 35 can be transcribed as is, or all the codes V H , V M , and V L in the composite code list can be changed to the code V This can be easily obtained by replacing . Next, regarding the second layer list, the consecutive codes V H , V L ,
It is obtained by transcribing a code list consisting of V M and its duration. Therefore, if it is assumed that n codes V are included in the first layer list, n pieces of the second layer list are also obtained. Furthermore, FIG. 9 is a flowchart showing the processing operation of the normalization processing section 39 for normalizing the code durations for the first layer list and the second layer list obtained as described above. The normalization processing unit 39 calculates the durations of the first layer list consisting of codes U, V, S and their durations, and the n second layer lists consisting of codes V H , V M , V L and their durations. Normalization on the time axis is performed so that the sum of the sums is constant. Table 2 shows the codes V, U, S and their durations T K for the first layer list.
and normalized duration T S , where duration T K corresponds to the number of samples.

【表】 かかる正規化処理動作を第9図のフローチヤー
トによつて説明すれば、まず符号U,S,Vの全
継続時間TKの総和ΣTK(=16623)を求めて、こ
れから正規化係数PS=1000/ΣTKを求める。次に
各符号U,V,Sについてその継続時間TK(j)に
正規化係数PSを乗算して正規化された継続時間
TS(j)を順に求めて行くものである。以上のよう
にして第1階層リストについての継続時間の正規
化動作が完了すると、n個の第2階層リストにつ
いてそれぞれ同様の操作により継続時間の正規化
処理を行なうものである。第3表(a)〜(d)は、第1
階層リスト(第2表参照)に含まれる4個の符号
Vについて作成された第2階層リストとその正規
化された継続時間とをそれぞれ示したものであ
る。
[Table] To explain the normalization processing operation using the flowchart in FIG. Find the coefficient P S = 1000/ΣT K. Next, for each code U, V, S, its duration T K (j) is multiplied by the normalization coefficient P S to obtain the normalized duration.
The purpose is to find T S (j) in order. When the duration normalization operation for the first hierarchical list is completed as described above, the duration normalization process is performed for each of the n second hierarchical lists by the same operation. Table 3 (a) to (d)
The second layer list created for the four codes V included in the layer list (see Table 2) and its normalized duration are shown, respectively.

【表】【table】

【表】【table】

【表】【table】

【表】 第3表(a)は第2表に示す第1階層リストの最初
の符号V(継続時間3415)に対応する第2階層リ
ストV1を示しており、以下順に第3表(b)〜(d)は
継続時間が3621,1437,2637の各符号Vに対応す
る第2階層リストV2〜V4を示している。以上の
ようにして継続時間の正規化を行なうと、発声速
度の影響を受けにくくなるので、認識率を高める
ことができるものである。なお第2表及び第3表
に示した継続時間TKのデータは音声メツセージ
「せなかをさすれ。」を50μsecのサンプリングパル
スを用いて分析した場合のシミユレーシヨンデー
タであつて、5msecのサンプリングパルスを用い
て分析を行なう場合には継続時間(すなわちサン
プリング個数)は表の値の100分の1になるもの
である。 以上のようにして正規化された第1階層リスト
の符号U,V,S,および第2階層リストの符号
VH,VM,VLは、3値符号化処理部40において
+1,0,−1の3値符号に変換されるものであ
る。すなわち、まず第1階層リストにおける符号
Vは+1,符号Uは−1,符号Sは0にそれぞれ
対応させ、また第2階層リストにおける符号VH
は+1,符号VMは0,符号VLは−1にそれぞれ
対応させるものである。このようにすれば、距離
計算照合部41において標準パターンメモリ42
の内容と第1階層リストおよび第2階層リストの
内容とを照合するときに計算速度を著しく高速化
することができるものである。すなわち距離計算
照合部41は標準パターンメモリ42に記憶され
た+1,0,−1の3値化されたデータと3値符
号化処理部40から出力されるデータとの相互相
関係数を求めるようになつているものであるが、
データが+1,0,−1の3通りしかないために、
数値の乗算を必要とせず、単なる論理演算と加減
算とによつてきわめて高速度で相互相関係数を計
算することができるものである。各標準パターン
についてそれぞれ計算された相互相関係数は1次
階層識別部43と2次階層識別部44に記憶さ
れ、判定処理部45において大小関係を比較さ
れ、相互相関係数が大きいものほど似たパターン
であると判定されるものである。 ここに相互相関係数とは、時間tの変化に対す
る標準パターンの値の変化をf1(t)とし、1次
階層リストや2次階層リストのような入力パター
ンの値の変化をf2(t)としたときに次式で与え
られるものである。 f12(τ)=∫ -∞f1(t)f2(t−τ)dt 第10図a,bは時間tの変化に対する標準パ
ターンの値の変化f1(t)と、入力パターンの値
の変化f2(t)とをそれぞれ示すものであり、同
図に示すようにf1(t)とf2(t)とは+1,0,
−1の3通りの値しかとらないので、両者の積f1
(t)f2(t)の値も+1,0,−1のいずれかの
値しかとらないことになり、このために相互相関
係数の計算は非常に容易になるものである。かか
る相互相関係数f12(τ)はマイクロコンピユータ
を用いて計算する場合には、実用上は次式のよう
な数値演算により充分に計算できるものである。 f12(τ)=Nt=0 f1(t)f2(t−τ) ところで相互相関係数f12(τ)は互いに乗算さ
れる標準パターンf1(t)と入力パターンf2(t−
τ)との位相差τの関数となつており、ある特定
の位相差τにおいて最大の値をとるようになつて
いる。そこで距離計算照合部41においてはこの
相互相関係数f12(τ)が最大になる点を求めて、
その最大値を各標準パターンについて計算し、1
次および2次階層識別部43,44にそれぞれ記
憶させ、最後に判定処理部45においてその大小
関係を比較して入力パターンに最も近い標準パタ
ーンを判定しているものである。 ところで、本発明においては音声メツセージか
ら抽出した符号パターンを標準パターンと照合す
る際に、符号パターンを1次階層リストと2次階
層リストとに分離して、1次階層リストに関する
照合を行なつた後に、2次階層リストに関する照
合を行なうようにして、照合処理を段階的に行な
つているが、これは音声の巨視的な構造に対応す
る特徴を先に抽出した後で、次に音声の微視的な
特徴に対応する特徴を抽出するようにした方が、
音声の認識を効率的に、かつ確実に行なうことが
できるからである。第11図は音声の特徴を階層
化して表わしたものであり、音声はまず声帯振動
を伴う有声音Vと、声帯振動を伴わない無声音U
とに大きく分類され、有声音Vは顎の開きの広い
有声音/a/グループと、顎の開きの狭い有声
音/i/グループとに分類される。顎の開きの広
い有声音は上述の高域音VHに対応し、音声の第
1ホルマントの周波数が比較的高く、その周波数
帯域は500Hz〜1KHzに多く分布している。また顎
の開きの狭い有声音は上述の低域音VLに対応し、
音声の第1ホルマントの周波数が比較的低く、そ
の周波数帯域は0〜500Hzに多く分布している。
顎の開きの広い有声音には、母音/a/,/
〓/,/ε/などがあり、また顎の開きの狭い有
声音には、母音/i/,/e/,/o/,/u/
や、鼻子音や、その他の有声子音などがある。ま
た無声音Uには定常的な無声音すなわち無声摩擦
音UFと、過渡的な無声音すなわち無声破裂者UB
とがある。 しかして、音声メツセージを1語1語用確に認
識しようとすれば、これらの音声の各特徴をすべ
て識別する必要があるが、照明器具や自動扉、あ
るいはあんま椅子などを音声メツセージを用いて
制御する場合には、すべての子音および母音を完
全に識別する必要はなく、もう少し巨視的な特徴
を抽出するだけでも充分に実用になるものであ
る。このような音声の特徴を巨視的な特徴から順
に列挙して行くと次のようになる。 1 有声音Vであるか無声音Uであるか。かかる
特徴は音声の周波数スペクトルの中に低域成分
(1KHz以下)が多いか、高域成分(5KHz〜12K
Hz)が多いかによつて判定できる。 2 有声音Vであれば、顎の開きの広い有声音
VH(/a/グループ)であるか、顎の開きの狭
い有声音VL(/i/グループ)であるか。かか
る特徴は有声音の周波数スペクトルの中に高域
音VH(500Hz〜1KHz)が多いか、低域音VL(0
〜500Hz)が多いかによつて判定できる。 3 無声音Uであれば、無声摩擦音UFであるか、
無声破裂音UBであるか。かかる特徴は無声音
が定常的であるか、過渡的であるかによつて判
定できる。すなわち無声音Uの継続時間が長い
か短いかによつて判定できる。 4 音声メツセージの中で、各特徴VH,VL
UB,UF等の占める時間、または音声メツセー
ジの継続時間の中で占める割合。かかる特徴は
上述の第1階層リストや第2階層リストにおけ
る継続時間を参照すれば判定できる。 その他にも、音声の第2ホルマントが高いか低
いかによつて前舌の母音(/i/,/e/に対
応)と高舌の母音(/u/,/o/に対応)とを
識別することができるものである。第25図aは
母音/a/,/i/,/u/,/e/,/o/の
調音点を示しており、同図bは母音の第1ホルマ
ントと第2ホルマントの周波数分布を示している
(電子通信学会(三浦博士監修)「新版聴覚と音
声」のp363〜p364より引用)。また第26図は日
本語の母音の第1ホルマントおよび第2ホルマン
トの分布を男声および女声の場合について各別に
示したものである。第25図bおよび第26図に
示された第2ホルマントの分布を見れば明らかな
ように約0.8〜1.8KHzの帯域フイルタと約1.8〜
3.2KHzの帯域フイルタの出力とを分析すれば、
第2ホルマントの位置を検出することができ、こ
れによつて舌の位置の前後に対応した特徴をも抽
出することができるものである。もつともそこま
で微視的な特徴を抽出しなくても、機器を制御す
るための音声メツセージは充分に認識できるもの
である。 例えば第12図は、あんま椅子用の音声入力/
senakaosasure/の周波数スペクトルの例であ
り、音声入力を20KHzでサンプリングしたものを
200サンプル(10msec)を1フレームとして、20
次のLPC分析を行なつたものであるが、無声
音/s/は5KHz以上にパワーが集中しており、
また有声音は1KHz以下にパワーの山があること
がわかる。さらに有声音では/a/,/o/のパ
ワーは500Hz〜1KHzに集中し、/n/,/u/は
0〜500Hzにパワーが集中していることがわかる。
さらに有声音は、同一のスペクトルが各音素に対
応して数個(数+msec)続いていることがわか
る。 また第13図aは上記と同じ音声入力に対する
有声音成分Vと無声音成分Uとの変化を示してお
り、第13図bは有声音のなかの高域成分VH
低域成分VLとの変化を示しているものであるが、
まず第13図aにおいては無音声/s/,/k/
に対応する部分がUを示し、/na/,/
ao/,/a/,/ure/に対応する部分が明確に
Vを示している。また第13図bにおいては/
n/,/sa/に対応する部分がVLで、/
a/,/ao/,/e/に対応する部分がVHにな
つている。したがつて、上述したように有声音
V,無声音U,無音Sに対応する1次階層リスト
と、音声音のなかの高域音VH,中域音VM,低域
音VLに対応する2次階層リストを予め記憶され
た標準パターンと照合すれば、大抵の音声メツセ
ージは識別できるものである。 ところが以上のことはあくまでも一般論であつ
て、音声メツセージの発声者が異なる場合や、あ
るいは同一の発声者においても発声速度を変えた
り発声の態様を変えたりした場合には、音節中の
無声破裂音を検出できなかつたり、あるいは音節
中の無声音に挾まれた有声音が無声音化したりす
るような現象が生じるために、音声メツセージの
様々な発声態様にすべて対応できるような標準パ
ターンを作成する必要がある。本発明はこのよう
な微妙な発声の変化による入力パターンの変動が
あつても音声メツセージを正しく認識できるよう
にするものである。すなわち本発明においては、
標準パターンとして例えば第14図に示すように
符号C1,C2,C3,C4,C5,C6の時系列からなる
基本パターンの他に、符号C24,符号C45のような
分岐パターンを付加して、入力パターンを符号
C1,C24,C5,C6の時系列からなる第1の派生パ
ターンや、符号C1,C2,C3,C45,C6の時系列か
らなる第2の派生パターンと照合することも可能
として、音声メツセージの認識率を高めたもので
ある。 以下具体的な例を挙げながら、本発明における
標準パターンを構成する基本パターンと分岐パタ
ーン、および派生パターンの概念について説明す
る。 音声の入力パターンが変動する最も典型的な例
としては、まず第1に無声破裂音/p/,/
t/,/k/の欠落現象が挙げられる。すなわち
第13図aを参照すればわかるように、無声破裂
音/k/は過渡的な無声音であるためにその継続
時間が短く、非常に検出しにくいものである。こ
れに比べると無声摩擦音/s/は定常的な無声音
であるために第13図aに示すようにその継続時
間が長く、その検出が容易である。このためにサ
ンプリング周期を若干長くすると、無声摩擦音/
s/は検出できても無声破裂音/k/は検出でき
ない場合が生じ得る。第15図はこの点を考慮に
入れて上記音声入力/senakaosasure/の第1階
層リストに対する標準パターンを構成したもので
あり、符号U,S,V1,S,U,S,V2,S,
U,S,V3,S,U,S,V4の時系列からなる
基本パターンの他に、符号V1とV2とで挾まれる
符号S,U,Sの継続時間に等しい符号Sからな
る分岐パターンを設けたものである。したがつ
て、音声の符号化された入力パターンは、上記基
本パターンと照合されるのみならず、分岐パター
ンによつて生じる符号U,S,V1,S,V2,S,
U,S,V3,S,U,S,V4からなる派生パタ
ーンとも照合されるものであり、したがつて無声
破裂音/k/が入力パターンから欠落するような
ことがあつても音声メツセージを正しく認識する
ことができるものである。なお第15図中に記載
した数字,は同一の話者の5回の発声パター
ンを分析した結果、基本パターンに一致した場合
が4回、派生パターンに一致した場合が1回あつ
たということを示すものである。以上のように構
成することにより、無声破裂音/p/,/
t/,/k/を開き落とすような事態を防止でき
るものである。 次に第16図a〜cは音声入力/
senakaosasure/に含まれる4個の有声音V1
V4について、それぞれの2次階層リストに対す
る標準パターンを作成した例を示している。この
うち第1番目の有声音V1について説明すると、
その基本パターンは符号VM,VL,VM,VH,VM
VLの時系列から構成されており、さらに符号VM
からなる3個の分岐パターンを有している。した
がつてこの場合には、符号VM,VL,VM,VL
時系列からなる第1の派生パターンと、符号VM
VL,VM,VL,VMの時系列からなる第2の派生
パターンと、符号VM,VL,VM,VH,VMの時系
列からなる第3の派生パターンとが形成されるも
のである。第16図aに記載された数字,,
などは前と同様に分岐の回数を示している。な
お各分岐パターンの継続時間は、分岐パターンに
入らずに基本パターンをそのまま進んだ場合の継
続時間と等しくなつている。以上のように標準パ
ターンを構成することにより、第2階層リストに
おける符号VH,VM,VLが少々変動しても確実に
音声メツセージの認識ができるようになつてい
る。 ところでこのような第2階層リストにおける符
号VH,VM,VLの変動の仕方は多種多様であり、
一例を挙げると(イ)VL―VH系列がVL―VM系列にな
る場合(例、/senaka/の/na/)、(ロ)VL―VM
系列がVL―VL系列になる場合(例、/sesure/
の/re/)、(ハ)VL―VM系列がVL―VH系列になる
場合(例、/tomare/の/re/)、(ニ)VH―VL
列がVH―VM系列になる場合(例、/senaka/
の/ak/)、(ホ)符号VHがVL―VH系列になる場合
(例、/sa/)、(ヘ)符号VHがVL―VH―VL系列にな
る場合(例/kata/の/kat/)などの例があ
る。これら符号VH,VM,VLの変動の規則を整理
すると大体次の2つの場合に分類される。 1 前後の音韻の相互作用により、符号VHとVM
および符号VLとVMの相互の入れ代わりが生じ
ること。すなわち、VH―VL系列がVH―VM系列
またはVM―VL系列になり得ること、およびVL
―VH系列がVL―VM系列またはVM―VH系列に
なり得ること。 2 符号VHが前後の無声音の影響を受けて、符
号VHの前または後あるいは前後双方に符号VL
が付加されること。すなわち、符号VHが、VL
―VH系列、VH―VL系列、またはVL―VH―VL
系列に入れ代わること。 音声の入力パターンが変動する他の例として
は、母音の無声化現象が挙げられる。例えば日本
人の場合、「私(ワタクシ)」という言葉を/
watakusi/と正確に発音する人よりはむしろ、
母音/u/を飛ばして/wataksi/と発音する人
の方が多いものである。これは母音/u/が無声
破裂音/k/と無声摩擦音/s/に挾まれている
からであり、一般に無声破裂音UBと無声破裂
音UBに挾まれた1個の母音(例えば/kiQpu/
の/i/)や、無声破裂音UBと無声摩擦音UF
とに挾まれた1個の母音(例えば/watakusi/
の/u/)、および無声音と有声子音に挾まれ
た1個の母音などは無声化する傾向が非常に強
い。その他にも無声音Uと無音Sの間に挾まれた
1個の母音(例えば、/dousa/の/a/)も無
音化する傾向が若干ある。そこで、一般に無声音
と無声音の間、および無声音と無音の間、ならび
に無声音と有声子音の間に挾まれた1個の母音に
ついては、その母音の部分を有声音Vとする基本
パターンの他に、その母音の部分を無声音Uとす
る分岐パターンを標準パターンに付加しておき、
上記特定の母音が有声音Vとして明瞭に発音され
た場合においては基本パターンにより照合判定す
ることができ、また上記特定の母音があたかも無
声音Uであるかのように不明瞭に発音された場合
においては派生パターンにより照合判定できるよ
うにしておけば、音声メツセージの認識率を高く
することができるものである。 次にこのような基本パターンおよび分岐パター
ンを有する標準パターンを作成する方法について
説明する。標準パターンを作成する方法には大別
して2つの方法があり、1つは音声メツセージを
構成する個々の音素符号およびその継続時間をキ
ーボード等から入力し、分岐処理プログラムによ
り基本パターンおよび分岐パターンを自動的に作
成する方法であり、もう1つは同一の音声メツセ
ージを発声の仕方を変えたりあるいは発声者を変
えたりしながら複数回登録し、共通する性質を基
本パターンとし、共通しない特異な性質を分岐パ
ターンとして登録する学習登録方式であり、前者
は演繹法的なものであり後者は帰納法的なもので
ある。 まず前者の方法は、例えば第17図に示すよう
にキーボード50から/s/,/e/,/
n/,/a/,/k/,/a/,/o/,/
s/,/a/,/s/,/u/,/r/,/e/
などの各音素符号とその継続時間とを順次入力し
て行く方法であり、まず各音素符号が有声音Vで
あるか否かを判定し、有声音Vであれば母音/
a/については符号VHを割り当て、母音/i/
と有声子音/m/,/b/については符号VL
割り当て、その他の有声子音や母音/e/,/
u/,/o/については、符号VH,VM,VLのい
ずれにもなり得るものとして分岐パターンを作成
する。また無音声には符号Uを、さらに無音には
符号Sをそのまま割り当てるようにする。次に継
続時間を入力して継続時間の短い無声音、すなわ
ち無伸破裂音については符号Uからなる基本パタ
ーンの他に、符号Sからなる分岐パターンを付加
する。さらに符号系列を入力して、無声音と無音
または無声音あるいは有声子音とに挾まれた単母
音には、符号Vからなる基本パターンの他の符号
Uからなる分岐パターンを付加するものである。
以上のようにすれば、音声メツセージの認識率を
高めるような分岐パターンを基本パターンに付加
した標準パターンを自動的に作成することができ
るものである。 次に学習登録方式について説明する。第18図
a〜cは第2階層リストに対応する符号VH
VM,VLからなる標準パターンを作成する場合を
示しており、第19図はその作成手順を示すフロ
ーチヤートである。まず第18図aに示すように
同一の言葉を複数回登録し、正規化された時間を
10の領域に分割し、同じ時間領域で符号が変化し
ない部分を核パターンとし、同じ時間領域で符号
が変化する部分をVMとする。この時点で第18
図bに示すような学習基本パターンが作成され
る。次に同じ時間領域でVMがVLになる部分には
VLの分岐パターンを付加する。また同じ時間領
域でVMかVHになる部分にはVHの分岐パターンを
作成する。さらに同じ時間領域でVHにもVLにも
なる部分はVMのままにしておく。この時点で第
18図cに示すような分岐パターンを有する学習
標準パターンが形成される。こうして得られた学
習標準パターンは標準パターンメモリ42に登録
記憶されるようになつているものである。 しかして本発明においては、かかる学習登録方
式と非学習登録方式とは折衷した登録処理部46
を設けており、第20図にそのフローチヤートを
示す。まず登録処理部46に入力されたデータは
第1階層リストの内に、S―U―V系列またはS
―V系列があるか否かを判定され、もしあればS
―U―V系列とS―V系列のいずれの符号系列を
も含むような標準パターンが形成される。次に第
2階層リストについては上述の第19図に示すよ
うな学習モードにより標準パターンを作成する場
合と非学習モードにより標準パターンを作成する
場合とを切り換え得るようになつており、一方の
モードでうまく行かないときには他方のモードを
使用できるようになつている。しかして学習モー
ドの動作については第19図のフローチヤートに
よりすでに説明したので、非学習モードによつて
第2階層リストに対する標準パターンを作成する
場合の動作について、第21図のフローチヤート
により説明する。まず第2階層リストの最初の符
号がVLであれば、基本パターンST―VLと派生パ
ターンST―VMとを含む標準パターンを作成す
る。また最初の符号がVHであれば基本パターン
ST―VL―VHの他に、2つの派生パターンST―
VM―VHとST―VL―VMとを含む標準パターンを
作成する。さらに最初の符号がVMであれば基本
パターンST―VMのみの標準パターンを作成す
る。次に最後の符号がVH,VL,VMのうちいずれ
であるか、および最初の符号と最後の符号との間
に含まれる各符号がVL―VH系列か、VH―VL系列
かに応じてそれぞれ、第21図のフローチヤート
に記載したような分岐パターン付きの標準パター
ンが自動的に形成されるものである。 ところでこのようにして第2階層リストに対す
る標準パターンを作成する場合には、符号VH
符号VLの識別を正しく行なう必要がある。上述
のように符号VHは高域有声音(/a/グループ)
に対応し、符号VLは低域有声音(/i/グルー
プ)に対応するものであるが、本発明にあつて
は、第22図に示すようにVH分析系とVL分析系
の出力のバランスを調節するバランス調節用の可
変抵抗VR1とオフセツト調節用の可変抵抗VR2
を設けて、母音/a/を発声したときには必ず符
号VHが検出され、母音/i/を発声したときに
は必ず符号VLが検出されるようにしているもの
である。ところが厳密には話者の個性によつてこ
のバランスの最適値は異なることがある。そこで
本発明者らは、母音/e/を自然に発生したとき
にVH/VL差信号がゼロになるようにバランス調
整すればよいことを見出したものである。第23
図はその原理を示すものであり、同図に示すよう
に母音/a/の第1ホルマントは500Hz〜1KHzに
分布し、母音/i/の第1ホルマントは0〜500
Hzに分布しているものであるが、母音/e/の第
1ホルマントは大体その中間に位置している。し
たがつて母音/e/を基準にしてVHとVLのバラ
ンス調整を行なうとバランスの最適値が得られる
ものである。 最後に2次階層リストについて各符号VH
VM,VLの継続時間等を考慮に入れた照合の方法
について説明する。第24図は2次階層リストの
3通りの照合識別方式を示すフローチヤートであ
り、最も適当ないずれか1つの方法を選択して使
用するものである。まず第1の方法は1つの音声
メツセージに含まれる複数個の有声音V1〜Vo
ついて、その中に含まれている符号で最も多いも
のはVHであるかVMであるかVLであるかを照合す
るものであり、また第2の方法は各有声音V1
Voに含まれているVHの割合が入力パターンと標
準パターンとで一致するか否かを照合するもので
あり、さらに第3の方法は入力パターンにおける
VMが標準パターンのVHまたはVLに合致するもの
の数と、標準パターンにおけるVMが入力パター
ンのVHまたはVLに合致するものの数とをリスト
アツプして照合するものである。しかして音声メ
ツセージ中のすべての有声音V1〜Voについて、
上記3種類の照合方法のうち最も適当ないずれか
1つの照合方法を用いて入力パターンと複数の標
準パターンとを照合し、最もよく特徴の一致する
標準パターンを判定するようにしているものであ
る。 さらに入力パターンと標準パターンとの一致度
合を各サンプルごとに対応する点数+1,0,−
1で評価し、合計点数で判定することも可能であ
る。第4表はかかる点数付けの方法を示すもので
あり、その基本的な考え方は上述の3値化された
符号同士の相互相関係数を計算する場合とほとん
ど同じである。しかして第4表の規則に従つて点
数付けを行ない、各サンプル毎に計算した点数の
総計が予め定められた所定値以上であるときには
一致すると判定し、所定値以下であるときには一
致しないと判定するものである。したがつてサン
プルの合計が1000であるとすると、パターンが完
全に一致したときには点数の合計は1000となるも
のである。
[Table] Table 3 (a) shows the second layer list V 1 corresponding to the first code V (duration 3415) of the first layer list shown in Table 2, and the following Table 3 (b) ) to (d) show second layer lists V 2 to V 4 corresponding to codes V having durations of 3621, 1437, and 2637. By normalizing the duration as described above, the recognition rate can be increased because it becomes less susceptible to the influence of the speaking speed. The duration T K data shown in Tables 2 and 3 is simulation data when the voice message ``Senaka wo Susure.'' is analyzed using a 50 μsec sampling pulse. When performing analysis using sampling pulses, the duration (ie, the number of samples) is 1/100 of the value in the table. Codes U, V, S of the first layer list and codes of the second layer list normalized as above
V H , VM , and V L are converted into ternary codes of +1, 0, and -1 in the ternary encoding processing section 40 . That is, first, the code V in the first layer list corresponds to +1, the code U corresponds to -1, and the code S corresponds to 0, and the code V H in the second layer list corresponds to
corresponds to +1, the sign V M corresponds to 0, and the sign V L corresponds to -1, respectively. By doing this, the standard pattern memory 42 in the distance calculation matching unit 41
The calculation speed can be significantly increased when comparing the contents of the first layer list and the second layer list with the contents of the first layer list and the second layer list. That is, the distance calculation matching section 41 calculates the cross-correlation coefficient between the ternary data of +1, 0, -1 stored in the standard pattern memory 42 and the data output from the ternary encoding processing section 40. Although it is becoming
Since there are only three types of data: +1, 0, and -1,
The cross-correlation coefficient can be calculated at an extremely high speed by simple logical operations and addition/subtraction without the need for numerical multiplication. The cross-correlation coefficients calculated for each standard pattern are stored in the primary layer identification section 43 and the secondary layer identification section 44, and compared in magnitude in the determination processing section 45. It is determined that the pattern is Here, the cross-correlation coefficient is defined as f 1 (t), which is the change in the value of the standard pattern with respect to the change in time t, and f 2 (t), which is the change in the value of the input pattern such as the primary hierarchical list or the secondary hierarchical list. t) is given by the following equation. f 12 (τ) = ∫ -∞ f 1 (t) f 2 (t - τ) dt Figures 10a and b show the change in the value of the standard pattern f 1 (t) with respect to the change in time t, and the input pattern f 2 (t), and as shown in the figure, f 1 (t) and f 2 (t) are +1, 0,
Since there are only three values, −1, the product of both f 1
The value of (t)f 2 (t) also takes only one of +1, 0, and -1, which makes calculation of the cross-correlation coefficient very easy. When such a cross-correlation coefficient f 12 (τ) is calculated using a microcomputer, it can practically be sufficiently calculated by numerical calculations as shown in the following equation. f 12 (τ) = Nt=0 f 1 (t) f 2 (t - τ) By the way, the cross-correlation coefficient f 12 (τ) is the standard pattern f 1 (t) and the input pattern f 2 that are multiplied together. (t-
It is a function of the phase difference τ with respect to τ), and takes the maximum value at a specific phase difference τ. Therefore, the distance calculation matching unit 41 finds the point where this cross-correlation coefficient f 12 (τ) is maximum, and
The maximum value is calculated for each standard pattern, and 1
The next and second layer identification sections 43 and 44 respectively store the pattern, and finally, the judgment processing section 45 compares the magnitude relationship to judge the standard pattern closest to the input pattern. By the way, in the present invention, when comparing a code pattern extracted from a voice message with a standard pattern, the code pattern is separated into a primary layer list and a secondary layer list, and the comparison is performed on the primary layer list. Later, the verification process is performed in stages by performing verification on the secondary hierarchy list, but this is done by first extracting the features corresponding to the macroscopic structure of the audio, and then extracting the features corresponding to the macroscopic structure of the audio. It is better to extract features that correspond to microscopic features.
This is because voice recognition can be performed efficiently and reliably. Figure 11 shows the characteristics of speech in a hierarchical manner.The speech is first divided into a voiced sound V accompanied by vocal fold vibration, and an unvoiced sound U without vocal fold vibration.
The voiced sounds V are classified into a voiced sound /a/ group with a wide jaw opening and a voiced sound /i/ group with a narrow jaw opening. A voiced sound with a wide jaw opening corresponds to the above-mentioned high-frequency sound V H , and the frequency of the first formant of the voice is relatively high, and the frequency band is mostly distributed from 500 Hz to 1 KHz. In addition, voiced sounds with a narrow jaw opening correspond to the above-mentioned low-frequency sound V L ,
The frequency of the first formant of speech is relatively low, and its frequency band is mostly distributed between 0 and 500 Hz.
Voiced sounds with wide jaw opening include vowels /a/, /
〓/, /ε/, etc., and voiced sounds with narrow jaw opening include vowels /i/, /e/, /o/, /u/.
, nasal consonants, and other voiced consonants. In addition, the unvoiced sound U includes a stationary unvoiced sound, that is, a voiceless fricative U F , and a transient unvoiced sound, that is, a voiceless plosive U B
There is. However, in order to accurately recognize voice messages word by word, it is necessary to identify all of the characteristics of these voices. In the case of control, it is not necessary to completely identify all consonants and vowels, and it is sufficiently practical to extract macroscopic features. The features of such speech are listed in order from macroscopic features as follows. 1 Is it a voiced sound V or an unvoiced sound U? Such characteristics may be due to the fact that there are many low-frequency components (1KHz or less) in the frequency spectrum of the voice, or high-frequency components (5KHz to 12KHz).
It can be determined by whether there are many Hz). 2 If it is a voiced sound V, it is a voiced sound with a wide jaw opening.
V H (/a/ group) or a voiced sound with narrow jaw opening V L (/i/ group). This characteristic is due to the fact that there are many high-frequency sounds V H (500Hz to 1KHz) in the frequency spectrum of voiced sounds, or there are many low-frequency sounds V L (0
~500Hz). 3 If it is a voiceless U, is it a voiceless fricative U F ?
Is it a voiceless plosive U B ? Such characteristics can be determined depending on whether the unvoiced sound is stationary or transient. That is, the determination can be made based on whether the duration of the unvoiced sound U is long or short. 4 In the voice message, each feature V H , V L ,
The time occupied by U B , U F, etc., or the proportion of the duration of a voice message. Such characteristics can be determined by referring to the durations in the first hierarchical list and second hierarchical list described above. In addition, front vowels (corresponding to /i/, /e/) and high tongue vowels (corresponding to /u/, /o/) can be distinguished depending on whether the second formant of the voice is high or low. It is something that can be done. Figure 25a shows the articulation points of the vowels /a/, /i/, /u/, /e/, /o/, and Figure 25b shows the frequency distribution of the first and second formants of the vowels. (Quoted from pages 363-364 of ``New Edition of Hearing and Speech'' by the Institute of Electronics and Communication Engineers (supervised by Dr. Miura)). FIG. 26 shows the distribution of the first formant and second formant of Japanese vowels for male and female voices, respectively. As is clear from the distribution of the second formant shown in FIG. 25b and FIG.
If we analyze the output of the 3.2KHz band filter, we get
The position of the second formant can be detected, and thereby features corresponding to the front and back of the tongue position can also be extracted. Of course, even without extracting such microscopic features, voice messages for controlling equipment can be fully recognized. For example, Figure 12 shows the voice input/
This is an example of the frequency spectrum of senakaosasure/, which is the audio input sampled at 20KHz.
200 samples (10msec) as one frame, 20
The following LPC analysis was performed, and the power of the unvoiced sound /s/ is concentrated above 5KHz.
It can also be seen that voiced sounds have a peak of power below 1KHz. Furthermore, it can be seen that in voiced sounds, the power of /a/ and /o/ is concentrated between 500Hz and 1KHz, and the power of /n/ and /u/ is concentrated between 0 and 500Hz.
Furthermore, it can be seen that for voiced sounds, the same spectrum continues for several times (number + msec) corresponding to each phoneme. Furthermore, Fig. 13a shows the changes in the voiced sound component V and the unvoiced sound component U for the same voice input as above, and Fig. 13b shows the changes in the high-frequency component V H and low-frequency component V L of the voiced sound. This shows a change in
First, in Figure 13a, there is no voice /s/, /k/
The part corresponding to indicates U, /na/, /
The parts corresponding to ao/, /a/, and /ure/ clearly indicate V. Also, in Figure 13b, /
The part corresponding to n/, /sa/ is V L , /
The parts corresponding to a/, /ao/, and /e/ are VH . Therefore, as described above, the first layer list corresponds to voiced sound V, unvoiced sound U, and silent sound S, and corresponds to high-range sound V H , middle-range sound VM , and low-range sound V L among voice sounds. Most voice messages can be identified by comparing the secondary hierarchy list with pre-stored standard patterns. However, the above is just a generalization, and voiceless plosives in syllables can occur when the speakers of a voice message are different, or when the same speaker changes the rate of speech or the manner of vocalization. Phenomena occur in which a sound cannot be detected or a voiced sound sandwiched between unvoiced sounds in a syllable becomes voiceless, so it is necessary to create a standard pattern that can accommodate all the various ways in which voice messages are uttered. There is. The present invention enables voice messages to be correctly recognized even when input patterns fluctuate due to such subtle changes in vocalization. That is, in the present invention,
As standard patterns, for example, as shown in Fig. 14, in addition to the basic pattern consisting of a time series of codes C 1 , C 2 , C 3 , C 4 , C 5 , C 6 , there are also patterns such as codes C 24 and C 45 . Add a branch pattern and encode the input pattern
Match with the first derived pattern consisting of the time series of C 1 , C 24 , C 5 , C 6 and the second derived pattern consisting of the time series of codes C 1 , C 2 , C 3 , C 45 , C 6 The recognition rate for voice messages has been increased. The concepts of the basic pattern, branch pattern, and derived pattern that constitute the standard pattern in the present invention will be explained below with specific examples. The most typical example of variations in speech input patterns is, first of all, voiceless plosives /p/, /
Examples include the phenomenon of missing t/ and /k/. That is, as can be seen with reference to FIG. 13a, the voiceless plosive /k/ is a transient unvoiced sound and therefore has a short duration, making it extremely difficult to detect. Compared to this, the unvoiced fricative /s/ is a stationary unvoiced sound, so its duration is long as shown in FIG. 13a, and it is easy to detect. For this reason, by slightly lengthening the sampling period, voiceless fricatives/
There may be cases where s/ can be detected but voiceless plosive /k/ cannot. Taking this point into consideration, FIG. 15 shows a standard pattern for the first layer list of the audio input /senakaosasure/, with the symbols U, S, V 1 , S, U, S, V 2 , S ,
In addition to the basic pattern consisting of the time series U, S, V 3 , S, U, S, V 4 , a code S equal to the duration of the code S, U, S sandwiched between the codes V 1 and V 2 A branch pattern consisting of the following is provided. Therefore, the encoded input pattern of speech is not only checked against the above basic pattern, but also the codes U, S, V 1 , S, V 2 , S,
It is also compared with a derived pattern consisting of U, S, V 3 , S, U, S, V 4 , so even if the voiceless plosive /k/ is missing from the input pattern, it will still be recognized as a voice. Messages can be recognized correctly. The numbers shown in Figure 15 indicate that, as a result of analyzing the same speaker's utterance patterns five times, there were four cases where the basic pattern was matched and one case where the derived pattern was matched. It shows. By configuring as above, voiceless plosive /p/, /
This can prevent a situation where t/ and /k/ are opened and dropped. Next, Figures 16a to 16c show voice input/
4 voiced sounds included in senakaosasure/ V 1 ~
For V 4 , an example of creating standard patterns for each secondary hierarchy list is shown. To explain the first voiced sound V 1 ,
Its basic pattern is coded V M , V L , V M , V H , V M ,
It consists of a time series of V L and further has the sign V M
It has three branch patterns consisting of: Therefore, in this case, the first derived pattern consisting of the time series of codes V M , V L , V M , V L and the codes V M ,
A second derived pattern consisting of a time series of V L , VM , V L , VM and a third derived pattern consisting of a time series of symbols V M , V L , VM , V H , VM are It is something that is formed. The numbers written in Figure 16a,
etc. indicate the number of branches as before. Note that the duration time of each branch pattern is equal to the duration time when the basic pattern is continued as it is without entering the branch pattern. By configuring the standard pattern as described above, voice messages can be reliably recognized even if the codes V H , V M , and V L in the second layer list vary slightly. By the way, there are many different ways of changing the codes V H , V M , and V L in such a second layer list.
To give an example, (a) when the V L -V H series becomes the V L -V M series (e.g. /na/ of /senaka/), (b) V L -V M
When the series becomes a V L −V L series (e.g. /sesure/
/re/), (c) V L - V M series becomes V L - V H series (e.g. /tomare/'s /re/), (d) V H - V L series becomes V H - V M series (e.g. /senaka/
/ak/), (E) When the code V H becomes a V L - V H sequence (e.g. /sa/), (F) When the code V H becomes a V L - V H - V L sequence ( Examples include /kat/ of /kat/). When the rules for fluctuations of these codes V H , V M , and V L are summarized, they are roughly classified into the following two cases. 1 Due to the interaction of the preceding and following phonemes, the signs V H and V M
and that the signs V L and V M are interchanged. That is, the V H - V L sequence can become the V H - V M sequence or the V M - V L sequence, and the V L
-V H series can become V L -V M series or V M -V H series. 2 The code V H is affected by the unvoiced sound before and after it, and the code V L appears before, after, or both before and after the code V H.
shall be added. That is, the code V H is V L
-V H series, V H -V L series, or V L -V H -V L
To be replaced in a series. Another example of variations in speech input patterns is the phenomenon of vowel devoicing. For example, in the case of Japanese people, the word "watakushi" is
Rather than someone who correctly pronounces watakusi/,
Many people skip the vowel /u/ and pronounce it as /wataksi/. This is because the vowel /u/ is sandwiched between a voiceless plosive /k/ and a voiceless fricative /s/, and generally one vowel sandwiched between a voiceless plosive U B and a voiceless plosive U B (e.g. /kiQpu/
/i/), voiceless plosives U B and voiceless fricatives U F
One vowel in between (for example /watakusi/
/u/) and a single vowel sandwiched between a voiceless consonant and a voiced consonant have a very strong tendency to be devoiced. In addition, there is also a slight tendency for one vowel sandwiched between the unvoiced sound U and the silent sound S (for example, /a/ in /dousa/) to become silent. Therefore, in general, for a vowel sandwiched between voiceless sounds, between voiceless sounds and voiceless sounds, and between voiceless sounds and voiced consonants, in addition to the basic pattern of making the vowel part a voiced sound V, Add a branching pattern that makes the vowel part the unvoiced sound U to the standard pattern,
If the above-mentioned specific vowel is pronounced clearly as a voiced sound V, it can be compared and determined by the basic pattern, and if the above-mentioned specific vowel is pronounced unclearly as if it were an unvoiced sound U, then The recognition rate of voice messages can be increased by making it possible to perform comparison and determination based on derived patterns. Next, a method of creating a standard pattern having such a basic pattern and a branch pattern will be described. There are two main ways to create standard patterns. One is to input the individual phoneme codes and their durations that make up the voice message from a keyboard, etc., and then use a branch processing program to automatically create the basic pattern and branch pattern. The other method is to register the same voice message multiple times by changing the way it is uttered or by changing the person who is saying it, and using the common characteristics as the basic pattern and the unique characteristics that are not common. This is a learning registration method in which branch patterns are registered, and the former is a deductive method and the latter is an inductive method. First, in the former method, as shown in FIG. 17, from the keyboard 50 /s/, /e/, /
n/, /a/, /k/, /a/, /o/, /
s/, /a/, /s/, /u/, /r/, /e/
This method involves sequentially inputting each phoneme code and its duration. First, it is determined whether each phoneme code is a voiced sound V. If it is a voiced sound V, it is a vowel/
The code V H is assigned to a/, and the vowel /i/
and voiced consonants /m/, /b/ are assigned the code V L , and other voiced consonants and vowels /e/, /
For u/ and /o/, branch patterns are created assuming that they can be any of the codes V H , V M , and V L . Also, the code U is assigned to no voice, and the code S is assigned to no voice. Next, the duration is input, and for unvoiced sounds with short durations, that is, unstretched plosives, in addition to the basic pattern consisting of the symbol U, a branch pattern consisting of the symbol S is added. Furthermore, by inputting a code sequence, a branch pattern consisting of another code U to the basic pattern consisting of the code V is added to a monophthong sandwiched between an unvoiced sound and a voiceless sound or a voiced consonant.
By doing the above, it is possible to automatically create a standard pattern in which a branch pattern that increases the voice message recognition rate is added to the basic pattern. Next, the learning registration method will be explained. 18a to 18c are symbols V H corresponding to the second layer list,
This shows the case where a standard pattern consisting of V M and V L is created, and FIG. 19 is a flowchart showing the creation procedure. First, as shown in Figure 18a, the same word is registered multiple times, and the normalized time is
Divided into 10 regions, the part where the sign does not change in the same time domain is defined as a core pattern, and the part where the sign changes in the same time domain is defined as VM . At this point the 18th
A learning basic pattern as shown in Figure b is created. Next, in the same time domain, the part where V M becomes V L is
Add V L branch pattern. In addition, a V H branch pattern is created in a portion where V M or V H occurs in the same time domain. Furthermore, the portion that becomes V H and V L in the same time domain is left as V M. At this point, a learning standard pattern having a branching pattern as shown in FIG. 18c is formed. The learning standard pattern thus obtained is registered and stored in the standard pattern memory 42. However, in the present invention, the learning registration method and the non-learning registration method are a compromise between the registration processing unit 46.
A flowchart is shown in Fig. 20. First, the data input to the registration processing unit 46 is entered into the SUV series or SUV series in the first layer list.
- It is determined whether there is a V series, and if so, S
- A standard pattern is formed that includes both the UV and SV code sequences. Next, regarding the second layer list, it is possible to switch between creating a standard pattern in the learning mode and creating a standard pattern in the non-learning mode as shown in FIG. 19 above. If that doesn't work, you can use the other mode. Since the operation in the learning mode has already been explained using the flowchart in FIG. 19, the operation when creating a standard pattern for the second layer list in the non-learning mode will be explained using the flowchart in FIG. 21. . First, if the first code in the second layer list is V L , a standard pattern including a basic pattern ST-V L and a derived pattern ST-V M is created. Also, if the first sign is V H , the basic pattern
In addition to ST―V L ―V H , there are two derived patterns ST―
A standard pattern including VM - V H and ST - V L - VM is created. Furthermore, if the first code is VM , a basic pattern ST--a standard pattern of only VM is created. Next, determine whether the last code is V H , V L , or V M , and whether each code included between the first code and the last code is a V L -V H sequence or V H -V Depending on the L series, a standard pattern with a branch pattern as shown in the flowchart of FIG. 21 is automatically formed. By the way, when creating a standard pattern for the second layer list in this way, it is necessary to correctly identify the code VH and the code VL . As mentioned above, the code V H is a high-frequency voiced sound (/a/ group)
, and the code V L corresponds to a low-frequency voiced sound (/i/ group). However, in the present invention, as shown in FIG. 22, the V H analysis system and the V L analysis system are A variable resistor VR 1 for adjusting the output balance and a variable resistor VR 2 for offset adjustment are provided, so that when the vowel /a/ is uttered, the sign V H is always detected and the vowel /i/ is uttered. When this happens, the code V L is always detected. However, strictly speaking, the optimal value of this balance may differ depending on the personality of the speaker. Therefore, the inventors of the present invention have discovered that it is sufficient to adjust the balance so that the V H /V L difference signal becomes zero when the vowel /e/ is naturally generated. 23rd
The figure shows the principle. As shown in the figure, the first formant of the vowel /a/ is distributed from 500Hz to 1KHz, and the first formant of the vowel /i/ is distributed from 0 to 500Hz.
Hz, and the first formant of the vowel /e/ is roughly located in the middle. Therefore, by adjusting the balance between V H and V L using the vowel /e/ as a reference, the optimum balance value can be obtained. Finally, regarding the secondary hierarchy list, each code V H ,
A verification method that takes into consideration the duration of V M and V L will be explained. FIG. 24 is a flowchart showing three methods of checking and identifying the secondary hierarchy list, and the most appropriate method is selected and used. The first method is to determine whether the most common code among the plurality of voiced sounds V 1 to V o included in one voice message is V H or VM or V L The second method is to check whether each voiced sound V 1 ~
The third method is to check whether the proportion of V H included in V o matches the input pattern and the standard pattern.
The number of cases in which VM matches the standard pattern VH or VL and the number of cases in which VM in the standard pattern matches the input pattern VH or VL are listed and compared. Therefore, for all voiced tones V 1 to V o in a voice message,
The input pattern is compared with a plurality of standard patterns using the most appropriate one of the three types of matching methods mentioned above, and the standard pattern with the most matching characteristics is determined. . Furthermore, the degree of agreement between the input pattern and the standard pattern is determined by the corresponding score +1, 0, - for each sample.
It is also possible to evaluate by 1 and judge by the total score. Table 4 shows this scoring method, and the basic idea is almost the same as when calculating the cross-correlation coefficient between ternary codes described above. Then, scores are assigned according to the rules in Table 4, and when the total score calculated for each sample is greater than or equal to a predetermined value, it is determined that they match, and when it is less than or equal to the predetermined value, it is determined that they do not match. It is something to do. Therefore, if the total number of samples is 1000, the total score will be 1000 when the patterns match perfectly.

【表】 なお本発明においては入力パターンと照合され
る標準パターンとして、基本パターンの他に基本
パターンから分岐する分岐パターンを設けて、複
数の派生パターンを形成できるようにし、基本パ
ターンまたは複数の派生パターンのうちのいずれ
かが入力パターンに一致するか否かを判定できる
ようにしているが、これとは反対に、入力パター
ンの方を様々に変化させるようにすれば、標準パ
ターンは一意的なものとすることも可能である。
すなわち入力パターンから欠落した無声破裂音を
補なつたり、無声化された母音を元に戻したりす
るような操作を行なつて、1つの入力パターンか
ら複数の派生入力パターンを作成し、これを1通
りの標準パターンと照合するように構成すれば標
載パターンを変動させる場合と同様に認識率を高
くすることができるものである。 本発明は上述のように、音声入力から有声音の
エネルギが集中する低周波成分と無声音のエネル
ギが集中する高周波成分をフイルタにて抽出する
とともに、フイルタにて抽出された信号の差信号
出力レベルの大小に応じて、音声メツセージを第
1,第2,第3の各符号の時系列からなる入力パ
ターンに変換し、この入力パターンを予め記録さ
れている複数種の標準パターンと照合して入力メ
ツセージを識別する方式において、同一の音声メ
ツセージを異なる態様で複数回入力したときに最
も高い確率で生じる入力パターンを基本パターン
とし、基本パターンよりも低い確率で生じる入力
パターンを派生パターンとし、この派生パターン
と上記基本パターンとのパターンが一致しない部
分を基本パターンから分岐する分岐パターンとし
て予め記録し、入力パターンを基本パターンと照
合して符号しないときには基本パターンと分岐パ
ターンとの組合せによつて生じる派生パターンを
入力パターンと照合するような分岐照合処理の可
能な標準パターンを設けるようにしたものである
から、発声者の性別や年齢差,発声速度差,ある
いは方言による訛などによつて入力される音声メ
ツセージの特徴が微妙に変動しても、基本パター
ンと分岐パターンとの組合せによつて生じる様々
な派生パターンと照合することによつて基本パタ
ーンと若干異なる入力パターンでも充分に認識す
ることができるという利点があり、また本発明に
おいては最も高い確率で生じる入力パターンを基
本パターンとし、基本パターンよりも低い確率で
生じる派生パターンを基本パターンから分岐する
分岐パターンの形式で記録するようにしたもので
あるから、非常に多くの派生パターンをきわめて
少ないメモリ容量で記録しておくことができ、し
たがつてきわめて高い認識率を有しながらしかも
安価な音声メツセージ識別方法を実現できるとい
う効果がある。つまり、本発明にあつては、入力
される音声メツセージの特徴が微妙に変化して基
本パターンと符号しない場合において照合される
派生パターンを、基本パターンと予め記憶された
分岐パターンとの組み合わせによつて形成するよ
うにしており、この分岐パターンは、派生パター
ンと上記基本パターンとのパターンが一致しない
部分のみのデータであり、派生パターンをそのま
ま記憶しておく場合に比べて基本パターン部分を
重複して記憶しない分だけビツト数の少ないデー
タとなつているので、認識率を高めるために多数
の派生パターンを用意する場合においてメモリ容
量を大幅に少なくすることができ、認識率が高
く、しかも安価な音声メツセージ認識方法を実現
できるという効果がある。 また特許請求の範囲第9項記載の併合発明にあ
つては、標準パターンの記録動作時に同一の音声
メツセージを異なる態様で複数回入力することに
より形成される複数個の入力パターンをそれぞれ
一定時間間隔ごとに時分割して、各時分割された
区間のうち、符号が変動しない区間については当
該変動しない符号を核パターンとして割り当て、
符号が変動する区間についてはすべての第3の符
号を割り当てて、この第3の符号と核パターンと
により基本パターンを作成し、符号が変動する区
間のうち、符号が第1の符号になり得ない区間に
ついては、第2の符号からなる分岐パターンを基
本パターンに付加し、符号が第2の符号になり得
ない区間については、第1の符号からなる分岐パ
ターンを基本パターンに付加し、基本パターンと
分岐パターンとを標準パターンとして予め記録し
ておくようにしたものであるから、同一の音声メ
ツセージを発声者を変えながら複数回登録した
り、あるいは同一の発声者が発声の態様を変えな
がら同一の音声メツセージを複数回登録したりす
ることにより、各音声メツセージに共通する性質
を基本パターンとして自動的に抽出することがで
き、また各音声メツセージに共通しない特異な性
質を分岐パターンとして自動的に基本パターンに
付加することができ、分岐照合処理を行なう標準
パターンの作成作業を著しく容易にすることがで
きるという利点を有するものである。 なお上記音声メツセージ識別方式において、第
1,第2,および第3の符号として有声音,無声
音,および無音に対応する符号を使用したり、高
域有声音,低域有声音,および中域有声音に対応
する符号を使用したりするようにすれば、音声の
構造に応じた照合動作を行なうことができるので
認識率を著しく高めることができるものである。
[Table] In the present invention, in addition to the basic pattern, a branch pattern that branches from the basic pattern is provided as a standard pattern to be matched with the input pattern, so that multiple derived patterns can be formed. It is possible to determine whether any of the patterns match the input pattern, but on the other hand, if the input pattern is varied, the standard pattern becomes unique. It is also possible to make it a thing.
In other words, by performing operations such as filling in voiceless plosives that are missing from an input pattern or restoring devoiced vowels, multiple derived input patterns are created from one input pattern, and these are combined into one. If it is configured to match with a standard pattern on the street, the recognition rate can be increased as in the case where the sign pattern is varied. As described above, the present invention uses a filter to extract low-frequency components where the energy of voiced sounds is concentrated and high-frequency components where the energy of unvoiced sounds is concentrated from a voice input, and the difference signal output level between the signals extracted by the filters. The voice message is converted into an input pattern consisting of a time series of first, second, and third codes according to the size of the code, and this input pattern is compared with multiple types of pre-recorded standard patterns and input. In a message identification method, when the same voice message is input multiple times in different ways, the input pattern that occurs with the highest probability is defined as the basic pattern, and the input pattern that occurs with a lower probability than the basic pattern is defined as the derived pattern. The part where the pattern does not match with the above basic pattern is recorded in advance as a branch pattern that branches from the basic pattern, and when the input pattern is checked against the basic pattern and is not coded, the derivation caused by the combination of the basic pattern and the branch pattern is recorded. Since it is designed to provide a standard pattern that allows for branch matching processing such as matching a pattern with an input pattern, input data may be input due to the gender, age difference, speaking speed difference, or dialect accent of the speaker. Even if the characteristics of a voice message vary slightly, input patterns that are slightly different from the basic pattern can be sufficiently recognized by comparing them with various derived patterns created by the combination of the basic pattern and branch patterns. In addition, in the present invention, an input pattern that occurs with the highest probability is taken as a basic pattern, and derived patterns that occur with a lower probability than the basic pattern are recorded in the form of a branch pattern that branches from the basic pattern. Because of this, a very large number of derived patterns can be stored with a very small memory capacity, which has the effect of realizing an inexpensive voice message identification method that has a very high recognition rate. In other words, in the present invention, when the characteristics of an input voice message change slightly and do not match the basic pattern, the derived pattern to be matched is created by combining the basic pattern and a pre-stored branch pattern. This branch pattern is data only for the part where the derived pattern and the basic pattern do not match, and compared to the case where the derived pattern is stored as is, the basic pattern part is overlapped. Since the data has a small number of bits corresponding to the amount of data that is not stored, the memory capacity can be significantly reduced when preparing a large number of derived patterns to increase the recognition rate. This has the effect of realizing a voice message recognition method. In addition, in the combined invention described in claim 9, a plurality of input patterns formed by inputting the same voice message multiple times in different modes during the recording operation of the standard pattern are inputted at fixed time intervals. For each time-divided section, the code that does not change is assigned as a core pattern for the section where the code does not change.
All the third codes are assigned to the interval where the sign changes, and a basic pattern is created using this third code and the core pattern, and the code can be the first code in the interval where the sign changes. For intervals where the code cannot be the second code, a branch pattern consisting of the second code is added to the basic pattern, and for an interval where the code cannot be the second code, a branch pattern consisting of the first code is added to the basic pattern. Since patterns and branching patterns are recorded in advance as standard patterns, it is possible to register the same voice message multiple times while changing the speaker, or to register the same voice message multiple times while changing the way the voice is uttered. By registering the same voice message multiple times, characteristics that are common to each voice message can be automatically extracted as basic patterns, and unique characteristics that are not common to each voice message can be automatically extracted as branch patterns. This has the advantage that it can be added to the basic pattern in any case, and that it can significantly simplify the task of creating a standard pattern for performing branch matching processing. In the voice message identification method described above, codes corresponding to voiced sounds, unvoiced sounds, and silence are used as the first, second, and third codes, and codes corresponding to high-range voiced sounds, low-range voiced sounds, and mid-range sounds are used. If codes corresponding to vocal sounds are used, matching operations can be performed according to the structure of the voice, thereby significantly increasing the recognition rate.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は従来例のブロツク図、第2図a,bは
同上の動作波形図、第3図は本発明の一実施例の
全体構成を示すブロツク図、第4図a,bは同上
の波形整形処理部の動作を示す波形図、第5図は
同上の波形整形処理部の動作を示す流れ図、第6
図は同上のコンポジツト符号化処理部の動作を示
すフローチヤート、第7図a,bは同上の符号化
処理部のブロツク図、第8図は同上の階層化処理
部の動作を示す流れ図、第9図は同上の正規化処
理部の動作を示す流れ図、第10図a,bは距離
計算照合部の動作を示す波形図、第11図は音声
の特徴を階層化して示した図、第12図は音声の
周波数スペクトルを示す図、第13図a,bは音
声から抽出した信号の波形図、第14図は本発明
の分岐照合処理の原理を示す図、第15図は音声
の第1階層リストを示す図、第16図a〜dは音
声の第2階層リストを示す図、第17図は音声の
標準パターンを作成する装置の動作を示す流れ
図、第18図a,b,cは学習登録方式の原理を
示す図、第19図は学習登録方式の動作を示す
図、第20図は本発明における登録処理部の動作
を示す流れ図、第21図は同上の非学習登録処理
の動作を示す流れ図、第22図は同上の音声分析
部の回路図、第23図は母音/a/,/i/,/
e/の第1ホルマントの周波数分布を示す図、第
24図は本発明の判定処理部の動作を示す流れ
図、第25図aは母音の調音点を示す図、同図b
および第26図は第1ホルマントおよび第2ホル
マントの周波数分布を示す図である。5,6,1
3,14はフイルタバンク、42は標準パターン
メモリ、46は登録処理部である。
FIG. 1 is a block diagram of the conventional example, FIG. FIG. 5 is a waveform diagram showing the operation of the waveform shaping processing section; FIG. 5 is a flowchart showing the operation of the same waveform shaping processing section;
This figure is a flowchart showing the operation of the composite encoding processing section same as above, FIGS. 7a and 7b are block diagrams of the encoding processing section same as above, and FIG. Fig. 9 is a flowchart showing the operation of the normalization processing section same as above, Fig. 10 a and b are waveform diagrams showing the operation of the distance calculation matching section, Fig. 11 is a diagram showing the audio characteristics in a hierarchical manner, and Fig. 12 The figure shows the frequency spectrum of the voice, Figures 13a and 13b are waveform diagrams of signals extracted from the voice, Figure 14 is a diagram showing the principle of the branch matching process of the present invention, and Figure 15 shows the first waveform of the voice. Figures 16a to 16d are diagrams showing the hierarchy list, Figures 16a to d are diagrams showing the second hierarchy list of audio, Figure 17 is a flowchart showing the operation of the device for creating a standard audio pattern, and Figures 18a, b, and c are A diagram showing the principle of the learning registration method, FIG. 19 is a diagram showing the operation of the learning registration method, FIG. 20 is a flowchart showing the operation of the registration processing unit in the present invention, and FIG. 21 is an operation of the non-learning registration processing same as above. 22 is a circuit diagram of the same speech analysis section as above, and FIG. 23 is a flowchart showing vowels /a/, /i/, /
FIG. 24 is a flowchart showing the operation of the determination processing unit of the present invention; FIG. 25a is a diagram showing the articulation points of vowels; FIG.
and FIG. 26 is a diagram showing the frequency distribution of the first formant and the second formant. 5,6,1
3 and 14 are filter banks, 42 is a standard pattern memory, and 46 is a registration processing section.

Claims (1)

【特許請求の範囲】 1 音声入力から有声音のエネルギが集中する低
周波成分と無声音のエネルギが集中する高周波成
分をフイルタにて抽出するとともに、フイルタに
て抽出された信号の差信号出力が第1の基準値以
上のときには第1の符号を、第2の基準値以下の
ときには第2の符号を、第1の基準値以下でかつ
第2の基準値以上のときには第3の符号をそれぞ
れ割り当てることにより、入力された音声メツセ
ージに対して第1,第2,第3の各符号の時系列
からなる入力パターンを作成し、この入力パター
ンを予め記録されている複数種の標準パターンと
照合して入力パターンとの距離が最小となる標準
パターンを入力メツセージとして識別する音声メ
ツセージ識別方法において、同一の音声メツセー
ジを異なる態様で複数回入力したときに最も高い
確率で生じる入力パターンを基本パターンとし、
基本パターンよりも低い確率で生じる入力パター
ンを派生パターンとし、この派生パターンと上記
基本パターンとのパターンが一致しない部分を基
本パターンから分岐する分岐パターンとして予め
記憶し、入力パターンを基本パターンと照合して
符号しないときには基本パターンと分岐パターン
との組み合わせによつて生じる派生パターンを入
力パターンと照合するような分岐照合処理の可能
な標準パターンを設けて成ることを特徴とする音
声メツセージ識別方法。 2 有声音のエネルギが集中する1KHz以下の低
周波成分を抽出するフイルタと、無声音のエネル
ギが集中する2KHz〜12KHzの高周波成分を抽出
するフイルタとの差信号出力により、有声音、無
声音および無音の3種の符号の時系列からなる入
力パターンを作成して、標準パターンと照合する
ようにして成ることを特徴とする特許請求の範囲
第1項記載の音声メツセージ識別方法。 3 有声音の区間においては、母音/a/のよう
な高域有声音のエネルギが集中する500Hz〜1KHz
の成分を抽出するフイルタと、母音/i/のよう
な低域有声音のエネルギが集中する500Hz以下の
成分を抽出するフイルタの差信号出力により、高
域有声音、低域有声音、および中域有声音の3種
の符号の時系列からなる入力パターンを作成し
て、標準パターンと照合するようにして成ること
を特徴とする特許請求の範囲第2項記載の音声メ
ツセージ識別方法。 4 基本パターンを構成する有声音、無声音、お
よび無音の時系列の中に、継続時間の短い無声音
が含まれている場合には、当該無音の部分を無音
に置き換える分岐パターンを基本パターンに付加
して成ることを特徴とする特許請求の範囲第2項
記載の音声メツセージ識別方法。 5 有声音区間の基本パターンを構成する高域有
声音、低域有声音、および中域有声音の時系列の
中に、高域有声音から低域有声音に遷移する時系
列がある場合には、当該時系列を高域有声音から
中域有声音に遷移する時系列および中域有声音か
ら低域有声音に遷移する時系列のいずれにも置換
し得るような分岐パターンを基本パターンに付加
して成ることを特徴とする特許請求の範囲第3項
記載の音声メツセージ識別方法。 6 有声音区間の基本パターンを構成する高域有
声音、低域有声音、および中域有声音の時系列の
中に、低域有声音から高域有声音に遷移する時系
列がある場合には、当該時系列を低域有声音から
中域有声音に遷移する時系列および中域有声音か
ら高域有声音に遷移する時系列のいずれにも置換
し得るような分岐パターンを基本パターンに付加
して成ることを特徴とする特許請求の範囲第3項
記載の音声メツセージ識別方法。 7 有声音区間の基本パターンを構成する高域有
声音、低域有声音、および中域有声音の時系列の
中に高域有声音が含まれている場合には、低域有
声音を上記高域有声音の前、後、および前後双方
のうちいずれかに付加した時系列を作成するよう
な分岐パターンを基本パターンに付与して成るこ
とを特徴とする特許請求の範囲第3項記載の音声
メツセージ識別方法。 8 基本パターンを構成する有声音、無声音、お
よび無音の時系列の中に、無声音と無声音に挾ま
れた短い有声音がある場合、および無声音と無音
に挾まれた短い有声音がある場合には、当該有声
音の部分を無声音に置き換える分岐パターンを基
本パターンに付加して成ることを特徴とする特許
請求の範囲第2項記載の音声メツセージ識別方
法。 9 音声入力から異なる周波数成分を取り出すフ
イルタの差信号出力が第1の基準値以上のときに
は第1の符号を、第2の基準値以下のときには第
2の符号を、第1の基準値以下でかつ第2の基準
値以上のときには第3の符号をそれぞれ割り当て
ることにより、入力された音声メツセージに対し
て第1,第2,第3の各符号の時系列からなる入
力パターンを作成し、この入力パターンを予め記
録されている複数種の標準パターンと照合して入
力パターンとの距離が最小となる標準パターンを
入力メツセージとして識別する音声メツセージ識
別方法において、標準パターンの記録動作時に同
一の音声メツセージを異なる態様で複数回入力す
ることにより形成される複数個の入力パターンを
それぞれ一定時間間隔毎に時分割して、各時分割
された区間のうち、符号が変動しない区間につい
ては当該変動しない符号を核パターンとして割り
当て、符号が変動する区間については第3の符号
を割り当てて、この第3の符号と核パターンとに
より基本パターンを作成し、符号が変動する区間
のうち、符号が第1の符号になり得ない区間につ
いては、第2の符号からなる分岐パターンを基本
パターンに付加し、符号が第2の符号になり得な
い区間については、第1の符号からなる分岐パタ
ーンを基本パターンに付加し、基本パターンと分
岐パターンとを標準パターンとして予め記録し
て、入力パターンを基本パターンと照合して符号
しない場合には基本パターンと分岐パターンとの
組み合わせによつて生じる派生パターンを入力パ
ターンと照合するような分岐処理を行うようにし
て成ることを特徴とする音声メツセージ識別方
法。
[Claims] 1. A filter extracts a low frequency component where the energy of voiced sounds is concentrated and a high frequency component where the energy of unvoiced sounds is concentrated from the audio input, and the difference signal output of the signals extracted by the filter is When the value is equal to or greater than the first reference value, the first code is assigned, when it is equal to or less than the second reference value, the second code is assigned, and when it is equal to or less than the first reference value and equal to or greater than the second reference value, the third code is assigned. By doing so, an input pattern consisting of a time series of the first, second, and third codes is created for the input voice message, and this input pattern is compared with a plurality of pre-recorded standard patterns. In a voice message identification method that identifies a standard pattern having the minimum distance from an input pattern as an input message, an input pattern that occurs with the highest probability when the same voice message is input multiple times in different ways is used as a basic pattern,
An input pattern that occurs with a lower probability than the basic pattern is defined as a derived pattern, a portion where this derived pattern does not match the basic pattern is stored in advance as a branch pattern that branches from the basic pattern, and the input pattern is compared with the basic pattern. 1. A voice message identification method comprising: providing a standard pattern capable of branch matching processing in which a derived pattern generated by a combination of a basic pattern and a branch pattern is matched with an input pattern when the input pattern is not coded. 2 The difference signal output between a filter that extracts low frequency components of 1KHz or less, where the energy of voiced sounds is concentrated, and a filter that extracts high frequency components of 2KHz to 12KHz, where the energy of unvoiced sounds is concentrated, is used to distinguish voiced, unvoiced, and silent sounds. 2. The voice message identification method according to claim 1, wherein an input pattern consisting of a time series of three types of codes is created and compared with a standard pattern. 3 In the voiced sound section, the energy of high-frequency voiced sounds such as the vowel /a/ is concentrated between 500Hz and 1KHz.
The signal output of the difference between the filter that extracts the component of 500 Hz and the filter that extracts the component of 500 Hz or less where the energy of low-frequency voiced sounds such as vowel /i/ is concentrated allows high-frequency voiced sounds, low-range voiced sounds, and medium 3. The voice message identification method according to claim 2, wherein an input pattern consisting of a time series of three types of codes of voiced sounds is created and compared with a standard pattern. 4. If the time series of voiced sounds, unvoiced sounds, and silence that make up the basic pattern includes unvoiced sounds with short durations, a branch pattern that replaces the silent parts with silence is added to the basic pattern. 3. A voice message identification method according to claim 2, characterized in that: 5 If there is a time series of transitions from high-range voiced sounds to low-range voiced sounds in the time series of high-range voiced sounds, low-range voiced sounds, and mid-range voiced sounds that make up the basic pattern of the voiced sound section. The basic pattern is a branching pattern that can replace the time series with either a time series that transitions from high-range voiced sounds to mid-range voiced sounds or a time series that transitions from mid-range voiced sounds to low-range voiced sounds. 4. The voice message identification method according to claim 3, further comprising the step of: 6 If there is a time series of transitions from low-range voiced sounds to high-range voiced sounds in the time series of high-range voiced sounds, low-range voiced sounds, and mid-range voiced sounds that make up the basic pattern of the voiced sound section. The basic pattern is a branching pattern that can replace the time series with either a time series that transitions from low-range voiced sounds to mid-range voiced sounds or a time series that transitions from mid-range voiced sounds to high-range voiced sounds. 4. The voice message identification method according to claim 3, further comprising the step of: 7. If a high-range voiced sound is included in the time series of high-range voiced sounds, low-range voiced sounds, and mid-range voiced sounds that make up the basic pattern of a voiced sound section, the low-range voiced sound is Claim 3, characterized in that the basic pattern is provided with a branching pattern that creates a time series that is added before, after, or both before and after a high-frequency voiced sound. Voice message identification method. 8 In the time series of voiced sounds, unvoiced sounds, and silence that make up the basic pattern, if there is a short voiced sound sandwiched between unvoiced sounds and unvoiced sounds, or if there is a short voiced sound sandwiched between voiceless sounds and silence, 3. The voice message identification method according to claim 2, further comprising adding to the basic pattern a branching pattern that replaces the voiced part with an unvoiced sound. 9 When the difference signal output of a filter that extracts different frequency components from the audio input is equal to or greater than the first reference value, the first sign is assigned, when it is equal to or less than the second reference value, the second symbol is assigned, and when the difference signal output is equal to or less than the first reference value, When the value is equal to or higher than the second reference value, a third code is assigned to each of them, thereby creating an input pattern consisting of a time series of each of the first, second, and third codes for the input voice message. In a voice message identification method that compares an input pattern with multiple kinds of pre-recorded standard patterns and identifies the standard pattern with the minimum distance from the input pattern as the input message, when the same voice message is detected during the recording operation of the standard pattern. A plurality of input patterns formed by inputting multiple times in different manners are time-divided at fixed time intervals, and among the time-divided sections, for the section where the sign does not change, the code that does not change is is assigned as a core pattern, a third code is assigned to the section where the sign fluctuates, a basic pattern is created using this third code and the core pattern, and a For intervals where the code cannot become a code, a branch pattern consisting of the second code is added to the basic pattern, and for an interval where the code cannot become the second code, a branch pattern consisting of the first code is added to the basic pattern. The basic pattern and the branch pattern are recorded in advance as a standard pattern, and if the input pattern is not coded by comparing it with the basic pattern, the derived pattern generated by the combination of the basic pattern and the branch pattern is recorded as the input pattern. A voice message identification method characterized by performing branch processing such as verification.
JP56193556A 1981-11-30 1981-11-30 Voice message identification system Granted JPS5895399A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56193556A JPS5895399A (en) 1981-11-30 1981-11-30 Voice message identification system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56193556A JPS5895399A (en) 1981-11-30 1981-11-30 Voice message identification system

Publications (2)

Publication Number Publication Date
JPS5895399A JPS5895399A (en) 1983-06-06
JPS6331798B2 true JPS6331798B2 (en) 1988-06-27

Family

ID=16310005

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56193556A Granted JPS5895399A (en) 1981-11-30 1981-11-30 Voice message identification system

Country Status (1)

Country Link
JP (1) JPS5895399A (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6243697A (en) * 1985-08-20 1987-02-25 三洋電機株式会社 Voice analyzer
JP5672155B2 (en) * 2011-05-31 2015-02-18 富士通株式会社 Speaker discrimination apparatus, speaker discrimination program, and speaker discrimination method
JP5672175B2 (en) * 2011-06-28 2015-02-18 富士通株式会社 Speaker discrimination apparatus, speaker discrimination program, and speaker discrimination method

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4949361A (en) * 1972-09-19 1974-05-13
JPS5085203A (en) * 1973-11-29 1975-07-09
JPS5162904A (en) * 1974-11-30 1976-05-31 Fujitsu Ltd Onseininshikihoshiki

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4949361A (en) * 1972-09-19 1974-05-13
JPS5085203A (en) * 1973-11-29 1975-07-09
JPS5162904A (en) * 1974-11-30 1976-05-31 Fujitsu Ltd Onseininshikihoshiki

Also Published As

Publication number Publication date
JPS5895399A (en) 1983-06-06

Similar Documents

Publication Publication Date Title
KR100811568B1 (en) Method and apparatus for preventing speech comprehension by interactive voice response systems
US5791904A (en) Speech training aid
CN101346758B (en) Emotion recognizer
Lee et al. Tone recognition of isolated Cantonese syllables
Farrús et al. Using jitter and shimmer in speaker verification
JPH09500223A (en) Multilingual speech recognition system
JPS6147440B2 (en)
US4509186A (en) Method and apparatus for speech message recognition
Hermansky et al. Perceptual properties of current speech recognition technology
JP2001166789A (en) Method and device for voice recognition of chinese using phoneme similarity vector at beginning or end
Sigmund Voice recognition by computer
Pandey et al. Multilingual speaker recognition using ANFIS
Hasija et al. Recognition of children Punjabi speech using tonal non-tonal classifier
Pols Flexible, robust, and efficient human speech processing versus present-day speech technology
Ching et al. From phonology and acoustic properties to automatic recognition of Cantonese
JPS6331798B2 (en)
JPS6245560B2 (en)
JPS6331797B2 (en)
Landge et al. Analysis of variations in speech in different age groups using prosody technique
Medhi et al. Different acoustic feature parameters ZCR, STE, LPC and MFCC analysis of Assamese vowel phonemes
Thubthong et al. Stress and tone recognition of polysyllabic words in Thai speech
Altamrah et al. An acoustic analysis and comparison of two unique and almost identical arabic emphatic phonemes
Fatima et al. Speaker recognition using lower formants
Datta et al. Time Domain Representation of Speech Sounds
JPH07210197A (en) Method of identifying speaker