JPS63316900A - Voice recognition system - Google Patents

Voice recognition system

Info

Publication number
JPS63316900A
JPS63316900A JP62153756A JP15375687A JPS63316900A JP S63316900 A JPS63316900 A JP S63316900A JP 62153756 A JP62153756 A JP 62153756A JP 15375687 A JP15375687 A JP 15375687A JP S63316900 A JPS63316900 A JP S63316900A
Authority
JP
Japan
Prior art keywords
word
recognition
voice
recording
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP62153756A
Other languages
Japanese (ja)
Other versions
JP2889573B2 (en
Inventor
正幸 飯田
宏樹 大西
計美 大倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP62153756A priority Critical patent/JP2889573B2/en
Publication of JPS63316900A publication Critical patent/JPS63316900A/en
Application granted granted Critical
Publication of JP2889573B2 publication Critical patent/JP2889573B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 (イ)産業上の利用分野 本発明は音声認識の為の入力音声音圧の自動利得制御を
設けた音声認識システムに関する。
DETAILED DESCRIPTION OF THE INVENTION (a) Field of Industrial Application The present invention relates to a speech recognition system provided with automatic gain control of input speech sound pressure for speech recognition.

(ロ)従来の技術 従来の音声認識システムにおいては、入力音声の音圧過
剰により、音声の特徴が正確に抽出できなくなる不都合
を回避する為にマイク等の入力手段の後段にAGC(自
動利得制御)回路を設けていた。
(B) Conventional technology In conventional speech recognition systems, in order to avoid the inconvenience of not being able to accurately extract the characteristics of the voice due to excessive sound pressure of the input voice, AGC (automatic gain control) is installed after the input means such as a microphone. ) circuit was installed.

(ハ) 発明が解決しようとする問題点従来のAGC回
路はアンプからの出力をフィードバックするものであっ
て、入力された瞬間の音圧によりAGCを行なっている
ため高い音圧の音声が入力された場合、AGCはこの音
圧レベルを音声認識において最適となるレベルに設定す
るようゲインを調整するが、この調整はあくまで音声が
入力されてから行なわれるため、入力と調整の間に時間
的ずれが生じ、最適なレベル調整が行なえない、音声の
特徴抽出に支障を来たし、認識率の低下を招く惧れがあ
った。
(c) Problems to be solved by the invention Conventional AGC circuits feed back the output from the amplifier, and perform AGC based on the sound pressure at the moment of input, so high sound pressure audio is input. In this case, the AGC adjusts the gain to set the sound pressure level to the optimal level for voice recognition, but since this adjustment is only performed after the voice is input, there may be a time lag between the input and the adjustment. This causes problems such as not being able to perform optimal level adjustment, hindering voice feature extraction, and potentially lowering the recognition rate.

(ニ)  問題点を解決するための手段本発明の音声認
識システムは音声認識装置と録音再生装置を組み合わせ
これに第4図図示の如く、メモリ機部を備えた自動利得
制御装置を付加することにより、2度同じ文章を録音再
生装置から入力でき、1度目の入力で音圧の変動を記録
し、2度目の再生で、人力音声の音圧調整する。
(d) Means for solving the problems The speech recognition system of the present invention combines a speech recognition device and a recording/playback device, and adds an automatic gain control device equipped with a memory unit as shown in FIG. This allows the same sentence to be input twice from the recording/playback device, recording the fluctuations in sound pressure during the first input, and adjusting the sound pressure of the human voice during the second playback.

(ホ) 作用 本発明システムによれば音声認識装置と録音再生装置と
メモリmsと自動利得制御手段とを組み合わせることに
より、2度同じ文章を発声の揺らぎなく人力でる。従っ
て、1度目の入力で音圧の変動をメモリに記録し、2度
目の再生で、メモリ内の音圧データに基づき入力音声の
音圧が音声認識処理に適した音圧に成るように利得を自
動的に調整できる。
(e) Effect: According to the system of the present invention, by combining a speech recognition device, a recording/playback device, a memory ms, and an automatic gain control means, it is possible to manually produce the same sentence twice without any fluctuation in utterance. Therefore, the sound pressure fluctuations are recorded in memory during the first input, and the gain is adjusted based on the sound pressure data in the memory so that the sound pressure of the input sound becomes suitable for speech recognition processing during the second playback. can be adjusted automatically.

即ち、第18図に示す如く、第1回目の入力音声(S)
から音圧レベルVの変動状態を検出しメモリに記憶して
おく、そして第2回目の入力音声(S)に対して、メモ
リの音圧レベル、例えば低レベル(L)又は高レベル(
H)に基づき、このレベル値に反比例する如く、自動利
得制御手段の制御電圧Vaを、例えば高レベル(Vh)
、低レベル(V!)となるように設定し、利得G−AX
VG、(Aは定数〉なる利得を乗じる。従って、同図の
出力音声(Sつに示す如く、常に過剰レベルなしで、実
質的に実時間での利得制御が行なえる。
That is, as shown in FIG. 18, the first input voice (S)
The fluctuation state of the sound pressure level V is detected from the sound pressure level V and stored in the memory.Then, for the second input sound (S), the sound pressure level in the memory is detected, for example, a low level (L) or a high level (
H), the control voltage Va of the automatic gain control means is set to a high level (Vh) in inverse proportion to this level value.
, set to be a low level (V!), and set the gain G-AX
VG, (A is a constant) is multiplied by a gain. Therefore, as shown in the output audio (S) in the figure, gain control can be performed substantially in real time without excessive levels.

(へ) 実施例 第1図に本発明を採用して音声入力により文章作成する
ディクチ−ティングマシンの外観図を示し、第2図に該
マシンの機能ブロック図を示す。
(f) Embodiment FIG. 1 shows an external view of a dictionary-cheating machine which employs the present invention and creates sentences by voice input, and FIG. 2 shows a functional block diagram of the machine.

第2図に於て、(1)は第1t!Iの本体(100)内
に回路装備された音声認識部であり、その詳細は第3図
のブロック図に示す如く、入力音声信号の音圧調整を行
う前処理部(11)[第4図]、該処理部(11)から
の音圧at済みの音声信号からその音響特徴を示すパラ
メータを抽出する特徴抽出部(12)[第5図]、該抽
出部(12)から得られる特徴パラメータに基づき入力
音声の単語認識を行う単語認識部(13)[第6図]と
文節認識部(14)[第7図]、及びこれらいずれかの
認識部(13)、(14)からの認識結果に基づき認識
単語文字列、或いは認識音節文字の候補を作成する候補
作成部(15)からなる。
In Figure 2, (1) is the 1st t! This is a voice recognition section equipped with a circuit in the main body (100) of the I, the details of which are shown in the block diagram of FIG. ], a feature extraction unit (12) [Fig. 5] that extracts parameters representing the acoustic characteristics from the sound pressure-attenuated audio signal from the processing unit (11), and feature parameters obtained from the extraction unit (12). A word recognition unit (13) [Figure 6] and a phrase recognition unit (14) [Figure 7] that perform word recognition of input speech based on the following, and recognition from any of these recognition units (13) and (14) It consists of a candidate creation section (15) that creates candidates for recognized word character strings or recognized syllable characters based on the results.

更に第2図に於て、(2)は第1図に示1如く本体(1
00)に機械的並びに電気的に着脱可能なテープレコー
ダ等の録音再生装置、(3)は例えば第1図図示の如き
ヘッドホンタイプのマイクロホン、(4)は録音再生装
置(2)とマイクロホン(3)と音声認識部(4)との
あいだの接続切り換えを行う入力切り換え部[第8図]
である。(6)は認識結果に基づき生成した文字列等を
表示するための表示装置、(7)は該ディクチ−ティン
グマシンの各種制御信号を入力するためのキーボード、
(8)は該ディクチ−ティングマシンで生成きれた文字
列を記憶する磁気ディスク装置等の記憶装置、(9)は
該記憶装置の文字列を規則合成によりスピーカ(10)
から読み上げるための音声合成部である。
Furthermore, in Figure 2, (2) is the main body (1) as shown in Figure 1.
00) is a mechanically and electrically detachable recording and reproducing device such as a tape recorder, (3) is a headphone type microphone as shown in FIG. 1, and (4) is a recording and reproducing device (2) and a microphone (3). ) and the voice recognition unit (4) [Figure 8]
It is. (6) is a display device for displaying character strings etc. generated based on the recognition results; (7) is a keyboard for inputting various control signals of the dictionary cheating machine;
(8) is a storage device such as a magnetic disk device that stores the character strings generated by the dictionary cheating machine, and (9) is a speaker (10) that uses the character strings in the storage device by regular synthesis.
This is a speech synthesis unit that reads out the text.

尚、(5)はマイクロプロセッサからなる制御部であり
、上記各部の動作の制御を司っている。
Note that (5) is a control section consisting of a microprocessor, which controls the operations of the above-mentioned sections.

上述の構成のディクチ−ティングマシンに依る文章作成
方法としては二通りあり、それぞれに就いて以下に詳述
する。
There are two ways to create sentences using the dictating machine configured as described above, and each will be explained in detail below.

第一の方法は、マイク(3)より全音声を音声認識部(
1)に入力し、音声認識を行ない、入力音声を文字列に
変換し、表示装置(6)に表示し、同時に記憶装置(8
)に結果を記憶する。
The first method is to collect all voices from the microphone (3) into the voice recognition unit (
1), performs voice recognition, converts the input voice into a character string, displays it on the display device (6), and at the same time inputs it into the storage device (8).
).

第二の方法は、入力したい文章を予め録音再生装置(2
>に録音しておき、この録音再生装置(2)を本装置に
接続し、録音文章を音声認識部〈1)に入力することに
より、音声認識を行ない、入力音声を文字列に変換し、
表示装置(6)に表示し、同時に記憶装置く8)に結果
を記憶する。
The second method is to record the text you want to input in advance using a recording and playback device (2
>, connect this recording and playback device (2) to this device, input the recorded text to the voice recognition unit (1), perform voice recognition, convert the input voice into a character string,
The results are displayed on the display device (6) and simultaneously stored in the storage device (8).

上述の様に、音声を入力する方法は、二通りあるので、
入力切り換え部(4)において、入力の切り換えを行な
う、また入力切り換え部(4)は、入力の切り換えの他
に、録音再生装置(2)に録音信号(イ)を録音するの
か、マイクく3〉より入力された音声を録音するのかの
切り換えも行なう。
As mentioned above, there are two ways to input audio.
The input switching section (4) switches the input. In addition to switching the input, the input switching section (4) also switches whether the recording signal (a) is to be recorded on the recording/playback device (2) or the microphone 3. > You can also switch whether to record the input audio.

以下に音声録音から文章作成までの動作を順次詳述する
The operations from voice recording to text creation will be explained in detail below.

(i)f声登録処理 音声認識を行なうに先たち、音声認識に必要な音声の標
準パターンを作成するため、音声登録を行なう。
(i) f-Voice Registration Process Before performing voice recognition, voice registration is performed in order to create a standard pattern of voices necessary for voice recognition.

まず、音節登録モードについて述べる。First, the syllable registration mode will be described.

ここで述べている標準パターンとは、音声認識部(1)
の文節認識部(14)でのパターンマッチィング時の基
準パターンとなるものであり、臭体的には第7図の如き
文節認識部(14)の音節標準バクーンメ七り(14d
)に格納される。
The standard pattern described here is the speech recognition unit (1)
This is the reference pattern for pattern matching in the phrase recognition unit (14) of
).

本ディクチ−ティングマシンに音声登録する方法は、ま
ず第7図のスイッチ(14sl)を操作しパラメータバ
/ファ(14a)と音節認識部(14b)とを接続し、
次に述べる三方法がある。
The method for registering voice in this dictionary-cheating machine is to first operate the switch (14sl) shown in Fig. 7 to connect the parameter buffer (14a) and the syllable recognition unit (14b).
There are three methods described below.

第一の方法は該マシンの本体(100)にマイク(3)
より直接登録音声を入力し、この登録音声を音声認識部
〈1)で分析し、標準パターンを作成し、作成した標準
パターンを音節標準パターンメモリ(14d)および記
憶装置(8)に記憶させる方法である。
The first method is to attach a microphone (3) to the main body (100) of the machine.
A method of directly inputting registered speech, analyzing this registered speech with the speech recognition unit (1), creating a standard pattern, and storing the created standard pattern in the syllable standard pattern memory (14d) and storage device (8). It is.

第二の方法は前もって登録音声を録音しておいた録音再
生装置(2)を本体(100)に接続し、この録音′f
l録音声を再生することにより登録音声の入力をなし、
この入力した登録音声を音声認識部(1)で分析し、標
準パターンを作成し、作成した標準パターンを音節標準
パターンメモリ(14d)および記憶装置(8)に記憶
させる方法である。
The second method is to connect a recording/playback device (2) on which registered voices have been recorded in advance to the main body (100), and to listen to this recording 'f.
lInput the registered voice by playing the recorded voice,
This input registered speech is analyzed by the speech recognition unit (1), a standard pattern is created, and the created standard pattern is stored in the syllable standard pattern memory (14d) and the storage device (8).

第三の方法は本マシンの本体(100)にマイク(3)
から直接登録音声を入力するが、このとき同時に録音再
生装置(2)を本体(100)に接続しておきこの入力
された音声を録音再生装置(2)に録音しながら、本体
(100)側ではマイク(3)からの登gs音声の分析
を行ない標準パターンを作成し、作成した標準パターン
を記憶装置(8)に記憶させておく、そして、次にこの
マイク(3)への音声入力が終了すると、これに引き続
き、録音再生装置(2)°に録音された音声を再生し、
この録音された登録音声を音声認識部(1)で分析し、
標準パターンを作成し、作成した標準パターンを音節標
準パターンメモリ(14d)に記憶しておくと同時に、
記憶装置(8)にも上述のマイク(3)からの直接の登
録音声の音節標準パターンと共に記憶させる方法である
The third method is to connect the microphone (3) to the main body (100) of this machine.
At this time, the recording/playback device (2) is connected to the main unit (100), and while recording the input audio to the recording/playback device (2), the registered audio is input directly from the main unit (100) side. Now, analyze the input gs voice from the microphone (3), create a standard pattern, store the created standard pattern in the storage device (8), and then input the voice to this microphone (3). Once finished, the audio recorded on the recording/playback device (2) will be played back,
This recorded registered voice is analyzed by the voice recognition unit (1),
At the same time as creating a standard pattern and storing the created standard pattern in the syllable standard pattern memory (14d),
This is a method in which the syllable standard pattern of the directly registered voice from the above-mentioned microphone (3) is also stored in the storage device (8).

この第3の方法に於ては、録音再生装置(2)に録音し
た音声は録音再生装置(2)の周波数特性を受けている
ため、録音した音声から作成した標準パターンと、マイ
ク(3)から直接入力した音声より作成した標準パター
ンとを比べた場合、内標準パターンの間に違いが現れる
。故に録音音声を認識さげるときは、録音音声より作成
した標準パターンを使用する必要があり、マイク(3)
から直接入力した音声を認識させるときは、マイク(3
)から直接入力した音声より作成した標準パターンを使
用する必要があるので、上述の如きの方法をとることに
よって、マイク(3)から直接登録した標準パターンと
録音音声より作成した標準パターンの両パターンを一回
の音声登録操作によって作成し記憶できる。また、一度
録音再生装置(2)に登録音声を録音しておけば標準パ
ターンを作成していないディクチ−ティングマシン上に
も登録者の発声入力を必要とせず、この録音音声を再生
入力するだけで、標準パターンが作成できる。また、録
音再生装置(2)に登録音声を録音し、さらにこの登録
音声のあとに文章を録音しておけば、後にこの録音再生
装置(2)を本体(100)に接続し、録音された音声
を再生するだけで音声登録から、文章作成まで、すべて
自動的に行なえる。
In this third method, the sound recorded on the recording/playback device (2) is subject to the frequency characteristics of the recording/playback device (2), so the standard pattern created from the recorded sound and the microphone (3) When comparing the internal standard pattern with the standard pattern created from the voice input directly from the internal standard pattern, differences appear between the internal standard patterns. Therefore, when recognizing a recorded voice, it is necessary to use a standard pattern created from the recorded voice, and the microphone (3)
When you want to recognize the voice input directly from the microphone (3)
), it is necessary to use the standard pattern created from the voice input directly from the microphone (3), so by using the method described above, both the standard pattern registered directly from the microphone (3) and the standard pattern created from the recorded voice can be used. can be created and stored with a single voice registration operation. In addition, once the registered voice is recorded on the recording/playback device (2), the recorded voice can be played back and input on the dictionary cheating machine for which no standard pattern has been created, without requiring the registrant's voice input. You can create a standard pattern. Also, if you record the registered voice on the recording/playback device (2) and then record the text after this registered voice, you can connect this recording/playback device (2) to the main unit (100) later and listen to the recorded voice. Just by playing the audio, everything from registering the audio to creating sentences can be done automatically.

尚、a声の標準パターンを作成する為の登録者の発声入
力は、本装置が一定の順序で表示装置く6)に表示する
文字を登録者が読み上げることにより行なわれる。
Note that the registrant's voice input for creating the standard pattern of a-voice is performed by the registrant reading out the characters displayed by the present device on the display device 6) in a fixed order.

また、本マシン専用の表示機能をもつ録音再生装置(2
)を使用する場合はこの録音再生装置(2)単独で携帯
する時でもその表示画面に表示された見出し語に対応す
る音声を発声し録音再生装置(2)に録音する事で、標
準パターンの作成が可能となる。
In addition, a recording and playback device (2
), this recording/playback device (2) can be carried alone, by uttering the voice corresponding to the entry word displayed on the display screen and recording it on the recording/playback device (2), the standard pattern can be reproduced. It becomes possible to create.

上述の如く、標準パターンを作成するための登録音声を
録音再生装置(2)に録音する場合は、この録音された
登録音声より標準パターンを作成するときにノイズなど
の影響を受は録音音声とこれに対応するべき見出し語と
がずれる可能性があり、以下、第9図に基づき、説明の
ため録音再生装置としてテーブレフーダを使用した場合
について述べる。第9図(a)はテーブレフーダに標準
パターン作成のための登録音声を録音した状態のうち、
見出し語1あ」〜1か」に対応した登録音声“あ”〜1
か”の間のテープの状態を表わしておリ、ここでは“え
”と“お”の間に[ノイズ]が録音された場合を示す、
第9図(a)の様に登録音声と登録音声との間に[ノイ
ズ]が録音きれたテープにより音声登録を行なった場合
、1番目に録音されたけが“あ”で2番目に録音された
音が1い”という様に、ただ単にテープに録音された音
の順序により、入力された登録音声がどの音節に対応し
ているのかを決定していると、[ノイズコまで登録音声
とみなして見出し語を対応させるので入力された実際の
登録音声と見出し語とがずれてしまう。
As mentioned above, when recording the registered voice for creating a standard pattern into the recording/playback device (2), when creating the standard pattern from the recorded registered voice, the recorded voice may be affected by noise etc. There is a possibility that the corresponding headword may be misaligned, and for the sake of explanation, a case will be described below based on FIG. 9 in which a table fooder is used as the recording and reproducing device. Figure 9(a) shows the state in which the registered voice for standard pattern creation is recorded on the table fooder.
Registered voice “a” ~1 corresponding to headword 1a”~1ka”
This shows the state of the tape between "ka" and "noise" is recorded between "e" and "o".
As shown in Figure 9(a), when voice registration is performed using a tape in which [noise] is completely recorded between the registered voices, the first recorded injury is “a” and the second recorded voice is “a”. If you determine which syllable the input registered voice corresponds to simply by the order of the sounds recorded on the tape, such as ``the first sound is the first one'', [Noiseco will not consider it as registered voice]. Since the headwords are made to correspond to each other, the actual registered voice input and the headwords are misaligned.

ここで、第9図(b)は[ノイズ]を音声と誤認識し、
見出し語「え」のところに[ノイズ]が入力され、見出
し語「お」のところに音節“え”が入力きれた囚である
Here, FIG. 9(b) incorrectly recognizes [noise] as voice,
This is a prisoner who entered the syllable "e" in place of the entry word "e" and entered the syllable "e" in place of the entry word "o".

この様に登録音声より標準パターンを作成するときにノ
イズなどの影響を受は録音音声と見出し語とがずれる場
合があるため、第9図(c)に示すように、登1 y声
の種類を示したキャラクタ−コード音を、登録音声に対
応ξせて録音再生装置(2)に録音する。この方法によ
り、“う” と“え”の間に[ノイズ]が録音されてい
ても、上述のように、入力きれた音と見出し語とのずれ
を防止する。
In this way, when creating a standard pattern from registered voices, the recorded voice and the headword may deviate due to the influence of noise, etc., so as shown in Figure 9(c), The character code sound indicated by ξ is recorded in the recording/playback device (2) in correspondence with the registered sound ξ. With this method, even if [noise] is recorded between "u" and "e", the gap between the input sound and the headword is prevented as described above.

このずれを防止する特定周波数のキャラクタ−コード音
の録音方法を、録音再生装置(2)のテープレコーダが
シングルトラックである場合と、マルチトラックである
場合とにわけて説明する。
A method of recording a character-code sound of a specific frequency to prevent this deviation will be explained separately for the case where the tape recorder of the recording/reproducing device (2) is a single track and the case where the tape recorder is a multi-track.

まず第10図において、録音方式としてマルチトラック
をもつ録音再生装置を使用する場合について述べる。
First, with reference to FIG. 10, a case will be described in which a recording/playback device with multi-track is used as the recording method.

録音方式としてマルチトラックをも一つ録音再生装置を
使用する場合は同図(a)に示すように音声を録音して
いないトラックに見出し語に対応するキャラクタ−フー
ドを録音する。音声認識部(1)では、このキャラクタ
−コード音より、入力される音声の見出し語を知るとと
もに、音声トラックに録音された音のうち、このキャラ
クタ−コード音が録音された区間t1に録音された音の
うち、音圧しきい値以上の条件をみたすもののみを音声
とみなし、分析を行なう。
When a multi-track recording/playback device is used as a recording method, the character food corresponding to the headword is recorded on a track on which audio is not recorded, as shown in FIG. 2(a). The voice recognition unit (1) knows the headword of the input voice from this character-code sound, and also determines whether the character-code sound is recorded in the section t1 of the sounds recorded on the audio track. Among the sounds, only those that satisfy the condition of being equal to or higher than the sound pressure threshold are considered to be sounds and analyzed.

または、同図(b)に示すように、音声の始めと終わり
に見出し語に対応するキャラクタ−コードを録音し、音
声トラックに録音された音のうち、この音声の始めを示
すキャラクタ−コード音と、音声の終わりを示すキャラ
クターーード音の間の区間t2に録音された音のうち、
音圧しきい値以上の条件をみたすもののみを音声とみな
し、分析を行なう。
Alternatively, as shown in FIG. 2(b), a character code corresponding to the headword is recorded at the beginning and end of the audio, and the character code that indicates the beginning of the audio is selected from among the sounds recorded on the audio track. Among the sounds recorded in the interval t2 between the character sound and the character sound indicating the end of the sound,
Only those that satisfy the condition of being equal to or higher than the sound pressure threshold are regarded as voices and analyzed.

または、同1!!J(c )に示すように、音声の始め
に見出し語に対応するキャラクタ−コードを録音する。
Or same 1! ! As shown in J(c), the character code corresponding to the headword is recorded at the beginning of the audio.

音声トラックに録音された音のうち、この音声の橋類を
示すキャラクタ−コード音から、次の見出し語に対応す
るキャラクタ−コード音までの区間t3に録音された音
のうち、音圧しきい値以上の条件をみたすもののみを音
声とみなし、分析を行なう。
Among the sounds recorded on the audio track, among the sounds recorded in the section t3 from the character-code sound indicating the bridge of this sound to the character-code sound corresponding to the next headword, the sound pressure threshold Only those that meet the above conditions are considered to be audio and analyzed.

また第二の方法としてシングルトラックの録音再生装置
(2)の場合は、見出し語に対応するキャラクタ−コー
ドを音声の分析周波数帯域外の音で表6し、音声の録音
されているトラックに音声と共に録音する。この場合の
キャラクタ−コード音を録音する方法は、上述のマルチ
トラックの場合と同様である。つまり、上述のtl、t
2、t3の区間に録音された音うち、上述と同様の条件
をみたすもののみを音声とみなし、分析を行なう。
The second method, in the case of a single-track recording/playback device (2), is to represent the character code corresponding to the headword as a sound outside the audio analysis frequency band, and then add the audio to the track where the audio is recorded. record with. The method for recording character chord sounds in this case is the same as in the multi-track case described above. In other words, the above tl, t
2. Among the sounds recorded in the interval t3, only those that satisfy the same conditions as described above are regarded as voices and analyzed.

ただし、音声と、キャラクタ−コード音が重なっ℃いる
同図(1)に示した実施例の場合以外は、キャラクタ−
コード音に、音声の分析周波数帯域外の音を使用しなく
てもよい。
However, except for the example shown in Figure 1 (1) where the voice and the character code sound overlap, the character code sound overlaps with the character code sound.
It is not necessary to use a sound outside the voice analysis frequency band as a chord sound.

次ぎにアルファベット、数字およびカッコや句読点など
予め第6図の如き単語認識部(13)の単語辞書(13
d)にキャラクタ−登録きれている単語に対応する単語
標準パターンを、同図の単語標準パターンメモリ(13
c)に登録する。
Next, alphabets, numbers, parentheses, punctuation marks, etc. are preliminarily stored in the word dictionary (13) of the word recognition unit (13) as shown in Figure 6.
The word standard pattern corresponding to the word whose character has been registered in d) is stored in the word standard pattern memory (13) in the same figure.
c) Register.

まず、所定の操作により、第61!Iのパラメータバッ
ファ(13a)と単語標準パターンメモリ(13d) 
トがスイッチ(13sl)により接続され、単語登録モ
ードにする。
First, by performing a predetermined operation, the 61st! I parameter buffer (13a) and word standard pattern memory (13d)
is connected by a switch (13sl) to put it into word registration mode.

つぎに、本装置本体(100)の表示装置f(6)にア
ルファベット、数字およびカッコや句読点などが表示さ
れ、操作者はこれに対応する読みを音声入力する。
Next, alphabets, numbers, parentheses, punctuation marks, etc. are displayed on the display device f(6) of the main body (100) of the apparatus, and the operator inputs the corresponding pronunciation by voice.

音声認識部(1)では、この音声を分析し、単語標準パ
ターンメモリ(13c)に単語標準パターンの登録を行
なう。
The speech recognition section (1) analyzes this speech and registers the word standard pattern in the word standard pattern memory (13c).

上述までの操作により音声認識は可能となる。Voice recognition becomes possible through the operations described above.

しかし、自立語・付avJ辞書(14e)および単語辞
書(13d)にない単語を認識させたいときは、自立語
・付属語辞書(14e)に認識させたい単語を登録する
か、単語辞書(13d)に認識させたい単語を、また単
語標準パターンメモリ(13c)に単語標準パターンを
登録する必要がある。ただし、自立語・付属語辞書(1
4e)に単語を登録するか、単語辞書(13d)および
単語標準パターンメモリ(13c)に、単語および単語
標準パターンを登録するかは、使用者がその単語を文節
発声として認識させたいか、単語発声として認識させた
いかによって決定する。
However, if you want to recognize a word that is not in the independent word/attached avJ dictionary (14e) or the word dictionary (13d), either register the word you want to recognize in the independent word/attached word dictionary (14e), or register the word you want to recognize in the independent word/attached word dictionary (13d). ) It is necessary to register the word to be recognized by the word standard pattern memory (13c). However, independent word/attached word dictionary (1
Whether to register words in 4e) or to register words and word standard patterns in the word dictionary (13d) and word standard pattern memory (13c) depends on whether the user wants the word to be recognized as a clause utterance, Determine whether you want it to be recognized as a vocalization.

また、自立語・付属語辞書(14e)にはあるが、単語
辞書(13d)になく、それでも単語認識で認識させた
い場合、かかる単語を単語辞書(13d)および単語標
準パターンメモリ(13e)に、単語および単語標準パ
ターンを登録する必要がある。
In addition, if the word is in the independent word/adjunct word dictionary (14e) but not in the word dictionary (13d) and you still want to recognize it with word recognition, you can add the word to the word dictionary (13d) and word standard pattern memory (13e). , it is necessary to register words and word standard patterns.

以下に任意単語の登録方法について述べる。The method for registering arbitrary words will be described below.

唾語の登録には、単語を自立語・付属語辞書(14e)
に文字列を登録する登録と、単語を単語標準パターンメ
モリ(13c)に単語標準パターンを登録、および単語
辞書(13d)に文字列を登録する2方法がある。
To register salivary words, use the independent word/adjunct word dictionary (14e).
There are two methods: registering a character string in a word standard pattern memory (13c), and registering a character string in a word dictionary (13d).

単語を自立語・付属語辞書(14e)に登録する場合は
、登録したい単語を発声し本装置に入力する。
When registering a word in the independent word/adjunct word dictionary (14e), the word to be registered is uttered and input into the device.

このとき本装置はこの音声を音声認識部(1)で認識し
、認識結果を表示装置(6)に表示する。使用者はこの
結果が正しければキーボード(7)の所定のキーを押し
、発声音声を表示装置(6)に表示されている文字列と
して自立語・付属語辞書(14e)に登録する。もし、
表示装置(6)に表示された認識結果が正しくなければ
、本装置の音節修正機能により表示装置(6〉に表示き
れた認識結果を修正するか、登録したい単語を再発声す
る。また再発声した結果が誤っているときは、再び本装
置の音節修正機能により修正する。上述の操作を表示装
置(6)に表示される文字列が登録したい単語と一致す
るまで繰り返す。
At this time, this device recognizes this voice using the voice recognition section (1) and displays the recognition result on the display device (6). If the result is correct, the user presses a predetermined key on the keyboard (7) and registers the uttered voice as a character string displayed on the display device (6) in the independent word/adjunct word dictionary (14e). if,
If the recognition result displayed on the display device (6) is incorrect, use the syllable correction function of this device to correct the recognition result displayed on the display device (6>), or re-speak the word you want to register. If the result is wrong, correct it again using the syllable correction function of this device.The above-mentioned operation is repeated until the character string displayed on the display device (6) matches the word to be registered.

単語を単語標準パターンメモリ(13c)および単語辞
書(13d)に登録する場合は、単語を自立語・付属語
辞書(14e)に登録する場合と同様にまず表示装置(
6)に登録したい文字列を正しく表示させる6次に正し
く認識された文字列と単語標準パターンを、単語辞書(
13d)および単語標準パターンメモリ(13c)にそ
れぞれ登録する。
When registering a word in the word standard pattern memory (13c) and the word dictionary (13d), first the display device (
6) Correctly display the character string you want to register in 6) Next, display the correctly recognized character string and word standard pattern in the word dictionary (
13d) and word standard pattern memory (13c).

また、自然な発声で入力きれた音声を認識することは、
現在の音声認識技術のレベルを考えた場合、無理がある
。現在の音声認識技術のレベルでは、連続音節発声入力
が限度であるため、以下に連続音節発声入力の一実施例
について記す。
In addition, recognizing a voice that has been input in a natural manner is
Considering the current level of speech recognition technology, this is unreasonable. Since the current level of speech recognition technology is limited to continuous syllable utterance input, an example of continuous syllable utterance input will be described below.

連続音節発声入力の場合も、上記の手順と同一であるが
、連続音節発声入力の場合は、単語標準パターンも連続
音節発声のパターンとなっているため、登録したい単語
を自然発声で再発声し、単語標準パターンを自然発声よ
り作成し、単語標準パターンと文字列を単語標準パター
ンメモリ(13C)および単語辞書(13d)にそれぞ
れ登録する。
In the case of continuous syllable vocalization input, the above procedure is the same, but in the case of continuous syllable vocalization input, the word standard pattern is also a continuous syllable vocalization pattern, so the word you want to register can be re-uttered naturally. , a word standard pattern is created by natural utterance, and the word standard pattern and character string are registered in a word standard pattern memory (13C) and a word dictionary (13d), respectively.

以上の操作により、音声認識による文章作成のために必
要なデータを登録できた事となる。
With the above operations, the data necessary for creating sentences using voice recognition has been registered.

(i)  文章作成 以′下に文章作成の実施例について述べる。(i) Text creation An example of text creation will be described below.

まず、認識動作を行なう場合は、単語認識部(13)の
スイッチ(13sl)は、パラメータバッファ(13a
)と単語判定部(13b)を接続する様に、文節認識部
(14>のスイッチ(14sl)は、パラメータバッフ
ァ(14m)と音節認識部(14b)を接続する様に設
定する。
First, when performing a recognition operation, the switch (13sl) of the word recognition unit (13) is set to the parameter buffer (13a).
) and the word determination section (13b), and the switch (14sl) of the phrase recognition section (14>) is set so as to connect the parameter buffer (14m) and the syllable recognition section (14b).

文章作成には二方法がある。There are two ways to create sentences.

第一の方法は本装置の本体に作成したい文章を音声によ
りマイク(3)から直接入力するオンライン認識方法で
ある。
The first method is an online recognition method in which the text to be created is directly input into the main body of the device by voice from the microphone (3).

第二の方法は文章を録音しておいた録音再生装置(2)
を本装置に接続し、録音文章を再生し、認識させるオフ
ライン認識である。
The second method is to use a recording/playback device that records the text (2).
This is an offline recognition method in which the device is connected to the device, the recorded text is played back, and the text is recognized.

まず、オンライン認識の実施例について述べる。First, an example of online recognition will be described.

オンライン認識の場合は、本装置にマイク(3)より直
接文節単位または単語単位に発声した文章を音声入力す
るので、所定の操作により、入力切り換え部(4)でマ
イク(3)と音声認識部(1)を接続する。
In the case of online recognition, sentences uttered in units of phrases or words are directly input into this device from the microphone (3), so by performing a predetermined operation, the microphone (3) is connected to the voice recognition unit by the input switching unit (4). Connect (1).

また、マイク(3)より入力している音声を録音再生装
置(2)に記録しておきたいときは、録音再生装置(2
)を本体に接続し、入力切り換え部(4)をマイク(3
)の出力と録音再生装置(2)の録音端子とを接続する
Also, if you want to record the audio input from the microphone (3) on the recording/playback device (2),
) to the main unit, and connect the input switching section (4) to the microphone (3).
) and the recording terminal of the recording/playback device (2).

また同時に、後述の様に無音検出信号が特徴抽出部(1
2)より入力された場合は、文節、または単勝区切りを
示すビーブ音を録音するよう機能する。
At the same time, as described later, the silence detection signal is transmitted to the feature extraction unit (1
2) If it is input, it functions to record a beep sound indicating a phrase or a win break.

音声認識時は、単語認識部(13)と°文節認識部(1
4)が起動している。
During speech recognition, the word recognition unit (13) and phrase recognition unit (1
4) is running.

マイク(3)より入力された音声は、前処理部(11)
で入力音声を音声分析に適した特性になるよう処理を施
され(例えば入力音声の音圧が小さい時は、増幅器によ
り音圧を増幅したりする処理を行なう)、特徴抽出部(
12)に送られる。
The audio input from the microphone (3) is processed by the preprocessing unit (11).
The input audio is processed to have characteristics suitable for audio analysis (for example, when the sound pressure of the input audio is low, the sound pressure is amplified using an amplifier), and the feature extraction unit (
12).

特徴抽出部(12)では、第5図に示す如く、前処理部
(11)より入力されてきた音声を分析部(12m)で
分析し特徴抽出を行ない、パラメータバッファ(12c
 )に記憶する。
In the feature extraction unit (12), as shown in FIG.
).

同時に、特徴抽出部(12)の分析単位判定部(llb
)では、分析部(l1m)の分析結果より、音節または
文節単位に発声されたあとの無音区間、および文節また
は単語単位に発声されたあとに録音されたビーブ音(詳
細は後述のオフライン認識の実施例に示す、)の検出を
行なっており、無音区間を検出した場合、無音区間検出
信号(ロ)を発生する。
At the same time, the analysis unit determination unit (llb) of the feature extraction unit (12)
), based on the analysis results of the analysis unit (l1m), the silent interval after uttering in syllables or phrases, and the beep sound recorded after uttering in phrases or words (details will be explained later in offline recognition). ) shown in the embodiment, and when a silent section is detected, a silent section detection signal (b) is generated.

かかる無音区間検出信号(ロ)を受は取ったパラメータ
バッファ(12c )は、記憶している特徴バタメータ
を単語認識部(13)と文節認識部(14)に送り、記
憶内容を消去する。
The parameter buffer (12c) which receives the silent section detection signal (b) sends the stored feature parameters to the word recognition section (13) and phrase recognition section (14), and erases the stored contents.

単語認識部(13)に入力された特徴パラメータは、第
6図に示されたパラメータバッファ(13m)に記憶さ
れる。単語判定部(13b)では、パラメータバッファ
(13a)に記憶された特徴パラメータと@語標準パタ
ーンメモリ(13c)とを比較し、パラメータバッファ
(13a)に記憶された特徴パラメータと、尤度の大き
い単語標準パターンをもつ単語を、単語辞書(13d)
より複数語選び、選ばれた単語の文字列とその尤度値を
候補作成部(15)に送る。
The feature parameters input to the word recognition section (13) are stored in the parameter buffer (13m) shown in FIG. The word determination unit (13b) compares the feature parameters stored in the parameter buffer (13a) with the @word standard pattern memory (13c), and selects the feature parameters stored in the parameter buffer (13a) and those with a large likelihood. Words with word standard patterns are added to the word dictionary (13d).
A plurality of words are selected, and the character strings of the selected words and their likelihood values are sent to the candidate creation section (15).

一方、音節認識部(14)に入力された特徴パラメータ
は、パラメータバッファ(14m)に記憶される0文節
認識部(14b)では、パラメータバッファ(14a)
に記憶された特徴パラメータと音節標準パターンメモリ
(14d)とを比較し、パラメータバッファ(13a)
に記憶された特徴パラメータを音節列に変換し、かかる
音節列を文節判定部(14c)へ送る0文節判定部(1
4c)では入力された音節列と自立語・付属語辞書(1
4e)に登録されている単語を比較し、自立語と付属語
を組み合わして尤度の大きい文節を複数組み作成し、作
成した文節の文字列とその尤度値を候補作成部(15)
に送る。
On the other hand, the feature parameters input to the syllable recognition unit (14) are stored in the parameter buffer (14m).
The characteristic parameters stored in the syllable standard pattern memory (14d) are compared, and the characteristic parameters stored in the parameter buffer (13a) are compared.
A phrase determination unit (14c) converts the feature parameters stored in
In 4c), the input syllable string and the independent word/adjunct word dictionary (1
Compare the words registered in 4e), combine independent words and attached words to create multiple sets of phrases with a high likelihood, and send the character strings of the created phrases and their likelihood values to the candidate creation unit (15).
send to

候補選択部(15)は入力された文字列から尤度の大き
いものを複数個選び、尤度値と単語認識部(13)から
送られてきたデータか文節認識部(14)から送られて
きたデータかを示すフードを付加し記憶する。同時に、
尤度の最も大きいものの文字列を、表示装置に表示させ
る信号を制御部(5)に送る。制御部(5)は、この信
号を受は尤度の最も大きいものの文字列の後に区切り記
号マーク「1゜をつけ、例えば第9図(a)の入力文章
に対して第9図(b)に示すような形式で表示装置に表
示させる。同時に候補選択部(15)は制御部(5)に
、候補選択部(15)に記憶された内容を記憶装置(8
)に記憶させる信号を送る。制御部(5)はこの信号を
受け、候補選択部(15)に記憶された文字列の後に区
切り記号を表わすコードを付加した形で記憶装置(8)
に記憶させる。この外部記憶装置に記憶された文字列は
、ワープロの一次原稿とするため、一般的にはフロッピ
ーディスクドライブを用いるが、このとき記憶装置(8
)のファイルのフォー°ンットはワープロのファイルフ
ォーマットに合わせておく。
The candidate selection section (15) selects a plurality of strings with a high likelihood from the input character strings, and selects the likelihood value and the data sent from the word recognition section (13) or the phrase recognition section (14). Add a hood to indicate the data that has been added and store it. at the same time,
A signal is sent to the control unit (5) to display the character string with the greatest likelihood on the display device. When the control unit (5) receives this signal, it adds a delimiter mark "1°" after the character string with the greatest likelihood, so that, for example, the input sentence in FIG. 9(a) is changed to the one in FIG. 9(b). At the same time, the candidate selection section (15) causes the control section (5) to display the content stored in the candidate selection section (15) on the storage device (8).
) sends a signal to be stored. The control unit (5) receives this signal and stores the character string stored in the candidate selection unit (15) in the storage device (8) with a code representing a delimiter added after the character string.
to be memorized. Since the character strings stored in this external storage device are used as the primary manuscript in a word processor, a floppy disk drive is generally used;
) files should match the file format of the word processor.

また、この無音区間検出信号をうけとった第8図に示す
入力切り換え部(4〉の信号発生部(42)は、文章の
文節または単語の区切りを表わすビーブ音を発生し、か
かるビーブ音をスイッチ(41)に入力する。スイッチ
(41)は、マイク(3)から入力される音声と、信号
発生部(42)より入力されるビーブ音を、録音再生装
置(2)に録音するよう、回路を接続し、録音再生装置
(2)に録音されている文章の文節または単語の区切り
と見なされた無音区間にビーブ音を録音する。
Further, the signal generating section (42) of the input switching section (4) shown in FIG. (41).The switch (41) controls the circuit so that the audio input from the microphone (3) and the beep sound input from the signal generator (42) are recorded in the recording/playback device (2). is connected to the recording and reproducing device (2), and a beep sound is recorded in the silent section considered to be a break between phrases or words of the recorded sentence.

次ぎに、オフライン認識の実施例について述べる。Next, an example of offline recognition will be described.

オフライン認識の場合は、本装置に録音再生装置(2)
の録音音声を再生入力することにより文章作成を行なう
ものであるため、まず録音再生装置(2)に文章を録音
する。
For offline recognition, this device is equipped with a recording/playback device (2).
Since the text is created by inputting and reproducing the recorded voice, the text is first recorded on the recording/playback device (2).

また、録音再生装置(2)より音声入力を行なうため、
入力切り換え部(4)により、録音再生装置(2)と音
声認識部(1)を接続する。
In addition, in order to input audio from the recording and playback device (2),
The input switching section (4) connects the recording/reproducing device (2) and the speech recognition section (1).

文章録音時は、文節単位または、*g単位に発声し、文
節および単語間に無音区間を作る。また、第1図に示す
如き本装置専用の録音再生装置t(2)を使用する場合
は、文節および単語の区切りを明確にするため、区切り
を示すビーブ音を、録音再生装置(2)または本ディク
チ−ティングマシン本体に設定されている区切りキー(
71)を押し録音する。
When recording sentences, vocalize in phrase units or *g units to create silent intervals between phrases and words. In addition, when using a recording/playback device t(2) dedicated to this device as shown in Fig. 1, in order to clearly mark the divisions between phrases and words, the recording/playback device (2) or The separator key (
71) to record.

また、単語登録をした単語は、単aS、位に発声をおこ
なうが、録音再生装置(2)がキャラクタ−音発生機能
を持ち、かつ入力したい単語に相当するキャラクタ−を
もっていれば、音声の替わりにそのキャラクタ−音を録
音してもよい。
In addition, the registered word will be uttered in a single aS, but if the recording/playback device (2) has a character sound generation function and has a character corresponding to the word you want to input, the voice will be uttered instead. You may also record the character sounds.

また、文章単位の頭だしゃ文章と文章の間に録音された
ノイズを音声と誤り認識してしまうことを避けるために
文章の始まりと終わりを示す信号を音声と共に録音して
おく。
In addition, signals indicating the beginning and end of a sentence are recorded together with the voice in order to prevent noise recorded between sentences at the beginning of each sentence from being mistakenly recognized as voice.

ただし、この信号の録音方法は、録音再生装置(2)が
マルチトラック方式か否かにより音声登録のところで述
べたように変わる。第11図はマルチトラック方式およ
びシングルトラック方式で音声帯域外の音を音声と共に
録音する方式の場合の図である。第12図はシングルト
ラック方式で音声帯域外のDTME信号等の音を文章の
始まる前に鎌訃し、文章が終了したときに再び録音し、
この両信号の間に文章が録音されているとみなす方法で
ある。
However, the method of recording this signal changes depending on whether the recording/reproducing device (2) is a multi-track system or not, as described in the audio registration section. FIG. 11 is a diagram of a multi-track system and a single-track system in which sounds outside the audio band are recorded together with audio. Figure 12 shows a single-track system in which sounds such as DTME signals outside the audio band are recorded before the beginning of a sentence, and then recorded again when the sentence ends.
This method assumes that a sentence is recorded between these two signals.

また文章を認識するときは、信号の録音移れている前後
t4およびt5の区間をサンプリングし、音声か否かを
判定するため必ずしも文章の始まりと信号の始まり、お
よび文章の終わりと信号の終わりが一致している必要は
ない、このため、文章を発声するタイミングとキーを押
す夕・Cミングが少々ずれても認識可能である。
In addition, when recognizing a sentence, the sections t4 and t5 before and after the recording of the signal are sampled, and in order to determine whether or not it is voice, the beginning of the sentence and the beginning of the signal, and the end of the sentence and the end of the signal are not necessarily the same. It is not necessary that they match; therefore, recognition is possible even if the timing at which the sentence is uttered and the timing at which the key is pressed are slightly different.

次に、録音再生装置(2)を本装置の本体と接続し録音
音声を再生し認識処理を行なうが、この録音音声を認識
させる前に認識速度のモードを、録音音声の再生速度を
速くして、認識時間短縮を行なう早聞き認識のモー#0
か、通常の再生速度で認識きせるモードか、時間的に余
裕があり、高認識率を必要とするときは、二度再生認識
モードのいずれかのモードに設定しておく。
Next, the recording/playback device (2) is connected to the main body of this device and the recorded voice is played back to perform recognition processing, but before recognizing this recorded voice, the recognition speed mode is set to a high playback speed of the recorded voice. Fast recognition mode #0 that shortens recognition time.
If you have time and require a high recognition rate, set the recognition mode to the double playback recognition mode.

まず早聞き認識モードの実施例を記す。First, an example of the fast listening recognition mode will be described.

早聞き認識モードでは、録音音声の再生速度を速くして
いるため、入力音声の特性が、通常の再生速度で再生さ
れた登録音声より作成した、標準パターンとは特性が違
っており、単に再生速度を速くした音声を入力しても、
正確に音声認識を行なえない。
In fast listening recognition mode, the playback speed of the recorded audio is increased, so the characteristics of the input audio are different from the standard pattern created from the registered audio played back at the normal playback speed. Even if you input speeded up audio,
Speech recognition cannot be performed accurately.

そこで、再生速度を速くした音声を正確に認識するため
、サンプリング周波数を変更する。以下に、かかる方法
の、実施例を記す。
Therefore, in order to accurately recognize audio that has been played back at a faster speed, the sampling frequency is changed. Examples of such methods are described below.

第5図の特徴抽出部(12)のサンプリング周波数制御
部(12d)は、特徴抽出部(12)の入力音声のサン
プリング周波数を音声の標準パターンを作成したときの
サンプリング周波数のく再生速度/録音速度)倍に設定
し、音声をサンプリングし分析する。特徴抽出部(12
)以降の処理は才〉ライン認識時の実施例と同様、ただ
し、録音再生装置(2)の録音文章に、文節および単語
の区切りを明確にするための区切りを示すビーブ音を録
音済みの文章を人力し、特徴抽出部(12)がかかるビ
ーブaを検出したとき、特徴抽出部り12)は無音区間
検出信号(ロ)の代わりに、ビーブ音検出信号(口l)
を発生する。受信信号が、無音区間検出13号(ロ)で
なく、ビーブ音検出信号(口゛)の場合、入力切り換え
部(4)の信号発生部(42)は、文章の文節または単
語の区切りを表わすビーブ音の発生は行なわない。
The sampling frequency control unit (12d) of the feature extraction unit (12) in FIG. speed) to sample and analyze the audio. Feature extraction part (12
) The subsequent processing is the same as in the example for line recognition, except that the recording and playback device (2) adds a beep sound to indicate the break to clarify the break between phrases and words. When the feature extraction unit (12) detects the beep a, the feature extraction unit 12) generates the beep sound detection signal (mouth l) instead of the silent section detection signal (b).
occurs. When the received signal is not a silent section detection No. 13 (b) but a beep sound detection signal (mouth), the signal generating section (42) of the input switching section (4) detects the break between clauses or words of the sentence. No beep sound is generated.

また、音声r2識部(1)が、単語を示すキャラクタ−
音を認識した場合は、かかるキャラクタ−音に対応した
単語を認識結果として出力する。
In addition, the voice r2 recognition section (1) displays a character indicating a word.
When a sound is recognized, a word corresponding to the character-sound is output as a recognition result.

次に二度再生認識モードの実施例を記す。Next, an example of the twice playback recognition mode will be described.

本モードは、まず録f1#声を再生し本装置に入力する
。このとき音声認識部(1)の前処理部(11)で録音
音声の音圧変動を全て読みとり、このデータを第4図に
示す背圧変動記憶メモリ(llb)に記憶する0次ぎに
、再び録音音声を再生し本装置に入力する。このとき前
処理部<11)では、音圧変動記憶メモリ(llb)に
記憶されたデータを使用し、特徴抽出部(12)への入
力音圧を第18図に示す如く、音声認識に最も適したレ
ベルにあわせるよう、AGC回路(lla)の増幅重要
調整する!即ち、利得Gを固定利得Aに制御電圧Va(
可変調整される)を乗したものとする。
In this mode, the recorded f1# voice is first played back and input to the device. At this time, the preprocessing section (11) of the speech recognition section (1) reads all the sound pressure fluctuations of the recorded voice, and stores this data in the back pressure fluctuation storage memory (llb) shown in FIG. Play the recorded audio and input it to this device. At this time, the preprocessing unit <11) uses the data stored in the sound pressure fluctuation memory (llb) to determine the input sound pressure to the feature extraction unit (12) as shown in FIG. Importantly adjust the amplification of the AGC circuit (lla) to match the appropriate level! That is, the gain G is set to a fixed gain A by the control voltage Va(
(variably adjusted).

また、二度再生認識モードの別の実施例として、多数回
再生認識モードも考えられる。これは、録音文章を多数
回再生人力し、入力のつど、音声認識部(1)における
認識方法を変更することによって認識された結果を比較
し、最も確からしさの尤度の大きいものを、選択する方
法である。
Further, as another example of the twice playback recognition mode, a multiple playback recognition mode can also be considered. This involves manually replaying a recorded sentence many times, changing the recognition method in the speech recognition unit (1) each time, comparing the recognition results, and selecting the one with the greatest likelihood of certainty. This is the way to do it.

また、録音再生装置(2)に登録用音声を録音しておら
ず、かつ録音再生装置(2)によっては再生速度を速く
した場合の周波数特性と通常の再生速度の場合の周波数
特性が違うものを使用するとき、または音声の標準パタ
ーン作成に使用した録音再生装置(2)と違う周波数特
性をもつ録音再生装置(2)に録音した文章を認識させ
るとき、またはき声の標準パターン作成に使用したQ音
再生装置I(2)と規格上は同じ周波数特性を有するが
使用部品等の誤差の影響をうけ実際の周波数特性が音声
の標準パターン作成に使用した録音再生装置(2)と違
っているDt再生装置(2)に録音した文章を認識させ
るときは、以下に述べる周波数特性の影響を補正する機
能を使用する。
In addition, if the recording/playback device (2) does not record the audio for registration, and depending on the recording/playback device (2), the frequency characteristics when the playback speed is increased are different from those when the playback speed is normal. or to recognize sentences recorded on a recording/playback device (2) that has different frequency characteristics from the recording/playback device (2) used to create a standard voice pattern, or to create a standard voice pattern. It has the same frequency characteristics according to the standard as the Q sound reproduction device I (2), but due to the influence of errors in the parts used, the actual frequency characteristics are different from the recording and reproduction device (2) used to create the standard audio pattern. When the recorded text is recognized by the Dt playback device (2), the following function for correcting the influence of frequency characteristics is used.

まず、録音再生装置(2)の周波数特性を測定する場合
の基準となる基準正弦波信号を基準信号発生部(42)
で発生させ、録音再生装置(2)に録音する。しかる後
に録音されたかかる基準正弦波信号を本装置に再生人力
する。入力された基準正弦波13号を音声認識部(1)
は分析し、録音された基準正弦波信号と、基準信号発生
部(42)で発生させた基準正弦波信号との周波数特性
の差を求め、録音された基準正弦波信号と、基準信号発
生部(42)で発生させた基準正弦波信号との周波数特
性の差を小さくするように、補正をかける。補正をかけ
る手段は、音声認識部(1)の特徴抽出部(12)の特
徴抽出方法により、多数考えられる6例えば第13図に
示したように、直列接続されたバンドパスフィルタ(B
PF)と増巾II(AMP)との並列接続体からなるア
ナログフィルターバンク方式とするものであれば、増幅
器(A M P )の増幅率を調整することにより、基
準信号発生部(42)で発生させた基準正弦波信号との
周波数特性の差を小さくするようにフィルタからの出力
をu41!する。また、特徴抽出部(12)の特徴抽出
方法として、ディジタルフィルターをもちいていれば、
ディジタルフィルターの特性を決めているパラメータを
変更すればよい、その他、音声認識部(1)の特徴抽出
部(12)の特徴抽出方法に対応して、あらゆる方法が
考えられる。
First, a reference sine wave signal, which is a reference when measuring the frequency characteristics of the recording/playback device (2), is generated by the reference signal generator (42).
and record it on the recording/playback device (2). Thereafter, the recorded reference sine wave signal is manually reproduced into the apparatus. The input reference sine wave No. 13 is sent to the voice recognition unit (1).
analyzes and determines the difference in frequency characteristics between the recorded reference sine wave signal and the reference sine wave signal generated by the reference signal generator (42), and compares the recorded reference sine wave signal with the reference signal generator (42). Correction is applied to reduce the difference in frequency characteristics from the reference sine wave signal generated in (42). There are many ways to apply the correction, depending on the feature extraction method of the feature extraction unit (12) of the speech recognition unit (1)6. For example, as shown in FIG.
If an analog filter bank system is used, which consists of a parallel connection of an amplifier (PF) and an amplifier II (AMP), the reference signal generator (42) can be The output from the filter is u41! so as to reduce the difference in frequency characteristics from the generated reference sine wave signal. do. Also, if a digital filter is used as the feature extraction method of the feature extraction section (12),
In addition to changing the parameters that determine the characteristics of the digital filter, any other method can be considered depending on the feature extraction method of the feature extraction section (12) of the speech recognition section (1).

前記までの操作により、音声入力した文章ほかな列に変
換された事となる。このかな列変換された文章が入力し
た文章と違っている場合の修正方法を第14図を使用し
それぞれの誤りかたに場合分けして以下に述べる。以下
の手順により修正を行なう。
By the above operations, the voice input text has been converted into a string other than the text. A correction method when the kana string-converted text differs from the input text will be described below, using FIG. 14 and classifying each case into error. Correct it using the following steps.

第14図(a)は入力文章、同図(、b)は入力音声、
同図(c)は認識結果、同図(d)〜(h)は修正過程
、同図(1)は修正結果を表わしている。
Figure 14 (a) is the input text, Figure 14 (b) is the input voice,
FIG. 4(c) shows the recognition result, FIG. 2(d) to (h) show the correction process, and FIG. 11(1) shows the correction result.

まず、単語として発声したものが文節として誤i:2a
11された場合の修正法について述べる。同図(C)に
示したように単語′C″として発声したものが、文節1
し−”として認識された場合、先ずカーソル(X)を誤
った単語の部分・\移動する[同図(d)il、  次
ぎに単語次候補キー(72)を押し単語の次候補を表示
きせる[同図(d)il、  この結果が正しければ次
の修正部分へ進む、もしこの結果が誤っていれば、再び
単語次候補キー(72)を押し単語の次候補を表示させ
る。この操作を正解が表示されるまで繰り返す。
First, what was uttered as a word was incorrectly uttered as a phrase i:2a
11, the correction method will be described below. As shown in Figure (C), the word ``C'' uttered is phrase 1.
If the cursor (X) is recognized as ``,'', first move the cursor (X) to the part of the incorrect word [Figure (d) il, then press the word next candidate key (72) to display the next candidate for the word. [Figure (d) il. If this result is correct, proceed to the next correction part. If this result is incorrect, press the word next candidate key (72) again to display the next word candidate. Repeat until the correct answer is displayed.

次ぎに、文節として発声したものが単語として誤認識さ
れた場合の修正法について述べる一、ul!二と”とし
て発声したものが、単語“E”として認識された場合、
先ずカーソル(X)を誤った文節の部分・\移動する0
次ぎに文節次候補キー(73)を押し文節の次候補を表
示させる。この結果が正しければ次の修正部分へ進む。
Next, we will discuss how to correct when something uttered as a phrase is misrecognized as a word. If the word uttered as “Two and” is recognized as the word “E”,
First, move the cursor (X) to the incorrect clause/\0
Next, press the phrase next candidate key (73) to display the next phrase candidate. If this result is correct, proceed to the next modification section.

もしこの結果が誤っていれば、文節次候補キー(73)
を押し文節の次候補を表示させる。この操作を正解が表
示されるまで繰り返す。
If this result is incorrect, the phrase next candidate key (73)
Press to display the next phrase option. Repeat this operation until the correct answer is displayed.

単語前候補キーク74)を押すことにより単語、文節前
候補キー(75)を押すことにより文節、それぞれの一
つ前の候補を表示させることも出来る。
It is also possible to display the previous candidate for a word by pressing the pre-word candidate key 74), and the previous candidate for each phrase by pressing the pre-phrase candidate key (75).

上述の2通りの修正法で正解が得られないときは音節単
位の修正や、単語または文節または音節を再発声入力す
る。
If the correct answer cannot be obtained using the above two correction methods, correction may be performed in units of syllables, or words, phrases, or syllables may be re-inputted.

また、再発声入力時に再び、文節を単語認識したり、単
語を文節認識したりすることを避けるため、候補作成部
(15)を、単語認識部(13)より送られてきた認識
結果のみを認識結果としてみなし、文節認識部(14)
より送られてきた認識結果は、無視するよう外部より制
御できる。
In addition, in order to avoid recognizing phrases as words or recognizing words as phrases again during re-voice input, the candidate generation section (15) is configured to only recognize the recognition results sent from the word recognition section (13). As a recognition result, phrase recognition unit (14)
The recognition results sent from the computer can be controlled from the outside to be ignored.

また、候補作成部(15)を、文節認識部(14)より
送られてきた認識結果のみを認識結果としてみなし、単
語認識部(13)より送られてきた認識結果は、無視す
るよう外部より制御できる。
In addition, the candidate generation unit (15) is configured to receive an external signal so that only the recognition results sent from the phrase recognition unit (14) are regarded as recognition results, and the recognition results sent from the word recognition unit (13) are ignored. Can be controlled.

上述の次候補キーとは、以下に述べる機能を有するキー
の事であり、第15図を使用し説明する。
The above-mentioned next candidate key is a key having the function described below, and will be explained using FIG. 15.

本装置の音声認識部(1)では、単語認識と文節認識が
並走しており、単語および文節の両認識結果を求めてい
ることは先に述べたが、この両認識結果より、文節認識
処理の結果を尤度の大きいものから順番に認識結果を表
示装置(6)に表示させるためのキーが文節次候補キー
(73)であり、単語認識処理の結果を尤度の大きいも
のから順番に認識結果を表示装置に表示させるためのキ
ーが単語次候補キー(72)であり、現在表示装置に表
示きれている認識結果より、一つ尤度の大きい認識結果
を表示装置(6)に表示するキーが、単語前候補キーお
よび文節前候補キーである。
In the speech recognition unit (1) of this device, word recognition and phrase recognition run in parallel, and as mentioned above, both word and phrase recognition results are obtained. The phrase next candidate key (73) is the key for displaying the recognition results on the display device (6) in order from the highest likelihood to the recognition result, and displays the recognition results in the order from highest to lowest likelihood. The key to display the recognition result on the display device is the word next candidate key (72), which displays the recognition result with one higher likelihood on the display device (6) than the recognition results currently displayed on the display device. The keys to be displayed are the pre-word candidate key and the pre-phrase candidate key.

第15図は候補作成部(15)の候補バッファ(15m
>である、この図は、−位の認識結果が、′たんご」で
あり、これは−a語認識部(13)から送られてきた認
識結果であることを(単語)で表わしている。同様に三
位の認識結果がl、rたんごを」であり、これは文節認
識部(14)から送られてきた認識結果であることを(
文節)で表わし、三位の認識結果が、「たんごに」であ
り、これは文節認識部(14)から送られてきた認識結
果であることを(文節)で表わし、四位の認識結果が、
「たんこう」であり、これは単語認識部(13)から送
られてきた認識結果であることを(組1で表わしている
FIG. 15 shows the candidate buffer (15 m
In this figure, the recognition result for the - position is 'tango', which is the recognition result sent from the -a word recognition unit (13), which is represented by a (word). . Similarly, the recognition result for the third place is "l, r tango", and this is the recognition result sent from the phrase recognition unit (14).
The recognition result of the third place is "Tangoni", and this is the recognition result sent from the phrase recognition unit (14). but,
``Tanko'' and this is the recognition result sent from the word recognition unit (13) (represented by set 1).

いま、表示装置(6)には、「たんご」が表示されてい
るとする。かかる状態で文節次候補キー(73)を押す
と表示装置(6)にはrたんごを、が表示される。また
、単語次候補キー(72)を押すと表示装置(6)には
「たんこう、が表示される。
Assume that "tango" is currently displayed on the display device (6). In this state, when the phrase next candidate key (73) is pressed, r tango is displayed on the display device (6). Further, when the next word candidate key (72) is pressed, "Tanko" is displayed on the display device (6).

また、表示装置(6)には、「たんこう、が表示されて
いる場合に、単語前候補キー(74)を押すと表示装置
く6)には「たんご」が表示され、文節次候補キー(7
3)を押すと表示装置(6)には「たんごに」が表示き
れる。
In addition, when ``tango'' is displayed on the display device (6), if you press the pre-word candidate key (74), ``tango'' will be displayed on the display device 6), and the phrase next candidate will be displayed. key (7
3) When the button is pressed, "Tangoni" is displayed completely on the display device (6).

次ぎに一文節全体の一括修正方法について述べる。Next, we will discuss how to modify an entire passage at once.

第14図(e)の例は単語r 7 、をr A 、と誤
認識した例である。先ずカーソルを修正したい単語へ移
動する[同図(e)il。
The example in FIG. 14(e) is an example in which the word r 7 is incorrectly recognized as r A . First, move the cursor to the word you want to correct [FIG. 4(e) il.

次に単語次候補キー(72)を押し単語の次候補を表示
させる[同1!J(e)il、この結果が正しければ次
の修正部分へ進む、もしこの結果が誤っていれば、単語
次候補キー(72)を押し単語の次候補を表示させる。
Next, press the word next candidate key (72) to display the next word candidate [Same 1! J(e)il, if this result is correct, proceed to the next corrected part; if this result is incorrect, press the word next candidate key (72) to display the next word candidate.

この操作を正解が表示されるまで繰り返す、正解が表示
され無ければ、再発声を行ない、再入力をおこなう、前
単語候補キー(74)を押すことにより一つ前に表示し
た単語の候補を表示させることも出来る。
Repeat this operation until the correct answer is displayed. If the correct answer is not displayed, re-speak and re-enter. Press the previous word candidate key (74) to display the candidate for the previous word displayed. You can also do it.

次ぎに一単語全体の一括修正方法について述べる。Next, we will discuss how to correct an entire word at once.

第14図(f)の例は文節「がめんのjを「がいねんの
」と誤認識した例である。先ずカーソルを修正したい文
節へ移動する[同図(r)il。
The example in FIG. 14(f) is an example in which the phrase ``j'' of ``gamen'' is incorrectly recognized as ``gainen no''. First, move the cursor to the phrase you want to modify [Figure (r) il.

次ぎに文節次候補キー(73)を押し文節の次候補を表
示させる[同1IC(r)il、この結果が正しければ
次の修正部分へ進む、もしこの結果が誤っていれば、文
節次候補キー(73)を押し文節の次候補を表示きせる
。この操作を°正解が表示される亥で繰り返す、正解が
表示され無ければ、再発声を行ない、再入力をおこなう
、前文節候補キー(75)を押すことにより一つ前に表
示した文節の候補を表示させることも出来る。
Next, press the phrase next candidate key (73) to display the next phrase candidate [same IC(r)il, if this result is correct, proceed to the next correction part, if this result is wrong, proceed to the next phrase candidate. Press the key (73) to display the next candidate for the phrase. Repeat this operation until the correct answer is displayed. If the correct answer is not displayed, re-speak and re-enter. Press the previous clause candidate key (75) to select the previously displayed clause. can also be displayed.

次ぎに音節単位の修正方法について述べる。Next, a method for correcting syllables will be described.

第14図(h)の例は文節「おんせいで」をrおんけい
で」と誤認識した例である。この例は音節「け」を1せ
」に修正する場合であるが、先ずカーソル(X)を修正
したい音節「け、へ移動し[同図(h)il、音節状候
補キー(76)を押す、音節次候補キー(76)を押す
ことにより修正したい部分の音節と最も距離が近い音節
が表示される[同図(h)il、正解が表示されれば、
次の修正部分へ移動する。もしこの結果が誤っていれば
、再度音節次候補キーを押し音節の次候補を表示させる
The example in FIG. 14(h) is an example in which the phrase ``Onseide'' is incorrectly recognized as ``Onseide''. In this example, the syllable ``ke'' is to be corrected to ``1''. First, move the cursor (X) to the syllable ``ke'' that you want to correct, then press the il, syllable candidate key (76) in (h) By pressing the syllable next candidate key (76), the syllable closest to the syllable of the part you want to correct will be displayed.
Move to the next modified part. If this result is incorrect, press the syllable next candidate key again to display the next syllable candidate.

この操作を正解が表示されるまで繰り返す、正解が表示
され無ければ、再発声により再入力を行なう、再入力の
結果が間違っている時は上記の手順により再び修正する
。この操作を正解が表示されるまで繰り返す。
Repeat this operation until the correct answer is displayed. If the correct answer is not displayed, re-enter by speaking again. If the result of re-input is wrong, correct it again using the above procedure. Repeat this operation until the correct answer is displayed.

また前単語候補キーク77)を押すことにより音節の一
つ前の候補を表示させることも出来る。
Also, by pressing the previous word candidate key 77), the previous candidate for the syllable can be displayed.

音節を削除したい時[第14図(g)+]は、カーソル
(X)を修正したい音節へ移動し削除キー(78)を押
し削除する[同図(g)il。
When you want to delete a syllable [Fig. 14 (g) +], move the cursor (X) to the syllable you want to modify and press the delete key (78) to delete it [Fig. 14 (g) il].

[i5を挿入したい時は、カーソルを修正したい音節へ
移動し挿入キー(79)を押し挿入する。
[If you want to insert i5, move the cursor to the syllable you want to modify and press the insert key (79) to insert it.

次に第16図を使用し、数音節修正法について記す。Next, using FIG. 16, the several syllable correction method will be described.

この例は、同図(a)の入力文章“かいじょう“を同図
(b)’がんじょう」と誤認識した例である。この場合
、まずカーソル(X)を修正したい音節にもっていき[
同図(C)]、“かい”と再再発大入する。かかる再発
声入力音声は音声認識部(1)で認識され、認識結果は
表示装置(6)に表示される。0識結果が正しければ、
次の修正部へすすむ、もし、同図(d)に示すように、
「かい」を1かえ」と誤認識した場合、単語の場合は、
単語次候補キー(72)を押す0文節の場合は、文節次
候補キー(73)を押す、第16図は単語の場合の例で
あるので、以下*gの修正方法について記す、同図(d
)の状態で、単語次候補キー(72)を押した場合、ま
ず、制御部(5)は、単語辞書(13d)より、修正前
の同図(b)の認識結果rがんじょう」と再発声後の同
図(d)の認識結果rがえじよう」とを比較し、同一部
分「じよう」をみつける0次に、制御部(5)は、単語
辞書(13d)より、かかる同一部分「じよう」をもつ
単語を選ぶ、同図(f)は単11!I辞書(13d)の
記憶内容を示しており、同図(g)は記′憶内容より選
んだ「じよう」をもつ単語を示している0次に制御部(
5)は、同図(g)に記した単語と、再発声後の認識結
果rがえじよう、との光度を計算し、最も尤度値の大き
い単語を表示する[同図(e)]。
In this example, the input sentence "kaijo" shown in FIG. In this case, first move the cursor (X) to the syllable you want to correct [
(C) of the same figure], recursively enters as “kai”. The re-voiced input speech is recognized by the speech recognition section (1), and the recognition result is displayed on the display device (6). If the 0 sense result is correct,
Proceed to the next modification section, if as shown in Figure (d),
If you misrecognize "kai" as "1 change", if it is a word,
Press the word next candidate key (72). If there are 0 phrases, press the phrase next candidate key (73). Since Figure 16 is an example of a word, the method for correcting *g will be described below. d
), when the next word candidate key (72) is pressed, the control unit (5) first selects the recognition result of (b) in the same figure before correction from the word dictionary (13d). The control unit (5) compares the recognition result "r ga egaejiyo" in the same figure (d) after re-voicing and finds the same part "jiyo".Next, the control unit (5) searches the word dictionary (13d) for Choose words that have the same part "jiyo". Figure (f) is single 11! The memory contents of the I dictionary (13d) are shown, and (g) of the same figure shows the zero-order control unit (
5) calculates the luminosity between the word written in (g) of the same figure and the recognition result r ga yō after re-uttering, and displays the word with the largest likelihood value [(e) of the same figure. ].

次に文節または単語の認識境界誤りを修正する場合につ
いて述べる。
Next, we will discuss the case of correcting recognition boundary errors of phrases or words.

第14図(g)の例は文節「ぶんしようを」を「ん」と
1し」の間に[マコ印で示す無音区間があると誤認識し
、IIL語1ぶんjと文節1しようを」というように二
つに分けて誤認識した例でゐる。この場合認識境界誤り
を修正しなければならないが、認識境界区切り記号を削
除したい場合は、削除したい認識境界区切り記号にカー
ソル(X)を移動し[同[1(g)i]、削除キー(7
8)を押す[同図(6)iコ、認識境界区切り記号を挿
入したい場合は挿入したい位置にあるa節にカーソル(
X)を移動し挿入キー(79)を押す。
In the example in Figure 14 (g), it is mistakenly recognized that there is a silent interval indicated by a mako symbol between the phrase ``bun yo wo'' and ``n'' and ``1 shi'', This is an example of a misrecognition that is divided into two parts. In this case, the recognition boundary error must be corrected, but if you want to delete the recognition boundary delimiter, move the cursor (X) to the recognition boundary delimiter you want to delete [1(g)i] and press the delete key ( 7
8) Press [(6) i in the same figure. If you want to insert a recognition boundary delimiter, move the cursor (
X) and press the insert key (79).

ただし、後に述べるように録音再生装置(2)の区切り
ビープ音と、記憶装置(8)に記憶された認識結果に付
加された区切り記号は、録音再生装置(2)と記憶装置
(8)の同期をとるための目印となるので、対応はとっ
ておかなければならない、ゆえに、この時記憶装置(8
)に区切り記号が挿入削除されたことを記憶装置(8)
に記憶しておく。
However, as will be described later, the delimiter beep of the recording/playback device (2) and the delimiter added to the recognition result stored in the storage device (8) are This will serve as a landmark for synchronization, so you must take precautions.
) indicates that a delimiter has been inserted or deleted in the storage device (8).
Remember it.

以との修正手順により、第14図(1)に示すように、
文章を修正する。
By the following correction procedure, as shown in Fig. 14 (1),
Correct the text.

認識境界誤り修正を行なった後認識境界誤り修正を行な
った認識単位について、修正手順に従って修正を加える
。再発声による修正の場合、標準パターンを登録した人
なら誰の音声でも認識できるので文章の録音者でなくと
も修正操作を行なえる。
After the recognition boundary error has been corrected, the recognition unit for which the recognition boundary error has been corrected is corrected according to the correction procedure. In the case of correction by re-voicing, the voice of anyone who has registered the standard pattern can be recognized, so corrections can be made even if one is not the person who recorded the text.

以上、かな列文章の修正方法を述べたが、修正を補助す
るm能として以下に述べる機能を有する。
The method for correcting kana string sentences has been described above, and the following functions are provided to assist in correction.

表示装置(6)に表示された文字列上のカーソル移動と
表示画面のスクロール機能により、記憶装置(8)より
順次記憶文章を表示画面上に表示できるが、この時画面
上に表示されている部分に対応する音声が録音再生装f
(2)から再生される。
By moving the cursor on the character string displayed on the display device (6) and scrolling the display screen, it is possible to sequentially display memorized sentences from the storage device (8) on the display screen, but at this time, the memorized sentences can be displayed on the display screen in sequence. The audio corresponding to the part is recorded by the recording and playback device f
It is played from (2).

また、上述の機能とは逆の機能も有し、録音再生装置(
2)から再生されている部分に対応した文字列が表示装
置(6)に表示きれる。
It also has the opposite function to the above-mentioned function, and has a recording/playback device (
The character string corresponding to the portion being played back from 2) can be displayed on the display device (6).

また、上述のどちらの方法の場合も録音文章に録音され
ている区切り記号前と、表示側に記録きれている区切り
記号を、同期を取るタイミング信号として使用し、録音
再生装置(2)の再生と表示とがお互いに同期をとりな
がら動作するよう制御している。また、キーボード(7
)、または録音再生装置(2)より再生を止める信号が
入力されたとき、再生を止めるとともに、表示のスクロ
ールまたはカーソルの移動を止める。
In addition, in both of the above methods, the time before the delimiter recorded in the recorded text and the delimiter recorded on the display side are used as timing signals for synchronization, and the playback of the recording and playback device (2) is performed. and the display are controlled so that they operate in synchronization with each other. Also, the keyboard (7
), or when a signal to stop the playback is input from the recording/playback device (2), the playback is stopped and the scrolling of the display or the movement of the cursor is also stopped.

以上のO音再生装置(2)の再生と表示との同期機酸に
より、再生音を聞きながら文字列の確認を行なうことが
でき、修正個所の発見を容易にする。
By synchronizing the playback and display of the O sound playback device (2) as described above, character strings can be checked while listening to the playback sound, making it easy to find corrections.

ここで述べている同期のとり方として、再生されている
部分に対応する記憶装置(8)の文字列を表示装置(6
)に表示する方法と、再生きれている部分に対応する部
分より区切り記号一つ遅れた部分のかな列を表示装置(
6)に表示する方法とがある。
As for the method of synchronization described here, the character string in the storage device (8) corresponding to the part being played back is transferred to the display device (6).
), and the display device (
6) is a display method.

この場合、修正のため表示を停止したときには既に録音
音声の修正部分は再生されているため再度修正部分を再
生するためには、再生きれた文章より修正したい部分の
頭だしを行なう必要がある。そこで、この方法を採用す
る場合は、表示を停止したとき、自動的に録音再生装置
(2)を一つ前の区切り記号までバックトラックする機
能をもたせる。
In this case, when the display is stopped for correction, the corrected part of the recorded voice has already been played back, so in order to play the corrected part again, it is necessary to locate the beginning of the part to be corrected from the reproduced text. Therefore, when this method is adopted, the recording/reproducing device (2) is provided with a function of automatically backtracking to the previous delimiter when the display is stopped.

また、録音再生装置(2)に、テープレフーダを使用し
た場合、再生部分をモータの回転により制御することと
、テープのたるみなどにより、修正部分に対応した部分
の頭出しが正確に行なえない場合がある。
In addition, when a tape recorder is used as the recording/playback device (2), the playback section is controlled by the rotation of a motor, and due to tape slack, etc., it may not be possible to accurately locate the beginning of the section corresponding to the correction section. be.

このような場合は、入力されてくる音声を、一定時間長
だけPCMfi音やADPCM録音で記憶しておき、入
力された音声を聞き返したい場合は、PCM録音やAD
PCM録音音声を聞き返す機能を付加する。
In such a case, record the input audio for a certain length of time as PCMfi sound or ADPCM recording, and if you want to listen back to the input audio, use PCM recording or ADPCM recording.
Adds a function to listen back to PCM recorded audio.

第17図は上記の、機能の一実施例であり、PCM録音
のデータを記憶しておくPCMデータメモリの図である
0図中の数字01〜05はアドレスを示している。入力
音声は、第14図に記した“わたしわ1てんIt、−1
あ−る1て−1かめんのlぶんしようをlてん1おんせ
いで1しゆうせいした1まる”という、文章である。
FIG. 17 shows an embodiment of the above-mentioned functions, and numbers 01 to 05 in FIG. 0, which is a diagram of a PCM data memory for storing PCM recording data, indicate addresses. The input voice is “I am it, -1” shown in Fig. 14.
It is a sentence that says, ``I made 1 sum of 1 te-1 kamen by 1 yūsei to make 1 whole.''

上記の、音声が入力されたとき、PCMデータメモリ(
DM)には、01番地に最初の無音区間までの音声“わ
たしわ”が記憶される。02番地に2番目の無音区間ま
での音声“てん”が記憶される、05番地に5番目の無
音区間までの音声“て−”が記憶される。このとき、P
CMアドレスポインタ(AP)は、PCMデータメモリ
に記憶されているデータのうち、1番先に記憶されたデ
ータのアドレスを記憶しておく0本例では、01が記憶
される。
When the above audio is input, the PCM data memory (
DM), the voice "Washiwa" up to the first silent section is stored at address 01. The voice "ten" up to the second silent section is stored at address 02, and the voice "te-" up to the fifth silent section is stored at address 05. At this time, P
The CM address pointer (AP) stores the address of the first data stored in the PCM data memory. In this example, 01 is stored.

この段階でPCMデータメモリは一杯になる。At this stage, the PCM data memory is full.

次に、音声が入力されたときは、PCMデータメモリ(
DM)に記憶されているデータのうち、1番先に記憶さ
れたデータのアドレスに、入力された音声を記憶する0
本例では“わたしわ”が記憶されていたアドレス01に
“かめんの”を記憶する。このとき、PCMアドレスポ
インタ(AP)は、PCMデータメモリ(DM)に記憶
されているデータのうち、1番先に記憶されたデータの
アドレスを記憶しておく0本例では、02が記憶される
Next, when audio is input, the PCM data memory (
0 to store the input voice at the address of the data stored first among the data stored in DM).
In this example, "Kamen no" is stored at address 01 where "Washiwa" was stored. At this time, the PCM address pointer (AP) stores the address of the first data stored in the PCM data memory (DM). In this example, 02 is stored. Ru.

この状態で、PCMデータメモリ(DM)の内容を再生
する場合、PCMアドレスポインタ(AP)の指してい
る、アドレスから、再生する0本例では、02,03,
04,05.01の順番に再生していく。
In this state, when reproducing the contents of the PCM data memory (DM), the contents are reproduced from the address pointed to by the PCM address pointer (AP). In this example, 02, 03,
It will be played back in the order of 04 and 05.01.

かかる方法により、何度でも、正確に素早く、音声を聞
き返すことが可能となる。
With this method, it is possible to listen back to the audio accurately and quickly as many times as desired.

また、画面上の認識単位の区切り記号上へカーソル(X
)を移動し録音「声の頭だしキー(70)を押すことに
より、カーソルが示している認識単位に対応した録音再
生装置(2)側の区切り記号青部分を録音文章より捜し
出し、これに続(文章を再生する機能を有する。
Also, move the cursor (X) to the recognition unit delimiter on the screen.
) and press the voice start key (70) to search the recorded text for the blue part of the delimiter on the recording/playback device (2) that corresponds to the recognition unit indicated by the cursor, and then (It has a function to play sentences.

また、認識結果、および修正を終了した文章の確認のた
めには、記憶装置(8)の記憶データを表示装置(6)
に文字列で表示させ、表示画面上に表示された文字列を
目で追い、読まなければならないため、非常に目が疲れ
る。
In addition, in order to confirm the recognition result and the corrected text, the data stored in the storage device (8) can be displayed on the display device (6).
It is very tiring for the eyes because the user has to visually follow and read the string displayed on the display screen.

かかる点に鑑み、本装置は認識結果を記憶させた記憶装
置(8)上の文字列を、音声合成機能により読み上げる
機能をもたせることにより、認識結果、および修正を終
了した文章の確認を音声合成音を聞くことにより行なえ
るようにできる。
In view of this, this device has a function to read out the character strings stored in the storage device (8) in which the recognition results are stored using a voice synthesis function. You can do it by listening to the sound.

この場合も音声合成部(9)と記憶装置(8)と録音再
生装置く2〉と表示装置(6)との同期を取るタイミン
グ信号として、区切り記号を使用する。
In this case as well, the delimiter is used as a timing signal for synchronizing the speech synthesis section (9), the storage device (8), the recording and reproducing device (2), and the display device (6).

つまり、音声合成部(9)が記憶装置(8)より読み上
げている部分に相当する文字列が表示装置(6)に表示
され、同時に録音再生装置(2)より録音部分を頭出し
している。この方法により、音声合成音の読み合わせ機
能により誤りを発見し修正のために音声合成の読み合わ
せ機能を停止させたとき、表示装置(6)の表示も録音
再生装置(2)の録音部分も誤り部分を示しており、即
座に修正を行なうことができる。
In other words, a character string corresponding to the part read out from the storage device (8) by the speech synthesis unit (9) is displayed on the display device (6), and at the same time, the recording part is cued up by the recording/playback device (2). . With this method, when an error is discovered by the voice synthesis function and the voice synthesis function is stopped to correct it, the display on the display device (6) and the recorded portion on the recording and playback device (2) will also show the error. , and corrections can be made immediately.

ここで述べている同期のとり方として、音声合成機能に
より読み上げられている部分に対応する記憶装置のかな
列を表示装置(6)に表示すると同時に、録音再生装置
(2)に録音されている文章より該当1′る音節部分を
再生する方法と、音声合成機能により茂み上げられてい
る部分に対応する部分より、区切り記号一つ遅れた録音
再生装置(2)に録音キれている文章部分再生する方法
とがある。後者の場合、修正のため音声合成を停止した
とき、録音再生装置(2)は修正したい部分より手前で
停止しているため、この状態で再生すれば直ぐに修正部
分の音声を再生できる。前者の場合は修正のため音声合
成を停止したときには既に録音音声の修正部分は再生さ
れているため再度修正部分を再生するためにはバックト
ラックする必要がある。そこで、前者の方法を採用する
場合は表示を停止したとき、自動的に録音再生装R(2
)が一つ前の区切り記号までバックトラックするIl能
をもたせるのが好ましい。
The method of synchronization described here is to display on the display device (6) the kana column of the storage device corresponding to the part being read out by the speech synthesis function, and at the same time display the text being recorded on the recording/playback device (2). A method of playing back the syllable part that corresponds to 1' more, and playing back the part of the sentence that is not recorded on the recording and playback device (2) that is one delimiter later than the part that corresponds to the part that is raised by the speech synthesis function. There is a way to do this. In the latter case, when voice synthesis is stopped for correction, the recording and reproducing device (2) has stopped before the part to be corrected, so if it is played back in this state, the corrected part of the audio can be immediately played back. In the former case, when voice synthesis is stopped for correction, the corrected part of the recorded voice has already been played back, so it is necessary to backtrack in order to play the corrected part again. Therefore, when adopting the former method, when the display is stopped, the recording and playback device R (2
) preferably has the ability to backtrack to the previous delimiter.

(ト) 発明の効果 本発明の音声認識システムは以上に記したように、1度
録音した文章すべてを再生し、全体の録音レベルの変動
を読みとったうえ、このレベルの変動データをもとにA
GCを行なうので、局部的なレベル変動の影響をうけに
<<、大局的なレベル変動を考慮したゲインコントロー
ルが可能となる。従って、音声認識装置への最適な入力
音声音圧が得られ、音声の認識率の向上に寄与する。
(G) Effects of the Invention As described above, the speech recognition system of the present invention plays back all the sentences that have been recorded once, reads the fluctuations in the overall recording level, and then uses the data based on this level fluctuation data. A
Since GC is performed, it is possible to perform gain control that takes global level fluctuations into consideration, rather than being influenced by local level fluctuations. Therefore, the optimum sound pressure of input speech to the speech recognition device can be obtained, contributing to improvement of the speech recognition rate.

、4.  D[iのll#Lな説明 第1図は本発明の一実施例であるディクチ−ティングマ
シンの外観図、第2図はディクチ−ティングマシン構成
図、第3図は音声認識部(1)の構成図、第4図は前処
理部(11)の構成図、第5図は特徴抽出部(12)の
構成図、第6図は単語認識部(13)の構成図、第7図
は文節認識部(14)の構成図、第8図は入力切り換え
部(4)の構成図、第9図は見出し語と録音方式とキャ
ラクタ−音の関係図、第10図はキャラクタ−音の録音
方法と音声区間の関係図、第11図は録音再生装置がマ
ルチトラック方式の場合の録音方法を示す図、第12図
は録音再生装置がシングルトラック方式の場合の録音方
法を示す図、第13図は周波数補正回路例を示す図、第
14図は誤認識時の修正図、第15図は候補作成部(1
5)内の候補バッファ<15a)図、第16図は誤認識
時の数音節修正例を示す図、第17図はPCM録音方法
説明図、第18図はAGC動作の説明図である。
,4. D[i's ll#L Description Figure 1 is an external view of a dictionary-cheating machine that is an embodiment of the present invention, Figure 2 is a configuration diagram of the dictionary-cheating machine, and Figure 3 is a speech recognition unit (1). 4 is a block diagram of the preprocessing section (11), FIG. 5 is a block diagram of the feature extraction section (12), FIG. 6 is a block diagram of the word recognition section (13), and FIG. 7 is a block diagram of the word recognition section (13). Fig. 8 is a block diagram of the phrase recognition unit (14), Fig. 8 is a block diagram of the input switching unit (4), Fig. 9 is a diagram of the relationship between headwords, recording methods, and characters and sounds, and Fig. 10 is a recording of characters and sounds. 11 is a diagram showing the recording method when the recording/playback device is a multi-track system; FIG. 12 is a diagram showing the recording method when the recording/playback device is a single-track system; FIG. 13 is a diagram showing the relationship between the method and the audio section. The figure shows an example of a frequency correction circuit, FIG. 14 is a correction diagram for incorrect recognition, and FIG.
Candidate buffer <15a) in 5), FIG. 16 is a diagram showing an example of correcting several syllables at the time of erroneous recognition, FIG. 17 is an explanatory diagram of the PCM recording method, and FIG. 18 is an explanatory diagram of the AGC operation.

(1)・・・音声認識装置、(2)・・・録音再生装置
、(3)・・・マイク、(6)・・・表示装置、(7)
・・・キーボード、(8)・・・記憶装置、(11)・
・・前処理部、(12)・・・特徴抽出部、(13)・
・・単語認識部、(14)・・・音節認識部、(lla
)・・・可変利得増巾器、(llb)・・・音圧変動メ
モリ。
(1)...Speech recognition device, (2)...Recording/playback device, (3)...Microphone, (6)...Display device, (7)
... Keyboard, (8) ... Storage device, (11).
・・Preprocessing unit, (12) ・・Feature extraction unit, (13)・
...Word recognition unit, (14)...Syllable recognition unit, (lla
)...Variable gain amplifier, (llb)...Sound pressure variation memory.

Claims (1)

【特許請求の範囲】[Claims] (1)音声を録音再生するための録音再生装置と、録音
再生装置より再生された音声の音圧を記憶する記憶装置
と、音声認識装置と、音声音圧の自動利得制御装置とを
備え、音声の音圧を記憶した記憶装置の記憶内容に基づ
き、録音再生装置より再度再生される音声の音圧を音声
認識装置への入力に最適な大きさに調整することを特徴
とした音声認識システム。
(1) Comprising a recording and reproducing device for recording and reproducing audio, a storage device for storing the sound pressure of the audio reproduced by the recording and reproducing device, a speech recognition device, and an automatic gain control device for audio sound pressure, A voice recognition system that adjusts the sound pressure of a voice replayed from a recording/playback device to an optimal level for input to a voice recognition device based on the contents of a storage device that stores the sound pressure of the voice. .
JP62153756A 1987-06-19 1987-06-19 Speech recognition system Expired - Fee Related JP2889573B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62153756A JP2889573B2 (en) 1987-06-19 1987-06-19 Speech recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62153756A JP2889573B2 (en) 1987-06-19 1987-06-19 Speech recognition system

Publications (2)

Publication Number Publication Date
JPS63316900A true JPS63316900A (en) 1988-12-26
JP2889573B2 JP2889573B2 (en) 1999-05-10

Family

ID=15569438

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62153756A Expired - Fee Related JP2889573B2 (en) 1987-06-19 1987-06-19 Speech recognition system

Country Status (1)

Country Link
JP (1) JP2889573B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02247699A (en) * 1989-03-20 1990-10-03 Fujitsu Ltd Voice recognizing device with voice accumulating and regenerating function

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02247699A (en) * 1989-03-20 1990-10-03 Fujitsu Ltd Voice recognizing device with voice accumulating and regenerating function

Also Published As

Publication number Publication date
JP2889573B2 (en) 1999-05-10

Similar Documents

Publication Publication Date Title
JP5313466B2 (en) Technology to display audio content in sync with audio playback
US4969194A (en) Apparatus for drilling pronunciation
US20020010916A1 (en) Apparatus and method for controlling rate of playback of audio data
WO2007055233A1 (en) Speech-to-text system, speech-to-text method, and speech-to-text program
JP2686085B2 (en) Voice recognition system
JPS63316900A (en) Voice recognition system
Fatehchand Machine recognition of spoken words
JP2609874B2 (en) Speech recognition system
JP2547611B2 (en) Writing system
JP2547612B2 (en) Writing system
JP2000206987A (en) Voice recognition device
JP2647872B2 (en) Writing system
JP2647873B2 (en) Writing system
JPH01293428A (en) Sentence preparing system
JPH01161296A (en) Voice recognition system
JP2777366B2 (en) Speech recognition system
JPS63316899A (en) Voice recognition system
JPH01106096A (en) Voice recognition system
JP2001013976A (en) Karaoke device
JPH01106097A (en) Voice recognition system
JPH0554960B2 (en)
JPH01106100A (en) Voice recognition system
JPH01106095A (en) Voice recognition system
JPS63317874A (en) Dictating machine
JPS6315294A (en) Voice analysis system

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees