JPS63121098A - Voice recognition equipment for telephone - Google Patents

Voice recognition equipment for telephone

Info

Publication number
JPS63121098A
JPS63121098A JP61266960A JP26696086A JPS63121098A JP S63121098 A JPS63121098 A JP S63121098A JP 61266960 A JP61266960 A JP 61266960A JP 26696086 A JP26696086 A JP 26696086A JP S63121098 A JPS63121098 A JP S63121098A
Authority
JP
Japan
Prior art keywords
telephone
voice
input
filter
filter coefficients
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61266960A
Other languages
Japanese (ja)
Inventor
正宏 浜田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP61266960A priority Critical patent/JPS63121098A/en
Publication of JPS63121098A publication Critical patent/JPS63121098A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 産業上の利用分野 本発明は電話端末から入力された音声を認識する電話用
音声認識装置に関するものである。
DETAILED DESCRIPTION OF THE INVENTION Field of the Invention The present invention relates to a telephone speech recognition device that recognizes speech input from a telephone terminal.

従来の技術 近年、電話音声を認識するだめの音声認識装置は徐々に
一般にも利用されるようになってきた。
2. Description of the Related Art In recent years, voice recognition devices for recognizing telephone voices have gradually come into general use.

以下図面を参照しながら、従来の電話用音声認識装置に
ついて説明を行う。第2図は従来の電話用音声認識装置
を示すものである。第2図に於て、10および11は各
種の電話端末であり、これらはそれぞれ電話交換機2中
の選択手段3に接続されている。更に選択手段3の出力
は音声照合部4に入力されている。一方標準パターンの
組5の出力も音声照合部4に接続されている。
A conventional telephone voice recognition device will be described below with reference to the drawings. FIG. 2 shows a conventional telephone voice recognition device. In FIG. 2, 10 and 11 are various telephone terminals, each of which is connected to the selection means 3 in the telephone exchange 2. In FIG. Furthermore, the output of the selection means 3 is input to the voice matching section 4. On the other hand, the output of the standard pattern set 5 is also connected to the voice verification section 4.

以上のように構成された電話用音声認識装置に関し、以
下その動作について説明する。
The operation of the telephone voice recognition device configured as described above will be described below.

使用者は電話端末1Qあるいは11から音声を入力し、
これらの音声は電話交換機2に入力される。電話交換機
2中の選択手段3は、どの電話端末から音声入力があっ
たかを判別し、スイッチを制御して認識すべき音声を音
声照合部4へ出力する。一方、標準パターンの組5の中
には、各認識対象音声についての統計的に最適な音声の
分析結果の一組が記憶されており、これらのデータも音
声照合部4へ入力される。音声照合部では前記の2系統
の入力を受け、所定の照合作業を行って認識結果を出力
する。この照合作業には多くの方法が考案されているが
、その大部分は入力音声と標準パターンとの間のスペク
トル的距離の概念に基づくものであり、最も近いスペク
トル距離を与えた漂準パターンの音声を以て、入力音声
の認識結果としている。
The user inputs voice from telephone terminal 1Q or 11,
These voices are input to the telephone exchange 2. A selection means 3 in the telephone exchange 2 determines from which telephone terminal the voice input is received, controls a switch, and outputs the voice to be recognized to the voice matching section 4. On the other hand, in the standard pattern set 5, a set of statistically optimal speech analysis results for each recognition target speech is stored, and these data are also input to the speech matching section 4. The voice verification section receives the above-mentioned two systems of input, performs a predetermined verification process, and outputs a recognition result. Many methods have been devised for this matching task, but most of them are based on the concept of spectral distance between the input speech and the standard pattern, and are based on the drift pattern that gives the closest spectral distance. The voice is used as the recognition result of the input voice.

発明が解決しようとする問題点 しかしながら上記のような構成では、使用者が使用する
電話端末のそれぞれが音響特性的に異なり、互いに異な
ったスペクトルが音声に付与される場合、音声照合部4
で行うスペクトル距離の比較において、電話端末の違い
によるスペクトル距離のために音声そのものの違いによ
るスペクトル距離差が不明確になり、ひいては誤認識を
招くようになるという問題点を有していた。
Problems to be Solved by the Invention However, in the above configuration, when the telephone terminals used by the users have different acoustic characteristics and different spectra are given to the voices, the voice verification unit 4
In the comparison of spectral distances carried out in , there was a problem in that the spectral distances due to differences in telephone terminals made the spectral distance differences due to differences in voice itself unclear, leading to erroneous recognition.

−例として、第3図に市販の3種の電話端末の送話系周
波数特性を示す。第3図(L)はカーボン型マイクロホ
ンを用いた送話系の特性であり、2ないし3KH,にお
ける広い山特性と、300H7における肩特性とが顕著
である。一方、第3図(b)はエレクトレットコンデン
サ型マイクロホンを用いた送話系の特性であり、これに
は第3図(&)に・見られたような顕著な性質は現れて
いない。さらに第3図(C)は同じくエレクトレットコ
ンデンサ型マイクロホンを用いた別の送話系の特性であ
り、これには2ないし3KHzにおける広い山特性のみ
が現れている。以上のように電話端末送話系の周波数特
性は機種によってそれぞれ大きく異なっている。従って
、これらから入力された音声の周波数特注もそれぞれ大
きく異なっている事は容易に想像される。更に、機種の
異なる電話端末から入力されたそれぞれの音声を単一種
類の標準パターンによって照合した場合に、音声自体の
スペクトル距離差が不明確になり誤認識を招くというこ
とも容易に想像されるという問題点を有している。
- As an example, FIG. 3 shows the frequency characteristics of the transmitting system of three types of commercially available telephone terminals. FIG. 3(L) shows the characteristics of a transmission system using a carbon type microphone, and the wide peak characteristics at 2 to 3KH and the shoulder characteristics at 300H7 are noticeable. On the other hand, FIG. 3(b) shows the characteristics of a transmitting system using an electret condenser microphone, and the remarkable characteristics seen in FIG. 3(&) do not appear in this. Furthermore, FIG. 3(C) shows the characteristics of another transmission system using the same electret condenser microphone, and only a wide peak characteristic at 2 to 3 kHz appears. As described above, the frequency characteristics of the transmitting system of telephone terminals vary greatly depending on the model. Therefore, it is easy to imagine that the frequency customization of the audio input from these devices also differs greatly. Furthermore, it is easy to imagine that if voices input from different models of telephone terminals are compared using a single type of standard pattern, the differences in the spectral distances of the voices themselves will become unclear, leading to misrecognition. There is a problem with this.

本発明は上記問題点に鑑み、使用者の使用する電話端末
の音響特性が互いに異なる場合でも良好な音声認識を行
うことのできる電話用音声認識装置を提供するものであ
る。
In view of the above-mentioned problems, the present invention provides a telephone speech recognition device that can perform good speech recognition even when the acoustic characteristics of telephone terminals used by users are different from each other.

問題点を解決するための手段 この目的を達成するために本発明の電話用音声認識装置
け、複数の電話端末と、入力された音声がどの電話端末
からのものであるかを判別し選択する選択手段と、選択
手段の出力をフィルタ処理するフィルタ手段と、標準パ
ターンの組と、前記フィルタ手段に入力すべきフィルタ
係数の複数の徂と、前記複数の電話端末と前記フィルタ
係数の複数の組との間で予め定められた多対一の対応関
係を記り行する対応テーブルと、音声照合部とから構成
されている。
Means for Solving the Problems In order to achieve this objective, the telephone voice recognition device of the present invention identifies and selects a plurality of telephone terminals and which telephone terminal the input voice comes from. a selection means, a filter means for filtering the output of the selection means, a set of standard patterns, a plurality of ranges of filter coefficients to be input to the filter means, a plurality of telephone terminals and a plurality of sets of the filter coefficients; It consists of a correspondence table that records a predetermined many-to-one correspondence between the two, and a voice matching section.

作用 この構成により、認識対象音声が入力された電話端末が
判別され、この電話端末の音響特性に対応したフィルタ
係数の組が一組決定される。ここでフィルタ係数のそれ
ぞれの組には、前記対応テーブルで対応づけられた電話
端末の音響特性に対応したスペクトルが予め付与されて
おり、これてよって電話端末の違いを相殺した良好な音
声認識を行うことが出来る。
Effect: With this configuration, the telephone terminal into which the speech to be recognized is input is determined, and one set of filter coefficients corresponding to the acoustic characteristics of this telephone terminal is determined. Here, each set of filter coefficients is given a spectrum in advance that corresponds to the acoustic characteristics of the telephone terminals associated with it in the correspondence table, thereby achieving good speech recognition that cancels out differences between telephone terminals. It can be done.

実施例 以下本発明の一実施例について1図面を参照しながら説
明する。
EXAMPLE Hereinafter, an example of the present invention will be described with reference to one drawing.

第1図は本発明の一実施例における電話用音声認識装置
を示すものである。第1図に於て10および11は客種
の電話端末であり、これらはそれぞれ回線60および6
1を経て電話交換?A2中の選択手段3に接続されてい
る。さらに選択手段3の出力はフィルタ手段7に加えら
れ、フィルタ手段7の出力は音声照合部4に入力されて
いる。−方選択手段3の選択情報は対応テーブル9に入
力され、対応テーブル9のテーブル索引結果出力はフィ
ルタ係数の複数の組8に入力される。更にフィルタ係数
の複数の組8から選ばれた一組のフィルタ係数はフィル
タ手段7に入力される。また、標準パターンの組5の内
容は音声照合部4に入力されている。
FIG. 1 shows a telephone voice recognition device according to an embodiment of the present invention. In FIG. 1, 10 and 11 are customer telephone terminals, and these are lines 60 and 6, respectively.
Telephone exchange after 1? It is connected to the selection means 3 in A2. Further, the output of the selection means 3 is applied to the filter means 7, and the output of the filter means 7 is inputted to the voice verification section 4. The selection information of the - way selection means 3 is input to a correspondence table 9, and the table index result output of the correspondence table 9 is input to a plurality of sets 8 of filter coefficients. Furthermore, one set of filter coefficients selected from the plurality of sets 8 of filter coefficients is input to the filter means 7. Further, the contents of the standard pattern set 5 are input to the voice matching section 4.

以上のように構成された電話用音声認識装置に関して、
以下その動作について説明する。
Regarding the telephone voice recognition device configured as above,
The operation will be explained below.

使用者は、電話端末1oあるいは11から音声を入力し
、これらの音声は回線60および61を経て電話交換機
2に入力される。電話交換機2中の選択手段3は、どの
回線から音声入力があったかを判別し、スイッチを制御
して認識すべき音声をフィルタ手段7へ出力する。ここ
で説明の便宜上、使用者が音声入力に用いている電話端
末をアクティブ端末、これの接続されている回線をアク
ティブ回線と呼ぶことにする。選択手段3は現在のア名
ティプ回線の回線番号を対応テーブル9に出力する。対
応テーブルはこのアクティブ回線番号を用いて多対一の
テーブルを検索し、アクティブ端末の種別を決定し、さ
らにフィルタ手段7の入力段における音声信号に付与さ
れている前記アクティブ端末の音響特性を相殺するのに
最も適した一組のフィルタ係数を、フィルタ係数の複数
の組6の中から選び出す。選び出された一組のフィルタ
係数はフィルタ手段7に入力され、ここでのフィルタ処
理により前記アクティブ端末の音響特性が相殺された音
声信号が得られる。音声照合部4はこの音声信号と標準
パターンの組5からの出力とを受け、音声照合を行う。
A user inputs voice from the telephone terminal 1o or 11, and these voices are input to the telephone exchange 2 via lines 60 and 61. The selection means 3 in the telephone exchange 2 determines from which line the voice input is received and outputs the voice to be recognized to the filter means 7 by controlling a switch. For convenience of explanation, the telephone terminal used by the user for voice input will be referred to as an active terminal, and the line to which it is connected will be referred to as an active line. The selection means 3 outputs the line number of the current anonymous line to the correspondence table 9. The correspondence table uses this active line number to search a many-to-one table, determines the type of active terminal, and further cancels out the acoustic characteristics of the active terminal imparted to the audio signal at the input stage of the filter means 7. The set of filter coefficients most suitable for The selected set of filter coefficients is input to filter means 7, and filter processing therein yields an audio signal in which the acoustic characteristics of the active terminal are canceled. The voice verification section 4 receives this voice signal and the output from the standard pattern set 5, and performs voice verification.

ところで本発明においては、それぞれの電話端末の音響
特性を相殺するだめのフィルタ係数の組を予め作成して
おかねばならない。−例として、それぞれの種別の電話
端末の送話系インパルス応答を予め測定し、これの逆特
性を近似するディジタルフィルタを構成する方法が挙げ
られる。この方法によって線形系の仮定の下では電話端
末送話系の補正を上記近似の範囲内で完全に行うことが
できる。送話系にエレクトレットコンデンサ型マイクロ
ホンが使用されている場合には、この方法が適している
。一方、カーボン型マイクロホンが使用されている場合
にはこれの持つ非線形性のために、上述のような逆特性
による補正は厳密には成立し得ない。しかし粗い近似と
しては、対象となるカーボン型マイクロホンの代表的周
波数特性を測定し、これに同様の処理を加えることによ
って所期の目的が達せられるものと考えられる。
However, in the present invention, a set of filter coefficients that cancel out the acoustic characteristics of each telephone terminal must be created in advance. - For example, there is a method of measuring the transmitting impulse response of each type of telephone terminal in advance and configuring a digital filter that approximates the inverse characteristics of the impulse response. With this method, under the assumption of a linear system, it is possible to completely correct the transmission system of the telephone terminal within the range of the above approximation. This method is suitable when an electret condenser microphone is used in the transmission system. On the other hand, when a carbon type microphone is used, due to its nonlinearity, the above-mentioned correction based on the inverse characteristic cannot be strictly achieved. However, as a rough approximation, it is considered that the desired objective can be achieved by measuring the typical frequency characteristics of the target carbon microphone and applying similar processing to this.

以上のように太実施例によれば、フィルタ手段7の出力
には使用した電話端末の如何に拘らず、常に電話端末の
特性が相殺された信号が得られ、これにより音声照合部
では良好な音声照合を行うことができる。さらに第1図
中の回線6oあるいは61が特定の相異なる音響特性を
持つ場合にも同様の方法でこの影9を相殺ないしは怪減
することができる。
As described above, according to the embodiment, a signal with the characteristics of the telephone terminal canceled out is always obtained as the output of the filter means 7, regardless of the telephone terminal used. Voice verification can be performed. Furthermore, even if the lines 6o or 61 in FIG. 1 have specific different acoustic characteristics, this shadow 9 can be canceled out or significantly reduced by the same method.

発明の効果 以上のように本発明は、複数の電話端末と、入力された
音声がどの電話端末からのものであるかを判別し選択す
る選択手段と、選択手段の出力をフィルタ処理するフィ
ルタ手段と、標準パターンの組と、前記フィルタ手段に
入力すべきフィルタ係数の複数の組と、前記複数の電話
端末と前記フィルタ係数の複数の組との間で予め定めら
れた多対一の対応関係を記憶する対応テーブルと、音声
照合部とを設けることにより、実際に音声が入力された
電話端末機種の音響特性の違いを相殺した良好な音声認
識を行うことができ、さらに前記選択手段は電話端末と
回線とを一組にして判別・選択するため、回線が特定の
相異なる音♂特性を持つ場合にも同様の方法で良好な音
声認識を行うことが出来る優れた電話用音声認識装置を
実現できるものである。
Effects of the Invention As described above, the present invention provides a plurality of telephone terminals, a selection means for determining and selecting which telephone terminal the input voice comes from, and a filter means for filtering the output of the selection means. and a predetermined many-to-one correspondence relationship between a set of standard patterns, a plurality of sets of filter coefficients to be input to the filter means, and the plurality of telephone terminals and the plurality of sets of filter coefficients. By providing a correspondence table for storing the information and a voice matching section, it is possible to perform good voice recognition that cancels out differences in the acoustic characteristics of the telephone terminal models to which the voice is actually input, and furthermore, the selection means Since the terminal and line are identified and selected as a pair, we have developed an excellent telephone voice recognition device that can perform good voice recognition using the same method even when the line has specific different sound characteristics. This is something that can be achieved.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の一実施例における電話用音声認識装置
のブロック図、第2図は従来の電話用音声認識装置のブ
ロック図、第3図(λ)、(b)、(C)は市販の3皿
の電話端末の送話系周波数特性図である。 IQ、11・・・・・電話端末、2・・・・・・電話交
換機、3・・・・・・選択手段、4・・・・・・音声照
合部、6・・・・・・Q?!gパターンの祖、60.6
1・・・・・・回線、7・・・・・・フィルタ手段、8
・・・・・フィルタ係数の複数の組、9・・・・・・対
応テーブル。 代理人の氏名 弁理士 中 尾 敏 男 ほか1名派 
     リ   − 第2図 第 3 図 (d討 □唄波秩()lzJ (dB+ □思儂物Hυ −mン友?〜(92〕
FIG. 1 is a block diagram of a telephone voice recognition device according to an embodiment of the present invention, FIG. 2 is a block diagram of a conventional telephone voice recognition device, and FIG. 3 (λ), (b), and (C) are It is a frequency characteristic diagram of the transmitting system of three commercially available telephone terminals. IQ, 11...Telephone terminal, 2...Telephone exchange, 3...Selecting means, 4...Voice matching section, 6...Q ? ! The ancestor of the g pattern, 60.6
1... Line, 7... Filter means, 8
...Multiple sets of filter coefficients, 9...Correspondence table. Name of agent: Patent attorney Toshio Nakao and one other person
- Figure 2 Figure 3 (dB+ Utaha Chichi ()lzJ (dB+ □Thinking thing Hυ -m friend? ~ (92)

Claims (1)

【特許請求の範囲】[Claims] 複数の電話端末と、入力された音声がどの電話端末から
のものであるかを判別し選択する選択手段と、選択手段
の出力をフィルタ処理するフィルタ手段と、標準パター
ンの組と、前記フィルタ手段に入力すべきフィルタ係数
の複数の組と、前記複数の電話端末と前記フィルタ係数
の複数の組との間で予め定められた多対一の対応関係を
記憶する対応テーブルと、音声照合部とを具備し、前記
複数の電話端末のうちの何れか一つから入力された認識
対象音声がどの電話端末から入力されたものであるかを
前記選択手段によって判別・選択し、この判別・選択結
果に基づいて前記対応テーブルを参照して対応する一組
のフィルタ係数を前記フィルタ係数の複数の組の中から
選び、選ばれた一組のフィルタ係数を用いて前記フィル
タ手段に入力された音声をフィルタ処理し、この出力と
前記標準パターンの組との間で前記音声照合部によって
照合する事を特徴とする電話用音声認識装置。
a plurality of telephone terminals, a selection means for determining and selecting from which telephone terminal the input voice comes from, a filter means for filtering the output of the selection means, a set of standard patterns, and the filter means. a correspondence table that stores a predetermined many-to-one correspondence relationship between a plurality of sets of filter coefficients to be input into a plurality of telephone terminals and a plurality of sets of filter coefficients; The selection means determines and selects from which telephone terminal the voice to be recognized that is input from any one of the plurality of telephone terminals is input, and the determination and selection result A corresponding set of filter coefficients is selected from the plurality of sets of filter coefficients based on the correspondence table, and the audio input to the filter means is processed using the selected set of filter coefficients. A voice recognition device for a telephone, characterized in that filter processing is performed and the output is compared with the set of standard patterns by the voice matching unit.
JP61266960A 1986-11-10 1986-11-10 Voice recognition equipment for telephone Pending JPS63121098A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61266960A JPS63121098A (en) 1986-11-10 1986-11-10 Voice recognition equipment for telephone

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61266960A JPS63121098A (en) 1986-11-10 1986-11-10 Voice recognition equipment for telephone

Publications (1)

Publication Number Publication Date
JPS63121098A true JPS63121098A (en) 1988-05-25

Family

ID=17438087

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61266960A Pending JPS63121098A (en) 1986-11-10 1986-11-10 Voice recognition equipment for telephone

Country Status (1)

Country Link
JP (1) JPS63121098A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003131683A (en) * 2001-10-22 2003-05-09 Sony Corp Device and method for voice recognition, and program and recording medium
JP2007241304A (en) * 2007-04-20 2007-09-20 Sony Corp Device and method for recognizing voice, and program and recording medium therefor

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS53105303A (en) * 1977-02-25 1978-09-13 Hitachi Ltd Preprocessing system for audio recognition
JPS58198097A (en) * 1982-05-15 1983-11-17 松下電工株式会社 Voice feature extractor

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS53105303A (en) * 1977-02-25 1978-09-13 Hitachi Ltd Preprocessing system for audio recognition
JPS58198097A (en) * 1982-05-15 1983-11-17 松下電工株式会社 Voice feature extractor

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003131683A (en) * 2001-10-22 2003-05-09 Sony Corp Device and method for voice recognition, and program and recording medium
US7321853B2 (en) 2001-10-22 2008-01-22 Sony Corporation Speech recognition apparatus and speech recognition method
JP2007241304A (en) * 2007-04-20 2007-09-20 Sony Corp Device and method for recognizing voice, and program and recording medium therefor

Similar Documents

Publication Publication Date Title
JPS63121098A (en) Voice recognition equipment for telephone
JPS63121097A (en) Voice recognition equipment for telephone
JP3011997B2 (en) Reference vector update method
JPS638798A (en) Voice recognition equipment
JPH05134697A (en) Voice recognizing system
JP2975808B2 (en) Voice recognition device
JPH02305047A (en) Telephone set
JP2002252705A (en) Method and device for detecting talker id
JP2000125397A (en) Speaker identification type digital hearing aid
JPH02230895A (en) Acoustic signal input device
JPS5988799A (en) Voice pattern registration system
JPS6194096A (en) Voice recognition equipment
JPH0648440B2 (en) Speech feature extraction device
CN114596865A (en) Voiceprint recognition method and system based on network fusion
JPS63259599A (en) Voice recognition equipment
JPH03123156A (en) Voice dial equipment
JPS60203997A (en) Speaker shift system for voice recognition equipment
JPS63210897A (en) Voice recognition equipment
JPS6287993A (en) Voice recognition equipment
JPS61105597A (en) Continuous sound recognition equipment
JPS61281300A (en) Voice recognition equipment
JPS63259597A (en) Voice recognition equipment
JPH05313692A (en) Voice recognizing device
JPS61147298A (en) Voice recognition control system
JPS6338999A (en) Voice recognition equipment