JPS62269999A - 音声認識方式 - Google Patents
音声認識方式Info
- Publication number
- JPS62269999A JPS62269999A JP61112724A JP11272486A JPS62269999A JP S62269999 A JPS62269999 A JP S62269999A JP 61112724 A JP61112724 A JP 61112724A JP 11272486 A JP11272486 A JP 11272486A JP S62269999 A JPS62269999 A JP S62269999A
- Authority
- JP
- Japan
- Prior art keywords
- line
- voice
- input
- data
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003321 amplification Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
3、発明の詳細な説明
〔産業上の利用分野〕
本発明は、入力音声を回線を介し認識するに際し、入力
音声をディジタル特徴データの形で音声入力側より回線
を介し伝送することによって、回線の特性などによる影
響を受けることなくその入力音声を認識するようにした
音声認識方式に関するものである。
音声をディジタル特徴データの形で音声入力側より回線
を介し伝送することによって、回線の特性などによる影
響を受けることなくその入力音声を認識するようにした
音声認識方式に関するものである。
これまでの電話回線を用いる音声認識においては、音声
認識装置が電話回線に接続されることから、回線の特性
や電話交換機の特性、送話器の特性などによる影響、特
に周波数帯域や雑音、減衰量等によって音声認識が影響
を受け、認識性能の低下は否めないものとなっている。
認識装置が電話回線に接続されることから、回線の特性
や電話交換機の特性、送話器の特性などによる影響、特
に周波数帯域や雑音、減衰量等によって音声認識が影響
を受け、認識性能の低下は否めないものとなっている。
これらの影響を減少させるべく特開昭58−12360
0号公報に記載されているように、伝送路補正特性が求
められこれにもとづき言語情報が処理されるものとなっ
ている。
0号公報に記載されているように、伝送路補正特性が求
められこれにもとづき言語情報が処理されるものとなっ
ている。
しかしながら、その公報による場合は回線の時間的な特
性変動や回線内雑音、−過性の特性の変動に対しては対
処し得す、安定して認識性能を確保することは困難とな
っている。定常的な回線対応の相違を軽減する対策を採
る場合でも、その処理が複雑であ夛装置が大形化するな
どの不具合を生じるものとなっている。
性変動や回線内雑音、−過性の特性の変動に対しては対
処し得す、安定して認識性能を確保することは困難とな
っている。定常的な回線対応の相違を軽減する対策を採
る場合でも、その処理が複雑であ夛装置が大形化するな
どの不具合を生じるものとなっている。
本発明の目的は、回線の特性などが時間的に変動する場
合であっても、その影響を受けることなくその入力音声
を認識し得る音声認識方式を供するにある。
合であっても、その影響を受けることなくその入力音声
を認識し得る音声認識方式を供するにある。
上記目的は、音声入力側において入力音声の特徴をディ
ジタル的に抽出したうえ回線を介し、音声認識を行なう
受信側に伝送することによって達成される。
ジタル的に抽出したうえ回線を介し、音声認識を行なう
受信側に伝送することによって達成される。
入力音声の特徴抽出が音声入力側で行なわれることから
、音声信号が持つ特徴が回線等の特性による影響を受け
ることなく良好に抽出し得るものである。その特徴デー
タは回線を介し受信側照合部で標準データとその類似性
が判定されるわけであるが、回線上のデータはディジタ
ル量として伝送されることから、回線などの特性が変動
する場合であってもそれに影響されることなく受信側で
は音声の認識を良好に行ない得るものである。
、音声信号が持つ特徴が回線等の特性による影響を受け
ることなく良好に抽出し得るものである。その特徴デー
タは回線を介し受信側照合部で標準データとその類似性
が判定されるわけであるが、回線上のデータはディジタ
ル量として伝送されることから、回線などの特性が変動
する場合であってもそれに影響されることなく受信側で
は音声の認識を良好に行ない得るものである。
以下、本発明を第1図から第4図によ)説明する。
先ず本発明の概要について説明すれば、第1図に示すよ
うに音声入力側においてはマイクロホン1からの入力音
声は特徴抽出部2でその特徴がディジタル的に抽出され
た後、所定のデータ伝送フォーマットで回線インターフ
ェース部3、回線(途中に交換機が介在)4を介し受信
側に伝送されるようになっている。受信側では回線イン
ターフェース部5からの特徴データは照合部7にて標準
データ格納部6からの標準データとの間でその類似性が
評価されるようになっているものである。
うに音声入力側においてはマイクロホン1からの入力音
声は特徴抽出部2でその特徴がディジタル的に抽出され
た後、所定のデータ伝送フォーマットで回線インターフ
ェース部3、回線(途中に交換機が介在)4を介し受信
側に伝送されるようになっている。受信側では回線イン
ターフェース部5からの特徴データは照合部7にて標準
データ格納部6からの標準データとの間でその類似性が
評価されるようになっているものである。
第2図(a)、 (b)はそれら音声入力側、受信側の
構成をよシ詳細に示したものである。第2図(a)に示
すように特徴抽出部2は増幅器(増幅、帯域制限)2c
%A/D変換器(ディジタル変換)2bおよび分析部(
分析、特徴抽出)2cよシ、また、回線インターフェー
ス部3はバックアメモリ3as シフトレジスタ(パ
ラレル−シリアル変換)3bおよびライントライバ3C
よシ構成されたものとなっている。一方、受信側におけ
る回線インターフ”−−ス部5 tri 5インレシー
バ5a1シフトレジスタ(シリアル−パラレル変換>5
bおよび入力バタンメモリ5Cよシ、また、照合部7は
単語マツチング部7aおよび判定部7bよ)構成された
ものとなっている。なお、回線インターフェース部3.
4にはそれぞれ変調機能、復調機能が具備されておシ、
回線4上での特徴データは変調されたものとなっている
。
構成をよシ詳細に示したものである。第2図(a)に示
すように特徴抽出部2は増幅器(増幅、帯域制限)2c
%A/D変換器(ディジタル変換)2bおよび分析部(
分析、特徴抽出)2cよシ、また、回線インターフェー
ス部3はバックアメモリ3as シフトレジスタ(パ
ラレル−シリアル変換)3bおよびライントライバ3C
よシ構成されたものとなっている。一方、受信側におけ
る回線インターフ”−−ス部5 tri 5インレシー
バ5a1シフトレジスタ(シリアル−パラレル変換>5
bおよび入力バタンメモリ5Cよシ、また、照合部7は
単語マツチング部7aおよび判定部7bよ)構成された
ものとなっている。なお、回線インターフェース部3.
4にはそれぞれ変調機能、復調機能が具備されておシ、
回線4上での特徴データは変調されたものとなっている
。
さてs DSP (Digital Signat
Processor )として構成されている分析部
2cでは2PC分析、例えばPARCOR分析〈よ少入
力音声の特徴がPARCOR係数として情報圧縮された
状態で抽出されるようになっている。一般的にLPC分
析によって音声の認識を行なう場合、単位時間を8〜2
0m5として単位時間当シの次数が10、データ精度は
12〜16ヒツト程度、伝送速度は6〜20にビット/
Sとなっている。よシ具体的にPARCOR係数につい
て説明すれば、これは9600ピツ)/s径程度情報量
に圧縮可能であシ、各次数に工〜に10への最適ビット
割当は一般的には以下の表に示すようになっている。
Processor )として構成されている分析部
2cでは2PC分析、例えばPARCOR分析〈よ少入
力音声の特徴がPARCOR係数として情報圧縮された
状態で抽出されるようになっている。一般的にLPC分
析によって音声の認識を行なう場合、単位時間を8〜2
0m5として単位時間当シの次数が10、データ精度は
12〜16ヒツト程度、伝送速度は6〜20にビット/
Sとなっている。よシ具体的にPARCOR係数につい
て説明すれば、これは9600ピツ)/s径程度情報量
に圧縮可能であシ、各次数に工〜に10への最適ビット
割当は一般的には以下の表に示すようになっている。
但し、Aは振幅情報であ)、入力音声の振幅を示すもの
となっている。
となっている。
これら合計絽ビットの他に同期用および誤シ検出用に計
8ビット要されるとして、10m5当シ17レーム伝送
するものとすれば、特徴データとしてのPARCO几係
数は第3図(a、)に示す如くのフォーマットで伝送さ
れ得るものである。次数に1〜によ。
8ビット要されるとして、10m5当シ17レーム伝送
するものとすれば、特徴データとしてのPARCO几係
数は第3図(a、)に示す如くのフォーマットで伝送さ
れ得るものである。次数に1〜によ。
および振幅情報Aは第3図(b)に示すようにして、ま
た、フレームは10m5毎に第3図(C)に示すように
して回線を介し伝送されるわけである。
た、フレームは10m5毎に第3図(C)に示すように
して回線を介し伝送されるわけである。
受信側においては回線からの7レームデータは回線イン
ターフェース部で同期がとられ、誤シがないことを確認
のうえ順次大カバターンメモリに格納されるようになっ
ている。単語マツチングの場合について説明すれば、N
フレーム容量の入力バタンメモリへの7レームデータの
格納フォーマットは第4図に示すようである。入力バタ
ンメモリには最大Nフレー4分のデータが格納可なわけ
であシ、Nフレームが認識し得る最大音声長となってい
る。尤も、単語マツチング部での処理が受信と同時に行
ない得る場合は、入力バタンメモリへの格納は不要であ
る。
ターフェース部で同期がとられ、誤シがないことを確認
のうえ順次大カバターンメモリに格納されるようになっ
ている。単語マツチングの場合について説明すれば、N
フレーム容量の入力バタンメモリへの7レームデータの
格納フォーマットは第4図に示すようである。入力バタ
ンメモリには最大Nフレー4分のデータが格納可なわけ
であシ、Nフレームが認識し得る最大音声長となってい
る。尤も、単語マツチング部での処理が受信と同時に行
ない得る場合は、入力バタンメモリへの格納は不要であ
る。
一方、標準データ格納部には標準パターンデータが第4
図に示す如くの7オーマツトでM個格納されているが、
これが単語マツチング部で入力バタンメモリからの入力
バタンと比較されるようになっているものである。比較
は公知のDrマツチング方式で行なわれるが、これによ
シ入カバタンと標準バタンとの長さの差を補正した状態
での比較が可能となるものである。比較の結果として各
標準パターン対応に入力バタンとの比較結果がM個得ら
れるが、判定部ではこれらM個のうちから最良のものを
選択し、認識結果としてその標準バタンの番号、あるい
は標準バタン対応の識別コードなどを出力するところと
なるものである。
図に示す如くの7オーマツトでM個格納されているが、
これが単語マツチング部で入力バタンメモリからの入力
バタンと比較されるようになっているものである。比較
は公知のDrマツチング方式で行なわれるが、これによ
シ入カバタンと標準バタンとの長さの差を補正した状態
での比較が可能となるものである。比較の結果として各
標準パターン対応に入力バタンとの比較結果がM個得ら
れるが、判定部ではこれらM個のうちから最良のものを
選択し、認識結果としてその標準バタンの番号、あるい
は標準バタン対応の識別コードなどを出力するところと
なるものである。
本発明は以上のようであるが、このようにして音声の認
識を行なう場合は、パーソナルコンピュータ等の演算機
能を持つ装置に音声の特徴抽出を行わせることが可能と
なシ、音声認識装置としてその分ハードウェア量が軽減
されることになる。
識を行なう場合は、パーソナルコンピュータ等の演算機
能を持つ装置に音声の特徴抽出を行わせることが可能と
なシ、音声認識装置としてその分ハードウェア量が軽減
されることになる。
また、回線としては電話回線に限定されることなく、デ
ータ回線に接続することも可能となる。
ータ回線に接続することも可能となる。
以上詳細に説明したように本発明による場合は、入力音
声は回線からの影響を受ける前にその特徴がディジタル
的に抽出され、標準データとの照合では回′a%性等が
音声の特徴の中に重1されて分析されることがなく、音
声の特徴のみを照合し得るので、回線特性や雑音に影響
されることなく安定に音声の認識を行ない得るという効
果がある。
声は回線からの影響を受ける前にその特徴がディジタル
的に抽出され、標準データとの照合では回′a%性等が
音声の特徴の中に重1されて分析されることがなく、音
声の特徴のみを照合し得るので、回線特性や雑音に影響
されることなく安定に音声の認識を行ない得るという効
果がある。
第1図は、本発明に係る入力音声の特徴データ伝送方式
を示す図、第2図(a)、 (b)は、それぞれ音声入
力側、受信側のよシ詳細な構成を示す図、第3図(a)
、 (b) 、 (C)は、それぞれフレームとして
伝送される特徴データの一例でのフォーマット、その特
徴データ個々のフォーマット、複数フレームに亘る伝送
フォーマットを示す図、第4図は、入力バタンメモリへ
の7レームデータの格納フォーマットを示す図である。 1・・・マイクロホン、2・・・特徴抽出部、3.5・
・・回線インタフェース部、4・・・回線、6・・・標
準データ格納部、7・・・照合部。 代理人 弁理士 秋 本 正 実 第 3 図
を示す図、第2図(a)、 (b)は、それぞれ音声入
力側、受信側のよシ詳細な構成を示す図、第3図(a)
、 (b) 、 (C)は、それぞれフレームとして
伝送される特徴データの一例でのフォーマット、その特
徴データ個々のフォーマット、複数フレームに亘る伝送
フォーマットを示す図、第4図は、入力バタンメモリへ
の7レームデータの格納フォーマットを示す図である。 1・・・マイクロホン、2・・・特徴抽出部、3.5・
・・回線インタフェース部、4・・・回線、6・・・標
準データ格納部、7・・・照合部。 代理人 弁理士 秋 本 正 実 第 3 図
Claims (1)
- 1、音声入力側で入力音声をディジタル的に分析するこ
とによつて、該音声よりディジタル特徴データを抽出し
たうえ回線を介し受信側に伝送する一方、該受信側にお
いては上記ディジタル特徴データを標準データと比較照
合することによつて、上記入力音声を認識することを特
徴とする音声認識方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61112724A JPS62269999A (ja) | 1986-05-19 | 1986-05-19 | 音声認識方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61112724A JPS62269999A (ja) | 1986-05-19 | 1986-05-19 | 音声認識方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS62269999A true JPS62269999A (ja) | 1987-11-24 |
Family
ID=14593945
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP61112724A Pending JPS62269999A (ja) | 1986-05-19 | 1986-05-19 | 音声認識方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS62269999A (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60153097A (ja) * | 1984-01-20 | 1985-08-12 | キヤノン株式会社 | 音声認識装置 |
-
1986
- 1986-05-19 JP JP61112724A patent/JPS62269999A/ja active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60153097A (ja) * | 1984-01-20 | 1985-08-12 | キヤノン株式会社 | 音声認識装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2776848B2 (ja) | 雑音除去方法、それに用いるニューラルネットワークの学習方法 | |
US4918735A (en) | Speech recognition apparatus for recognizing the category of an input speech pattern | |
US4720863A (en) | Method and apparatus for text-independent speaker recognition | |
CA2315832A1 (en) | System for using silence in speech recognition | |
AU3589400A (en) | Distributed voice recognition system | |
JPS5844500A (ja) | 音声認識方式 | |
JPS61252594A (ja) | 音声パタ−ン照合方式 | |
CN109215666A (zh) | 智能支架、音频信号的传输方法、人机交互的方法及终端 | |
WO2002023526A1 (en) | Cancellation of loudspeaker words in speech recognition | |
US4459674A (en) | Voice input/output apparatus | |
JPS60158498A (ja) | パターン照合装置 | |
CN112634937A (zh) | 一种无需数字特征提取计算的声音分类方法 | |
JPS62269999A (ja) | 音声認識方式 | |
JP2992324B2 (ja) | 音声区間検出方法 | |
CN113409788A (zh) | 语音唤醒方法、系统、设备及存储介质 | |
JP2985976B2 (ja) | 舌動作検出型音節認識装置 | |
CN109859763A (zh) | 一种智能语音信号模式识别系统 | |
JPH04369698A (ja) | 音声認識方式 | |
JPS6361300A (ja) | 音声認識方式 | |
JPS6135494A (ja) | 音声認識処理装置 | |
JPH04324499A (ja) | 音声認識装置 | |
JPH01309099A (ja) | 音声応答装置 | |
TW504666B (en) | Speech recognition method | |
JPS6211899A (ja) | 無線音声認識装置 | |
JPS59218499A (ja) | 音声誤認識防止方法 |