JPS62269999A

JPS62269999A - 音声認識方式

Info

Publication number: JPS62269999A
Application number: JP61112724A
Authority: JP
Inventors: 梅村　和裕
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1986-05-19
Filing date: 1986-05-19
Publication date: 1987-11-24

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】３、発明の詳細な説明〔産業上の利用分野〕本発明は、入力音声を回線を介し認識するに際し、入力
音声をディジタル特徴データの形で音声入力側より回線
を介し伝送することによって、回線の特性などによる影
響を受けることなくその入力音声を認識するようにした
音声認識方式に関するものである。

〔従来の技術〕

これまでの電話回線を用いる音声認識においては、音声
認識装置が電話回線に接続されることから、回線の特性
や電話交換機の特性、送話器の特性などによる影響、特
に周波数帯域や雑音、減衰量等によって音声認識が影響
を受け、認識性能の低下は否めないものとなっている。

これらの影響を減少させるべく特開昭５８−１２３６０
０号公報に記載されているように、伝送路補正特性が求
められこれにもとづき言語情報が処理されるものとなっ
ている。

〔発明が解決しようとする問題点〕

しかしながら、その公報による場合は回線の時間的な特
性変動や回線内雑音、−過性の特性の変動に対しては対
処し得す、安定して認識性能を確保することは困難とな
っている。定常的な回線対応の相違を軽減する対策を採
る場合でも、その処理が複雑であ夛装置が大形化するな
どの不具合を生じるものとなっている。

本発明の目的は、回線の特性などが時間的に変動する場
合であっても、その影響を受けることなくその入力音声
を認識し得る音声認識方式を供するにある。

〔問題点を解決するだめの手段〕

上記目的は、音声入力側において入力音声の特徴をディ
ジタル的に抽出したうえ回線を介し、音声認識を行なう
受信側に伝送することによって達成される。

〔作用〕

入力音声の特徴抽出が音声入力側で行なわれることから
、音声信号が持つ特徴が回線等の特性による影響を受け
ることなく良好に抽出し得るものである。その特徴デー
タは回線を介し受信側照合部で標準データとその類似性
が判定されるわけであるが、回線上のデータはディジタ
ル量として伝送されることから、回線などの特性が変動
する場合であってもそれに影響されることなく受信側で
は音声の認識を良好に行ない得るものである。

〔実施例〕

以下、本発明を第１図から第４図によ）説明する。

先ず本発明の概要について説明すれば、第１図に示すよ
うに音声入力側においてはマイクロホン１からの入力音
声は特徴抽出部２でその特徴がディジタル的に抽出され
た後、所定のデータ伝送フォーマットで回線インターフ
ェース部３、回線（途中に交換機が介在）４を介し受信
側に伝送されるようになっている。受信側では回線イン
ターフェース部５からの特徴データは照合部７にて標準
データ格納部６からの標準データとの間でその類似性が
評価されるようになっているものである。

第２図（ａ）、　（ｂ）はそれら音声入力側、受信側の
構成をよシ詳細に示したものである。第２図（ａ）に示
すように特徴抽出部２は増幅器（増幅、帯域制限）２ｃ
％Ａ／Ｄ変換器（ディジタル変換）２ｂおよび分析部（
分析、特徴抽出）２ｃよシ、また、回線インターフェー
ス部３はバックアメモリ３ａｓ　　シフトレジスタ（パ
ラレル−シリアル変換）３ｂおよびライントライバ３Ｃ
よシ構成されたものとなっている。一方、受信側におけ
る回線インターフ”−−ス部５　ｔｒｉ　５インレシー
バ５ａ１シフトレジスタ（シリアル−パラレル変換＞５
ｂおよび入力バタンメモリ５Ｃよシ、また、照合部７は
単語マツチング部７ａおよび判定部７ｂよ）構成された
ものとなっている。なお、回線インターフェース部３．
４にはそれぞれ変調機能、復調機能が具備されておシ、
回線４上での特徴データは変調されたものとなっている
。

さてｓ　ＤＳＰ　（Ｄｉｇｉｔａｌ　　Ｓｉｇｎａｔ　
　Ｐｒｏｃｅｓｓｏｒ　）として構成されている分析部
２ｃでは２ＰＣ分析、例えばＰＡＲＣＯＲ分析〈よ少入
力音声の特徴がＰＡＲＣＯＲ係数として情報圧縮された
状態で抽出されるようになっている。一般的にＬＰＣ分
析によって音声の認識を行なう場合、単位時間を８〜２
０ｍ５として単位時間当シの次数が１０、データ精度は
１２〜１６ヒツト程度、伝送速度は６〜２０にビット／
Ｓとなっている。よシ具体的にＰＡＲＣＯＲ係数につい
て説明すれば、これは９６００ピツ）／ｓ径程度情報量
に圧縮可能であシ、各次数に工〜に１０への最適ビット
割当は一般的には以下の表に示すようになっている。

但し、Ａは振幅情報であ）、入力音声の振幅を示すもの
となっている。

これら合計絽ビットの他に同期用および誤シ検出用に計
８ビット要されるとして、１０ｍ５当シ１７レーム伝送
するものとすれば、特徴データとしてのＰＡＲＣＯ几係
数は第３図（ａ、）に示す如くのフォーマットで伝送さ
れ得るものである。次数に１〜によ。

および振幅情報Ａは第３図（ｂ）に示すようにして、ま
た、フレームは１０ｍ５毎に第３図（Ｃ）に示すように
して回線を介し伝送されるわけである。

受信側においては回線からの７レームデータは回線イン
ターフェース部で同期がとられ、誤シがないことを確認
のうえ順次大カバターンメモリに格納されるようになっ
ている。単語マツチングの場合について説明すれば、Ｎ
フレーム容量の入力バタンメモリへの７レームデータの
格納フォーマットは第４図に示すようである。入力バタ
ンメモリには最大Ｎフレー４分のデータが格納可なわけ
であシ、Ｎフレームが認識し得る最大音声長となってい
る。尤も、単語マツチング部での処理が受信と同時に行
ない得る場合は、入力バタンメモリへの格納は不要であ
る。

一方、標準データ格納部には標準パターンデータが第４
図に示す如くの７オーマツトでＭ個格納されているが、
これが単語マツチング部で入力バタンメモリからの入力
バタンと比較されるようになっているものである。比較
は公知のＤｒマツチング方式で行なわれるが、これによ
シ入カバタンと標準バタンとの長さの差を補正した状態
での比較が可能となるものである。比較の結果として各
標準パターン対応に入力バタンとの比較結果がＭ個得ら
れるが、判定部ではこれらＭ個のうちから最良のものを
選択し、認識結果としてその標準バタンの番号、あるい
は標準バタン対応の識別コードなどを出力するところと
なるものである。

本発明は以上のようであるが、このようにして音声の認
識を行なう場合は、パーソナルコンピュータ等の演算機
能を持つ装置に音声の特徴抽出を行わせることが可能と
なシ、音声認識装置としてその分ハードウェア量が軽減
されることになる。

また、回線としては電話回線に限定されることなく、デ
ータ回線に接続することも可能となる。

〔発明の効果〕

以上詳細に説明したように本発明による場合は、入力音
声は回線からの影響を受ける前にその特徴がディジタル
的に抽出され、標準データとの照合では回′ａ％性等が
音声の特徴の中に重１されて分析されることがなく、音
声の特徴のみを照合し得るので、回線特性や雑音に影響
されることなく安定に音声の認識を行ない得るという効
果がある。

【図面の簡単な説明】

第１図は、本発明に係る入力音声の特徴データ伝送方式
を示す図、第２図（ａ）、　（ｂ）は、それぞれ音声入
力側、受信側のよシ詳細な構成を示す図、第３図（ａ）
　、　（ｂ）　、　（Ｃ）は、それぞれフレームとして
伝送される特徴データの一例でのフォーマット、その特
徴データ個々のフォーマット、複数フレームに亘る伝送
フォーマットを示す図、第４図は、入力バタンメモリへ
の７レームデータの格納フォーマットを示す図である。１・・・マイクロホン、２・・・特徴抽出部、３．５・
・・回線インタフェース部、４・・・回線、６・・・標
準データ格納部、７・・・照合部。代理人　弁理士　秋　本　正　実第　３　図

Claims

【特許請求の範囲】

１、音声入力側で入力音声をディジタル的に分析するこ
とによつて、該音声よりディジタル特徴データを抽出し
たうえ回線を介し受信側に伝送する一方、該受信側にお
いては上記ディジタル特徴データを標準データと比較照
合することによつて、上記入力音声を認識することを特
徴とする音声認識方式。