JPS61116400A - 音声情報処理装置 - Google Patents

音声情報処理装置

Info

Publication number
JPS61116400A
JPS61116400A JP59238765A JP23876584A JPS61116400A JP S61116400 A JPS61116400 A JP S61116400A JP 59238765 A JP59238765 A JP 59238765A JP 23876584 A JP23876584 A JP 23876584A JP S61116400 A JPS61116400 A JP S61116400A
Authority
JP
Japan
Prior art keywords
word
adaptation
noise
input signal
case
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP59238765A
Other languages
English (en)
Other versions
JPH0573035B2 (ja
Inventor
耕市 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP59238765A priority Critical patent/JPS61116400A/ja
Publication of JPS61116400A publication Critical patent/JPS61116400A/ja
Publication of JPH0573035B2 publication Critical patent/JPH0573035B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Telephonic Communication Services (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 く技術分野〉 本発明は、零交差情報を用いた音声情報処理装置に関す
るものである。
〈従来技術〉 波形の零交差回数(以下ZCCとおく)は、コンパレー
タを使った簡単な回路で実現でき、また、音声のスペク
トルに関する情報もある程度表現しているため、従来か
らその性質が研究され、音声分析の手段として利用され
てきた。実際には、単に入力信号の零交差をとるだけで
は、入力信号に含まれるノイズ等により、音声の入って
いない部分でも零交差が検出される。よって、純粋なZ
CCだけでは音声認識、特に音声(有声)区間と無音区
間との分離等には有効ではなく、ZCCは、音声区間中
である程度以上振幅の大きい部分でのみ、信頼できる情
報を提供する。
無音区間でノイズによるカウントを避けるため、従来か
らなされている手法として、コンパレータにヒステリシ
スを持たせたり、コンパレータの基準電圧を入力信号の
平均値からずらせる方法がある(例えば、特開昭58−
116595号公報参照)。
これによると、音声に比べて振幅の小さいノイズ部分、
つま−り無音区間では、コンパレータは応動しないよう
に設定することができる。この方法による情報を、レベ
ル交差回数(LCC)と呼ぶことにする。
LCCは、厳密にはZCCとは違うが、音声区間等のあ
る程度振幅の大きいところではZCCとほぼ一致するた
め、音声認識等でZCCと同様の情報として扱ってもよ
い。ただし、コンパレータの基準電圧(またはヒステリ
シス、この値を以下クロスレベルと呼ぶ)を太キくシす
ぎると、振幅の小さい子音部等でコンパレータが応動せ
ず、零交差情報が失われることがある。特に、摩擦音は
、エネルギーが3に〜6KHzに存在しているため、Z
CCは非常に高い値を示し、他の音韻と顕著な差が出る
が、その振幅が小さいためクロスレベルが大きいときは
、LCCは小さい値になる可M’Q性がある。逆に、ク
ロスレベルが小さすぎると、無音区間でノイズによって
コンパレータが応動し1しまい、音声区間との分離がし
にくくなる0これらが、LCCの問題点であり、音声認
識等の特徴量としてLCCが用いられたとき、語頭・語
尾の検出誤りや子音部の判定誤りなどが生じ、エラーや
りジェツトを招く結果となる。
〈発明の目的〉 本発明は、コンパレータのクロスレベルヲ、音声が含ま
れていない周囲雑音の区間の信号の大きさに応じて自動
的に補正し、上述したような従来の欠点を解消した音声
情報処理装置を提供することを目的とする。 ・ 〈実施例〉 以下図面に従って本発明の一実施例を詳細に説明する。
第1図はLCCを使った音声認識装置の構成例を示すブ
ロック図である。図において、マイクロホンlから入力
された音声信号はプリアンプ2によって増幅され、いく
つかの帯域ろ波器(この例では2個) 31.32に通
された後、各々コンパレータ41,42に入力される。
各コンパレータ41゜42は、クロスレベル変換部51
.52の出力である基準電圧と比較し、マイクロコンピ
ュータ6に入力される。結果は出力部7等で表示される
0ここで、基準電圧はOにしておき、コンパレータ41
゜42のヒステリシスを変化するように、変換部51゜
52を接続してもよい。変換部51.52への入力は、
マイクロコンピュータ6の出力ポートから送られる。こ
の例では、各々3b i t、すなわち8段階に変化で
きるようにしている0 第2図に、クロスレベル変換部51.52の具体的な回
路構成例を示す。図中の集積回路ICは、8チヤンネル
のマルチプレクサとして構成されたものであり、コント
ロール端子への3bit(0〜7)のディジタル信号に
よって、各チャンネルの対応したスイッチがONになる
。そして、これにより外部に接続された抵抗Rのタップ
を切換え、コンパレータ41,42のクロスレベルを修
正する0第3図は、この認識装置の処理の流れを機能的
に表わすブロック図である。図において、マイクロホン
1から入力された音声信号は、音響分析部+1によって
分析処理される。この音響分析部11は、第1図の帯域
ろ波器81,32、コンパレータ41.42及びクロス
レベル変換器51.52に相当する。分析処理は、例え
ば、単位時間(フレーム)毎の特徴ベクトルの時系列゛
として出力することである。得られたベクトル時系列は
、次にバタン変換部12に入り、音韻等の標準バタン1
3を参照しながら、セグメンテーシジン等の手法により
、音韻もしくはそれに相当するラベルの系列として表現
し、語検出部14でその系列に基づいて音声区間を検出
する。
ここで、単語音声認識の場合は、入力音声の単語バタン
かマツチング部15に送られ、単語の標準バタン+6を
参照して認識を行い、利足結果出力部17で結果の表示
や送信を実行する。ノイズ適応部18は、語検出部14
の結果を参考に、王として音声区間がない部分、すなわ
ち雑音区間の特徴ベクトルの時系列に基づき、音響分析
部11のクロスレベルを修正する。そして、環境雑音が
大きく認識するには不適当と判断したときは、入力受付
不可表示19を行う。
ノイズ適応部18について、さらに詳しく説明する。適
応化アルゴリズムを実現するためには、以下のような要
求がある。
l)実用性の面から、最適なりロスレベルに収束する時
間は速いほどよい。
2)適応化の処理量は、マイコンで実現できる程度のも
のでなければならない。
3)弱い摩擦音をノイズと判定し、適応化を行わないよ
うにする0 4)突発性の雑音に対しては、これを無視しなければな
らない。
5)長く続く発声が入力されたとき、継続時間の制限に
より認識装置はりジェツトを出すが、これと大きなノイ
ズとは区別しなければならない。
6)発声の前後には、呼吸音や舌打ちなどの生理的雑音
が存在することがときどきあり、これらのノイズ区間で
適応すると、期待するクロスレベルより大きくなるので
、この区間は適応を避けた方が望ましい。
以上の項目中には、相反する要求もあり、すべてを満足
させるわけにはいかないが、どれもある程度溝たすよう
なアルゴリズムを実現しなければならない。重要な点は
、クロスレベルは適正または過大のときは、バタン変換
によって無音部分以後Sと呼ぶ)が抽出でき、また、ク
ロスレベルが過小のときも、周囲騒音の振幅が小さけれ
ばSが抽出できることである。しかし、クロスレベルが
過小でかつ周囲騒音がある水準より大きいときは、必ら
ずしもSが抽出されるとは限らないため、この場合は特
別扱いにする必要がある。
前者、すなわちSが抽出され、語頭・語尾が検出される
場合をケースAとし、後者、すなわちSが抽出されず、
継続時間が長過ぎることによるリジェクトが起こる場合
をケースBとする。このように適応部をA、Bの2つに
分ける。第4図にノイズ適応部18のフローチャートを
示す。図中、語頭・語尾の情報は語検出部14から送ら
れて来る。ケースAは、発声と発声の間の無音区間に対
して適応化を行い、ケースBは、語頭検出後(ただし、
これが音声であるか雑音であるかは、この例では判定し
ていない)、継続時間がある基準値以上になったところ
でクロスレベルを変更する。
図において、語頭が存在していないときは、未発声なの
でケースAのルーチンへ入る。存在シていれば発声がな
されたことになり、語尾判定の結果をみる。語尾が検出
されていなければ、ノイズ適応部】8から脱出する。検
出されているときは、装置が正常に動作していると考え
られるので、ケースAのルーチンへ入る。通常の単語音
声認識装置は、発声単語の継続時間に最小値と最大値を
設け、その範囲外の入力信号はリジェクトしているが、
最小値より小さいときはケースAに、最大値を越えたと
きはケースBに入る。
ケースAのルーチンでは、語尾またはりジェツトの時点
から、Sがある基準時間TB(およそ0.5秒)継続し
た後から適応Aを行う。語尾直後とせずに、TBを設け
ているのは、前に述べた要求6)項の生理的雑音を避け
るためである。適応Aでは、TB経過後のSに属する一
定のフレーム分(たとえば16フレーム)の特徴ベクト
ルの和(Xとおく)を用いて、その値をある定められた
関数またはテーブルTで写像し、現在のクロスレベルL
Vに加算し、新しいクロスレベルLV’とする。すなわ
ち、 LV’ = L V + T(X)        ・
・・−曲il+一度、適応Aを作用させると、その時点
から一定フレーム分(たとえば16フレーム)は特徴ベ
クトルを集収しない。これは要求4入3)を満たすため
である。以後、同様に集収・適応A・休止を語頭が検出
されるまで続ける。ここで、クロスレベルの最大値を、
認識性能をそこなわない最大のレベルにあらかじめ設定
しておき、LV’がその最大値を越えたならば、入力の
受付が不可能という表示を行う。この時、同時に入力さ
れたパタンを第3図のマツチング部!5へ送らないよう
にしてもよい。式(1)において、LVが適正ならばT
(X)はOに近い値をとり、LVが過大ならばT(X)
は負となり、LV’は減少する。LVが過小のときはT
□(は正となり、LV’は増加する。
ケースBのルーチンでは、継続時間が長過ぎることによ
るリジェクトが発生してからも、ある程度の時間TN(
1秒〜1.5秒程度)引き続き発声中、すなわち語尾が
検出されなかったとき、適応Bを作用させる。適応Bで
は、Sの区間から特徴ベクトルが集収できないため、L
Vにある一定量Kを加える操作を行う。
LV’==LV十K        ・・・・・・・・
・(2)適応Bを施した後、語尾が検出されれば、今度
はケースAのルーチンに戻る。もちろん、このときの入
力バタンはリジェクトされている。一方、尚語尾が検出
されずにTN経過したならば、再び適応Bを行う。以後
、この動作を繰返す。LV’がクロスレベルの最大値を
越えた場合は、ケースAと同様である。上のケースBの
説明は、対象としている継続時間の長過ぎる入力信号が
、発声によるものなのか、純然たる周囲騒音なのかを判
定する機能を認識装置が有していない場合であり、この
機能を有している場合は、リジェクト発生直後に適応B
を作動させてもよい。
適応A1適応Bの起こる様子を@5図、第6図に示す。
100は特徴ベクトルの集収、101は適応AS 10
2は適応Bの処理動作を表わしている。!5図では、発
声終了後TB経過して100の集収、101の適応Aが
起っている。途中、突発性の雑音が入っているが、継続
時間が短いためリジェクトとなり、その終了時からTB
経過後からケースAになっている。第6図では、振幅の
大きい雑音が長く続き、リジェクトが生じ、その後火に
TN続いたので、102の適応Bが動作している。その
後Sが出現し、語尾と判定され、ケースAになっている
以上、音声認識装置について説明したが、有声・無声・
無音等の判定にLCCを用いる音声合成装置においても
、本発明を利用することができ、合成音の音質向上やビ
ットレートの低減に役立つ。
く発明の効果〉 上に詳述した如く、本発明は、コンパレータのクロスレ
ベルを周囲雑音に応じて自動的に変化させることを特徴
とし、例えばクロスレベルを手動で設定することは、か
なりの熟練を要し使用者の負担を強いるが、この自動化
のメリットは非常に大きい。また本発明によれば、処理
量が少なく、また簡単な回路で実現できるため、マイク
ロコンピュータを使った音声認識装置や音声合成装置に
組み込むことができ、有用な音声情報処理装置を提供す
る。
【図面の簡単な説明】
%1図は本発明の一実施例を示すブロック構成図、第2
図は第1図の要部具体例を示すブロック図、第3図は処
理の流れを機能的に示す図、第4図は第3図の要部を更
に詳細に説明するフローチャート、第5図、第6図は適
応例を波形とともに示す図である。 41・42・・・コンノぐレータ、51・52・・・ク
ロスレベル変換部、6・・・マイクロコンピュータ、1
1・・・音響分析部、12・・・バタン変換部、13・
・・音韻等の標準バタン、14・・・語検出部、15・
・・マツチンAS 102・・・適応B0

Claims (1)

  1. 【特許請求の範囲】 1、音声入力信号と、音声入力信号の平均レベルより所
    定量だけ偏倚した基準値とを比較する手段と、 前記基準値を、音声が含まれていない周囲雑音の区間の
    信号の大きさに応じて修正する手段と、 音声区間を検出する機能をもち、音声入力信号の語尾が
    検出されたとき、語尾から一定時間経過してから周囲雑
    音の区間を分析し、その結果に従って前記基準値の修正
    を開始し、音声入力信号の継続時間が長過ぎ、語尾が検
    出されないまま一定時間以上経過したときは、その時点
    の基準値を所定量増加させる騒音適応手段と、を有する
    ことを特徴とする零交差情報利用の音声情報処理装置。
JP59238765A 1984-11-12 1984-11-12 音声情報処理装置 Granted JPS61116400A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59238765A JPS61116400A (ja) 1984-11-12 1984-11-12 音声情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59238765A JPS61116400A (ja) 1984-11-12 1984-11-12 音声情報処理装置

Publications (2)

Publication Number Publication Date
JPS61116400A true JPS61116400A (ja) 1986-06-03
JPH0573035B2 JPH0573035B2 (ja) 1993-10-13

Family

ID=17034928

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59238765A Granted JPS61116400A (ja) 1984-11-12 1984-11-12 音声情報処理装置

Country Status (1)

Country Link
JP (1) JPS61116400A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180098164A1 (en) 2014-08-26 2018-04-05 Yamaha Corporation Reproduction system, terminal device, method thereof, and non-transitory storage medium, for providing information

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58120297A (ja) * 1982-01-11 1983-07-18 日本電信電話株式会社 音声応答認識装置
JPS58190993A (ja) * 1982-05-01 1983-11-08 日産自動車株式会社 車両用音声検出装置
JPS5928200A (ja) * 1982-08-06 1984-02-14 シャープ株式会社 零交差検出回路

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58120297A (ja) * 1982-01-11 1983-07-18 日本電信電話株式会社 音声応答認識装置
JPS58190993A (ja) * 1982-05-01 1983-11-08 日産自動車株式会社 車両用音声検出装置
JPS5928200A (ja) * 1982-08-06 1984-02-14 シャープ株式会社 零交差検出回路

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180098164A1 (en) 2014-08-26 2018-04-05 Yamaha Corporation Reproduction system, terminal device, method thereof, and non-transitory storage medium, for providing information

Also Published As

Publication number Publication date
JPH0573035B2 (ja) 1993-10-13

Similar Documents

Publication Publication Date Title
Wu et al. Incorporating information from syllable-length time scales into automatic speech recognition
JP3180655B2 (ja) パターンマッチングによる単語音声認識方法及びその方法を実施する装置
US4284846A (en) System and method for sound recognition
JPS6147440B2 (ja)
JPH02242298A (ja) 声門波形に基づく話者識別装置
JPS59226400A (ja) 音声認識装置
JPS60200300A (ja) 音声の始端・終端検出装置
JPS60181798A (ja) 音声認識装置
JPS60114900A (ja) 有音・無音判定法
JPS61116400A (ja) 音声情報処理装置
Hahn et al. An improved speech detection algorithm for isolated Korean utterances
CN107039046B (zh) 一种基于特征融合的语音声效模式检测方法
Niederjohn et al. Computer recognition of the continuant phonemes in connected English speech
JPH0475520B2 (ja)
JP3008593B2 (ja) 音声認識装置
JP2658426B2 (ja) 音声認識方法
Elghonemy et al. Speaker independent isolated Arabic word recognition system
JPS59224900A (ja) 音声認識方法
JPS6370298A (ja) 促音認識装置
JPS59170894A (ja) 音声区間の切り出し方式
JPS63217399A (ja) 音声区間検出装置
JPS6227798A (ja) 音声認識装置
JPH10124090A (ja) 音声認識方法およびこの方法を実施する装置
JPS6039699A (ja) 音声認識方法
SAAAAASSLLLLLLSLLLS NOISE EFFECTS ON I, ANDMARK DETECTION IN A SPEECHI RECOGNITION SYSTEM