JPS6293000A

JPS6293000A - 音声認識方法

Info

Publication number: JPS6293000A
Application number: JP60233643A
Authority: JP
Inventors: 達也木村
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1985-10-18
Filing date: 1985-10-18
Publication date: 1987-04-28
Anticipated expiration: 2009-06-15
Also published as: JPH0646360B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は音声認識方法に関するものである。

従来の技術従来研究あるいは発表されている音声自動認識システム
の動作原理さしてはパクンマッチ：ノグ法が多く採用さ
れている。この方法は認識される必要がある全種類の単
語に対して標準パターンをあらかじめ記憶しておき、入
力される未知の入カバターンと比較することによって一
致の度合（以下類似度と呼ぶ）を計算し、最大一致が得
られる標準パターンと同一の単語であると判定するもの
である。このバタンマツチング法では認識されるべき全
ての単語に対して標準パターンを用意しなければならな
いため、発声者が変った場合には新しく標準パターンを
入力して記憶させる必要がある。

従って日本全国の都市名のように数百種類以上の単語を
認識対象とするような場合、全種類の単語を発声して登
録するには膨大な時間と労力を必要とし、また登録に要
するメモリー容量も膨大になることが予想される。さら
ｌこ入カバターンと標準パターンのバタンマツチングに
要する時間も単語数が多くなると長くなってしまう欠点
がある。

これに対して、入力音声を音素単位に分けて音素の組合
せとして認識しく以下音素認識と呼ぶ）音素単位で表記
された単語辞書との類似度を求める方法は単語辞書に要
するメモリー容量が大巾こと少なくて済みバタンマツチ
ングに要する時間が短くでき、辞書の内容変更も容易で
あるという特長を持っている。

この方法の例は、「不特定話者・多数語を対象とした音
声認識方法」二矢田他、日本音響学会音声研究会資料、
資料番号５８４−１８（１９８４−６）に述べである。

この方法における単語音声認識システムの機能ブロック
図を第２図に示す。図において２０は音声信号を量子化
する入力部、２１は音素のスペクトルの特徴を得るため
のＬＰＣ分析を行うＬＰＣ分析部で、自己相関関数演算
部２２とＬＰＣ係数算出部２３とからなり、２４はＬＰ
Ｃケプストラム係数を求めるＬＰＣケプストラム係数算
出部、２５は未知人力パラメータと各種標準パターンさ
の類似度を求める類似度計算部、２６は帯域パワーをフ
レーム毎に求める帯域フィルタ分析部、２７は前記帯域
パワーを用いて始端フレームと終端フレームを見つける
音声区間検出部、２８は帯域パワーの時系列情報からパ
ワーディップを抽出するパワーディップ抽出部、２９は
類似度情報とパワーディップを用いて子音区間を求める
子音セグメンテーション部、３０は母音、半母音、語頭
子音、語中子音を識別する音素識別部、３１は識別され
た音素を統合して音素系列を作成する音素系列作成部、
３２は前記音素系列と単語辞書とを比較し、最も類似度
の高い辞書中の単語名を認識する単語認識部である。

次にその動作について説明を行う。第２図において、入
力音声信号は入力部２０において、卸変換されディジタ
ル信号に変換される。この、ｌ変換された入力信号に対
して主に音素の判別を行うための分析（図中点線で囲ん
であるＡの部分）と、主にセグメンテーションを行うた
めの分析（同、Ｂの部分）を行う。

先ず前者について説明する。ＬＰＣ分析部２１は自己相
関関数演算部２２とＬＰＣ係数算出部２３とからなり、
上記入力信号よりフレーム毎に所定の次数の自己相関関
数を自己相関関数算出部２２により求め、この自己相関
関数より、ＬＰＣ係数算出部３３によって所定の次数の
ＬＰＣ係数を求める。こうして得られたＬＰＣ係数より
ＬＰＣケプストラム係数算出部２４によりＬＰＣケプス
トラム係数を求める。このＬＰＣケプストラム係数（未
知入力パラメータ）と各音素の標準パターン、有声、無
声性標準パターン、鼻音性標準パターンなどとの類似度
を類似度計算部２５でフレーム毎に求めておく。

次に後者について説明する。入力音声信号を帯域フィル
タ分析部２６において、低域（２５０〜６００）（ｚ）
および高域（１５００〜４０００Ｈ２）の帯域パワーを
フレームごとに求める。音声区間は音声区間検出部２７
においてこれらの帯域パワーを主として用いて検出する
。またパワーディップ検出部２８においては、低域、高
域パワーの時系列情報から各々のパワーディップ（推移
パターンが凹状になっている部分）を抽出する。このよ
うにして求めた類似度情報とパワーディ、プを用いて以
降の処理を行う。

子音区間は、子音セグメンテーション部２９ににおいて
、低域パワー又は高域パワーが生じた区間、有声・無声
判定結果、鼻声性との類似度が大きい区間及び語頭にお
いてはスペク１−ル変化が激しい区間として求められる
。

音素の識別は子音セグメンテーションの後、音素識別部
３０において、母音・半母音・語頭子音および語中子音
に分けて、音素標準パターンとの類似度によって各々の
音素基を決める。次に音素系列作成部３１において、個
々に識別した母音、半母音、語頭子音及び語中子音を統
合して音素系列を作成し、言語的制約による修正規則や
無声化規則などを適用して最終的な音素系列を作成する
。

こうして得られた音素系列は単語認識部３２において、
やはり音素記号で表記しである単語辞書の各項目とのマ
ツチングを行い、最も類似度の高い辞書中の単語名を認
識結果吉して出力する。

以上のようにして、一連の処理を完了する。

発明が解決しようとする問題点以上述べたように従来の構成では帯域フィルタ分析部２
６において、ＬＰＣ分析部２１とは全く独立に、入力波
形より直接帯域パワーを算出している。

この構成では、各フレーム内の全てのサンプル点につい
て行う演算として、自己相関演算と、フィルタリングの
演算及びパワー算出の演算の３系統の演算が存在する。

これらに要する演算量はパワー算出を除いて概ね（ｌフ
レームの点数）×（必要な分析次数）のオーダーであり
、演算量としては決して少いものではなく、実時間処理
を行う／’％−ドウェア化を考えた場合装置規模の増大
を招くという問題点があった。

本発明は上記問題点を解決するもので、演算量の大幅な
削減をはかることを目的とするものである。

問題点を解決するための手段本発明は上記目的を達成するもので、自己相関関数をＶ
（１）（ｏ＜；＜次数）とし、各帯域毎にあらかじめ用
意されている定数Ａ（ｉ）（ＯＫＩく次数）を用いて式によって得られるパワーの次元を持つ値Ｐを算出し、こ
のＰを近似的に帯域パワー値として利用して、語中の子
音区間のセグメンテーション及び分類を行うことにより
演算量の大幅な削減をはかるものである。

作　　　　用本発明はＬＰＧ分析の際得られる自己相関関数を、帯域
パワーの算出演算においても利用することにより、入力
波形を直接フィルタリングする演算過程を省略すること
ができるので、帯域パワー算出に要する演算量を大幅に
削減することが可能である。

実施例以下に本発明の実施例について図面を用いて説明する。

第１図は本発明の一実施例における音声認識方法を具現
化する単語音声認識システムの機能ブロック図である。

図において、１は音声信号をサンプリングし量子化する
入力部、２は前記入力信号に対して音素のスペクトルの
特命を得るためのＬＰＣ分析を行うＬＰＣ分析部で、自
己相関関数演算部３とＬＰＣ係数算出部４とからなる。

５はＬＰＣケプストラム係数を求めるＬＰＣケプストラ
ム係数算出部、６は未知入力パラメータと各種標準パタ
ーンとの類似度を求める類似度計算部である。

７は帯域フィルタ分析部で、自己相関関数演算部３によ
り求められた自己相関関数を用いて、後述するパワーの
次元を持つ値Ｐを求めるもので、本実施例の特徴となる
部分である。８は始端フレームと終端フレームを見つけ
る音声区間検出部、９は前記Ｐの時間的変化によって生
じるディップて推移パターンが凹状になっている部分）
を検出するパワーディップ検出部、１０は類似度計算部
６とパワーディップ検出部９の結果を用いて子音区間を
求める子音セグメンテーション部、１１は音素識別部で
、母音識別部１２、半母音識別部１３、語頭子音識別部
１４、語中子音識別部１５により、母音、半母音、語頭
子音、語中子音を識別する。１６は前記識別された音素
を統合して音素系列を作成する音素系列作成部、１７は
前記音素系列と音素記号により表記された単語辞書とを
比較して単語名を認識する単語認識部である。

次にその動作を説明する。入力音声信号は入力部１にお
いて〜の変換されディジタル信号に変換される。この〜
の変換された信号はＬＰＣ分析部２の中の自己相関関数
演算部３により所定の次数までの自己相関関数を求める
。こうして得られた自己相関関数は、ＬＰＣ分析分析中
２中ＰＣ係数算出部４及び帯域フィルタ分析部７に送ら
れる。この部分が、第２図に示した従来の構成例と異る
ところである。ＬＰＣ係数算出部４では上記自己相関関
数を入力してＬＰＣ係数を求めＬＰＣケプストラム係数
算出部５にこれを送る。ＬＰＣケプストラム係数算出部
５では音素識別のための特徴パラメータとしてＬＰＣケ
プストラム係数を求める。このＬＰＣケプストラム係数
（未知入力パラメータ）と各音素の標準パターン、有声
／無声性標準パターン、鼻音性標準パターンなどとの類
似度をフレーム毎に類似度計算部により求める。

一方帯域フィルタ分析部７では自己相関関数演算部３で
求められた自己相関関数（Ｖ（ｉ）、［０＜ｉ＜次数］
とする）を入力して、各帯域毎にあらかじめ用意されて
いる定数Ａｆｉｌ（０＜ｉ＜次数）を用いてＰ　＝　、Ｘ　Ａ（ｉ）　−Ｖ（ｉ）　　　　　　　　
　　　　　（１）！−〇に従って、パワーの次元を持つ値Ｐを求める。ここでＡ
ｒｉ＋は例えば、従来使用している帯域フィルタのイン
パルス応答波形）Ｑｉ）　（０，＜　ｉ＜Ｍ、Ｍ　：あ
る有限の値）より（２）式で与えられるような自己相関
演算によって希望する帯域毎に、所定の次数まで求めて
おく。

（１）式によって各帯域毎に求めたＰは、音声区間検出
部８パワ一デイツプ検出部９に送られる。音声区間検出
部８ではこのＰの値を用いて始端フレームと終端フレー
ムを見つける。またパワーディップ検出部９てはＰの時
系列情報からパワーディップを抽出する。

次に類似度計算部６で求めた類似度情報とパワーディッ
プ検出部９で得られたディップとを用い、子音セグメン
テーション部ＩＯではディップが生じた区間、有声／無
声判定結果、鼻音性との類似度が大きい区間、語頭にお
いてはスペクトル変化が激しい区間として子音区間を求
める。子音セグメンテーションの後、音素の織部は、母
音識別部１２、半母音識別部１３、語頭子音識別部１４
、−語中子音識別部１５により母音、半母音、子音に分
けて行い、音素標準パターンとの類似度により各々の音
素名を決める。個々に識別されたこれらの音素は音素系
列作成部１６において統合され音素系列を作成し、さら
に言語的制約による修正規則や無声化規則などを適用し
て音素系列の修正を行う。

単語認識部１７ではこのようにして作成された音素系列
と、音素記号で表記しである単語辞書の各項目とを比較
し、最も類似度の高い辞書中の単語名を認識結果上して
出力する。

本・実施例の場合、（＋）式によって求められたＰはウ
ィーナー・ヒンチこの定理により原信号を希望する特性
の帯域フィルタに入力したときの出力信号のパワー値（
帯域パワー）を近似するものになっている。

又Ｐの算出に要する演算量は（１）式から明らかなよう
に次数と同じ積和回数である。この次数は必ずしもＬＰ
Ｃ分析次数と等しい必要はないが、ＬＰＣ分析次数以下
に設定した場合、入力として用いる自己相関関数をＬＰ
Ｃ係数算出部４（！：共用できるので、ＬＰＣ分析次数
が１０程度である事を考えるさ、Ｐの算出に要する演算
量も高々この程度ですむ事になる。又、Ｐの算出にＬＰ
Ｃ分析次数（ＪＬとする）を越える次数（Ｊｐとする）
の自己相関関数を用いる場合、必要な積和回数には、１
フレーム長をｈ（一般に１００〜２００程度の値である
）とすると、Ｋ＝、ＪＰ＋（ＪＰ　−Ｊｔ）（Ｆｔ、＋
Ｊｐ）　　　　’　　（３）であり、通常ＦＬ　＞＞（
ＪＬ　ｚＪｐ　）である事を考慮すると、Ｋ　”、　（Ｊｐ　−Ｊ＋、　）　ＦＬ　　　　　　　
　　　　　　　ｆ４）となる。

一方従来の入力波形の直接のフィルタリングによる方法
の積和回数ＫＰは帯域フィルタとして、伝達関数の分母
多項式の次数をＪｄ、分子項式の次数をＪｎのＩＩＲ，
フィルタを仮定すると沿−（Ｊａ　＋Ｊ１．　＋　１　
）・Ｆｙ、　　　　　　　　（５）となる。

（４）と（５）を比較すると（ＪＰ　−ＪＬ　）　＜　
（Ｊｄ＋ＪＬ）を満たしているようなＪｐの値を採用し
ている限り、Ｋ＜Ｋｒとなり、演算量的には、本実施例
による方法の方が有利となる。一般にＪｄ、、Ｌ、はそ
れぞれ５〜６程度の値をとっているから、ＪｐはＪ［、
より１０程度まで多めにとって良い事になり、結果は、
子音大分類、セグメンテーションの性能との兼ね合いで
Ｊｐを決定する事になる。実験によれば、ＪＰ：ｌ：Ｊ
Ｌで十分な性能が得られている事を確認している。

従っ、で、従来の方法による一帯域当りの帯域パワー算
出に要する積和演算量Ｋｙは例えば（５）式にＪｄ　＝
　ＪＬ　＝　５、Ｆ！、＝２００という典形的な具体的
な数値を与えて計算すると、ＫＦ　＝　２２００となり
、−力木実施例による方法では、高々１０程度である事
を考えると、２桁の演算量の削減がなされている事が分
る。

発明の詳細な説明した通り本発明によれば、ＬＰＣ分析の際得られ
る自己相関関数を帯域パワーの算出演算においても利用
する事により、入力波形を直接フィルタリングする演算
過程を省略できるので、子音セグメンテーション、大分
類に利用する帯域パワー（ディツプ値）算出に要する演
算量の大幅な削減をはかる事ができる。

【図面の簡単な説明】

第１図は本発明の一実施例における音声認識方法を具現
化する単語音声認識システムを示す機能ブロック図、第
２図は従来の単語音声認識システムを説明するための機
能ブロック図である。３・・・自己相関関数演算部、４・・・ＬＰＧ係数算出
部、５　、、、　ＬＰＣケプストラム係数算出部、６・
・類似度計算部、７・・・帯域フィルク分析部、訃・・
音声区間検出部、９・・パワーディップ検出部、１０・
・・子音セグメンテーション部。代理人の氏名　弁理士　中　尾　敏　男　はか１名第１
図第２図

Claims

【特許請求の範囲】

（１）音声波形よりフレーム毎に求めた自己相関関数Ｖ
（ｉ）（０＜ｉ≦次数）より、式Ｐ＝Σ＾次＾数＿ｉ＿＝＿０Ａｉ・Ｖ（ｉ）〔但しＡｉ
は所定の係数〕に従って算出したパワーの次元をもつ値Ｐを求め、Ｐの
時間的変化によって生じるディップの大きさ使用して、
語中の子音区間のセグメンテーション及び分類を行うこ
とを特徴とする音声認識方法。
（２）Ａｉを複数組用意しておき、それぞれの組に対応
したＰを複数個求め、それらの時間的変化によって生じ
るディップの大きさを使用して、語中の子音区間のセグ
メンテーション及び分類を行うことを特徴とする特許請
求の範囲第１項記載の音声認識方法。