JPS6348598A

JPS6348598A - 単語音声認識装置

Info

Publication number: JPS6348598A
Application number: JP61192431A
Authority: JP
Inventors: 教幸藤本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1986-08-18
Filing date: 1986-08-18
Publication date: 1988-03-01
Also published as: JPH0558553B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔目　次〕概要産業上の利用分野従来の技術発明が解決しよとする問題点問題点を解決するための手段作用実施例発明の効果〔概要〕予め登録単語音声パタンを持ち、入力された音声を認識
するときには、該未知の入力単語の音声パタンと、上記
登録単語音声パタンとのバクン間距＾１を求め、最小距
離を与える登録単語音声パタンの単語を認識結果とする
単語音声認識方式において、（１）該登録単語音声パタ
ンを登録するときに、区間検出の方法を、単語毎、又は
単音節毎に記憶する記憶部を設けることにより、該詑ｔ
ａ内容に基づいて、該区間検出の方法を登録すべき単語
。

又は単音節毎に切り替えるようにしたものである。

（２）未知の入力音声に対する区間検出部の出力を、照
合する対象の登録パタン群から読み出した単語。

又は単音節毎↓こ選択して、照合し認識するようにした
ものである。

〔産業上の利用分野〕

本発明は、予め登録単語音声パタンを持ち、入力された
音声を認識するときには、該未知の入力単語の音声パタ
ンと、上記登録単語音声パタンとのパタン間距離を求め
、最小距離を与える登録単語音声パタンの単語を認識結
果とする単語音声認識方式に係り、特に、登録単語音声
パタンの登録方式、又は未知の入力音声の認識方式に関
する。

−）ＩＱに、日本語を発声する場合、例えば、（キ）（
り）（シ）（ス）（チ）（ツ）（ヒ）（））（ピ）（プ
）（シュ）等、（ｋ）　（ｇ）　（ｔ）　（ｈ）　（ｐ
）の子音を持つ音節（拍）の次に（ｉ）（ｕ）の母音が
続く場合、該母音の口構えだけで、実際に（ｉ）　（ｕ
）が有声にひびかない現象があり、「母音の無声化」と
呼ばれている。（「日本語発声アクセント辞典Ｊ　ＮＨ
Ｋ　ｋＪ５参照）このような、無声化し易い音節が、単
語中の先頭、若しくは語尾にある場合、一般の音声認識
処理において実行されている音声区間検出処理では、該
無声化部分が脱落することが多く、標準となる音声パタ
ンの全１．六時において、該無声化部分が脱落した音声
パタンを登録する場合がある。

又、最近の計算機技術の進歩に伴って、文言処理システ
ム、所謂ワープロが普及してきているが、通常のワープ
ロにおいては、キーによって入力された単語、又は単音
節に対する処理である為、操作性が悪いと云う問題があ
り、最近音声ワープロが実用化されつつある。この場合
、単音節の登録品質を如何にして向上させるかが問題と
なる。

このようにして、登録された標準音声パタンと。

未知の入力音声パタンとを比較して、最も似ているパタ
ン、具体的にはパタン間距離が展小の上記標準音声パタ
ンを認識結果とする音声認識装置における音声認識にお
いても、その前処理として、該未知の入力音声に対する
特徴パラメータの抽出の後、区間検出処理があるので、
標準音声パタンの登録の場合と同し問題が存在する。

こうした事情から、品質の良い標準音声パタンの登録と
、未知の入力音声を認識する際の品質の良い音声の抽出
ができる区間検出方式が求められていた。

〔従来の技術〕

第７図は従来の標準音声パタンの登録と、未知の入力音
声を認識する方式を説明する図である。

先ず、マイ汐から入力された登録音声は、パラメータ抽
出部１において、該音声パタンの特徴を表す認識パラメ
ータが抽出される。

このｉ＝　ＲＦｉパラメータの抽出においては、例えば
、’ＴＩ／域通過フィルタ群を使用したＢＰＦ分析や、
線形予測分析（ＬＰＧ）等の方法が知られている。

上記ＢＰＦ分析においては、マイクから入力された音声
を１特定の標本化周期（例えば、１８ｍ５）でサンプリ
ングした音声エネルギーのスペクトラム強度をディジク
ル化したものを認識パラメータとする。

該抽出されたｉ７７　ｇＦｉパラメータは、次の区間検
出部２において、真に音声が存在する区間を検出し、そ
の部分の認識パラメータを、パタンマツチングを行う為
のデータとする。

具体的には、例えば、上記パラメータ抽出部１で作成し
た入力音声の認識パラメータに基づいて、音声パワーを
計算し、該音声パワーを、ある特定の闇値でチェ・７り
し、該闇値より大きい部分を音声存在区間とするように
する。

又、該区間の検出精度を上げる為に、音声パワー閾値以
外に、ゼロクロスや、自己相関等の他のパラメータを組
み合わせて行う等、種々の方法があるが、基本的には、
−度該区間検出方法を決定すると、途中で変更すること
なく、同じ手法で区間検出を行っていた。

そして、該区間検出の結果に対しては何等のチェックを
行うことなく、標準の音声パタンとして音声辞書（登録
パタン群）６に登録していた。

次に、未知の単語音声を認識する方式においては、同じ
手法によって取り出された未知の入力単語の音声パタン
と、上記予め、登録きれている音声辞書（登録パタン群
）６から、標準音声パタンを１頃次取り出したものとを
、例えば、パタン・マツチング法によって照合して、両
者の距離を算出し、最小距離の標章音声パタンを検出し
て認識結果としていた。

上記未知の入力音声に対する認識方式の他の従来方式と
しては、上記区間検出部２に複数個の闇値を事前に持ち
、複数個の区間を求めて、それぞれに対して、該標享の
音声パタンの全でと照合し、一番距離の近い組み合わせ
を選択して、認識結果とする考えがあった。

然して、この方式では、１つの登録パタン当たり、該複
数個の闇値に対応する未知入力の音声パタンと照合しな
ければならないので、処理量が大幅に増大する問題と、
該複数個の音声パタン中に誤った音声パタンか多く含ま
れているので誤認識の原因となる問題があった。

〔発明が解決しようとする問題点〕

このような、−律の従来手法で区間検出をしていると、
音声区間の脱落と、ノイズの付加の問題があり、例えば
、脱落を減らそうとすると、ノイズの付加が増加し、ノ
イズの付加を減らそうとすると脱落が増えると云う関係
にあり、品質の良い区間検出ができ難いと云う問題があ
った。

登録時の区間検出で脱落、付加が生じた単語については
、認識時に、通常は同じ脱落、付加が生じることはない
ので、その殆どが棄却されるか、誤認識されてしまうと
云う問題があった。

本発明は上記従来の欠点に３Ｍみ、上記区間検出で脱落
する可能性の高い部分は、無声化規則等によって事前に
分かるので、該無声化規則等に対応して、ｊｉ語、又は
単音節毎に区間険出方法を変えることによって、該区間
検出で検出された音声の品質を向上させる方法を提供す
ることを目的とするものである。

〔問題点を解決するための手段〕

第１図は本発明による音声パタン登録方式の構成例を示
した図であり、第２図は本発明による未知入力音声の認
識方式の構成例を示した図である。

本発明においては、（１）　　予め登録単語音声パタンを持ら、入力された
音声を認識するときには、該未知の入力単語の音声パタ
ンと、上記登録単語音声パタンとのパタン間距離を求め
、最小距離を与える登録単語音声パタンの単語を認識結
果とする単語音声認識方式該登録単語音声パタンを登録
するときに、区間検出の方法を、単語毎１又は単音節毎
に記憶する区間検出記憶部３を設け、登録すべき音声が入力されると、区間検出部１〜ｎ　（
２’）内、上記区間検出記憶部３が定める区間検出部１
〜ｎ　（２°）を選択し、該区間検出部１〜ｎ（２”）
から出力される音声パタンを登録するように構成する。

（２）予め登録単語音声パタンを持ち、入力された音声
を認識するときには、該未知の入力単語の音声パタンと
、上記登録単語音声パタンとのパタン間距＾セを求め、
最小距離を与える登録単語音声パタンの単語を認識結果
とする単語音声認識方式であって、未知の入力音声に対する区間検出部１〜ｎ　（２’）の
出力を、照合する対象の登録パタン群６から読み出した
単語、又は単音節毎に選択し、照合部５で照合して、最
小のパタン間距離を与える登録ｍ語、又は単音節を認識
結果とするように構成する。

〔作用〕

即ち、本発明によれば、予め登録単語音声パタンを持ち
、入力された音声を認識するときには、該未知の入力単
語の音声パタンと、上記登録単語音声パタンとのパタン
間距離を求め、最小距＾１１を与える登録単語音声パタ
ンの単語を認識結果とする単語音声認識方式において、
（１）該登録単語音声パタンを登録するときに、区間検
出の方法を、単語毎１又は単音節毎に記憶する記憶部を
設けることにより、該記憶内容に基づいて、該区間検出
のカー＞Ｌを登録すべき単語、又は単音節毎に切り替え
るようにしたものであり、（２）未知の入力音声に対す
る区間検出部の出力を、照合する対象の登録パタン群か
ら読み出した単語、又は単音節毎に選択して、照合し認
識するようにしたものであるので、区間検出誤りが減少
し、標準音声パタンの品質が向上すると共に、未知入力
音声に対する認識性能が向上する効果がある。

〔実施例〕

以下本発明の実施例を図面によって詳述する。

前述の第１図は本発明による音声パタン登録方式の構成
例を示した図であり、第２図は本発明による未知入力音
声の認識方式の構成例を示した図であって、それぞれの
図面における区間検出部２°。

及び関連機構（切り替え部３ａ１選択部３ｂ等）が本発
明を実施するのに必要な手段である。

第３図は本発明の登録方式の概念を示した図で、（ａ）
は単語の場合を示し、（ｂ）は単音節の場合を示してお
り、第４図は本発明の登録方式をとった場合の誤り率を
説明する図である。又、第５図は本発明による認識方式
の概念を示した図であり、（ａン　は区間検出方式を示
し、（ｂ）は登録音声パタンとの照合方式を示しており
、第６図は本発明による認識方式をとった場合の認識率
を説明する図である。

以下、第１図、第２図を参照しながら第３図〜第６図を
用いて、本発明の単語音声認識方式を説明する。

先ず、標準音声パタン登録方式について説明する。

例えば、認識対象の単語に「ａｏｍｏｒｉ　　ぐ青森）
ｊ、ｒａｉｃｈｉ　　（愛知）」と云う単語が含まれて
いた場合、該単語音声パタンの全１．得時に、該「ａｏ
ｍｏｒｉ　　（青森）」に対する単語音声の区間検出に
使う音声パワーの闇値を通常よりも、３デシベル上げて
、ノイズの付加が起きにくいようにする。（第３図（ａ
）の「Ａの区間１」参照）又、Ｉ”ａｉｃｈｉ（愛知）
、に対する単語音声の区間検出に使う音声パワーの闇値
を、終端に対しでのみ通常よりも３デシベル下げて脱藩
が起きにくいようにする。或いは、該終、５ｉ；ｉに対
する区間検出を、音声パワー闇値と、ゼロクロス−二対
する闇値（第３図（ａ）の「Ｂの区間ゴ参照）の両方を
使用して、区間２　（Ａ＋Ｂ）のパタンで区間検出を行
う。

これは、当該単語音声璽ａｉｃｈｉ　　（愛知）」につ
いては、語尾が無声化する場合が殆どなので、該単語の
終端部の音声パワーはイよくなるが、高域成分は相対的
に強くなるし、ゼロクロスも大きくなると云う特ｉ枚が
あることに着目した区間検出を行うことを意味している
。

第３図（ｂ）は、「ず」、「ア」と云う単音節の、音声
パワー１及びゼロクロスの時間的変化を回し軸上に示し
たもので、本図をみることにより、単音節についても、
各単音節毎に、音声パワー、ゼロクロスの特性が異なる
ことが分かる。

第４図は、本発明の手順によって音声パタンを登録する
ときの誤り率を説明した図であるが、例えば、音声パワ
ー闇値による区間検出のみでは、無声化した語尾の多く
が脱落してしまうこと、及び音声パワー闇値と、ゼロク
ロスによる区間検出を行うと無声化した語尾の多くが正
しく検出されるが、ノイズの付加による誤り率が増加し
、個別に区間検出方式を変えた場合には、誤り率が最小
になることを示している。

このように、本発明にる音声パタン登録方式は、各単語
、又２よ単音節のそれぞれについて、音声パワーや、ゼ
ロクロスの特性が異なることに着目し、それぞれの単語
、単音節を抽出するのに最も適した区間検出を行うよう
に、各単語、単音節毎に区間検出方法を区間検出記憶部
３に記憶しておき、入力された音声に対応して、区間検
出部（１〜ｎ）２゛を、切り替え部３ａで選択するよう
にした所に特徴がある。　（第１図参照）次に、未知の入力音声を認識する方式について説明する
。

例えば、認識対象の単語にｒａｏｍｏｒｉ　　（青森）
Ｊ、ｒａｉｃｈｉ　　（愛知）」と云う単語が含まれて
いた場合、該ｉ”ａｏｍｏｒｉ（青森）」に対する単語
音声の区間検出に使う音声パワーの闇値を通常よりも、
３デシベル上げて、ノイズの付加が起き難いようにする
。（第５図（ａ）の「への区間１」参照）又、ｒａｉｃｈｉ　　（愛知）」に対する単語音声の区
間検出に使う音声パワーの闇値を、終端に対してのみ通
常よりも３デシベル下げて脱落が起き難いようにする。

或いは、該終端に対する区間検出を、音声パワー闇値と
、ゼロクロスに対する闇値（第５図（ａ）の「Ｂの区間
Ｊ参照）の両方を使用して、区間２　（、ｉ＋８）のパ
タンで区間検出を行う。

これは、当該単語音声ｒａｉｃｈｉ　　（愛知）Ｊにつ
いては、語尾が無声化する場合が殆どなので、該単語の
終端部の音声パワーは低くなるが、高域成分は相対的に
強くなるし、ゼロクロスも大きくなると云う特徴がある
ことに着目した区間検出を行うことを意味している。

このように、各単語、又は単音節毎の区間検出方式を、
予め分かっている無声化規則等によって定めて（第２図
、区間検出部（１〜ｎ）　２’）参照）おき、未知の音
声が入力されると、それぞれの区間検出部（１〜ｎ）２
゛　で、区間検出が行われ、入力用パタンメモリ（１〜
ｎ）　２”に、咳険出された音声区間の認識パラメータ
が記憶される。

一方、制御部７においては、登録パタン群６乙こ登録さ
れている標くＷの音声パタンを、１語宛読み出し、対応
した入力パタンメモリ（１〜ｎ）　２”をｌ駅部３ｂで
選択して、照合部４において上記標章音声パタンとのパ
タン間距離を求め、その最もパタン間距離の小さい標準
音声パタンを認識結果として出力するよう２こ機能する
。　（第２図参照）第５図（ｂ）は、このときの認識過
程を模式的に示したもので、上記単語音声（−ａｉｃｈ
ｉ　　（愛知）」を認識する場合を過程を示している。

■で示した区間検出では、語尾の「チ」の部分が脱落し
ており、■で示した区間検出では語頭にノイズが付加す
ると共に、語尾の「チ」の部分が脱落している場合を示
している。

従って、登録パタン群６から読み出した登録パタン群Ａ
、Ｂ、Ｃとのパタン間距離を算出した場合、図示の如（
、登２．にパタン群Ｂにおいて、パタン間距シ１（が最
小になり、該登録パタン群Ｂに登録されている単語の中
で、パタン間距離が最小となるものを選択することによ
り、正しい単語音声ｒａｉｃｈｉ（愛知）」を認識する
ことができる。

第６図は本発明による未知入力音声を認識する場合の認
識率について説明したものであり、第４図の登録の場合
と同しような誤り率を示していて、区間検出方式を単語
毎に個別に変更した場合（■＋■）の認識率が最大にな
ることが分かる。

この■十■の区間検出では、第５図（ｂ）からも明らか
な如く、誤りも多く含まれることになるが、照合結果で
は、パタン間距離が大きくなる場合が殆どである為、誤
認識の原因となるこは逆に少なくなるのである。

上記標準音声パタンの登録の場合、或いは未知の入力音
声を認識する場合、いずれの場合においても、該区間検
出法の選択条件の設定は、事前に単語毎、或いは単音節
毎に人手で設定しても良いし、前述の無声化規則等によ
って、自動生成して設定しても良いことは云う迄もない
ことである。

例えば、上の例で云えば、ｒａｉｃｈｉ　　（愛知）」
は語尾が無声化することが、上記無声化規則等で分かる
ので、該単語の終端部に対して、上記のような区間検出
を行うように定めるのである。

本発明の区間検出方式を用いても、ノイズの付加の問題
は残るが、上記ｒａｉｃｈｉ　　（愛知）」の場合と同
じように、語尾が無声化する単語は、通常全単語の１〜
２割程度であるので、他の８〜９割の単語に対しては、
ｒａｏｍｏｒｉ（青森）」の場合のようにノイズの付加
の生じ難い区間検出を行うようにする為、該ノイズ付加
の問題）よ格段に小さくなる。

又、認識対象の単語が最初から決まっていて変更が無い
、若しくは変更が少ない場合には、区間検出方式は、事
前に人手で設定しても良いが、変更が多い場合には、前
述の無声化規則等を使用して自動生成するのが良い。尚
、単音節を標乍音声登録パタンとする場合には、事前設
定でも構わないことは云う迄もない。

〔発明の効果〕

以上、詳細に説明したように、本発明の単語音声認識方
式は、予め登録単語音声パタンを持ち、入力された音声
を認識するときには、該未知の入力ｉ１１語の音声パタ
ンと、上記登録ｉｉ１語音声パタンとのパタン間距離を
求め、最小距離を与える登録単語音声パタンの単語を認
識結果とする単語音声認識方式において、（１）該登録
単語音声パタンを登録するときに、区間検出の方法を、
単語毎３又は単音節毎に記憶する記憶部を設けることに
より、該記憶内容に基づいて、該区間検出の方法を登録
すべき単語、又は単音節毎に切り替えるようにしたもの
であり、（２）未知の入力音声に対する区間検出部の出
力を、照合する対象の登録パタン群から読み出した単語
、又は単音節毎に選択して、照合し認識するようにした
ものであるので、区間検出誤りが減少し、標章音声パタ
ンの品質が向上すると共に、未知入力音声に対する認識
性能が向上する効果がある。

【図面の簡単な説明】

第１図は本発明による音声パタン登録方弐の構成例を示
した図。第２図は本発明による未知入力音声のｔ＝　２ａ方式の
構成例を示した図。第３図は本発明の登録方式の概念を示した図。第４図は本発明の登録方式をとった場合の誤り率を説明
する図。第５図は本発明による認識方式の概念を示した同第６図
は本発明による認識方式をとった場合の認識率を説明す
る図第７図は従来の標準音声パタンの登録と、未知の入力音
声を認識する方式を説明する図。である。図面において、ｌはパラメータ抽出部、２は区間検出部。２゛は区間検出部１〜ｎ、　　２”は入力用パタンメモ
リ。３は区間検出記憶部、　　３ａは切り替え部。３ｂは選）尺部。５は照合部、　　　　　　６は登録パタン群。８は制御部。八は区間１．　　　　　　　Ａ＋８は区間２゜■〜■は
区間検出方式。／ｚ−；　ｓ、１１よう舒・・ぐタン、ｒ、、Ｔｔ方；
六、ｑ　　、；ｉ　、’ｉ・を夕□Ｉ　ｔ　ｒ、しりβ
］３１　困末全１列・２０令式ｎ、４糺乞、２寸、し・′・図千　
３　図（（１）゛ス″　のへリンとし７１・訳、ｆ）パタンとＬ了、え壬木交５ｊｌ（麿暑方へｎ、兜途、２示（た２う　３　図
（ら）禾イこ口１看　（−３”言４疋、−３１テＸカブ（ｔｎ
、’ｉ丁りｅ２化を示　乙ｆ１第　５　図　（σ）凸禾４（日！！１：よう　間詰（餞ｔ　ヒコ、亡二　瑞、
イ≦し・の１≧４テ、謂ハ富ギ一り、七’Ｑ　同第６　
層

Claims

【特許請求の範囲】

（１）予め登録単語音声パタンを持ち、入力された音声
を認識するときには、該未知の入力単語の音声パタンと
、上記登録単語音声パタンとのパタン間距離を求め、最
小距離を与える登録単語音声パタンの単語を認識結果と
する単語音声認識方式であって、該登録単語音声パタンを登録するときに、区間検出の方
法を、単語毎、又は単音節毎に記憶する区間検出記憶部
（３）を設け、登録すべき音声が入力されると、区間検出部１〜ｎ（２
’）の内、上記区間検出記憶部（１）が定める区間検出
部１〜ｎ（２’）を選択し、該区間検出部１〜ｎ（２’
）から出力される音声パタンを登録することを特徴とす
る単語音声認識方式。
（２）上記区間検出部（２’）の単語毎、又は単音節毎
に記憶する区間検出記憶部（３）の内容を、少なくとも
キー入力によって、人手で設定することを特徴とする特
許請求の範囲第１項に記載の単語音声認識方式。
（３）上記区間検出部（２’）の単語毎、又は単音節毎
に記憶する区間検出記憶部（３）の内容を、特定の規則
によって、自動的に生成して設定することを特徴とする
特許請求の範囲第１項に記載の単語音声認識方式。
（４）予め登録単語音声パタンを持ち、入力された音声
を認識するときには、該未知の入力単語の音声パタンと
、上記登録単語音声パタンとのパタン間距離を求め、最
小距離を与える登録単語音声パタンの単語を認識結果と
する単語音声認識方式であって、未知の入力音声に対する区間検出部１〜ｎ（２’）の出
力を、照合する対象の登録パタン群（６）から読み出し
た単語、又は単音節毎に選択し、照合部（５）で照合し
て、最小のパタン間距離を与える登録単語、又は単音節
を認識結果とすることを特徴とする単語音声認識方式。
（５）上記未知の入力音声に対する区間検出部１〜ｎ（
２’）の出力を、照合する対象の登録パタン群（６）か
ら読み出した単語、又は単音節毎に選択する為の情報を
少なくともキー入力によって、人手で設定することを特
徴とする特許請求の範囲第４項に記載の単語音声認識方
式。
（６）上記未知の入力音声に対する区間検出部１〜ｎ（
２’）の出力を、照合する対象の登録パタン群（６）か
ら読み出した単語、又は単音節毎に選択する為の情報を
、特定の規則によって、自動的に生成して設定すること
を特徴とする特許請求の範囲第４項に記載の単語音声認
識方式。