JPS63259600A - 連続音声認識方式 - Google Patents

連続音声認識方式

Info

Publication number
JPS63259600A
JPS63259600A JP62093917A JP9391787A JPS63259600A JP S63259600 A JPS63259600 A JP S63259600A JP 62093917 A JP62093917 A JP 62093917A JP 9391787 A JP9391787 A JP 9391787A JP S63259600 A JPS63259600 A JP S63259600A
Authority
JP
Japan
Prior art keywords
pitch
speech recognition
input
pattern
divided
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62093917A
Other languages
English (en)
Inventor
大山 隆之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP62093917A priority Critical patent/JPS63259600A/ja
Publication of JPS63259600A publication Critical patent/JPS63259600A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概要〕 文の単位で発声された連続音声を認識する音声認識方式
において、入力された連続音声のピッチパターン(ピン
チ周波数の時系列)と、特定のピッチパターン生成モデ
ルから生成されたピッチバターンとの差が小さくなるよ
うに、該ピンチパターン生成モデルを規定してピッチパ
ラメータを決定し、該決定されたピッチパラメータを使
用して、上記入力された連続音声を、複数個の区間、例
えば、文節に分割して、該分割された文節単位で音声認
識を行うようにしたものである。
〔産業上の利用分野〕
本発明は、文の単位で発声された連続音声を認識する音
声認識方式に関する。
最近の計算機技術と、音声認識技術の進歩に伴って、音
声をデータとしてデータ処理を行う、音声文書システム
(音声ワードプロセッサ)、翻訳電話システム、自然言
語によるデータベース検索システム等の開発が進められ
ている。
従来、ワードプロセッサ等においては、キーボードによ
り、文章を入力していたが、計算機システムに対するデ
ータ入力手段としてのマンマシンインタフェースを改善
する為には、音声による文章入力が要求される。
この場合も、該マンマシンインタフェースヲ更に改善す
る為には、できる限り文の単位で入力できることが望ま
れる。
このようなことから、認識率の高い連続音声認識方式が
必要とされる。
〔従来の技術と発明が解決しようとする問題点〕第4図
は、従来の連続音声認識方式を説明する図であり、(a
)は構成例を示し、(b)は入力音声の波形を示してい
る。
従来から連続発声された文の音声認識方式(以下、連続
音声認識方式と云う)は、幾つか提案されているが、そ
の−例を示したものが本図である。
■ 先ず、入力音声をパラメータ抽出部7で、フィルタ
バンク (複数個のバンドパスフィルタ)を通して周波
数分析を行い、周波数成分をパラメータとする時系列デ
ータを抽出する。
■ ■で抽出した入力音声のパラメータ時系列の中から
、パラメータの変動の少ない区間をvCv境界推定部8
で抽出して、VCV (母音−子音−母音)境界の候補
とする。
次に、予め、■と同様の方法で分析し、母音標準パター
ンファイル8aに登録されている母音標章パターンと、
上記VCV境界候補との照合を行い、予め定めである一
定の距離以下で最小の距離となるものを、VCV境界と
する。((b)図参照)この母音標準パターンとの照合
は、子音でも、゛シ゛や、ス”のように、パラメータの
変動の少阜 ないものもあので、これを除く為に行うものである。
■ このようにして、得られたvCV区間(本図(b)
で、例えば、斜線を施した部分)について、vCv照合
照合−9いて、予め、vCv標準パターンファイル9a
に登録されているvCV標準パターンと照合する。
但し、(b)図に示されているように、語頭はCVであ
り、語尾はVであるので、このような標準パターンとの
照合も行う。
■ 判定部10において、■の照合で最も距離の短いV
CV候補を認識結果とする。但し、長音は、上記パラメ
ータの変動の少ない区間を抽出する本方式においては、
−音節(母音が主体となる)となる為、該音節の時間長
が一定値以上のときは長音と判定する。
本音声認識方式は、文単位の発声でも、文節単位の発声
でも、適用できるが、文単位の発声のように、VCV境
界が多くなると、VCV境界候補の抽出時の誤りが増加
し、認識率が低下することになる。2 従って、このような従来方式においては、認識率から見
て十分満足のいくものでないのが実情であった。
一方、発声単位を単語、或いは文節等の短いものに制限
して音声認識を行う方式では、上記の音声認識方式でも
明らかなように、文単位の発声と比較して高い認識率が
得られる。
本発明は上記従来の欠点に鑑み、従来の音声認識方式に
おいては、単語、或いは、文節単位での音声認識方式で
は高い認識率が得られることに着目して、連続音声認識
において、入力音声のビフチ情報を利用して、入力音声
を文節等の短い単位に分割し、上記従来の音声認識の手
法を用いて高い認識率を達成する連続音声認識方式を提
供することを目的とするものである。
〔問題点を解決するための手段〕
第1図は、本発明の連続音声認識方式の構成例を示した
図である。
本発明においては、 (1)文の単位で発声された連続音声を認識する音声認
識方式であって、 入力音声信号から該入力音声信号のピンチパターンを抽
出する手段1と、 該ピッチパターンから、特定のピンチパターン生成モデ
ルから生成されるピンチパターンとの差が小さくなるよ
うに、該ピンチパターン生成モデルを規定するピッチパ
ラメータを決定する手段2と、 該決定されたピッチパラメータを使用して、上記入力音
声信号を複数個の区間に分割する手段3と、 該分割された音声信号を認識する手段4とを設け、 上記入力された連続音声のピッチパターンのピッチパラ
メータに基づいて、該連続音声を複数個の区間に分割し
、該分割された区間を音声認識するように構成する。
(2)上記入力音声信号を複数個の区間に分割する手段
として、上記ピッチパラメータの内の、正のフレーズ指
令の位置により、句(フレーズ)に分割し、該分割され
た句(フレーズ)の中のアクセント指令の数が1つのと
きには、当該句(フレーズ)をその儘文節とし、該アク
セント指令が2つ以上ある場合には、2番目以降のアク
セント指令の立ち上がりを文節の境界とするように構成
する。
〔作用〕
即ち、本発明によれば、文の単位で発声された連続音声
を認識する音声認識方式において、入力された連続音声
のピッチパターン(ピンチ周波数の時系列)と、特定の
ピッチパターン生成モデルから生成されたピッチパター
ンとの差が小さくなるように、該ピッチパターン生成モ
デルを規定してピッチパラメータを決定し、該決定され
たピッチパラメータを使用して、上記入力された連続音
声を、複数個の区間、例えば、文節に分割して、該分割
された文節単位で音声認識を行うようにしたものである
ので、高精度の連続音声認識が可能になると云う効果が
得られる。
〔実施例〕
以下本発明の実施例を図面によって詳述する。
前述の第1図が本発明の連続音声認識方式の構成例を示
した図であり、第2図はピッチパラメータ決定部の実施
例を示した図であり、第3図は本発明による文節分割方
式を説明する図であり、第1図におけるピッチ抽出部1
.ピッチパラメータ決定部2.音声分割部3が本発明を
実施するのに必要な手段である。尚、全図を通して同じ
符号は同じ対象物を示している。
以下、第1図〜第3図を用いて、本発明の連続音声認識
方式を説明する。
先ず、ピッチ抽出部1において、入力音声からピッチパ
ターンが抽出される。
ここで、ピッチパターンとは、入力音声信号のピッチ周
波数の時系列パターン(第3図(a)の点線A参照)で
あり、その抽出方法には、例えば、公知の変形相関法等
、従来から用いられている手法が利用できる。
この変形相関法は、入力音声の線形予測残差の自己相関
から求める方法であって、例えば、「日本音響学会編、
音響工学講座7“音声”中田和男著、コロナ社刊、昭和
53年7月15日再版、P90〜93」に、その詳細が
示されている。
次のピッチパラメータ決定部2においては、後述のピッ
チパラメータ生成モデル(例えば、胚崎モデル)に基づ
き、公知のA−b−3法(Analysis by 5
ynthesis(合成による分析法))によって、最
適なピッチパラメータが決定される。
このピッチパラメータ決定部2での動作を第2図によっ
て、更に詳細に説明する。
本図において、入力ピッチパターンは、上記ピンチ抽出
部1において、入力音声から抽出されたピッチ周波数の
時系列パターンである。
設 初期値快定部25においては、上記入力ピンチパターン
から、ピンチパターン生成モデル(例えば、藤崎モデル
)のパラメータの初期値を設定し、最適パラメータ決定
部23へ出力する。
この初期値は、上記のように入力ピッチパターンから決
定しても良いし、予め定めておいても良い。
パラメータ選択部24は、最初に、この初期パラメータ
値を選択し、ピンチパターン生成部21に出力する。
このピンチパターン生成部21は、上記選択されたパラ
メータに基づいて、特定のピッチパターン生成モデル、
例えば、「藤崎モデル」に従って、ピンチパターンを生
成する。
誤差計算部22においては、入力ピッチパターンと、上
記モデルに基づいて生成されたピッチパターンの誤差を
計算する。
最適パラメータ決定部23においては、上記計算された
誤差に基づいて、パラメータ選択部24に対して、前述
のピッチパラメータ生成モデルのパラメータを少し宛変
化させるように指示を与える。
この結果、該パラメータ選択部24では、前の値と異な
る値をとるパラメータを選択して、ビ・7チパタ一ン生
成部21に出力する。
この手順を繰り返して、誤差の最も少ない最適なパラメ
ータを決定する。この手法が、前述の八−b−s法であ
る。
このようにして生成されたピンチパターンが、第3図(
a)の実線で示したピンチパターンBである。
上記ピンチパターン生成モデルには、前述のように、良
く知られている「藤崎モデル」がある。
この「藤崎モデル」は、例えば、「“複文の基本周波数
パタンの分析と合成”日本音ツ学会、音声研究会資料、
582−40.廣瀬啓吉、藤崎博也、高橋登(東京大学
、工学部)9社団法人 日本音響学会1982年10月
25日刊」に詳細に説明されているが、要約すると以下
のようになる。即ち、 「藤崎モデル」では、ピッチ周波数FO(t)は以下の
ように表される。
ここで、 Fm1nはピ・ノチ周波数の下限値。
■はフレーズ指令の数。
Jはアクセント指令の数。
八2、はi番目のフレーズ指令の大きさ。
八、、はj番目のアクセント指令の大きさ。
To、はi番目のフレーズ指令の開始時点。
TIJはj番目のアクセント指令の開始時点。
TZJはj番目のアクセント指令の終了時点。
α、はi番目のフレーズ指令に対するフレーズ制御機構
の固有角周波数。
βjはi番目のアクセント指令に対するアクセント制御
機構の固有角周波数。
θはアクセント制御機構のステップ応答関数の上限値。
である。
上記ピッチパターン生成モデルの各パラメータについて
は、全てを変数としても良いし、一部を定数としても良
い。
次の音声分割部3においては、上記ピッチパラメータに
従って、入力音声を文節に分割し、該分割された音声信
号を、文節音声認識部4に出力する。
この音声分割部3での分割方法の一例を第3図を参照し
ながら説明する。
第3図は「朝早くバンガローに電報が届いた」と云う文
の連続音声を分析した結果である。
本図において、(a)は自然音声から抽出したピソチパ
ターン(点線)Aと、前述の「藤崎モデル」を用いて生
成したピッチパターン(実線)Bである。但し、一点鎖
線Cは、上記「藤崎モデル」におけるフレーズ成分を示
している。
そして、(b)はフレーズ指令、(C)はアクセント指
令、(d)は自然音声のパワーである。
本発明においては、該入力音声は、正のフレーズ指令の
位置により、句(即ち、フレーズ)に分割する。本例で
は、(b)図から明らかな如く、3分割されることにな
る。
又、該分割された句の中のアクセント指令の数が1つの
ときは、該句をその儘文節とみなし、該アクセント指令
が2つ以上ある場合には、2番目以降のアクセント指令
の立ち上がりを文節の境界とする。
この文節境界の決定後、更に、無音検出や、音声パワー
のディップ検出等を行って該境界位置の微小な修正を行
っても良い。
本図の(f)は、このようにして、文節分割を行った結
果である。
このようにして得られた文節に対して、文節音声認識部
4において、従来の、例えば、パターンマツチ法等を用
いて音声認識を行い、第3図の(e)に示した認識結果
を得ることができる。
このように、本発明は、連続音声認識方式において、発
声単位を単語、或いは文節等の短いものに制限して音声
認識を行うことにより、文単位の発声を直接音声認識す
るのに比較して高い認識率が得られることに着目し、入
力された連続音声のピッチパターンを抽出した後、例え
ば、「藤崎モデル」のようなピッチパターン生成モデル
に基づいて生成したピッチパターンと比較して、該入力
音声のピンチパターンとの誤差が最も小さくなる、8亥
モデルのピッチパラメータを求め、9亥ピンチパラメー
タの内の、例えば、フレーズ指令、アクセント指令等を
用いて、入力音声をフレーズ(句)に分割し、更に文節
に分割して、該分割された文節に対して、通常の音声認
識を行うようにした所に特徴がある。
〔発明の効果〕
以上、詳細に説明したように、本発明の連続音声認識方
式は、文の単位で発声された連続音声を認識する音声認
識方式において、入力された連続音声のピッチパターン
(ピッチ周波数の時系列)と、特定のピッチパターン生
成モデルから生成されたピッチパターンとの差が小さく
なるように、該ピンチパターン生成モデルを規定してビ
ッチバラメ、−夕を決定し、該決定されたピンチパラメ
ータを使用して、上記入力された連続音声を、複数個の
区間、例えば、文節に分割して、該分割された文節単位
で音声認識を行うようにしたものであるので、高精度の
連続音声認識が可能になると云う効果が得られる。
【図面の簡単な説明】
第1図は本発明の連続音声認識方式の構成例を示した図
。 第2図はピッチパラメータ決定部の実施例を示した図。 第3図は本発明による文節分割方式を説明する図。 第4図は従来の連続音声認識方式を説明する閏。 である。 図面において、 1はピッチ抽出部。 2はピッチパラメータ決定部。 21はピッチパターン生成部。 22は誤差計算部。 23は最適パラメータ決定部。 24はパラメータ選択部、25は初期値設定部。 3は音声分割部、   4は文節音声認識部。 7はパラメータ抽出部、8はVCV境界推定部。 8aは母音標準パターンファイル。 9はVCV照合部。 9aはVCV標準パターンファイル。 10は判定部、      A、B、Cはピッチパター
ン。

Claims (2)

    【特許請求の範囲】
  1. (1)文の単位で発声された連続音声を認識する音声認
    識方式であって、 入力音声信号から該入力音声信号のピッチパターンを抽
    出する手段(1)と、 該ピッチパターンから、特定のピッチパターン生成モデ
    ルから生成されるピッチパターンとの差が小さくなるよ
    うに、該ピッチパターン生成モデルを規定するピッチパ
    ラメータを決定する手段(2)と、 該決定されたピッチパラメータを使用して、上記入力音
    声信号を複数個の区間に分割する手段(3)と、 該分割された音声信号を認識する手段(4)とを設け、 上記入力された連続音声のピッチパターンのピッチパラ
    メータに基づいて、該連続音声を複数個の区間に分割し
    、該分割された区間を音声認識するようにしたことを特
    徴とする連続音声認識方式。
  2. (2)上記入力音声信号を複数個の区間に分割する手段
    として、上記ピッチパラメータの内の、正のフレーズ指
    令の位置により、句(フレーズ)に分割し、該分割され
    た句(フレーズ)の中のアクセント指令の数が1つのと
    きには、当該句(フレーズ)をその儘文節とし、該アク
    セント指令が2つ以上ある場合には、2番目以降のアク
    セント指令の立ち上がりを文節の境界とすることを特徴
    とする特許請求の範囲第1項に記載の連続音声認識方式
JP62093917A 1987-04-16 1987-04-16 連続音声認識方式 Pending JPS63259600A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62093917A JPS63259600A (ja) 1987-04-16 1987-04-16 連続音声認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62093917A JPS63259600A (ja) 1987-04-16 1987-04-16 連続音声認識方式

Publications (1)

Publication Number Publication Date
JPS63259600A true JPS63259600A (ja) 1988-10-26

Family

ID=14095817

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62093917A Pending JPS63259600A (ja) 1987-04-16 1987-04-16 連続音声認識方式

Country Status (1)

Country Link
JP (1) JPS63259600A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019087798A (ja) * 2017-11-02 2019-06-06 ヤマハ株式会社 音声入力装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019087798A (ja) * 2017-11-02 2019-06-06 ヤマハ株式会社 音声入力装置

Similar Documents

Publication Publication Date Title
US10074363B2 (en) Method and apparatus for keyword speech recognition
Ramu Reddy et al. Identification of Indian languages using multi-level spectral and prosodic features
Taylor Analysis and synthesis of intonation using the tilt model
Reddy et al. A model and a system for machine recognition of speech
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
JP3762327B2 (ja) 音声認識方法および音声認識装置および音声認識プログラム
US7177810B2 (en) Method and apparatus for performing prosody-based endpointing of a speech signal
Shanthi et al. Review of feature extraction techniques in automatic speech recognition
WO2013000868A1 (en) Speech-to-text conversion
Celin et al. A weighted speaker-specific confusion transducer-based augmentative and alternative speech communication aid for dysarthric speakers
White Speech recognition: a tutorial overview
Watrous et al. Learning phonetic features using connectionist networks
JPH09325798A (ja) 音声認識装置
Cettolo et al. Automatic detection of semantic boundaries based on acoustic and lexical knowledge.
JPS63259600A (ja) 連続音声認識方式
Tunalı A speaker dependent, large vocabulary, isolated word speech recognition system for turkish
Gogoi et al. Automatic tone recognition of Ao language
Lertwongkhanakool et al. An automatic real-time synchronization of live speech with its transcription approach
Lingam Speaker based language independent isolated speech recognition system
Heo et al. Classification based on speech rhythm via a temporal alignment of spoken sentences
Chang et al. Chinese dialect identification using segmental and prosodic features
JP3061292B2 (ja) アクセント句境界検出装置
Deekshitha et al. Prosodically guided phonetic engine
Shinde et al. Isolated Word Recognition System based on LPC and DTW Technique
Vyas et al. Study of Speech Recognition Technology and its Significance in Human-Machine Interface