JPS63253997A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS63253997A
JPS63253997A JP62087099A JP8709987A JPS63253997A JP S63253997 A JPS63253997 A JP S63253997A JP 62087099 A JP62087099 A JP 62087099A JP 8709987 A JP8709987 A JP 8709987A JP S63253997 A JPS63253997 A JP S63253997A
Authority
JP
Japan
Prior art keywords
phoneme
hypothesis
speech
transformation
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP62087099A
Other languages
English (en)
Other versions
JPH0719159B2 (ja
Inventor
達郎 松本
晋太 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP62087099A priority Critical patent/JPH0719159B2/ja
Publication of JPS63253997A publication Critical patent/JPS63253997A/ja
Publication of JPH0719159B2 publication Critical patent/JPH0719159B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概要〕 この発明は、入力文字列候補に対して音素変形ルールを
適用して生成される多数の音韻仮説と、音声の音韻候補
とをマツチングする手数を削減するため、前回検証して
認識した認識結果と発声時間長とに基づいて適用する音
素変形ルールを選択し、生成される音韻仮説数を削減し
て音声認識を行うことにより、処理量を削減して高速に
音声認識を行うようにしている。
〔産業上の利用分野〕
本発明は、前回検証した認識結果と発声時間長とに基づ
いて適用する音素変形ルールを選択して生成される音韻
仮説数を削減し、高速に音声認識を行うよう構成した音
声認識装置に関するものである。
〔従来の技術〕
第4図構成を用いて従来のトップダウン音声認識におけ
る処理を説明する。
第4図において、仮説生成部21は、図示外の言語処理
部あるいは言語辞書から通知された文字列候補に対して
、音素変形ルール22を適用し、考えられる全ての音韻
仮説を生成する。一方、音声分析部4は、入力された音
声と、音韻辞書25とのマツチングを行い、音声に対す
る距離付きの音韻候補列を生成する。これら音韻仮説お
よび音韻候補列の通知を受けた仮説検証部26は、両者
のマツチングを行っていずれかのパスが所定閾値以下の
距離であれば、文字列候補を音声認識結果として出力し
ていた。
尚、音素変形ルール(日本語に適用するルール)として
は、例えば下記のものがある。
i 無声子音に挟まれた母音“i′または“U“は無声
化する可能性がある。
ii  語中の“G”は鼻濁音化する可能性がある。
iii  鼻子音に隣接する母音は鼻音化する可能性が
ある。
1v  母音“i”が後続する子音は口蓋化する。
また、この音素変形ルールを、例えば“ASHrTAG
A” (あしたが、明日が)という文字列候補を仮説生
成部2′1に入力すると、第5図に示すように、上記ル
ールi、1)、および1vが適用されて図示のような音
韻仮説ネットワークを用いて示す音韻仮説群が生成され
る。
〔発明が解決しようとする問題点〕
従来の第4図構成は、起こり得る全ての音素変形を考慮
して音韻仮説(例えば第5図音韻仮説ネットワークを用
いて示す音韻仮説)を生成していたため、ある音声速度
では、起こり得ないものまでも含めて多数の音韻仮説を
生成して無駄に処理量を多くしてしまい、高速に音声認
識を行えないという問題点があった。これは、人間の発
声が、ゆっくりとていねいに発声された場合と、速くあ
いまいに発声された場合とでは、適用される音素変形ル
ールが異なるにもかかわらず、全ての音韻仮説を生成し
て音声認識を行っていたたためと考えられる。
〔問題点を解決するための手段〕
本発明は、前記問題点を解決するため、前回の入力音声
の認識結果および発声時間長に基づいて発声速度を計算
する発声速度計算部7と、この発声速度計算部7によっ
て計算された発声速度に基づいて、音素変形ルール2の
うち適用するものを選択制御するルール制御部3とを設
け、このルール制御部3によって選択された音素変形ル
ールを上記仮説生成部1に通知して入力された文字列候
補に対する音韻仮説を生成し、音声認識を行うようにし
ている。
第F図は本発明の原理構成図を示す0図中仮説生成部1
は、図示外の言語処理部あるいは単語辞書から通知され
た文字列候補を受は取り、ルール制御部3を介して得ら
れた音素変形ルールを適用して音韻仮説を生成するもの
である。
音素変形ルール2は、文字列候補に対する音韻仮説を生
成するためのルールである0例えば無声子音に挟まれた
母音“i”または“U”は、無声化する可能性があると
いうルールである。
ルール制御部3は、発声速度計算部7から通知された発
声速度情報に基づいて、仮説生成部lに与える音素変形
ルールを選択制御するものである。
音声分析部4は、入力された音声と、音韻辞書5とのマ
ツチングを行い、距離付きの音韻候補列を生成するもの
である。
音韻辞書5は、各音韻毎にスペクトルパターンを格納し
たものである。
仮説検証部6は、音韻仮説と、音韻候補列とのマツチン
グを行っていずれかのバスが所定闇値以下の距離であれ
ば、文字列候補を音声認識結果として出力するものであ
る。
発声速度計算部7は、前回の発声の認識結果と、発声時
間長とを用いて計算した発声速度情報をルール制御部3
に通知するものである。
バッファ8は、前回の発声の認識結果と、発声時間長と
を記憶するものである。
〔作用〕
次に動作を説明する。
第1図において、仮説生成部lは、入力された音声に対
応して図示外の音声処理部などから通知された文字列候
補に対して、ルール制御部3を介して読み出された音素
変形ルールを適用し、音韻仮説を生成する。一方、音声
分析部4は、入力された音声と、音韻辞書5とのマツチ
ングを行い、距離付きの音韻候補列を生成する。仮説検
証部6は、音韻候補列と音韻仮説とのマツチングを行い
、その結果、いずれかのパスが所定の闇値以下の距離で
あれば、当該文字列候補を音声認識結果として出力する
。この際、発声速度計算部7は、バッファ8に記憶され
ている前回の認識結果および音声の発声時間長に基づい
て発声速度例えば5モ一ラ/秒をルール制御部3に通知
し、この発声速度の時に適用される音素変形ルール2の
みを仮説生成部1に通知するようにする。これにより、
仮説生成部1は、前回の認識結果および発声時間長によ
って選択された音素変形ルールのみを用いてマツチング
を行い、音韻仮説を生成する。
以上のように、入力された前回の音声の認識結果と、発
声時間長とに基づいて計算された発声速度をルール制御
部3に通知し、これに適合する音素変形ルールのみを用
いて文字列候補に対して音韻仮説を生成し、音声認識を
行うことにより、生成される音韻仮説数を削減して高速
に音声認識を行うことが可能となる。
〔実施例〕
次に、第2図および第3図を用いて本発明の1実施例の
構成および動作を詳細に説明する。
第2図において、仮説生成部工は、通知された文字列候
補(ローマ字列)に対し、音素変形ルールを適用し、音
韻仮説を生成するものである。
音素変形ルール2は、文字列候補に対し、音韻仮説を生
成するためのルールであって、下式の形式で表されるも
のである。
“発声速度:変形対象−変形結果/変形対象の環境”・
・・・・・・・・・・・・・・・・・(1)ここで、発
声速度は当該ルールが使用可能な最小の発声速度例えば
5モーラ(5音節)7秒を示し、変形対象は音素変形の
対象となる音素を示し、変形結果は音素が変形した後の
音韻を示し、変形対象の環境は変形対象の位置とその音
素環境を示す、具体例を第3図に示す、この第3図臭体
例は、“発声速度が5モ一ラ/秒以上の場合には、音素
Iの前に無声化の音素があると、■あるいは無声化した
■になる”というルールを表している。詳述すると、第
1番目の“5′が発声速度であって、第2番目以陣に示
すルールが5モ一ラ/秒以上の時に適用される旨を表し
ている。第2番目の“I”は変形対象を表している。第
3番目の1 (1゜1−1  ”は、変形結果が1■“
あるいは@l−1(無声化したIを意味する)となるこ
とを表している。第4番目の“E−woe]−”は、変
形対象“−〇の前に無声音を示す音素があるという環境
(条件)を表している0以上のように、音声の発声速度
に対応して適用される音素変形ルールの区別を設けるこ
とにより、生成される音韻仮説数を削減することが可能
となる。
ルール制御部3は、発声速度計算部7から通知された発
声速度例えば5モ一ラ/秒に基づいて、音素変形ルール
2に付加された発声速度を考慮し、仮説生成部1に渡す
音素変形ルールを制限するものである。
音韻ラティス生成部4−1は、音韻辞書5に格納されて
いる各音素毎のスペクトルパターンと、入力音声とのマ
ツチングを行い、距離を計算して音韻ラティスを生成す
るものである。
音韻辞書5は、各音韻毎にスペクトルパターンを格納し
たものである。
仮説検証部6は、音韻仮説と、生成された音韻ラティス
とのマツチングを行い、音韻仮説ネットワークのいずれ
かのパスが、所定の閾値以下の距離であれば、文字列候
補を認識結果として出力するものである。
発声速度計算部7は、前回発声した認識結果から文字列
のモーラ数を計算、例えば“ASHITAGA’″ (
あしたが、明日が)に対しては4”を計算し、これを発
声時間長で割算した発声速度(モー97秒)を計算する
ものである。
バッファ8は、前回の発声の認識結果と、発声時間長と
を記憶するものである。
単語辞書9は、認識すべき単語をローマ字表記(日本語
の場合)で格納するものである。
次に、第2図本発明の1実施例の構成の動作を説明する
第2図において、発声速度計算部7は、バッファ8に記
憶されている前回の発声時間長および認識結果に基づい
て発声速度例えば5モ一ラ/秒を計算してルール制御部
3に通知する。この発声速度の通知を受けたルール制御
部3は、音素変形ルール2例えば第3図音素変形ルール
の先頭に記述されている発声速度を読み出し、適用でき
るもののみを抽出し、仮説生成部1に通知する。この音
素変形ルールの通知を受けた仮説生成部1は、音声入力
に伴って通知された文字列候補に対して、当該音素変形
ルールを適用して例えば第5図音韻仮説ネットワークを
用いて表される音韻仮説群を生成する。仮説検証部6は
、音声分析部4から通知された音韻ラティスが、この音
韻仮説ネットワークのいずれかのバスと所定の闇値以下
の距離で一致するものがあるか否かのマツチングを行う
このマツチングの結果、所定闇値以下の距離のパスがあ
れば、文字列候補を音声mQ候補として出力する。最終
的に、複数個の文字列が認識候補として出力されるが、
仮説検証部6で計算される各文字列候補毎の音韻ラティ
スとの距離が最も小さいものが認識結果とされる。
以上のように、発声速度計算部7およびルールWIjB
部3を用いて、前回の認識結果および発声時間長に基づ
いて計算した発声速度によって適用される音素変形ルー
ルのみを抽出し、この音素変形ルールを仮説生成部1に
通知して音韻仮説ネットワークを生成し、音韻ラティス
とのマツチングを行って音声認識を行うことにより、音
韻仮説数を削減して高速に音声認識を行うことが可能と
なる。
〔発明の効果〕
以上説明したように、本発明によれば、前回検証して認
識した認識結果と発声時間長とに基づいて適用する音素
変形ルールを選択し、生成される音韻仮説数を削減して
音声認識を行う構成を採用しているため、音韻仮説数を
制限し、処理量を削減することができる。これにより、
高速に音声認識を行うことが可能となる。
【図面の簡単な説明】
第1図は本発明の原理構成図、第2図は本発明の1実施
例構成図、第3図は音素変形ルール例、第4図は従来装
置の構成図、第5図は音曲仮説ネットワーク例を示す。 図中、1は仮説生成部、2は音素変形ルール、3はルー
ル制御部、4は音声分析部、5は音韻辞書、6は仮説検
証部、7は発声速度計算部、8はバッファを表す。

Claims (1)

  1. 【特許請求の範囲】 入力文字列候補に対して音素変形ルール(2)を適用し
    、音韻仮説を生成する仮説生成部(1)と、入力音声と
    音韻辞書(5)とのマッチングを行い、音韻候補列を生
    成する音声分析部(4)と、上記生成された音韻仮説と
    、上記音韻候補列とのマッチングを行い、音韻仮説の検
    証を行う仮説検証部(6)とを設け、音声認識を行う音
    声認識装置において、 前回の入力音声の認識結果および発声時間長に基づいて
    発声速度を計算する発声速度計算部(7)と、この発声
    速度計算部(7)によって計算された発声速度に基づい
    て、音素変形ルール(2)のうち適用するものを選択制
    御するルール制御(3)とを備え、このルール制御部(
    3)によって選択された音素変形ルールを上記仮説生成
    部(1)に通知して入力された文字列候補に対する音韻
    仮説を生成し、音声認識を行うよう構成したことを特徴
    とする音声認識装置。
JP62087099A 1987-04-10 1987-04-10 音声認識装置 Expired - Fee Related JPH0719159B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62087099A JPH0719159B2 (ja) 1987-04-10 1987-04-10 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62087099A JPH0719159B2 (ja) 1987-04-10 1987-04-10 音声認識装置

Publications (2)

Publication Number Publication Date
JPS63253997A true JPS63253997A (ja) 1988-10-20
JPH0719159B2 JPH0719159B2 (ja) 1995-03-06

Family

ID=13905503

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62087099A Expired - Fee Related JPH0719159B2 (ja) 1987-04-10 1987-04-10 音声認識装置

Country Status (1)

Country Link
JP (1) JPH0719159B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009008055A1 (ja) * 2007-07-09 2009-01-15 Fujitsu Limited 音声認識装置、音声認識方法、および、音声認識プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009008055A1 (ja) * 2007-07-09 2009-01-15 Fujitsu Limited 音声認識装置、音声認識方法、および、音声認識プログラム
JPWO2009008055A1 (ja) * 2007-07-09 2010-09-02 富士通株式会社 音声認識装置、音声認識方法、および、音声認識プログラム
US8738378B2 (en) 2007-07-09 2014-05-27 Fujitsu Limited Speech recognizer, speech recognition method, and speech recognition program

Also Published As

Publication number Publication date
JPH0719159B2 (ja) 1995-03-06

Similar Documents

Publication Publication Date Title
JP5327054B2 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
TW546631B (en) Disambiguation language model
US7366669B2 (en) Acoustic model creation method as well as acoustic model creation apparatus and speech recognition apparatus
KR20230003056A (ko) 비음성 텍스트 및 스피치 합성을 사용한 스피치 인식
US10235991B2 (en) Hybrid phoneme, diphone, morpheme, and word-level deep neural networks
JP2001100781A (ja) 音声処理装置および音声処理方法、並びに記録媒体
JP5198046B2 (ja) 音声処理装置及びそのプログラム
JP2023505670A (ja) アテンションベースのクロックワーク階層型変分エンコーダ
Sakai et al. A probabilistic approach to unit selection for corpus-based speech synthesis.
JP5300000B2 (ja) 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム
JP2006243213A (ja) 言語モデル変換装置、音響モデル変換装置、及びコンピュータプログラム
JPS63253997A (ja) 音声認識装置
US10600407B2 (en) Generation device, recognition system, and generation method for generating finite state transducer
Dropuljić et al. Development of acoustic model for Croatian language using HTK
Bellegdi et al. Automatic rule based phonetic transcription and syllabification for quranic text
US7353172B2 (en) System and method for cantonese speech recognition using an optimized phone set
JPH1097270A (ja) 音声認識装置
Schneider et al. Use of word Pairs and context to achieve better automatic speech recognition results with foreign English speakers
JPS6180298A (ja) 音声認識装置
KR20230090739A (ko) 이철동음어 인식 시스템
Kuo et al. An NN-based approach to prosody generation for English word spelling in English-Chinese bilingual TTS
JP5012444B2 (ja) 韻律生成装置、韻律生成方法、および、韻律生成プログラム
JP2021005024A (ja) 声質変換方法及び声質変換装置
JPS63153596A (ja) 音声文章入力装置
JPH04127199A (ja) 外国語単語の日本語発音決定方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees