JPS63239499A - 単語音声入力装置 - Google Patents

単語音声入力装置

Info

Publication number
JPS63239499A
JPS63239499A JP62073302A JP7330287A JPS63239499A JP S63239499 A JPS63239499 A JP S63239499A JP 62073302 A JP62073302 A JP 62073302A JP 7330287 A JP7330287 A JP 7330287A JP S63239499 A JPS63239499 A JP S63239499A
Authority
JP
Japan
Prior art keywords
syllable
word
similarity
recognition
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62073302A
Other languages
English (en)
Inventor
博 松浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP62073302A priority Critical patent/JPS63239499A/ja
Publication of JPS63239499A publication Critical patent/JPS63239499A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は入力単語音声を高精度に認識することのできる
単語音声入力装置に関する。
(従来の技術) n音節からなる単語、またはn文字からなる単語を認識
する単語認識装置として、例えば特開昭59−1979
74号公報に開示されるものが知られている。
この単語認識装置は、n音節からなる入力音声単語の各
音節A I(1−1,2,〜ル)をそれぞれ認識処理し
、これらの各音節毎にその音節Atと認識対象音節B 
k(k−1,2,〜、M)との類似度Sk、l  (ま
たは相違度)を求め、この類似度S k、iを上記認識
対象音節Bkとその音節位置1とによって定まる、類似
度メモリ上の特定の格納位置にそれぞれ格納する。そし
て単語辞書メモリに登録されている辞書単語の各音節コ
ードCI(1−1,2,〜、L)と、その音節コードC
Iの上記辞書単語内における音節位置1とによって定ま
る前記類似度メモリ上の位置に格納されている類似度を
当該辞書単語の各音節についてそれぞれ求める。
しかる後、上記類似度メモリから求められた類似度に基
いて前記入力単語音節A1と辞書単語音節CIとの一致
度を計算し、−成度の高い辞書単語を前記入力音声単語
に対する認識候補単語として求めるものである。
このような入力単語音声の認識法によれば、入力単語音
声を簡易に、且つ高速に、しかも適確に入力音声単語を
認識することが可能となる。
ところが発声入力される単語音声には長音化があり、例
えば往々にして「経済」なる単語が「ケイザイ」ではな
く「ケエザイ」として発声されたり、また「東京」なる
単語が「トウキヨウ」ではなく「トウキョオ」「トオキ
ョオ」「トオキョウ」として発声されることがある。
そこで従来では、このような長音化を生じて発声入力さ
れる音声単語を正しく認識するべく、「東京」なる単語
について「トウキヨウ」なる情報のみならず、「トウキ
ョオ」「トオキョオ」「トオキョウ」なる情報までも単
語辞書に登録するようにしている。
この為、単語辞書を構成する為の辞書メモリ容量が増大
することが否めず、ひいては製造コストの増大や認識処
理所要時間の増大による認識応答性の劣化の問題が生じ
た。
(発明が解決しようとする問題点) このように従来の単語音声認識装置にあっては、発声入
力される単語音声の長音化の問題に対処するべく、その
単語辞書の構成が複雑化したり、また認識結果が得られ
るまでの応答性が悪い等の不具合があった。
本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、発声入力される単語の長音化の
問語に十分対処することができ、しかも単語辞書の構成
が簡単で認識応答性が高く、高精度に単語音声を認識す
ることのできる実用性の高い単語音声人力装置を提供す
ることにある。
[発明の構成] (問題点を解決するための手段) 本発明は、n音節からなる音声入力単語の各WRをそれ
ぞれ認識処理し、入力音節と認識対象音節との類似度を
、類似度メモリ上の上記認識対象音節とその音節位置と
によって定まる格納位置にそれぞれ格納し、単語辞書メ
モリに登録されている辞書単語の各音節コードとその音
節位置とによ1て定められる前記類似度メモリ上の位置
に格納されている類似度から上記辞書単語と入力音声単
語との一致度を求めて前記入力音声単語を認識する単語
音声入力装置において、 前記類似度メモリに対して、前記入力音声単語の各音節
毎の音節認識候補中に「オ」段の音節の認識候補が存在
し、その次の音節位置に「オ」なる認識候補が存在する
とき、上記状の音節位置の認識候補「つ」に対しても上
記「オjと同じ類似度を与えると共に、前記入力音声単
語の各音節毎の音節認識候補中に「工」段の音節の認識
候補が存在し、その次の音節位置に「工」なる認識候補
が存在するとき、上記状の音節位置の認識候補「イ」に
対しても上記「工」と同じ類似度を与えるとを特徴とす
るものである。
(作用) 本発明によれば、入力音声単語の各音節毎の音節認識候
補中に「オ」段の音節の認識候補が存在し、その次の音
節位置に「オ」なる認識候補が存在するときには、この
次の音節位置の認識候補「、つ」に対しても上記「オ」
と同じ類似度が与えられて辞書単語に対する一致度の計
算が行われるので、例えば「オウ」と表記され「オオ」
と発声される音節が存在する場合であっても、その入力
単語音声を高精度に認識することができる。
また同様にして入力音声単語の各音節毎の音節認識候補
中に「工」段の音節の認識候補が存在し、その次の音節
位置に「工」なる認識候補が存在するときには、その次
の音節位置の認識候補「イ」に対しても上記「工」と同
じ類似度が与えられるので、例えば「エイ」と表記され
「エエ」と発声される音節が存在する場合であっても、
その入力単語音声を高精度に認識することができる。
しかも類似度メモリに格納する類似度を「つ」と「オ」
について、また「イ」と「工」について同じくするだけ
で長音化の問題に対処することができる。従って従来の
ように同じ単語について発声(音節列)の異なる複数の
辞書単語を準備しておく必要がなく、単語辞書に必要な
メモリ容量を大幅に削減することができる。
この結果、単語辞書の構成の簡単化を図り、しかも認識
応答性が高く、高精度に単語音声を認識することが可能
となる。
(実施例) 以下、図面を参照して本発明の一実施例につき説明する
第1図は実施例装置の要部概略構成図であり、lはn音
節からなる入力単語音声を音節単位で認識する音節認識
部である。この音節認識部1は、入力単語音声の各音節
につき音節辞書と照合し、その類似度を計算する等して
、例えば第3位までの音節候補を求めるものである。具
体的にはr東京」なる単語が発声入力された場合、その
各音節に対して第3図に示すように第1位から第3位ま
での音節候補と、その音節候補を得た類似度をそれぞれ
求めるものとなっている。
しかしてこの音節認識部1にて求められた音節候補の類
似度は、その音節候補と入力単語音声における音節位置
に従って類似度メモリ2にそれぞれ格納され、単語認識
処理に倶される。
即ち、類似度メモリ2は、例えば第4図に示すように音
節名と音節位置に応じて類似度を格納するメモリ構造を
有している。そして前記入力単語音声から求められた各
音節の音節候補の類似度を、その音節候補に該当する音
節名の位置であって、且つ入力単語音声における音節位
置によって指定される位置にそれぞれ格納するものとな
っている。
具体的には、入力単語音声「東京」に対して第3図に示
すようにその音節候補がそれぞれ求められた場合、それ
らの音節候補についてそれぞれ求められた類似度を第4
図に例示するように、先ずその第1音節については音節
名「あ」の位置に類似度(30)、音節名「と」の位置
に類似度(80)、そして音節名「゛ぼ」の位置に類似
度(40)をそれぞれ格納している。
同様にして第2音節については音節名「お」の位置に類
似度(80)、音節名「の」の位置に類似度(50)、
音節名「ろ」の位置に類似度(70)をそれぞれ格納し
、更に第3音節については音節名「きょ」の位置に類似
度(80)、音節名「びょ」の位置に類似度(40)、
音節名「びょ」の位置に類似度(50)をそれぞれ格納
している。
そして第4音箇については音節名「お」の位置に類似度
(80)、音節名「と」の位置に類似度(80)、音節
名「ろ」の位置に類似度(40)をそれぞれ格納してい
る。
尚、ここでは第4音節目までの音節候補の類似度を類似
度メモリ2に格納するようにしているが、同音節目まで
の類似度を格納するかは入力音声単語を構成する音節数
に応じて定めれば良いことは勿論のことである。また各
音節位置に対応した類似度の格納は、音節位置カウンタ
3の制御の下で行われる。
しかして本装置が特徴とするところは、この類似度メモ
リ2に入力音声単語の各音節について認識処理して求め
られた音節候補の類似度を格納するに際し、入力音声単
語の各音節毎の音節認識候補中に「オ」段の音節の認識
候補が存在し、その次の音節位置に「オ」なる認識候補
が存在するとき、上記次の音節位置の認識候補「つ」に
対しても上記「オ」と同じ類似度を格納し、また前記入
力音声単語の各音節毎の音節認識候補中に「工」段の音
節の認識候補が存在し、その次の音節位置に「工」なる
認識候補が存在するとき、上記次の音節位置の認識候補
「イ」の認識候補に対しても上記「工」と同じ類似度を
格納するようにしている点にある。
具体的には、上述した入力単語音声の例では、第1音節
に「と」 「ぼ」なる「オ」段の音節認識候補が求めら
れ、その次の第2音節において「お」なる音節候補が求
められていることから、第2音節目の音節名「う」につ
いても上記「お」なる音節候補と同じ類似度(ここでは
類似度“60”)を与える。同様にして第3音節に「き
ょ」 「びょ」「じょJなる「オ」段の音節認識候補が
求められ、その次の第2音節において「お」なる音節候
補が求められていることから、第4音節目の音節名「う
」についても上記「お」なる音節候補と同じ類似度(こ
こでは類似度″80°)を与える。
尚、「工」段の音節候補が求められ、その次の音節位置
に「工」なる音節候補が求められている場合には、その
音節位置の音節候補「つ」についても同様にして上記音
節候補「工」について求められた類似度を格納する。
ところで単語辞書メモリ4は、認識対象とする単語の音
節系列を格納したものである。この認識対象単語の各音
節系列は、例えば音節コードのつながりとしてそれぞれ
表現される。
しかしてアドレスカウンタ5は、」二足単語辞書メモリ
4に格納された辞書単語の情報(音節コード列)を順に
読出し、前記類似度メモリ2に格納された入力単語音声
の各音節候補の類似度の検索に供するものである。即ち
、アドレスカウンタ5は、制御部7の制御を受け、入力
単語音声の音節数と同じ音節数からなる辞書単語を順に
読出している。そして前記音節位置カウンタ3による音
節位置に対する制御と協働して、辞書単語の各音節名と
その音節位置とによって特定される前記類似度メモリ2
上の位置に格納されている類似度をそれぞれ求め、これ
を−成度計算部6に与えている。
即ち、第2図にその概念を示すように、単語辞書メモリ
4に登録されている辞書単語が音節コード[C1,C2
,C3]で与えられる場合、類似度メモリ2の音節名[
C1]、および第1音節目として特定される位置に格納
されている類似度Sk、1を求め、同様にして音節名[
C2] と第2音節目として特定される位置に格納され
ている類似度Sk、2、音節名[C3]と第3音節目と
して特定される位置に格納されている類似度S k、3
をそれぞれ求めるものとなっている。
一成度計算部6は、このようにして単語辞書メモリ4か
ら順に読出される辞書単語の音節とその音節位置とに従
って類似度メモリ2から求められる類似度を加算し、そ
の辞書単語に対する一致度を求めている。
一般的にはn音節からなる単語について、その1音節目
の音節コードに対する類似度を前記類似度メモリ2から
51として求め、各音節位置毎に求められた類似度を加
算してその一致度TSをTS−Σ Sl として求めている。制御部7は、このようにして各辞書
単語について求められた一致度を相互に比較し、例えば
−散文の高いX個の辞書単語を前記入力単語音声に対す
る認識候補単語として求めるものとなっている。
尚、音節認識制御部8は前記音節認識部1により入力単
語音声の音節認識処理を制御すると共に、上記制御部7
の制御を受けて入力単語音声に対する認識処理の開始を
入力単語毎に制御するものとなっている。
かくしてこのように構成された本装置によれば、例えば
前述したように単語音声「東京」が入力され、この入力
単語音声の各音節に対する音節候補が第3図に示すよう
に求められ、類似度メモリ6に第4図に示す如き類似度
の情報が求められた場合、単語辞書メモリ4に登録され
ている認識対象単語に対して次のようにして一致度の情
報が求められる。
即ち、入力単語音声が4音節からなることから、単語辞
書メモリ4から4音節の辞書単語を順に読譬 出し、その単語の音節と音節位置とによって特定される
類似度メモリ2の位置を検索し、そこに格納されている
類似度をそれぞれ読出す。
例えば「大阪;オオサカ」なる辞書単語について類似度
メモリ2を検索し、第1音節目について類似度(0)、
第2音節目について類似度(6o)、第3音節目につい
て類似度(0)、第4音節目について類似度(0)をそ
れぞれ得る。この結果、入力音声単語の辞書単語に対す
る一致度TSが(0+60+O+0−60)として求め
られる。同様にして辞書単語に付いての一致度をそれぞ
れ順に求める。
そして単語辞書メモリ4から「東京;トウキヨウJなる
辞書単語が読出された場合には、第1音節目について類
似度(80)、第2音節目について類似度([io)、
第3音節目について類似度(80)、第4音節目につい
て類似度(80)をそれぞれ得る。
そしてこの場合には、入力音声単語の辞書単語に対する
一致度TSが(80+60+80+80−300 )が
求められる。そして各単語についてそれぞれ求められた
一致度の相互比較が行われ、上記辞書単語「東京;トウ
キヨウ」について求められた一致度が最も高いことが確
認されたとき、この辞書単語「東京」が前記入力単語音
声に対する認識候補として求められる。
ちなみに従来装置にあっては、類似度メモリ2の第2音
節目および第4音節目の音節名「う」に対しては、音節
候補「お」と同じ類似度が与えられることがないので、
辞書単語「東京;トウキヨウ」に対する一致度TSは(
80+0+80+0−160 )として求められること
になる。この為、他の単語について求められる一致度よ
りも低くなり、誤認識が生じる虞れがある。
またこれを正しく認識するには、単語辞書メモリ4に「
東京;トオキョオ」なる辞書単語を別途登録しておく必
要がある。
この点、本装置によれば入力単語音声における音節の長
音化の影響、を配慮し、音声の長音化によって生じる音
節候補の類似度を長音化の可能性のある表記上の音節に
対して与えて、これらの類似度を用いて単語に対する認
識処理を行うので、単語辞書メモリ4に同一の単語につ
いて音節の異なる複数の音節列をそれぞれ登録しておく
必要がない。そして長音化を生じて発声入力された単語
を簡易に、且つ高精度に認識することが可能となる。
尚、本発明は上述した実施例に限定されるものではなく
、その要旨を逸脱しない範囲で種々変形して実施可能な
ことは勿論のことである。
[発明の効果] 以−に説明したように本発明によれば、長音化を生じて
発声される入力単語音声を、その音節候補について求め
られた類似度の類似度メモリへの格納を工夫するだけに
よって非常に簡易に、しがも高精度に認識することがで
きる。しがも類似度メモリに格納された類似度から辞書
単語に対する一致度を求めて入力音声単語を認識するの
で、単語辞書メモリの構成の簡略化を図ることができ、
またその認識応答性が高い等の効果が奏せられる。
【図面の簡単な説明】
図は本発明の一実施例を示すもので、第1図は実施例装
置の要部概略構成図、第2図は実施例装置における類似
度メモリの検索処理の概念を示す図、第3図は入力単語
音声の各音節に対する音節候補とその類似度の例を示す
図、第4図は第3図に示す音節候補の情報の類似度メモ
リへの格納例を示す図である。 1・・・音節認識部、2・・・類似度メモリ、3・・・
音節位置カウンタ、4・・・単語辞書メモリ、5・・・
アドレス・カウンタ、6・・・−成度計算部、7・・・
制御部、8・・・音節認識制御部。

Claims (1)

  1. 【特許請求の範囲】 n音節からなる音声入力単語の各音節をそれぞれ認識処
    理し、入力音節と認識対象音節との類似度を、類似度メ
    モリ上の上記認識対象音節とその音節位置とによって定
    まる格納位置にそれぞれ格納し、単語辞書メモリに登録
    されている辞書単語の各音節コードとその音節位置とに
    よって定められる前記類似度メモリ上の位置に格納され
    ている類似度から上記辞書単語と入力音声単語との一致
    度を求めて前記入力音声単語を認識する単語音声入力装
    置において、 前記類似度メモリに対して、少なくとも前記入力音声単
    語の各音節毎の音節認識候補中に「オ」段の認識候補が
    存在し、その次の音節位置に「オ」なる認識候補が存在
    するとき、上記次の音節位置の「ウ」の認識候補に上記
    「オ」と同じ類似度を与える手段、または前記入力音声
    単語の各音節毎の音節認識、候補中に「エ」段の認識候
    補が存在し、その次の音節位置に、「エ」なる認識候補
    が存在するとき、上記次の音節位置の「イ」の認識候補
    に上記「エ」と同じ類似度を与える手段を備えたことを
    特徴とする単語音声入力装置。
JP62073302A 1987-03-27 1987-03-27 単語音声入力装置 Pending JPS63239499A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62073302A JPS63239499A (ja) 1987-03-27 1987-03-27 単語音声入力装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62073302A JPS63239499A (ja) 1987-03-27 1987-03-27 単語音声入力装置

Publications (1)

Publication Number Publication Date
JPS63239499A true JPS63239499A (ja) 1988-10-05

Family

ID=13514229

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62073302A Pending JPS63239499A (ja) 1987-03-27 1987-03-27 単語音声入力装置

Country Status (1)

Country Link
JP (1) JPS63239499A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006243673A (ja) * 2005-03-07 2006-09-14 Canon Inc データ検索装置および方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006243673A (ja) * 2005-03-07 2006-09-14 Canon Inc データ検索装置および方法

Similar Documents

Publication Publication Date Title
US10319373B2 (en) Information processing device, information processing method, computer program product, and recognition system
JP2739945B2 (ja) 音声認識方法
KR101526918B1 (ko) 다언어 이국 음성 인식
US20060074662A1 (en) Three-stage word recognition
US20100211390A1 (en) Speech Recognition of a List Entry
EP0800158A1 (en) Word spotting
CN112489626B (zh) 一种信息识别方法、装置及存储介质
US8306820B2 (en) Method for speech recognition using partitioned vocabulary
JPH0581920B2 (ja)
CN112331229A (zh) 语音检测方法、装置、介质和计算设备
JP5447373B2 (ja) 言語モデルスコア先読み値付与装置およびその方法ならびにプログラム記録媒体
KR101424496B1 (ko) 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP4966324B2 (ja) 音声翻訳装置、および方法
KR101483947B1 (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP2002278579A (ja) 音声データ検索装置
Hoffmeister Bayes risk decoding and its application to system combination
JPS63239499A (ja) 単語音声入力装置
US6006182A (en) Speech recognition rejection method using generalized additive models
KR102299269B1 (ko) 음성 및 스크립트를 정렬하여 음성 데이터베이스를 구축하는 방법 및 장치
JP3039453B2 (ja) 音声認識装置
Rabiner et al. On the application of embedded training to connected letter recognition for directory listing retrieval
Gong et al. Phoneme-based continuous speech recognition without pre-segmentation.
JP4054610B2 (ja) 音声認識装置および音声認識方法、音声認識プログラム、並びに、プログラム記録媒体
JPS6147999A (ja) 音声認識装置
JPS62111295A (ja) 音声認識装置