WO2007097176A1

WO2007097176A1 - 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム

Info

Publication number: WO2007097176A1
Application number: PCT/JP2007/051778
Authority: WO
Inventors: Takafumi Koshinaka
Original assignee: Nec Corporation
Priority date: 2006-02-23
Filing date: 2007-02-02
Publication date: 2007-08-30
Also published as: US20090024392A1; CN101432801B; JPWO2007097176A1; US8719021B2; JP5040909B2; CN101432801A

Abstract

　低コストで入手可能なテキストデータを利用して、音声認識誤りを低減するように効率的に音声認識用辞書・言語モデルを作成・更新することのできる音声認識辞書作成支援システムを提供する。音声認識辞書作成支援システムは、認識辞書記憶部１０５と言語モデル記憶部１０６と音響モデル記憶部１０７を備える。仮想的音声認識処理部１０２は、テキスト解析部１０１が生成した解析済みテキストデータに対し、認識辞書、言語モデル及び音響モデルを参照して、仮想的音声認識結果テキストデータを生成し、元の解析済みテキストデータと比較する。更新処理部１０３は、両テキストデータの相違箇所が少なくなるように認識辞書・言語モデルを更新する。

Description

明細書

音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム

技術分野

[0001] 本発明は、音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラムに関し、特に、音声認識処理の構成要素である語彙を格納した音声認識辞書と、語の並びを規則化した言語モデルと、を作成するための音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラムに関する。

背景技術

[0002] 従来の音声認識辞書作成支援システムの概要について説明する。図 6に示すように、テキスト解析手段 201と、出現頻度計数手段 202と、更新手段 203と、背景辞書記憶手段 204と、認識辞書記憶手段 205と、言語モデル記憶手段 206と、から構成されている。

[0003] このような構成を有する従来の音声認識辞書作成支援システムは次のように動作する。

[0004] すなわち、テキスト解析手段 201は、音声認識対象語彙を含んだテキストデータを外部から受け取り、背景辞書記憶手段 204に記憶された単語辞書を用いた形態素解析処理を施すことにより、テキストデータを個々の単語の系列に分割し、読み文字列を付与し、また必要に応じて品詞タグを付与し、その結果を出現頻度計数手段 20 2に送る。出現頻度計数手段 202は、テキスト解析手段 201から単語系列を受け取り、各単語について出現頻度を計数し、結果を更新手段 203に送る。更新手段 203は、出現頻度計数手段 202から受け取った単語出現頻度から、各単語の出現確率を算出し、同じく言語モデル記憶手段 206に記憶された単語の出現確率と照合し、前者すなわちテキストデータ力算出された出現確率に近くなるように、後者すなわち言語モデル記憶手段 206に記憶された出現確率を補正する。また、テキストデータに出現した単語のうち、一定以上の出現確率値を持つものについて、認識辞書記憶手段 205に記憶された認識辞書に登録されて、る力否かを確認し、未登録であった場合にはその単語を未知語と認定し、その単語および出現確率を、それぞれ認識辞書記憶手段 205および言語モデル記憶手段 206に登録する。

[0005] なお、上記出現頻度計数手段 202では、単語の出現頻度に加えて、連続する 2単語あるいは 3単語の出現回数を単位とした計数を行うことは通常よく行われる。また、テキスト解析手段 201の形態素解析処理において、単語の分割を誤って行ったり、誤った読みを付与してしまったりするケースに対応するために、単語境界を修正したり読みを人手で入力したりするインタフェースを更新手段 203などに設けることも、よく行われる (後記特許文献 1等参照)。

[0006] 従来の音声認識辞書作成支援システムの別の一例が、特許文献 1に記載されて、る。図 7は、特許文献 1の音声認識辞書作成支援システムを図 6と対比できるように書き換えたものであり、文字列比較手段 301と、未知語抽出手段 302と、更新手段 303 と、認識辞書記憶手段 305と、言語モデル記憶手段 306とから構成され、統計的手法を用いて未知語を検出するのではなぐ誤認識を修正した結果を用いる点を大きな特徴としている。

[0007] このような構成を有する従来の音声認識辞書作成支援システムは次のように動作する。

[0008] すなわち、文字列比較手段 301は、認識辞書記憶手段 305に記憶された認識辞書、及び言語モデル記憶手段 306に記憶された言語モデルを構成要素として含んだ図示しな!、音声認識手段を用いて認識対象音声を認識した結果である認識結果テキストデータと、この認識結果テキストデータに含まれる認識誤りを人手で修正した誤認識修正済テキストデータを外部から受け取り、差異を生じている箇所毎に、すなわち認識誤りを生じた箇所ごとに、認識誤りを包含する形で単語または単語列を抽出し、未知語抽出手段 302に送る。未知語抽出手段 302は、文字列比較手段 301 カゝら受け取った単語又は単語列毎に、認識辞書記憶手段 305に記憶された認識辞書にその単語又は単語列が登録されてヽるカゝ否かを確認し、未登録であった場合にはその単語または単語列を新規単語として認識辞書記憶手段 305に登録する。さらに、登録した新規単語と所定の出現確率を、言語モデル記憶手段 306にも登録する [0009] また、特許文献 2〜4にその他の音声認識辞書への未知語の抽出'登録方法が記載されている。特許文献 2では、未知語が含まれている文書ファイルに対し、形態素解析等を行って単語を抽出し、音声認識辞書に存在しな、単語をバックグランド辞書 (背景辞書)を参照して読みや品詞を付与した後登録できるようにした未知語登録装置が開示されている。また、特許文献 3、 4には、上記未知語の品詞や発音の推定機能を備え未知語を自動登録する未知語登録装置が開示されて、る。

[0010] また、特許文献 5には、広くインターネット上のサイトから収集したページの単語の出現頻度を計数し、単語音声認識辞書における同一の読みの単語中の選択順序を更新する方法が開示されて！ヽる。

[0011] また、特許文献 6には、音声認識装置に対し、入力音声との照合に用いる音声のモデル (音響モデルと言語モデル）を送信する音響モデル管理サーバ及び言語モデル管理サーバであって、音響モデルと言語モデルを定期的に更新する機能を備えた音響モデル管理サーバ及び言語モデル管理サーバが開示されている。

[0012] また、本発明の背景技術として、特許文献 7を挙げておく。特許文献 7は、音声認識装置に関するものであるが、背景辞書 (形態素解析辞書)に登録されていない未知語からの音韻列の発生方法に関する技術が記載されている。

[0013] 特許文献 1：特開 2002— 229585号公報

特許文献 2 :特開 2003-316376号公報

特許文献 3：特開 2004- 265440号公報

特許文献 4:特開 2002- 014693号公報

特許文献 5 :特開 2005- 099741号公報

特許文献 6：特開 2002-091477号公報

特許文献 7：特開 2004 - 294542号公報

発明の開示

発明が解決しょうとする課題

[0014] 前者の統計的な手法を用いて未知語を検出する手法の問題点は、テキストデータの収集にコストがかかる、若しくは、良好な結果を得るためのテキストデータの選別に高度なスキルを要するという点である。特に、認識対象音声と類似したテキストデータを用意するのが必ずしも容易ではない。

[0015] 上記「認識対象音声との類似」とは、内容や話題に関する類似性と、発話スタイルの類似性の両方を指す。例えば、ニュース放送の字幕付与を音声認識で行う場合、最近の新聞記事をテキストデータとして用意することは一般的に行われる。この場合、認識対象音声 (ニュースキャスターの発声）と新聞記事は、話題は一致しているが、発話スタイル、すなわち話し言葉特有の言い回しが異なる。例えば、ニュースキャスタ一の音声は「です Zます」調の文であるのに対し、新聞記事は「だ Zである」調の文となる。また、音声では「え一」、「あの一」といったフィラーが頻繁に出現する点も異なる。このような発話スタイルの差異を無視して辞書'言語モデルを作成すると、話し言葉特有の発話スタイルを正しく音声認識できな、と、う弊害が発生する。

[0016] 以上のとおり、正しい音声認識結果が得られるような環境を構築するには、使用しようとするテキストデータを、経験を積んだ者が注意深く精査選別する、若しくは、認識対象音声の過去の蓄積を人手と時間をかけて正確に書き起こすことが必要となり、結果的に運用コストの増大が避けられない。

[0017] 同様に、上記特許文献 3、 5、 6には、インターネットやマルチメディア放送力もテキストを収集することが提案されているが、これらについても当然に、上記「認識対象音声」との「ズレ」が生じるのであり、認識結果にも自ずと限界が表れるものと考えられる

[0018] 従来技術の第 2の問題点は、音韻的に類似する単語や単語列が存在する場合の認識誤りが辞書 ·言語モデルに反映されないという点である。例えば、特許文献 2〜5 を見てみると、テキストデータ中に個々の単語が出現した力否か及び出現回数を考慮するのみであり、音韻情報も関わってくる実際の音声認識処理を行った場合にどうなるかついて何ら考慮していない。ある単語を辞書に含めるかどうかは、本来、辞書中の他の単語と音韻的に同じでな、か、あるいは類似してヽな、かを考慮しなければならず、もし類似した単語が存在する場合には、一方の単語を辞書から除外する若しくは言語モデル中での優先度（出現確率)を下げることが必要であるところ、従来の技術では、 2重に登録される可能性を否定できないと考えられる。 [0019] 従来技術の第 3の問題点は、複数の単語が連結された複合語を正しく音声認識できるように辞書 ·言語モデルを構成することが必ずしも容易でな、と、う点である。複合語を構成する個々の単語が、すでに辞書に登録されている既知語であるケースでも、音声認識に用いる言語モデルにおける各単語の連接確率が低いと、単語の総体としての複合語を正しく認識できる確率は低くなる。また、複合語が大量に含まれたテキストデータを収集すること自体、先に述べたとおり困難であり、コスト的な問題が発生する。

[0020] 従来技術の第 4の問題点は、以上の結果として、認識誤りを辞書 ·言語モデルに正しくフィードバックし、認識誤りを未然に防ぐことが難しいという点である。この点、上記特許文献 1記載の方式では、運用して、る音声認識システムで実際に起こった認識誤りを利用しているため、認識誤りを確実に反映することが可能となっている力そのためには、運用中の音声認識システムで発生する認識誤りを実際に観測しなければならなヽと、う別の不都合が生じてしまう。

[0021] また、上記特許文献 1記載の方式にも、辞書 ·言語モデルが原因でない認識誤りを除外できな、と、う別の問題点が残って、る。音声認識システムで発生する認識誤りには、辞書 ·言語モデルが原因となった認識誤りのほか、音響的要因に起因するものがある。例えば、大音量の背景雑音が重畳した音声を認識した結果として誤りとなるケース、電話音声のように一般に認識困難な狭帯域音声を認識した結果として誤りとなるケース、発声が不明瞭で聞き取り難いために認識誤りとなるケース等々である。これらのケースにおいては、上記特許文献 1に記載の方式をもってしても、意味のある辞書'言語モデルの修正を行うことは難しいと考えられる。

[0022] 本発明の目的は、上記した事情に鑑みてなされたものであって、低コストのテキストデータを利用でき、単語間の音韻的類似性を考慮し、また、言語的要因による音声認識誤りを効率的に低減することのできるよう最適化された辞書 ·言語モデルを生成できる音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラムを提供することにある。

課題を解決するための手段

[0023] 本発明の第 1の視点によれば、辞書、言語モデル及び音響モデルを記憶する記憶部と、テキストデータについて形態素解析処理を施すテキスト解析部と、前記テキスト解析部により解析された解析済みテキストデータについて前記辞書、言語モデル及び音響モデルを用いて仮想的音声認識結果テキストデータを生成するとともに、前記解析済みテキストデータと前記仮想的音声認識結果テキストデータとの相違箇所を抽出する仮想的音声認識処理部と、前記相違箇所に基づいて、前記辞書又は前記言語モデルの少なくとも一方を修正する更新処理部と、を備えたことを特徴とする音声認識辞書作成支援システムと、該システムを用いて行う音声認識辞書作成支援方法及び該システムを実現するためのプログラムが提供される。

[0024] 上記構成よりなる音声認識辞書作成支援システムは、所与のテキストデータの仮想的音声認識結果テキストデータを生成し、該仮想的音声認識結果テキストデータと元のテキストデータと比較した結果を用いて、辞書 ·言語モデルの更新処理を行う。発明の効果

[0025] 本発明によれば、比較的容易に入手可能なテキストデータを利用して、運用中の音声認識処理における認識誤りを予測し、その予測結果を反映した辞書 ·言語モデルを作成することが可能となる。その理由は、前記辞書、言語モデル及び音響モデルを用いて仮想的音声認識を実行し、かつ、その結果を用いた辞書及び言語モデルの更新を行うよう構成したことにある。

図面の簡単な説明

[0026] [図 1]本発明の第 1の実施形態に係る音声認識辞書作成支援システムの概略構成を表した図である。

[図 2]本発明の第 1の実施形態に係る音声認識辞書作成支援システムを機能ブロックで表したブロック図である。

[図 3]本発明の第 1の実施形態に係る音声認識辞書作成支援システムの仮想的音声認識処理部の一構成例を表した図である。

[図 4]本発明の第 1の実施形態に係る音声認識辞書作成支援システムの動作を表したフローチャートである。

[図 5]本発明の第 1の実施形態に係る音声認識辞書作成支援システムの動作具体例を説明するための図である。 [図 6]従来の音声認識辞書作成支援システムを機能ブロックで表したブロック図である。

[図 7]従来の音声認識辞書作成支援システムを機能ブロックで表したブロック図である。

符号の説明

61 読み Z音素列変換部

62 音素 Z状態列変換部

63 状態 Z特徴列変換部

64 最適単語列サーチ部

65 テキストデータ比較部

71 入力装置

72 音声認識辞書作成支援プログラム

73 データ処理装置

74 記憶装置

101 テキスト解析部

102 仮想的音声認識処理部

103 更新処理部

104、 741 背景辞書記憶部

105、 742 認識辞書記憶部

106、 743 言語モデル記憶部

107、 744 音響モデル記憶部

108 テキストデータ

201 テキスト解析手段

202 出現頻度計数手段

203 更新手段

204 背景辞書記憶手段

205 認識辞書記憶手段

206 言語モデル記憶手段 301 文字列比較手段

302 未知語抽出手段

303 更新手段

305 認識辞書記憶手段

306 言語モデル記憶手段

発明を実施するための最良の形態

[0028] 続いて、本発明を実施するための最良の形態について図面を参照して詳細に説明する。図 1は、本発明の第 1の実施形態に係る音声認識辞書作成支援システムの概略構成を表した図である。図 1を参照すると、入力装置 71及び記憶装置 74を備えたデータ処理装置 (コンピュータ） 73により構成された音声認識辞書作成支援システムが示されている。

[0029] 記憶装置 74は、背景辞書記憶部 741、認識辞書記憶部 742、言語モデル記憶部 743及び音響モデル記憶部 744を有するハードディスク等により構成され、それぞれ背景辞書、認識辞書、言語モデル及び音響モデルを保持することが可能なつている

[0030] 上記構成よりなるデータ処理装置 (コンピュータ） 73に、音声認識辞書作成支援プログラム 72を実行させることによって、後記する各処理手段（図 2のテキスト解析部 10 1〜更新処理部 103)が実現される。

[0031] 図 2は、上記音声認識辞書作成支援システムを機能ブロックで表したブロック図である。図 2を参照すると、本実施形態に係る音声認識辞書作成支援システムは、テキスト解析部 101と、仮想的音声認識処理部 102と、更新処理部 103と、背景辞書記憶部 104と、認識辞書記憶部 105と、言語モデル記憶部 106と、音響モデル記憶部 107と力構成されている。

[0032] テキスト解析部 101は、外部から与えられたテキスト（文字列）データ 108を単語に分割し品詞タグや読みを付与する処理を行う。より具体的には、テキスト解析部 101 は、テキストデータ 108を読み込み、背景辞書記憶部 104に記憶された背景辞書を読み込んで、テキストデータ 108を解析し、解析済みテキストデータを出力する処理を行う。 [0033] 仮想的音声認識処理部 102は、認識辞書に含まれて!/ヽなかったり、言語モデルで低い優先度を与えられていたりすることにより音声認識誤りを生ずる可能性が高い語句等の抽出を行う。より具体的には、仮想的音声認識処理部 102は、認識辞書記憶部 105、言語モデル記憶部 106及び音響モデル記憶部 107にそれぞれ記憶された認識辞書、言語モデル及び音響モデルを読み込み、テキスト解析部 101より出力された解析済みテキストデータにっヽて仮想的に認識処理を行ヽ、解析済みテキストデータに対応する仮想的認識結果テキストデータを生成し、更に、元の解析済みテキストデータと仮想的認識結果テキストデータを比較した上で相違箇所を抽出して出力する処理を行う。

[0034] 更新処理部 103は、仮想的音声認識処理部 102にて判定された認識誤りを生ずる可能性が高い語句を考慮して認識辞書 ·言語モデルを変更する処理を行う。より具体的には、更新処理部 103は、仮想的音声認識処理部 102にて出力された相違箇所に基づ、て、認識辞書記憶部 105及び言語モデル記憶部 106にそれぞれ記憶された認識辞書及び言語モデルを修正する処理を行う。

[0035] 背景辞書記憶部 104及び認識辞書記憶部 105は、それぞれ背景辞書と認識辞書を記憶する。背景辞書は、形態素解析辞書ともいい、認識辞書と比べて数 10〜数 1 00倍の規模の語彙を保持している。従って多くの場合、与えられたテキストデータのほぼすべてに対して読み等の情報を付与することができる。また、背景辞書にも登録されていない未知語が出現した場合でも、例えば、特許文献 5に記載の技術等を用いて、読み情報を付与することができる。

[0036] 言語モデル記憶部 106及び音響モデル記憶部 107は、それぞれ言語モデルと音響モデルを記憶する。

[0037] なお、上記認識辞書記憶部 105及び言語モデル記憶部 106にそれぞれ初期に記憶する認識辞書及び言語モデルは、実際に運用しょうとしてヽる音声認識システムで使用するものと同様のものを用いる。同様に、音響モデル記憶部 107に記憶する音響モデルも、実際に運用しょうとしている音声認識システムで使用する音響モデルと原則同等のものを用いることが好まし、。

[0038] 続、て、上記認識辞書、言語モデル及び音響モデルを用いて、解析済みテキストデータから仮想的認識結果テキストデータを作成する仮想的音声認識処理部 102の詳細構成についてさらに詳しく説明する。

[0039] 図 3は、仮想的音声認識処理部 102の一構成例を表した図である。図 3を参照すると、仮想的音声認識処理部 102は、読み Z音素列変換部 61と、音素 Z状態列変換部 62と、状態 Z特徴列変換部 63と、最適単語列サーチ部 64と、テキストデータ比較部 65、とから構成されている。

[0040] 読み Z音素列変換部 61は、単語毎に分割され読みが付与された解析済みテキストデータを、適当な単位毎、例えば 1文ずつ読み込んで、予め記憶された音節 Z音素列変換テーブルに従、、通常ひらがなやカタカナで表された読み文字列を音素列に変換し、順次出力する。ここで音素とは、音声認識における認識の最小単位、すなわち認識単位であり、個々の音素は、母音 a, i, u, · · ·、子音 k, s, t, · · ·といった記号で表される。

[0041] 例えば「おはようございます」という読み文字列が与えられた場合、読み Z音素列変換部 61は、「Z # ZoZhZaZyZoZoZgZoZzZaZiZmZaZsZuZ # Z」という音素列を出力する (ここで" # "は発声始終端の無音を表すものとする)。

[0042] また、より一般的に用いられている、音素を前後の音素環境によって区別する 3つ組音素 (triphone)による音響モデルの場合は、読み Z音素列変換部 61は、上記「おはようございます」という読み文字列について、「Z # Z #— o +hZo— h+aZh — a+y/ a— y+o/ y— o + o/ o— o + g/ o— g + o/ g— o + z/ o— z + a/ z— a +i/a— i+m/i— m+a/m— a+ s/a— s +u/s— u+ # Z # Z」という音素歹¹ Jを出力する。

[0043] なお、昨今のほとんどの音声認識システムは認識単位として音素を用いているため、本発明の実施の形態もそれにならい、認識単位として音素を用いているが、音素以外の認識単位、例えば音節や半音節を認識単位としても、本発明は、原理的に実施可能であり、認識単位のとり方に特段の制約はない。

[0044] 音素 Z状態列変換部 62は、読み Z音素列変換部 61より受け取った音素列について、音響モデル記憶部 107に記憶された音響モデルの構成情報を参照して、各音素を状態の系列に展開した状態列を出力する。 [0045] ここで「状態」とは、音声認識における音響モデルとして一般的に用いられる隠れマルコフモデル（Hidden Markov Model,以下「HMM」）に付随する概念である。各音素を HMMでモデル化した場合は、「状態」は音素をさらに細分ィ匕した単位ということができる。音響モデルは音素毎の HMMの集合として構成されており、音素の HMMは各々数個の「状態」から構成されている。いずれにしても、音響モデルを参照することにより、音素を状態列に容易に変換することができる。例えば、各音素が一律に 3状態で構成された音響モデルの場合は、前出の音素列は、 #[1], o[l], o[ 2], o[3], h[l], h[2], h[3], a[l], a[2], a[3], y[l], y[2], y[3], o[l], ···, i[3], m[l], m[2], m[3], a[l], a[2], a[3], s[l], s[2], s[3], u[l], u[2], u[3], # [1]と変換される。ここに括弧数字は状態番号を示す。音響モデルが前述の 3つ組音素（triphone)で構成されている場合も同様である。なお、無音モデル" # "は 1状態としてモデルィ匕するのが一般的である。

[0046] 状態 Z特徴列変換部 63は、音響モデル記憶部 107に記憶された音響モデルを読み込み、音素 Z状態列変換部 62が出力する状態列を順次受け取り、音声認識で用いる音声特徴パラメータを含む特徴ベクトルの系列を出力する。すなわち、音響モデルにおいて状態ごとに定義されている確率分布、例えば混合ガウス分布に従って、乱数に基づいて特徴ベクトルを生成する。また、 1状態あたりに生成する特徴ベクトルの個数は、やはり状態毎に定義されて、る状態遷移確率に基づ、て乱数で決定する。

[0047] 最適単語列サーチ部 64は、認識辞書記憶部 105、言語モデル記憶部 106及び音響モデル記憶部 107にそれぞれ記憶された認識辞書、言語モデル及び音響モデルを読み込み、状態 Z特徴列変換部 63の出力する特徴ベクトル列を順次受け取り、音声認識システムで一般的に用いられるフレーム同期ビームサーチ等の探索方法を用いて、特徴ベクトル列に最もマッチする単語列、すなわち仮想的な音声認識結果テキストデータ（一般的には漢字かな混じり文)を探索し出力する。

[0048] テキストデータ比較部 65は、最適単語列サーチ部 64により出力された仮想的認識結果テキストデータを、仮想的音声認識処理部 102の入力である解析済みテキストデータの対応部分と比較し、相違箇所の文字列の対、すなわち仮想的正解文字列と仮想的認識結果文字列の対として抽出し、同一文字列毎に出現頻度を計数した上で、図 5に例示する仮想的認識誤り事例データとして、更新処理部 103に送る。

[0049] 続いて、本実施形態の全体の動作について図面を参照して詳細に説明する。図 4 は、本実施形態に係る音声認識辞書作成支援システムの動作を表したフローチヤ一トである。

[0050] 図 4を参照すると、まず、テキスト解析部 101は、背景辞書記憶部 104に記憶された背景辞書を読み込み (ステップ A1)、与えられたテキストデータに対して形態素解析処理を施す (ステップ A2)。この形態素解析処理により、テキストデータは単語に分割され、各単語に対して必要に応じて品詞タグや読み（単語の発音を表現する記号列）が付与される。

[0051] なお、背景辞書は上述のとおり、認識辞書と比べて数 10〜数 100倍の規模の語彙を保持しているため、与えられたテキストデータのほぼすべてに対して読み等の情報を付与することができる。また、背景辞書にも登録されていない未知語が出現した場合であっても、例えば、特許文献 5に記載の技術等を用いて、読み情報を付与することがでさる。

[0052] 続ヽて、仮想的音声認識処理部 102は、認識辞書記憶部 105、言語モデル記憶部 106及び音響モデル記憶部 107にそれぞれ記憶された認識辞書、言語モデル及び音響モデルを読み込み (ステップ A3〜A5)、テキスト解析部 101が出力したテキストに基づいて仮想的な音声認識処理を実行し、仮想的認識結果テキストデータを作成する (ステップ A6)。

[0053] 続いて、仮想的音声認識処理部 102は、解析済みテキストデータと、対応する仮想的認識結果テキストデータを比較し、差異を生じている箇所、すなわち仮想的な認識誤り事例としての単語又は単語列を両テキストデータカゝら抽出し、仮想的認識誤り事例データ（図 5参照）を生成する (ステップ A7)。

[0054] この際、差異を生じている箇所の単語を含む一連の単語列が、名詞が連続している等の形態力ひとまとまりの句を構成していると判断できる場合は、句単位での抽出を行ってもよい。例えば、解析済みテキストデータ中に「· · ·Ζ地上波 Zデジタル Z • · ·」という単語列があり、仮想的認識結果テキストデータ中の対応箇所において、「· • ·ζ地上波 zデッキ z足る ζ· · ·」となっていた場合、単語レベルのペアとして「デジタル」「デッキ Ζ足る」を抽出してもよぐ名詞句レベルのペアとして「地上波 Ζデジタル」、「地上波 Ζデッキ Ζ足る」との文字列対を抽出してもよぐあるいは、その両方を抽出してもよい。

[0055] 仮想的音声認識処理部 102は、最終的に、単語レベル及び Ζ又は句レベルの文字列対とその読みを、それぞれの出現頻度とともに更新処理部 103に送る。図 5は、仮想的音声認識処理部 102が更新処理部 103に送る仮想的認識誤り事例データ情報の一例を表したものである。

[0056] 以下、更新処理部 103は、仮想的音声認識処理部 102により出力された仮想的認識誤り事例データを受け取り、 1つずつ順に取り出し、その内容に応じて、認識辞書記憶部 105及び言語モデル記憶部 106にそれぞれ記憶された認識辞書及び言語モデルに対して、以下のように変更をカ卩える（ステップ Α8〜Α10)。

[0057] 例えば、図 5の例で説明すると、最初のエントリ (HTML,栄ー Z低迷）を取り出して、音声認識における正解文字列に相当する解析済みテキストの単語「HTML」が認識辞書に存在していない場合、更新処理部 103は、認識辞書に「HTML」を追加し、言語モデルにおける単語「HTML」の優先度としてデフォルト値 (適当に定めた中程度の優先度）をセットする。

[0058] また「HTML」がすでに認識辞書に存在する場合は、更新処理部 103は、認識辞書の更新を行わず、言語モデルにおける単語「： HTML」の優先度を、予め定めた適当な所定の値だけ増加させる。

[0059] 次のエントリ（地上波 Zデジタル，地上波 Zデッキ Z足る）につ、ても同様に、「地上波デジタル」が認識辞書になければ認識辞書に追加し、言語モデルにおける優先度に適当なデフォルト値をセットする。また「地上波デジタル」がすでに認識辞書にあれば、言語モデルにおける優先度の値を増加させる。

[0060] 以降、すべてのエントリについて上記の処理をくり返すことにより、容易に入手できる低コストなテキストデータを用いながらも、音声認識誤りを未然に防止できるよう最適化された辞書 ·言語モデルを得ることが可能となる。

[0061] なお、上記した実施形態では、仮想的認識誤り事例データすベてのエントリを用いて認識辞書と言語モデルの更新を行うこととしている力例えば、極端に出現頻度の低、エントリにつ、ては、認識辞書 ·言語モデルの変更には使用しな、よう設定することも有効である。また、出現頻度情報等を用いて認識辞書 ·言語モデルに反映させるエントリを選別し、仮想的認識結果テキストデータの中の認識誤りに相当する部分が一定割合より少なくなるまで、反復することとしてもよい。

[0062] また、上記した実施形態では、正解文字列に対応する解析済みテキスト「HTML」、「地上波デジタル」を利用した認識辞書 ·言語モデルの変更を行うものとして説明したが、これに加えて、認識誤りに対応する仮想的認識結果テキストを利用した認識辞書'言語モデルの変更を行わせることとしてもよい。

[0063] 例えば、図 5の例で説明すると、更新処理部 103は、エントリ (HTML,栄ー Z低迷 )については、単語「： HTML」の言語モデル中での優先度を上げると同時に、「栄一」及び「低迷」の優先度を下げ、さらには、「栄一」と「低迷」という 2単語の並びに関する優先度を下げるように言語モデルを変更してもよヽ。

[0064] さらには、上記認識辞書の更新処理において、所定のしきい値よりも優先度が小さくなつた単語については、認識辞書力も削除する処理を行うこととしてもよい。

[0065] また、これら一連の優先度の値の変更に際しては、出現頻度に依存して変更量を制御してもよい。つまり、出現頻度の高いエントリについては対応する単語または単語列の優先度を大きく変更するようにし、逆に出現頻度の低、エントリにつ、ては、優先度をわず力しか変更しな、ように制御してもよ、。

[0066] 更に、辞書 ·言語モデルの更新内容をシステム操作者に予め提示するインタフエ一ス、及び、システム操作者に更新の可否を問うインタフェースを、適宜設け、辞書'言語モデルの更新に際して、不適切な変更を避けることが出来るよう構成することも好ましい。

[0067] また、上記仮想的認識誤り事例データに、各単語に対応する品詞を含めるようにすることも好ましい。このようにすることにより、当該品詞の情報を参照して、認識辞書' 言語モデルの変更要否を判断することが可能となる。例えば、認識辞書'言語モデルの更新に際して一般に重要と考えられる、名詞や動詞語幹等の内容語を含むェントリのみを認識辞書 ·言語モデルの変更に使用するように動作させることが可能となる [0068] なお、ここまで言語モデルの変更にぉ、て、単語や単語の並びに関する「優先度」の値を変更すると述べてきた力ここでの優先度とは、例えば、公知の N— gram言語モデルにおける確率値と解釈すればよい。つまり、例えば unigram (N= l)における確率値は、単語の並びを無視した場合の個々の単語の出現確率であり、形式的には Pr ("HTML")のように表現される量である。また、 bigram (N = 2)における確率値は、直前の 1単語を履歴として仮定した場合の単語の条件付出現確率であり、 Pr ( "デジタル " 地上波"）や Pr ("低迷 " 栄一"）のように表現される。同様に trigram ( N = 3)における確率値は、直前の 2単語を履歴として仮定した場合の単語の条件付出現確率となる。

[0069] また、図 3に例示した仮想的音声認識処理部 102を、より単純な構成とすることも可能である。例えば、状態 Z特徴列変換部 63を取り除き、音素 Z状態列変換部 62を最適単語列サーチ部 64に直接接続した構成が考えられる。

[0070] この場合、最適単語列サーチ部 64は、音素 Z状態列変換部 62から受け取った H MMの状態列の各要素について、音響モデル内の全状態との類似度又は距離を計算し、認識辞書及び言語モデルによって既定される言語的制約に従い、最適な単語列を求めることになる。状態間の距離は、状態に付随する確率分布間の距離尺度、例えばカルバック ·ライブラのダイパージエンス等の尺度を用いて計算すればょ、。また、音響モデル内のすべての状態間の距離を予め計算して、テーブル形式で音響モデル記憶部 107に記憶しておくことが効率的である。

[0071] また、処理の高速化のために、前述のフレーム同期ビームサーチに類する探索範囲の限定 (枝刈り）を適宜行っておくこととしてもよい。図 3に例示した仮想的音声認識処理部 102の形態では、特徴ベクトルと状態との間の距離計算をベースとしてフレーム同期ビームサーチを構成するのに対して、状態 Z特徴列変換部 63を省いた本形態においては、状態間の距離計算をベースとしてサーチを構成する点が異なっているが、原理はほとんど同じものである。

[0072] また、図 3に例示した仮想的音声認識処理部 102を、更に簡素な構成とすることも可能である。例えば、音素 Z状態列変換部 62及び状態 Z特徴列変換部 63を取り除き、読み Z音素列変換部 61を最適単語列サーチ部 64に直接接続した構成が考えられる。

[0073] この場合、最適単語列サーチ部 64は、読み Z音素列変換部 61から受け取った音素列の各要素について、音響モデル内の全音素との類似度または距離を計算し、認識辞書及び言語モデルによって既定される言語的制約に従い、最適な単語列を求める。音素間の距離は、互いに対応する状態間の距離の総和などとして計算すればよい。

[0074] 以上、本発明の各実施の形態を説明したが、本発明の技術的範囲は、上述した実施の形態に限定されるものではなぐ音声認識対象の言語や、音声認識システムの種々の応用場面に応じて、各種の変形をカ卩えることが可能である。

Claims

請求の範囲

[1] 辞書、言語モデル及び音響モデルを記憶する記憶部と、

テキストデータについて形態素解析処理を施すテキスト解析部と、

前記テキスト解析部により解析された解析済みテキストデータについて前記辞書、言語モデル及び音響モデルを用いて仮想的音声認識結果テキストデータを生成するとともに、前記解析済みテキストデータと前記仮想的音声認識結果テキストデータとの相違箇所を抽出する仮想的音声認識処理部と、

前記相違箇所に基づ!、て、前記辞書又は前記言語モデルの少なくとも一方を修正する更新処理部と、

を備えたことを特徴とする音声認識辞書作成支援システム。

[2] 前記仮想的音声認識処理部は、前記解析済みテキストデータ力音響パラメータを要素とする特徴ベクトルの系列を生成し、仮想的に音声認識処理を実行することにより音声認識結果テキストデータを生成すること、

を特徴とする請求項 1に記載の音声認識辞書作成支援システム。

[3] 前記記憶部は、認識単位を構成する状態等要素間の距離又は類似度テーブルを

しし、

前記仮想的音声認識処理部は、前記解析済みテキストデータから前記認識単位の系列を生成し、前記辞書及び言語モデルから、距離の総和最小又は類似度の総和最大となる単語列を探索することにより前記仮想的音声認識結果テキストデータを生成すること、

を特徴とする請求項 1又は 2に記載の音声認識辞書作成支援システム。

[4] 前記記憶部は、認識単位を構成する状態等要素間の距離又は類似度テーブルを

しし、

前記仮想的音声認識処理部は、前記解析済みテキストデータから前記要素の系列を生成し、前記辞書及び言語モデルから、距離の総和最小又は類似度の総和最大となる単語列を探索することにより前記仮想的音声認識結果テキストデータを生成すること、

[5] 前記更新処理部は、前記解析済みテキストデータ及び前記仮想的音声認識結果テキストデータの相違箇所に基づき、前記辞書に、前記解析済みテキストデータ側に出現して!/ヽる語句を追加すること、

を特徴とする請求項 1乃至 4いずれか一に記載の音声認識辞書作成支援システム

[6] 前記更新処理部は、前記解析済みテキストデータ及び前記仮想的音声認識結果テキストデータの相違箇所に基づき、前記解析済みテキストデータ側に出現している単語又は単語列の優先度が高くなるように、前記言語モデルを修正すること、を特徴とする請求項 1乃至 4いずれか一に記載の音声認識辞書作成支援システム

[7] 前記更新処理部は、前記解析済みテキストデータ及び前記仮想的音声認識結果テキストデータの相違箇所に基づき、前記仮想的音声認識結果テキストデータ側に出現して!/ヽる単語又は単語列の優先度が低くなるように、前記言語モデルを修正すること、

[8] 前記更新処理部は、前記解析済みテキストデータ及び仮想的音声認識結果テキストデータにおける単語又は単語列の出現頻度に応じて前記優先度の増減量を制御すること、

を特徴とする請求項 6又は 7に記載の音声認識辞書作成支援システム。

[9] コンピュータを用いた音声認識辞書作成支援方法であって、

前記コンピュータが、テキストデータについて形態素解析処理を施すテキスト解析ステップと、

前記コンピュータが、前記テキスト解析ステップにて出力された解析済みテキストデータに基づいて、所定の記憶装置に保持された辞書、言語モデル及び音響モデルを用いて仮想的音声認識結果テキストデータを生成するステップと、

前記コンピュータが、前記解析済みテキストデータと、前記仮想的音声認識結果テキストデータと、を比較し相違箇所を抽出するステップと、前記コンピュータが、前記相違箇所に基づ!/、て前記辞書又は前記言語モデルの少なくとも一方を修正する更新ステップと、を含むこと、

を特徴とする音声認識辞書作成支援方法。

テキストデータについて形態素解析処理を施すテキスト解析処理と、

前記テキスト解析処理にて出力された解析済みテキストデータに基づいて、所定の記憶装置に保持された辞書、言語モデル及び音響モデルを用いて仮想的音声認識結果テキストデータを生成する処理と、

前記解析済みテキストデータと、前記仮想的音声認識結果テキストデータと、を比較し相違箇所を抽出する仮想的音声認識処理と、

前記相違箇所に基づ!、て、前記辞書又は前記言語モデルの少なくとも一方を修正する更新処理と、を音声認識辞書作成支援システムを構成するコンピュータに実行させるためのプログラム。