WO2006054724A1

WO2006054724A1 - 音声認識装置及び方法ならびにプログラム

Info

Publication number: WO2006054724A1
Application number: PCT/JP2005/021296
Authority: WO
Inventors: Masataka Goto; Jun Ogata
Original assignee: National Institute Of Advanced Industrial Science And Technology
Priority date: 2004-11-22
Filing date: 2005-11-18
Publication date: 2006-05-26
Also published as: GB0712277D0; JP4604178B2; JP2006146008A; US7848926B2; US20080052073A1; GB2437436A; GB2437436B

Abstract

　本発明は、音声認識による認識誤りを、ユーザがより効率的に且つ容易に訂正できる音声認識装置を提供する。音声認識手段５は、音声入力手段から入力された音声に含まれる複数の単語を予め辞書手段に記憶されている複数の単語とそれぞれ比較し、競合候補の中から一番競合確率の高い単語を認識結果とする。単語訂正手段９は、画面に表示された単語列を構成する複数の単語を訂正する単語訂正機能を有している。競合単語表示指令手段１５は、競合候補の中から単語列の単語の競合確率に近い競合確率を持つ競合単語を選び、それを対応する単語に隣接して画面上に表示させる。競合単語選択手段１７は、画面上に表示された１以上の競合単語から適切な訂正単語を選択する。単語置き換え指令手段１９は、競合単語選択手段１７により選択された訂正単語を、音声認識手段５により認識された単語と置き換える。

Description

明細書

音声認識装置及び方法ならびにプログラム

技術分野

[0001] 本発明は、画面に表示した音声認識結果を訂正することを可能にする音声認識装置及び方法並びにプログラムに関するものである。

背景技術

[0002] 従来より、計算機による音声認識は、必ず認識誤りを起こすことが知られている。他の人の話を聞き間違うことからもわ力るように、人間ですら音声を 100%正しく認識できていない。これは、人間の音声には、他の単語と紛らわしい発声や同音異義語を含む発声、不明瞭な発声が含まれてしまうからである。人間同士の場合には、音声対話によって容易にこうした誤認識（聞き間違、）の問題を解決して、る。しかしながら、計算機と人間同士のような柔軟な音声対話をすることは難しい。音声認識技術を改良してどんなに認識率を上げていったとしても、人間にとって、常に明瞭で曖昧性のない発声をし続けることが極めて困難である以上、認識率は決して 100%にはならない。したがって、音声認識を日常的に使える音声認識装置を作るためには、必ずどこかで生じる誤認識を容易に訂正できるようにすることが不可欠である。

[0003] そこで、従来力認識結果を訂正する技術は種々提案されてきた。例えば、市販のディクテーシヨンソフトでは、ユーザが認識結果のテキスト表示を見て、誤認識を発見したら、その区間をマウス操作や音声入力で指定することができる。すると、その部分の他候補が表示されるので、ユーザは正しい候補を選択して訂正できる。非特許文献 1に示された技術では、これを発展させて、発話の終了後にその認識結果を単語境界の線で区切った表示をし、力な漢字変換で単語の区切りを修正するように、その境界をマウスで移動できるようにしている。この場合、正しい候補にたどり着ける可能性は高くなつたものの、誤認識箇所の指定、単語境界の変更、候補の選択と、ユーザが訂正するための手間は増えている。一方、非特許文献 2に示された技術では、音声認識を利用した-ユース字幕放送のために、実用的な認識誤り修正システムを実現している。しかし、この技術では、二人の分業を前提とし、一人が誤認識箇所を発見してマーキングし、もう一人がその箇所の正解をタイピングする必要があつたため、個人が自分の音声入力を訂正する目的では使えな力つた。このようにいずれの従来技術も、まず最初に、ユーザが誤認識箇所を発見して指摘し、次に、その部分の他候補を判断して選択したり、タイピングして修正すると、つた手間を要して、た。

[0004] なお特許文献 1 (特開 2002— 287792号公報）には、音声認識の訂正を音声入力で行う技術が開示されている。また特許文献 2 (特開 2004— 309928号公報）には、音声認識した結果、出力候補単語が複数ある場合に、出力候補単語を表示部に表示し、出力候補単語から所望の単語を選ぶことを話者に選択することを指示する機能を備えた電子辞書装置が示されている。さらに特許文献 3 (特開 2002— 297181 号公報)及び特許文献 4 (特開平 6— 301395号公報）には、音声認識の認識率の向上のために、コンフュージョンマトリックスを利用する技術が示されている。

[0005] 非特許文献 1 :遠藤、寺田："音声入力における対話的候補選択手法"、インタラクション 2003論文集、 pp. 195- 196, 2003.

非特許文献 2：安藤他： "音声認識を利用した放送用-ユース字幕制作システム"，信学論， Vol. J84-D-II, No. 6, pp. 877-887, 2001.

特許文献 1：特開 2002— 287792号公報

特許文献 2：特開 2004— 309928号公報

特許文献 3：特開 2002— 297181号公報

特許文献 4：特開平 6— 301395号公報

発明の開示

発明が解決しょうとする課題

[0006] 従来の音声認識技術では、音声認識による認識誤りを、ユーザがより効率的に且つ容易に訂正できるものはな力つた。

本発明の目的は、音声認識による認識誤りを、ユーザがより効率的に且つ容易に訂正できる音声認識装置及び方法並びにプログラムを提供することにある。

本発明の他の目的は、発話中あるいは発話終了後に正しい候補を選択するだけで訂正ができる音声認識装置及び方法並びにプログラムを提供することにある。

本発明の他の目的は、ユーザが誤認識箇所を発見して指摘しなくても、常に単語の競合候補をリアルタイムに画面に表示して訂正の機会を確保することができる音声認識装置及び方法並びにプログラムを提供することにある。

[0007] 本発明の更に他の目的は、画面に表示する単語の競合候補の個数によって、その単語の認識結果の曖昧さを視覚により直ちに認識することを可能にする音声認識装置及び方法並びにプログラムを提供することにある。

本発明の他の目的は、誤認識箇所の発見、指摘、提示された候補の判断、選択といった手間を力 4ナずに、音声認識結果と単語の競合候補を同時に見て選択するだけで、効率良く訂正できることを可能にする音声認識装置及び方法並びにプログラムを提供することにある。

本発明の別の目的は、発話中に特定の音声を発話することにより、いつでも好きなときに音声認識を一時停止することを可能にする音声認識装置及び方法並びにプログラムを提供することにある。

課題を解決するための手段

[0008] 本発明の音声認識装置は、音声を入力するための音声入力手段と、音声認識手段と、認識結果表示手段と、単語訂正手段とを備えている。音声入力手段は、例えば、マイクロフォンやマイクロフォンからのアナログ信号を信号処理可能なデジタル信号に変換する信号変換器等を含んで構成される。音声入力手段の具体的な構成は Cte 。

[0009] 音声認識手段は、予め定めた判定手法に従って、音声入力手段から入力された音声に含まれる複数の単語を予め辞書手段に記憶されている複数の単語とそれぞれ比較し、競合候補の中から一番競合確率の高い単語を認識結果とする音声認識機能を有している。ここで「予め定めた判定手法」としては、公知の各種の判定手法を用いることができる。例えば、コンフュージョン 'ネットワークを用いて音声入力に基づく単語グラフを音響的なクラスタリングによりリニアな形式に圧縮した複数の単語の区間に分け、複数の単語の区間ごとに後述する競合確率を求めて、一番競合確率の高、単語を決定する判定手法を用いるのが好まし、。コンフュージョン 'ネットワークを用いると、大語彙、小語彙を問わず多様な入力音声に対して効果的な候補の提示、訂正が可能になる。 [0010] また認識結果表示手段は、音声認識手段により認識された認識結果を複数の単語の単語列として画面に表示する機能を有している。認識結果表示手段は、リアルタイムに音声認識手段の認識結果を画面に表示する機能を有して、るのが好ま U、。そして単語訂正手段は、画面に表示された単語列を構成する一番競合確率の高い複数の単語を訂正する単語訂正機能を有している。この単語訂正手段は、競合単語表示指令手段と、競合単語選択手段と、単語置き換え指令手段とから構成される。競合単語表示指令手段は、競合候補の中カゝら一番競合確率の高い単語の競合確率に近、競合確率を持つ 1以上の競合単語を選び、対応する一番競合確率の高ヽ単語に隣接して画面上に表示させる競合単語表示機能を有して、る。また競合単語選択手段は、ユーザによるマニュアル操作に応じて、画面上に表示された 1以上の競合単語から適切な訂正単語を選択する競合単語選択機能を有してヽる。そして単語置き換え指令手段は、競合単語選択手段により選択された訂正単語を、音声認識手段により認識された一番競合確率の高い単語と置き換えることを音声認識手段に指令する単語置き換え指令機能を有して!/ヽる。

[0011] 上記構成の音声認識装置では、画面に表示された単語列を構成する一番競合確率の高、複数の単語を訂正する競合候補として、一番競合確率の高、単語の競合確率に近い競合確率を持つ 1以上の競合単語を選び、対応する一番競合確率の高 V、単語に隣接して画面上に表示する。そしてユーザによるマニュアル操作に応じて、画面上に表示された 1以上の競合単語から適切な訂正単語を選択すると、この訂正単語が音声認識手段により認識された一番競合確率の高い単語と置き換えられる。したがって本発明によれば、画面に表示された音声認識の結果として表示される単語列を見ながら、訂正の可否を決定する単語の近くに表示された 1以上の競合単語力も訂正単語を選んで、訂正を行うことができるので、短い時間で、訂正を行うことができる。したがって音声認識処理と並行して、認識結果の訂正を行うことが可能である。

[0012] 画面上に表示する 1以上の競合単語の数の決定方法は特に限定されず、任意である。しかし音声認識の曖昧さが低いほど競合単語の数は少なくなり、音声認識の曖昧さが高くなるほど競合単語の数は多くなる。そこで競合単語表示指令手段は、競合単語の競合確率の分布状況に応じて、画面上に表示する競合単語の数を変えるように構成するのが好ましい。例えば、競合確率の高い単語が 1つしか無い場合にはその 1つの単語を競合単語として表示すればよぐ逆に競合確率の高い単語が多数ある場合には、その分布状況を考慮して可能な範囲で表示する競合単語の数を多くすればよい。このよう〖こすると、表示される競合単語の数で訂正をすべき可能性が一目で分かるため、ユーザは単語列に含まれる全ての単語に同じ注意力を払って訂正作業を行う必要がなくなる。そのため単語訂正の必要性判断及び訂正作業時間を短くすることができる。このようにするためには、競合単語表示指令手段を、一番競合確率の高、単語の競合確率に近、競合確率を持つ単語の数が少な、場合には、画面上に表示する競合単語の数を少なくし、一番競合確率の高ヽ単語の競合確率に近

V、競合確率を持つ競合単語の数が多、場合には、画面上に表示する競合単語の数を多くするように構成すればょ、。

さらに競合単語表示指令手段は、単語列に含まれる複数の単語の上側または下側に、競合確率の高ヽ順番に競合単語が並ぶように画面上に表示する機能を備えているのが好ましい。競合単語表示指令手段がこのような機能を備えていれば、訂正の対象となる単語に近い競合単語から訂正に必要な単語を短い時間で簡単に見つけることができるので、訂正作業時間を更に短くすることが可能になる。

また競合単語表示指令手段は、競合単語の中に、一番競合確率の高い単語が不要であるために認識結果力削除することを選択可能にするスキップ候補を含む機能を備えているのが好ましい。この場合には、単語置き換え指令手段に、スキップ候補が選択されると、音声認識手段による認識結果から対応する一番競合確率の高い単語を削除することを音声認識手段に指令する機能を持たせればよい。このようにすると音声認識でしばしば生じる湧き出し単語 (発音されていないのに、発音されたかのように認識されて表示される単語)を、競合単語の選択作業と同じ作業で削除することができる。したがって訂正作業が更に短くなる。なおスキップ候補にも競合確率を付与すれば、スキップ候補の表示位置が一定になることがない。そのため競合単語の選択と単語列からの単語の削除の選択を同じレベルで実行すればょ、ため、ユーザの訂正作業に要する時間を更に短縮することができる。 [0014] スキップ候補を用いる場合において、特に判定手法として、コンフュージョン 'ネットワークを用いて前記音声入力に基づく単語グラフを音響的なクラスタリングによりリニァな形式に圧縮した複数の単語の区間に分け、複数の単語の区間ごとに競合確率を求めて、一番競合確率の高い単語を決定する手法を採用する場合には、次のようにするのが好ましい。すなわち一つの単語の一部を構成する音が二つの単語の区間の、ずれにも入り得る場合には、一つの単語の一部を構成する音を二つの単語の区間の一方に含める。そして単語訂正手段により二つの単語の区間の一方に属する単語の訂正が行われると、二つの単語の区間の他方の単語の区間では、時間的な整合性が取れるようにスキップ候補を自動選択する。このようにすると訂正した区間の隣接区間の湧き出し単語を自動的に削除でき、ユーザの訂正操作の回数を最小限に抑えることができる。

[0015] 認識結果表示手段は、リアルタイムで認識結果を画面に表示する機能を有しているのが好ましい。この場合には、単語訂正手段も、認識結果表示手段による認識結果の画面への表示と一緒に競合単語をリアルタイムで画面上に表示する機能を有して、るのが好まし、。このようにするとユーザの発声と並行して音声認識の訂正を実施することができる。

一つ単語の訂正が行われると、訂正された単語との関係で見ると、先に決定した競合単語が不適切なものになることもある。そこで競合単語表示指令手段に、単語訂正手段により一部の単語が訂正されると、その訂正された単語を単語列においては、ユーザに訂正された本来正解である単語として、再度競合単語の選び直しを行う機能を設けるのが好ましい。この機能を設けると、まだ訂正をしていない区間に対する競合単語を、ユーザにより訂正された単語に適合したものに変更することができるので、後の訂正作業を更に容易にすることができる。この場合、競合単語表示指令手段に更に次のような機能を設けるのが好ましい。すなわち単語列中の訂正された単語とその前後にそれぞれ位置し得る二つの単語及びこの二つの単語の競合単語との言語的な接続確率を算出し、接続確率が大きいものを画面に表示する競合単語として選び、前に画面に表示している競合単語と入れ替えを行うか、前に画面に表示してヽる競合単語に新たに追加する機能を、競合単語表示指令手段に設けるのが好ましい。このようにすると単語列中の一つの単語の訂正と連動して隣接する二つの単語の競合単語としてより適切な単語を表示することができるようになり、訂正作業が更に容易になる。

[0016] 音声認識手段が、単語訂正手段により訂正の対象となった単語、訂正時間の情報及び訂正された単語に対する事後確率を蓄積データとして保存し、これらの蓄積データを利用して再度の音声認識を行う機能をさらに有しているのが好ましい。このような機能を付加すると、もし一度目の認識で、ある区間に対して本来の正解が競合候補として得られなカゝつた場合でも、ユーザの訂正処理カゝら得られる新たな情報を利用した音声認識により、認識結果あるいは競合候補としてユーザ側に提示できる利点がある。

また音声認識手段に、音声が入力されている途中において、発話者が発声する特定の音声の入力により一時的に音声認識処理を停止して、単語訂正手段による訂正を許容する機能を付加してもよい。このような機能を設けると、訂正作業に時間が必要になった場合には、特定の音声を発声することにより、音声認識処理を一時的に停止できるので、単語の訂正作業をユーザのペースに合わせて焦らずに実行することができる。この場合、音声認識手段には、例えば、入力される音声が一定時間以上連続して続く連続音であることを判定する連続音判定手段を設ける。そして連続音判定手段が連続音の入力を判定すると、音声認識処理を一時停止し、連続音判定手段が連続音を判定した後に連続音以外の音が入力されたことを判定すると、一時停止前の状態力音声認識処理を続行する機能を音声認識手段に付加すればよい。このようにすると通常の会話にぉ、て、言葉に詰まったときによく発音される言、淀み (言葉が詰まった時点で発音していた音を延ばして発音すること)を利用して、スムーズに音声認識を一時停止することが可能になる。

[0017] 音声認識手段は、単語訂正手段により訂正の対象となった単語と、入力された音声における単語の位置情報または時間情報を保存し、再度の音声認識において、保存した位置情報または時間情報における単語の言語確率を動的に強化することにより，その単語に関連する単語を認識しやすくする機能を有しているのが好ましいまた音声認識手段には，音声が入力されると，認識処理を行うと同時に，認識処理の認識結果を教師信号としたオンラインでの音響的適応処理を行う音響的適応処理手段を設けるのが好ましい。このような音響的適応処理手段を設けると、現在使用中のユーザの音声や録音環境等に即座に適応し、音声認識自体の基本的な性能を向上させることができる。

そしてこの音響的適応処理手段としては，単語訂正手段により，認識誤りのほとんどない、より正確な教師信号をリアルタイムに生成することで，高精度な音響的適応機能を有して、るものを用いるのが好ま、。このような音響的適応処理手段を用いると、従来のオンライン適応で問題となっていた、教師信号中の認識誤りによる適応性能の劣化を最小限に抑えることができる。

[0018] 本発明の音声認識装置で実行される本発明の音声認識方法では、音声認識ステップと、認識結果表示ステップと、単語訂正ステップとを実行する。音声認識ステップでは、予め定めた判定手法に従って、入力された音声に含まれる複数の単語を予め辞書手段に記憶されている複数の単語とそれぞれ比較し、競合候補の中から一番競合確率の高い単語を認識結果とする。認識結果表示ステップでは、音声認識手段により認識された認識結果を複数の単語の単語列として画面に表示する。そして単語訂正ステップでは、画面に表示された単語列を構成する一番競合確率の高!ヽ複数の単語を訂正する。そして単語訂正ステップでは、競合候補の中から一番競合確率の高、単語の競合確率に近、競合確率を持つ競合単語を選び、対応する一番競合確率の高、単語に隣接して画面上に表示させる競合単語表示ステップと、ユーザによるマニュアル操作に応じて、画面上に表示された競合単語から適切な訂正単語を選択する競合単語選択ステップと、競合単語選択ステップで選択された訂正単語を、先に音声認識ステップにより認識された一番競合確率の高ヽ単語と置き換えて画面に表示する単語置き換えステップとを実行する。

[0019] コンピュータを用いて、音声を認識し、画面上に認識結果を文字で表示する機能を前記コンピュータに実行させるための本発明のプログラムは、入力された音声に含まれる複数の単語を予め辞書手段に記憶されている複数の単語とそれぞれ比較し、競合候補の中から一番競合確率の高、単語を認識結果とする音声認識機能と、前記音声認識機能により認識された認識結果を複数の単語の単語列として画面に表示する認識結果表示機能と、前記画面に表示された単語列を構成する前記一番競合確率の高い複数の単語を訂正する単語訂正機能とを前記コンピュータに実行させ、前記単語訂正機能では、前記競合候補の中から前記一番競合確率の高!、単語の競合確率に近い競合確率を持つ 1以上の競合単語を選び、対応する前記一番競合確率の高、単語に隣接して前記画面上に表示させる競合単語表示機能と、ユーザによるマニュアル操作に応じて、前記画面上に表示された前記 1以上の競合単語から適切な訂正単語を選択する競合単語選択機能と、前記競合単語選択ステップで選択された前記訂正単語を、先に前記音声認識ステップにより認識された前記一番競合確率の高い単語と置き換えて前記画面に表示する単語置き換え機能とを前記コンピュータに実行させるように構成されて、る。

発明の効果

[0020] 本発明によれば、画面に表示された音声認識の結果として表示される単語列を見ながら、訂正の可否を決定する単語の近くに表示された 1以上の競合単語から訂正単語を選ぶことにより、訂正を行うことができるので、短い時間で、訂正を行うことができる。したがって本発明によれば、音声認識処理と並行して、認識結果の訂正を行うことができる。

図面の簡単な説明

[0021] [図 1]本発明の音声認識方法及びプログラムを実行する本発明の音声認識装置の実施の形態の一例をコンピュータを用いて実現する場合にコンピュータ内に実現される機能実現手段を概略的に示したブロック図である。

[図 2]実施の形態における競合候補の表示状態を示す図である。

[図 3]音声認識で一般的に用いられる中間結果である単語グラフの一例を示す図である。

[図 4] (A)は、単語グラフを音響的なクラスタリングをする場合の説明に用いる図であり、（B)はクラスタリングによりリニアな形式に圧縮した状態を概念的に示す図である。

[図 5]本発明の音声認識方法をコンピュータで実現する場合にコンピュータにインストールするプログラムの一例の基本アルゴリズムを示すフローチャートである。 [図 6]図 5のステップ ST2の詳細をステップ ST1と一緒に示したフローチャートである

[図 7]スキップ候補を導入した場合のステップ ST2の一部の詳細を示すフローチヤ一トである。

[図 8]ステップ ST5の詳細の一例を示すフローチャートである。

[図 9]ステップ ST5を構成する場合の別の手法のアルゴリズムを示すフローチャートである

[図 10]スキップ候補を入れる場合のステップ ST7とステップ ST8の詳細の一例を示すフローチャートである。

[図 11]一つの単語の一部を構成する音が二つの単語の区間のいずれにも入り得る場合を考慮したときの、ステップ ST8の動作を示すフローチャートである。

[図 12]スキップ候補を自動的に選択する場合の他の例のプログラムのアルゴリズムを示すフローチャートである。

[図 13]発音中休止機能を実現するためのプログラムのアルゴリズムを示すフローチヤートである。

[図 14]新しい音声認識手法を実施するためのプログラムのアルゴリズムを示すフローチャートである。

[図 15]訂正単語の N— gram確率の動的強化を用いたデコーディングを行う場合のプログラムのアルゴリズムを示すフローチャートである。

圆 16]音声認識手段に音響的適応処理手段を設ける場合のアルゴリズムを示すフロ一チャートである。

圆 17]音響的適応処理手段を図 1の実施の形態に適用する場合のアルゴリズムを示すフローチャートである。

[図 18]インターフェースのシステム構成要素（プロセス）と、全体の処理の流れを示す図である。

[図 19] (A)及び (B)は発話中休止機能を利用しない場合の表示画面の例を示す図である。

[図 20] (A)乃至 (D)は発話中休止機能を利用した場合の表示画面をそれぞれ示す図である。

圆 21]Nの値ごとの認識率を示す図である。

圆 22]本発明の実施に利用可能な携帯端末装置を示す図である。

符号の説明

1 音声認識装置

3 音声入力手段

5 音声認識手段

7 認識結果表示手段

9 単語訂正手段

11 音声認識実行手段

13 連続音判定手段

12 データ記憶手段

15 競合単語表示指令手段

17 競合単語選択手段

19 単語置き換え指令手段

発明を実施するための最良の形態

[0023] 図面を参照して、本発明の音声認識装置及び方法並びにプログラムの実施の形態の一例を詳細に説明する。図 1は、本発明の音声認識方法及びプログラムを実行する本発明の音声認識装置の実施の形態の一例をコンピュータを用いて実現する場合にコンピュータ内に実現される機能実現手段を概略的に示したブロック図である。

[0024] 本実施の形態の音声認識装置 1は、音声を入力するための音声入力手段 3と、音声認識手段 5と、認識結果表示手段 7と、単語訂正手段 9とを備えている。音声入力手段 3は、例えば、マイクロフォンやマイクロフォン力のアナログ信号を信号処理可能なデジタル信号に変換する信号変換器等を含んで構成される。

音声認識手段 5は、音声認識実行手段 11と連続音判定手段 13とから構成されている。特に音声認識手段 5の音声認識実行手段 11は、予め定めた判定手法に従つて、音声入力手段 3から入力された音声に含まれる複数の単語を、データ記憶手段 12内に設けた辞書手段（図示せず）に予め記憶されている複数の単語とそれぞれ比較し、競合候補の中から一番競合確率の高!ヽ単語を認識結果とする音声認識機能を有して!/、る (本発明の方法の音声認識ステップ：本発明のプログラムの音声認識機能の実行)。ここで「予め定めた判定手法」としては、公知の各種の判定手法を用いることができる。本実施の形態では、コンフュージョン 'ネットワークを用いて音声入力に基づく単語グラフを音響的なクラスタリングによりリニアな形式に圧縮した複数の単語の区間に分け、複数の単語の区間ごとに後述する競合確率を求めて、一番競合確率の高い単語を決定する判定手法をこの予め定めた判定手法に採用している。音声訂正を実現するためには、図 2に示すような効果的な競合候補の画面上への提示が不可欠である。単純には、この競合候補は、音声認識実行手段 11の内部状態から、最も尤もらしい（可能性の高い）単語列だけでなぐそれ以外の複数の候補を取り出して生成すればよい。しかし、通常そうした内部状態を表す中間的な表現形式 (「中間結果」と呼ぶ）は、特に大語彙を対象とした連続音声認識の場合、非常に大規模となっている。いかに大規模かを示すために、音声認識で一般的に用いられる中間結果である「単語グラフ」の一例を図 3に示す。単語グラフとは、音声認識で可能性を検討した複数の候補を、リンクを単語とするグラフ構造で表現したものである。図 3は比較的短い音声に対して生成された実際の単語グラフであるが、構造が複雑で且つ候補数も膨大であることがわかる。また、単語グラフのような従来の中間結果では、候補間の競合関係が明示的に表現できていないため、音声訂正のような効果的な候補提示は不可能である。そこで本実施の形態では、このような問題を解決する新 LV、中間結果として、音声認識実行手段 11の内部状態をシンプルかつ高精度なネットワーク構造へ変換したコンフュージョン 'ネットワーク（confusion network) [L. Mangu, E. Brill及び A. Stole ke着 mamg consensus in Speech Recog nition： Word Error Minimization and Other Applications of Confusi on Network Computer Speech and Language, Vol. 14, No. 4, pp. 37 3-400, 2000.；) ]を導入する。このコンフュージョン 'ネットワークは、元々、音声認識率の向上のためにデコーディングアルゴリズムにおいて使用された途中結果である。そのため、当業者には、このコンフュージョン 'ネットワークを本実施の形態のような誤り訂正目的に応用しょうという発想は従来な力つた。 [0026] コンフュージョン 'ネットワークは、図 4 (A)に示す単語グラフを音響的なクラスタリングにより図 4 (B)に示すようなリニアな形式に圧縮することで求めることができる。図 4 ( A)において、 "sil" (silence)は発話開始、終了時の無音を表し、アルファベット 1文字はグラフのリンク上の単語名を表している。また、図 4 (B)のネットワーク上の" "は後に説明するスキップ候補である。音響的クラスタリングは以下の 2つのステップにより行われる。なおこのステップは、 L. Mangu, E. Brill及び A. Stolcke著の" Findi ng Consensus in ¾peecn Recognition： Word Error Minimization and

Other Applications of Confusion Network" Computer Speech and Language, Vol. 14, No. 4, pp. 373—400, 2000.； Hこ紹介されてヽる。

[0027] 単語内クラスタリング 'ステップ:単語名が同一で、時間的に重なりのあるリンクをクラスタリングする。時間的類似度をコスト関数として用いる。

単語間クラスタリング ·ステップ：単語名の違うリンクのクラスタリングを行う。コスト関数として単語間の音響的類似度を用いる。

コンフュージョン 'ネットワークの各リンクについては、クラスタリングした各クラス（単語の区間）ごとに事後確率が算出される。そして算出されたそれらの値は、各クラスでの存在確率、あるいはそのクラス内の他候補との競合確率を表わす。各クラスのリンクは、存在確率の大きさでソートされ、認識結果として可能性の高いリンクほど上位に配置される。最終的に、各クラス力事後確率が最大となるリンクを選択すると、図 2 の最上段のような最終的な認識結果 (最尤の候補)となる。また、各クラスで事後確率が高いリンクを取り出すと、図 2の競合候補が得られる。

[0028] ただしコンフュージョン'ネットワークでは、クラス中の各候補は必ずしも時間的に同一区間の認識結果とは限らない。例えば、時間的に 2つのクラスをまたがった候補は、どちらか一方のクラスへ割り当てられる。本実施の形態にける音声訂正では、後に説明するように、そのような候補をユーザが選択すると、発声区間との時間的な整合性が取れるように、近隣でユーザが未選択なクラスの候補も自動的に選択し、訂正操作の回数を最小限にする

[0029] 図 1の認識結果表示手段 7は、音声認識手段 5により認識された認識結果を複数の単語の単語列として図示しなヽ画面に表示する機能を有してヽる（音声認識結果表示ステップ:音声認識結果表示機能の実行)。図 2は、図示しない画面に表示する本実施の形態の音声認識結果の一例とその訂正の一例を示す図である。本実施の形態の認識結果表示手段 7は、リアルタイムで音声認識手段 5の認識結果を画面に表示する機能を有している。

この場合には、単語訂正手段 9も、認識結果表示手段 7による認識結果の画面への表示と一緒に競合単語をリアルタイムで画面上に表示する機能を有しているのが好ま、。このようにするとユーザの発声と並行して音声認識の訂正を実施することができる。

単語訂正手段 9は、画面に表示された単語列を構成する一番競合確率の高い複数の単語を訂正する単語訂正機能を有してヽる（単語訂正ステップ：単語訂正機能の実行)。本実施の形態で用いる単語訂正手段 9は、競合単語表示指令手段 15と、競合単語選択手段 17と、単語置き換え指令手段 19とから構成される。競合単語表示指令手段 15は、競合候補の中から一番競合確率の高、単語の競合確率に近!ヽ競合確率を持つ 1以上の競合単語を選び、対応する一番競合確率の高い単語に隣接して画面上に表示させる競合単語表示機能を有して!/ヽる（競合単語表示ステップの実行)。すなわち本実施の形態では、図 2に示すように、音声認識手段 5により認識された一番競合確率の高、単語から構成される単語列である「通常の認識結果」の下に、多数の競合候補の中から単語列の単語 (一番競合確率の高い単語)の競合確率に近い競合確率を持つ 1以上の競合単語を選び、これを表示する。競合単語選択手段 17は、ユーザによるマニュアル操作に応じて、画面上に表示された 1以上の競合単語から適切な訂正単語を選択する競合単語選択機能を有して!/、る（競合単語選択ステップの実行)。そして単語置き換え指令手段 19は、競合単語選択手段 17により選択された訂正単語を、音声認識手段 5により認識された一番競合確率の高い単語 (通常の認識結果として単語列を構成する単語)と置き換えることを音声認識手段 5に指令する単語置き換え指令機能を有している (単語置き換え指令ステップの実行)。これによつて認識結果表示手段 7が画面に表示する単語が、訂正された単語によって置き換えられる。例えば図 2に示す例では、最初の単語「温泉」に音声認識の誤りがある。最初の単語について表示された競合候補中、最初に表示された「音声」が競合候補の中でもっとも競合確率が高いもので、それよりも下にいくほど競合確率が低い単語となる。なお単語列の下の競合候補のうち、空白は後に詳しく説明するスキップ候補であり、このスキップ候補を選択すると、単語列の単語は削除される。スキップ候補を採用する場合には、単語置き換え指令手段 19に、スキップ候補が選択されると、音声認識手段 5による認識結果から対応する一番競合確率の高い単語を削除することを音声認識手段 5に指令する機能を持たせればよい。このようにすると音声認識でしばしば生じる湧き出し単語 (発音されていないのに、発音されたカゝのように認識されて表示される単語)を、競合単語の選択作業と同じ作業で削除することができる。したがって訂正作業が更に短くなる。なおスキップ候補にも競合確率を付与すれば、スキップ候補の表示位置が一定になることがない。そのため競合単語の選択と単語列力ゝらの単語の削除の選択を同じレベルで実行することができ、ユーザの訂正作業に要する時間を更に短縮することができる。

[0031] 一つ単語の訂正が行われると、訂正された単語との関係で見ると、先に決定して画面に表示した競合単語が不適切なものになることもある。そこで競合単語表示指令手段 15に、単語訂正手段 9により一部の単語が訂正されると、その訂正された単語を単語列においては、以後ユーザによって訂正された本来正解である単語として、再度競合単語の選び直しを行う機能を設けるのが好ましい。この機能を設けると、まだ訂正をして、な、単語に対する競合単語を訂正された語に適合した単語に変更することができるので、後の訂正作業を更に容易にすることができる。この場合、競合単語表示指令手段 15に更に次のような機能を設けるのが好ましい。すなわち単語列中の訂正された単語とその前後にそれぞれ位置し得る二つの単語及びこの二つの単語の競合単語との言語的な接続確率を算出し、接続確率が大きいものを画面に表示する競合単語として再び選び、前に画面に表示してヽる競合単語と入れ替えを行うか、前に画面に表示している競合単語に新たに追加する機能を、競合単語表示指令手段 15に設けるのが好ましい。このようにすると単語列中の一つの単語の訂正と連動して隣接する二つの単語の競合単語としてより適切な単語を表示することができるようになり、訂正作業が更に容易になる。

[0032] 上記の競合候補の訂正機能は、未選択候補の自動訂正機能と呼ぶことができる。すなわちユーザがある候補を訂正すると、その周辺の候補も最適なものに自動的に訂正されるという機能を意味する。音声認識では、ある単語を誤ると、その単語に引きずられる形で後続する候補として誤った単語が認識されることが頻繁に発生する（例えば後述する、図 19中、「音声入力」→「温泉入浴」）。本機能を採用すると、ュ一ザが選択した候補の前後のそれぞれの候補に対し、現在選択して!/、る候補との言語的な接続確率を算出し、その値が最も大きい候補に自動修正することになる。例えば、図 19において、ユーザが「温泉」を「音声」に訂正すると、「音声」との言語的接続確率が最も高い「入力」が自動的に選択され、「入浴」が「入力」へと訂正される。これにより、ユーザの訂正操作の回数を最小限に抑えることができる。

図 5は、本発明の音声認識方法をコンピュータで実現する場合にコンピュータにィンストールするプログラムの一例の基本アルゴリズムを示すフローチャートである。この基本アルゴリズムでは、まず最初に音声を認識する (ステップ ST1)。次に音声認識結果に基づいて競合候補を生成する (ステップ ST2)。そして画面に競合確率の最も高、単語で構成された一つの単語列を認識結果として表示する (ステップ ST3) 。次に、音声認識した単語列を構成する一番競合確率の高い複数の単語を訂正する競合候補として、一番競合確率の高い単語の競合確率に近い競合確率を持つ 1 以上の競合単語を選び、競合候補を画面に表示するか否かを判定する (ステップ ST 4)。このプログラムでは、訂正を行わない無修正モードも用意してあるため、この無修正モードではステップ ST4からステップ ST1へと戻り、通常の音声認識結果だけが画面に表示される。画面表示を選択した場合には、 1以上の競合単語を対応する一番競合確率の高い単語に隣接して画面上に表示する (ステップ ST5)。認識結果に誤りが存在するかの判定をユーザが行い (ステップ ST6)、訂正の必要性をユーザが判断した場合には、ステップ ST7へと進んで、ユーザによるマニュアル操作に応じて、画面上に表示された 1以上の競合単語から適切な訂正単語を選択する (ステップ ST 7)。その結果、この訂正単語が音声認識手段により認識された一番競合確率の高い単語と置き換えられる (ステップ ST8)。ステップ ST6で訂正の必要性が無、と判断された場合 (競合候補を画面に出力した後所定の時間経過したときに訂正操作が入らないとき）は、ステップ ST1へと戻る。一つの単語の訂正が終了した後、更に訂正があればステップ ST9からステップ ST6へと戻る。なお音声入力があれば、ステップ ST 1からステップ ST5までは、訂正が行われている間も実行されており、新たな単語列が画面に表示され続ける。

[0034] 図 6は、本実施の形態におけるステップ ST2の詳細をステップ ST1と一緒に示したものである。ステップ ST2では、まず単語グラフを生成する (ステップ ST21)。次に単語グラフに対して音響的なクラスタリングを実行し、コンフュージョン'ネットワークを生成する（ステップ ST22)。次にコンフュージョン 'ネットワークの各単語の区間の中から競合確率が最も大きい単語をピックアップして、単語列としたものを認識結果とする（ステップ ST23)。そして更に音声入力がなければ終了する（ステップ ST24)。

[0035] 前述のスキップ候補を用いる場合において、特に判定手法として、コンフュージョン

'ネットワークを用いるのが好ましい。この場合には、音声入力に基づく単語グラフを音響的なクラスタリングによりリニアな形式に圧縮した複数の単語の区間に分け、複数の単語の区間ごとに競合確率を求めて、一番競合確率の高い単語を決定する。すなわち一つの単語の一部を構成する音が二つの単語の区間のいずれにも入り得る場合には、一つの単語の一部を構成する音を二つの単語の区間の一方に含める。そして単語訂正手段 9により二つの単語の区間の一方に属する単語の訂正が行われると、二つの単語の区間の他方の単語の区間では、時間的な整合性が取れるようにスキップ候補を自動選択する。図 7は、スキップ候補を導入した場合のステップ ST 2の一部の詳細を示している。この場合には、単語グラフを作成した後 (ステップ ST2 1)、ステップ ST221で「単語グラフに対して音響的クラスタリングを実行」し、「各区間に対する競合単語、各競合単語に対する競合確率を算出する。そして同時に各区間に対して『単語が存在しな、確率』を 1 （区間における競合確率の合計)」として算出する。その後、ステップ ST222でコンフュージョン 'ネットワークを生成し、ステツプ ST223で「単語が存在しな、確率」をスキップ候補の確率として設定する。

[0036] 図 8は、上記のステップ ST5の詳細の一例を示すフローチャートである。図 2に示すように、本実施の形態では、画面上に表示する 1以上の競合単語の数 (競合候補）は、全ての単語において同じではない。本実施の形態では、音声認識の曖昧さが低いほど競合単語の数を少なくし、音声認識の曖昧さが高くなるほど競合単語の数を多くしている。そこで競合単語表示指令手段 15は、競合単語の競合確率の分布状況に応じて、画面上に表示する競合単語の数を変えるように構成するのが好ましい。例えば、競合確率の高い単語が 1つしか無い場合にはその 1つの単語を競合単語として表示すればよぐ逆に競合確率の高い単語が多数ある場合には、その分布状況を考慮して可能な範囲で表示する競合単語の数を多くすればよい。そこで図 8に示すように、ステップ ST5では、まずステップ ST51で、競合候補を各単語の区間における複数の競合単語で構成し、各競合単語には所属する区間における競合確率を付与する。そしてステップ ST52では、各単語の区間における競合単語の数が多いか判定する。競合単語の数が多ければ、ステップ ST53で、画面に多くの競合単語を表示し、誤りである可能性が高い区間であることを、表示する競合単語の数を多くしてユーザに提示する。競合単語の数が少なければ、ステップ ST54で画面には競合単語は殆ど表示せず、正解である可能性が高い区間であることを、表示する競合単語の数を少なくすることによりユーザに提示する。このようにすると、表示される競合単語の数で訂正をすべき可能性が一目で分力るため、ユーザは単語列に含まれる全ての単語に同じ注意力を払って訂正作業を行う必要がなくなる。そのため単語訂正の必要性判断及び訂正作業時間を短くすることができる。

[0037] また競合単語表示指令手段 15を構成するステップ ST5では、単語列に含まれる複数の単語の上側または下側に、競合確率の高!、順番に競合単語が並ぶように画面上に表示する機能を備えているのが好ましい。競合単語表示指令手段 15がこのような機能を備えてヽれば、訂正の対象となる単語に近ヽ競合単語から訂正に必要な単語を短い時間で簡単に見つけることができるので、訂正作業時間を更に短くすることが可能になる。

[0038] 図 9は、ステップ ST5を構成する場合の別の手法のアルゴリズムを示している。図 9 の例では、競合単語に競合確率を付与したのち、ステップ ST52,で競合確率がある一定の確率よりも大き、か否かの判定を行う。そして競合単語の競合確率が一定の確率よりも大きいものは、ステップ ST53 こよりその区間における競合候補として画面に表示する。また競合単語の競合確率が一定の確率より小さい場合には、ステツプ ST54'で画面には表示しな、。なおこの場合でもスキップ候補は表示するようにしてもよい。

[0039] そして図 10は、スキップ候補を入れる場合のステップ ST7とステップ ST8の詳細の一例を示している。ステップ ST7は、ステップ ST71乃至 ST73によって構成され、ステツプ ST8はステップ ST81及び ST82によって構成される。ステップ ST71では、訂正の対象になつている単語が本来は何も存在しない区間に誤って挿入された単語であるか判定される。もし誤って挿入されたのであれば、ステップ ST72へと進み、「スキップ候補」を選択する。その結果ステップ ST81で、その単語が単語列から削除される。もし誤って挿入された単語でなければ、ステップ ST73で適切な競合単語をクリツクすると、単語列の単語は選択された訂正単語によって置き換わる (ステップ ST82) 。また図 11は、前述の一つの単語の一部を構成する音が二つの単語の区間のいずれにも入り得る場合を考慮したときの、ステップ ST8の詳細を示している。ステップ ST 7で単語をクリックすると、ステップ ST801で、選択された単語の隣接する区間に対する時間的オーバーラップが形成される。次にステップ ST802で、時間的にオーバ一ラップが隣接する単語の区間の半分以上の時間である力否かが判定される。時間的オーバーラップが半分以下であれば、ステップ ST803で選択した単語は、隣接する区間に時間的に跨っているとして、隣接する区間に対してはスキップ候補を自動的に選択する。そしてステップ ST804で、現区間の選択された単語が認識結果として画面に表示され、隣接する区間にはもとの認識結果が削除された状態で画面に表示される。時間的オーバーラップが半分より少なければ、ステップ ST804で、現区間の選択された単語が認識結果として画面に表示される。

[0040] 図 12は、スキップ候補を自動的に選択する場合の他の例のプログラムのァルゴリズムを示すフローチャートである。このアルゴリズムでは、ステップ ST811で、隣接する単語の区間の認識結果の競合確率がある一定の値以上であるか否かが判定される。そして競合確率が一定以上で無ければ、ステップ ST812へと進んで、選択した単語の、隣接する単語の区間の各競合単語に対する言語的接続確率 (N—gmm)を計算する。次にステップ ST813で、最も言語的接続確率が大きい単語を、隣接する区間の認識結果として自動的に選択する。

[0041] 上記実施の形態では、図 2に示した音声認識結果の表示と競合候補の表示を同時に行っているので、ユーザの発声が入力され、図 2上側に示すような結果が即座に提示される (音声入力開始と共に左から右へ順次表示されていく）ので、訂正作業は、リアルタイムで実施できる。訂正作業では、従来の音声認識と異なり、最上段の通常の認識結果 (単語列）に加えて、その下へ「競合候補」のリストを常に表示しているので、競合候補力もの選択作業で訂正を行える。図 2に示すように、通常の認識結果が各単語の区間ごとに区切られて、その単語に対する競合候補がその下に整列して表示される。前述のように、競合候補の個数はその区間の曖昧さを反映しており、音声認識手段 5にとつて曖昧で自信がない箇所ほど、多数の候補が表示される。そのため、ユーザは候補が多いところに誤認識がありそうだと思って、注意深く見ることができる。逆に、音声認識手段 5が正しいと自信のある区間は候補が少ないため、ユーザに余計な混乱を与えることがない。このように認識結果を提示することで、ユーザは競合候補の中から正解を「選択」する操作だけで、容易に認識誤りを訂正できる。

[0042] また本実施の形態のように、前述のスキップ候補を使用すると、最上段の認識結果に湧き出し単語 (本来あるべきでない区間に余分な単語が挿入される誤り）が存在しても、ユーザはスキップ候補を選択するだけで容易に削除できる。つまり単語の置き換えと削除が、「選択」という一つの操作でシームレスに実行できる。また、各区間の競合候補は、上から可能性 (存在確率)の高い順に並んでいる。つまり、上の方ほど音声認識手段があり得そうな候補だと判断しているので、通常はユーザが上力下へ候補を見ていくと、早く正解にたどり着けるようになつている。さらに、本実施の形態では、発話中の認識結果として可能性のある単語候補が網羅的に列挙され、各区間にスキップ候補も持っているため、遠藤、寺田著"音声入力における対話的候補選択手法"（インタラクション 2003論文集、 pp. 195- 196, 2003. )で提案されているような認識結果の単語境界の変更も不要になる利点がある。

[0043] 従来の一部の音声認識装置では、発話が終了するまで認識結果が表示されな、ことがあった。仮に結果が表示されたとしても、競合候補のような他の可能性が示されることはなく、発話が終了して力結果を吟味するまで、誤りの訂正に移ることはできなかった。そのため、音声入力はキーボード入力と比べて、誤り訂正作業に多くの時間が力かる欠点があることが指摘されていた。その要因として、訂正自体の時間以外に、

1)ユーザが誤り箇所を発見するための時間、

2)誤り箇所を指摘する (カーソル移動する)ための時間、

が余計に力かる点が挙げられる。

[0044] これに対して本実施の形態の音声認識装置を用いると、発話中に認識の中間結果を競合候補付きでリアルタイムにフィードバックし続け、さらにユーザの選択も可能になるため、発声の最中に誤りを即時に訂正できる。これにより、上述の 2点の作業時間が大幅に短縮される。また実際の訂正に力かる時間も、既に表示されている候補を「選択」するだけであるため、非常に短くなるという利点がある。

[0045] 図 1に示すように、上記の実施の形態では、音声認識手段 5は、音声が入力されて V、る途中にぉ、て、発話者が発声する特定の音声の入力により一時的に音声認識処理を停止して、単語訂正手段 9による訂正を許容する機能を備えている。そこで音声認識手段 5には、入力された音声が一定時間以上連続して続く連続音であることを判定する連続音判定手段 13を設けている。この連続音判定手段 13が連続音の入力を判定すると、音声認識実行手段 11は、音声認識処理を一時停止し、連続音判定手段 13が連続音を判定した後に連続音以外の音が入力されたことを判定すると、一時停止前の状態力音声認識処理を続行する機能を備えて、る。このような機能を付加すると、通常の会話において、言葉に詰まったときによく発音される言い淀み（言葉が詰まった時点で発音していた音を延ばして発音すること)を利用して、スムーズに音声認識を一時停止することが可能になる。またこのような機能を設けると、訂正作業に時間が必要になった場合には、特定の音声を発音することにより、音声認識処理を一時的に停止できるので、単語の訂正作業をユーザのペースに合わせて焦らずに実行することができる。

[0046] 図 13は、この機能を実現するためのプログラムのアルゴリズムを示す。まずステップ ST11で音声認識を開始する。そしてステップ ST12で、ユーザから一時休止を表す特殊なサイン (有声休止のような特定の音声の入力：例えば「え」と連続する連続音の入力）があったか判定される。この判定が Yesであれば、ステップ ST13へと進み、音声認識処理を一時停止する。そして現段階の処理内容を保存する。そしてステツプ ST2'で現段階までの競合候補を生成し、ステップ ST5'で現段階までの競合候補を画面に表示する。なおこの例では図 5のステップ ST4に相当するステップは省略している。またステップ ST12の判定で、特殊なサインがないことが判定されると、ステツプ ST13'で通常通りの音声認識が行われる。なお直前時間までの処理内容が保存されていれば、その続きから認識を再開する。その後ステップ ST2及び ST5へと進んで競合候補を画面に表示する。競合候補の画面への表示が行われたら、図 5のステップ ST6へと進む。なおこの場合ステップ ST6では、認識結果に誤りが存在しな

V、ことの判定を、特殊なサイン (特定の音声の入力：例えば「え」と連続する連続音の入力）の停止により判断する。

[0047] 発話中休止機能の具体的実現方法について説明する。発話中に有声休止 (言い淀み）が検出され、その直後に一定の無音区間が検出されたら、音声認識手段 5の動作を一時停止し、現時点の認識処理過程 (それまでの仮説情報、探索空間での現在の位置情報等)を退避する。このとき、有声休止が発声され続けている区間は音声認識の対象とならず、スキップされる。再び発話の開始が検出されると (音声のパワーに基づいて検出）、退避した認識処理過程から音声認識処理を再開し、発話終端が検出されるまで認識処理を続行する。有声休止の検出には、後藤，伊藤及び速水著の"自然発話中の有声休止箇所のリアルタイム検出システム"（信学論， Vol. J83- D-II, No. 11, pp. 2330- 2340, 2000.；)のリアルタイム有声休止検出手法を採用することができる。この手法は、有声休止 (母音の引き延ばし)が持つ 2つの音響的特徴 (基本周波数の変動が小さ、、スペクトル包絡の変形が小さ!、）をボトムアップな信号処理によってリアルタイムに検出する。そのため、任意の母音の引き延ばしを言語非依存に検出できると、う特長を持って、る。

[0048] 上記の発話中休止機能を設けると、発話中にユーザが意図した時点で、認識処理を一時停止させることができる。そして次の発話が始まると、あた力も一時停止前の発話が続いていたかのように動作させることができる。本実施の形態では、ユーザの一時停止の意図を伝えるために、音声中の非言語情報の 1つである有声休止 [言い淀み (語中の任意の母音の引き延ばし) ]を、発話中休止機能のトリガーとして採用した。この有声休止は、人間同士の対話においても、相手に少し待って欲しいときや、喋つている最中に考え事をするときなどに、しばしば行われる。そのため、ユーザは自然に一時停止をかけて、正しい候補を選択したり、続きの発話を考えたりすることができる。

[0049] また本実施の形態の音声認識装置及び方法では、認識誤りのほとんどを訂正することが可能になる。し力しながらコンフュージョン 'ネットワーク中に含まれな力つた候補については選択による訂正処理ができない問題が発生する。この問題を改善するためには、コンフュージョン 'ネットワーク生成のための音声認識手段自体をより高精度化する必要がある。そこで本実施の形態では、ユーザとのインタラクション (ここでは訂正処理)を利用したデコーディングによる新 U、音声認識手法を採用することが好ましい。図 14は、この手法を実施するためのプログラムのアルゴリズムを示すフロ一チャートである。この手法では、音声認識結果の訂正において、ユーザによって訂正処理が実行されると、訂正後の単語と時間情報、その単語に対するスコア (事後確率)などを保存し (ステップ ST106)、それらの情報を利用して再度デコーディング（同じ音声データに対して音声認識処理)を行う（ステップ ST107)。これにより、ユーザが誤り訂正というインタラクションを介して、音声認識器の内部処理を能動的に操作するという、これまでにない機構が実現される。

[0050] そのための一つの手法として、訂正単語の N— gram確率の動的強化を用いたデコーデイングを行うことが考えられる。図 15は、この手法を実施するためのプログラムのアルゴリズムを示すフローチャートである。このプログラムでは、訂正処理の際にユーザが選択した単語 (本来の正解)を w 、入力音声に対する w の開始、終了時

select select

間をそれぞれ Ts、 Teとする。一方、訂正処理後の再デコーディング (再度の音声認識処理）にお、て、ある時刻での単語候補を w、その直前単語を w 、 w の開始

prev prev 時間を ts、終了時間を teとする。通常、 bigramを用いたビーム探索の場合、現在の候補に対する言語スコア（対数尤度） S (w

lm I w )は以下のように与えられる。

prev I w )

lm prev

このとき、訂正処理の際にユーザが選択した単語の情報をもとにした条件、 W =

Tsく tsく Teもしくは Tsく teく Te)、を満たせば、言語スコアを以下のように変更する S (w I w ) = C log P (w I w )

lm prev prev

ここで C (0< C< 1)は bigram値に対する重み係数であり、本願明細書では、これを「インタラクション係数」と呼ぶ。このように、音声訂正後の再デコーディングにおいて、ユーザによって訂正された単語の N— gram確率値を動的に強化することで、その単語に言語制約的に関連する単語を、後続する単語候補として探索ビーム内に残りやすい状態にすることができる。このように音声訂正後の再デコーディングにお Vヽて、ユーザによって訂正された単語の N-gram確率値を動的に強化する (一定の係数を乗ずる)ことで、その単語に言語制約的に関連する単語を、後続する単語候補として探索ビーム内に残りやすくし、もとのデコーデイングにて訂正不能だつた単語を訂正可能にすることができる。

次に、本発明の音声認識装置及び方法による訂正を用いた高精度なオンライン適応化機能について説明する。現状の一般的な音声認識装置においては、不特定話者'タスクに対して頑健かつ高精度に認識することは困難であり、話者や環境に対して、その認識装置で用いて、るモデルを適応する技術が必要不可欠となって、る。特に、実環境においては、話者や利用環境が頻繁に変化することがあるため、オンラインでの逐次的に適応可能な音声認識装置が望まれる。そこで一般的なオンライン適応の処理過程を以下に示す。

1 入力音声 (発話）に対し、既存のモデルを用いて認識を行う。

2 認識結果をもとに適応に用いる教師信号 (発話内容テキスト）を生成する。

3 生成した教師信号をもとに、 MLLRや MAPなどを用いて適応を行い、音響モデルを更新する。

4 更新した音響モデルを用いて次の発話を認識する。

このようなオンライン適応では、教師信号は既存のモデルを用いた認識により自動的に生成されるため、認識誤りによる「不完全」な発話内容テキストとなり、その結果、適応の性能を大きく劣化させてしまう。これに対し、本実施の形態の音声認識装置では、音声認識の訂正の枠組みにオンライン適応を組み込むことにより、話者、環境に頑健な認識を実現することができる。本実施の形態の音声認識結果の訂正では、効率的かつリアルタイムに認識誤りを訂正することが可能であり、ユーザが訂正した認識結果を教師信号として用いることにより、「完全」な発話内容テキストで高精度な適応処理が可能となる。本実施の形態の音声認識装置では、従来では各々の処理がオフラインで動作することが多力つた、「認識」、「訂正」、「オンライン適応」の一連の処理をリアルタイムで実行することが可能である。

[0053] 図 16は、上記の考えに従って、音声認識手段 5に音響的適応処理手段を設ける場合のアルゴリズムを示すフローチャートである。また図 17は、この音響的適応処理手段を図 1の実施の形態に適用する場合のアルゴリズムを示すフローチャートである。音声が入力されると，音響的適応処理手段は、認識処理を行うと同時に，認識処理の認識結果を教師信号としたオンラインでの音響的適応処理を行う (ステップ ST01 〜ST03)。図 17に示すように、この音響的適応処理手段は，単語訂正手段 9により訂正処理が実行されたとき (ステップ ST2、 ST5〜ST8)、認識誤りのない正確な教師信号をリアルタイムに生成することで，高精度な音響的適応機能を発揮する。

[0054] 次に本実施の形態を具体的に実現したインターフェースの試験装置と試験の結果について説明する。図 18に、インターフェースのシステム構成要素（プロセス）と、全体の処理の流れを示す。図 18においては、プロセスは図のブロックの中の字で示されており、ネットワーク (LAN)上の複数の計算機で分散して実行することが可能である。プロセス間の通信には、音声言語情報をネットワーク上で効率よく共有することを可能にするネットワークプロトコル RVCP (Remote Voice Control Protocol) [ 後藤，伊藤，秋葉及び速水著の"音声補完:音声入力インターフェースへの新しいモダリティの導入，，（コンピュータソフトウェア， Vol. 19, No. 4, pp. 10- 21, 2002. ) ]を用いた。

[0055] 処理の流れについて説明する。まず、マイクロフォン等力音声入力部に入力された音響信号は、ネットワーク上にパケットとして送信される。特徴量抽出部（図 1の音声認識手段 5に含まれる）、有声休止検出部（図 1の音声認識手段 5の連続音判定手段 13に相当する）、発話区間検出部（図 1の音声認識手段 5に含まれる）がそのパケットを同時に受信し、音響特徴量 (MFCC)や有声休止、発話の始終端をそれぞれ求める。これらの情報は、パケットとして音声認識部（図 1の音声認識実行手段 11 に相当する）に送信され、認識処理が実行される。このとき、有声休止は、発話中休止機能を呼び出すトリガーとして利用される。音声認識部では、中間結果としてコンフュージョン 'ネットワークが生成され、その情報はパケットとしてインターフェース管理部（図 1の単語訂正手段 9に含まれる）に送信される。インターフェース管理部では候補を表示し、マウス〖こよるクリックや、パネル上をペンや指で触れる操作によってその選択を可能にする。

[0056] 試験装置では、音響モデルとして、新聞記事読み上げコーパス JNASから学習した音節モデル [緒方，有木著の"日本語話し言葉音声認識のための音節に基づく音響モデリング，，（信学論， Vol. J86-D-II, No. 11, pp. 1523— 1530, 2003. ) ] ( モデル数 244、 1状態あたりの混合数 16)を用い、言語モデルには、 CSRCソフトゥエア 2000年度版 [河原他著の"連続音声認識コンソーシアム 2000年度版ソフトゥェァの概要と評価"（情処研報， 2001— SLP— 38— 6, 2001.；) ]の中から、新聞記事テキストより学習された 20000語の bigramをそれぞれ用いた。また、試験装置で用いた音声認識実行手段としては、 back— off制約 N— best探索アルゴリズム [緒方，有木著の "大語彙連続音声認識における最ゆう単語 back - of f接続を用ヽた効率的な N— best探索法，，（信学論， Vol. 84-D-II, No. 12, pp. 2489— 2500, 200 1.；) ]により、リアルタイムにコンフュージョン 'ネットワークを生成できるように拡張されているものを用いた。

[0057] 図 19 (A)及び (B)に発話中休止機能を利用しない場合の表示画面を示しており、図 20 (A)乃至 (D)に発話中休止機能を利用した場合の表示画面をそれぞれ示す。この試験装置では、図 2の表示に相当する表示部分（「候補表示部」と呼ぶ）の上に、さらに一行追加されている。これは、候補を選択して訂正した後の最終的な音声入力結果を表示している。候補表示部では、現在選択されている単語の背景が着色される。何も選択していない状態では、候補表示部の最上段の最尤単語列が選択されている。ユーザが他の候補をクリックして選択すると、その候補の背景が着色されるだけでなぐ画面最上部の最終的な音声入力結果も書き換えられる（図 19及び図 20では、選択操作で訂正した箇所だけ、文字の色を変えてわ力りやすく表示している)。

[0058] 次に、音声認識結果の訂正の基本性能を評価した結果と、実装したインターフエ一スの運用結果について説明する。

[音声訂正の基本性能]

音声訂正が実用的に使えるかどうかを評価するには、認識誤りを訂正することがどの程度可能か、すなわち、表示される競合候補の中に本来の正解がどの程度含まれているか、を調査することが重要となる。そこで、男性 25人が発話した計 100発話を対象に、候補を上位 N個まで提示したときの訂正後の認識率 (最終的な音声入力成功率)を、誤り訂正能力として評価した。つまりここでの認識率は、例えば N= 5の場合、上位 5個以内に正解が含まれる割合で表される。通常の認識性能 (N= lのときの認識率）は 86. 70%であった。

[0059] 図 21に、 Nの値ごとの認識率を示す。実験結果より、提示する候補数を増やすと認識率が向上し、 11以上で飽和することがわ力つた。このときの認識率は 99. 36%であり、これは、通常の認識結果の全ての誤り（209個）のうち、約 95%の誤り（199個）を訂正可能であることを示している。訂正できな力つた 10個を調査したところ、 4個は用いた音声認識の単語辞書中に登録されていない、いわゆる未知語であった。また、 N= 5程度でもほとんどの誤りを訂正できることもわ力つた。

[0060] 従来の音声訂正では、提示する候補数が多すぎるとユーザ側の混乱を招き、逆に少なすぎると誤りを訂正できなくなる力コンフュージョン 'ネットワークを用いることにより、提示する競合候補数を抑えつつ、ほとんどの誤りを訂正することが可能であることがわかった。ただし、実験でも示されたように、音声認識器の知らない未知語に関しては、現時点では、音声訂正を用いても訂正できない。この解決は今後の課題であり、ユーザとのさらなるインタラクションを介して未知語を解消する枠組みが必要になると考えている。

[0061] [運用結果]

実際に、 4人のユーザに新聞記事の文章を読み上げてもらい、試験装置 (インタフエース）により訂正処理を行ってもらった。どのユーザも、提示される競合候補に混乱されることなく、適切に訂正処理が行えることを確認した。言い淀みによる発話中休止機能も適切に使用され、特に長い文章を入力する場合は、本機能を使用すれば入力の際の労力が軽減されたとの感想を得た。また、使用方法も選択のみの操作で単純であり、 GUIも直感的でわ力りやすいと評価された。実際に、他人が使用している様子を見たユーザが、訓練せずに即座に使用できることがわ力つた。

上記実施の形態では、競合単語の選択をマウスを用いて行っている。しかし図 22 に示すように PDA等の携帯端末装置 MBで本発明を実施する場合には、タツチペン TPを入力手段として競合単語の選択を行えばょヽ。

Claims

請求の範囲

[1] 音声を入力するための音声入力手段と、

予め定めた判定手法に従って、前記音声入力手段から入力された音声に含まれる複数の単語を予め辞書手段に記憶されている複数の単語とそれぞれ比較し、競合候補の中から一番競合確率の高、単語を認識結果とする音声認識手段と、前記音声認識手段により認識された認識結果を複数の単語の単語列として画面に表示する認識結果表示手段と、

前記画面に表示された単語列を構成する前記一番競合確率の高い複数の単語を訂正する単語訂正手段とを備えた音声認識装置であって、

前記単語訂正手段は、

前記競合候補の中から前記一番競合確率の高!ヽ単語の競合確率に近!ヽ競合確率を持つ 1以上の競合単語を選び、対応する前記一番競合確率の高い単語に隣接して前記画面上に表示させる競合単語表示指令手段と、

ユーザによるマニュアル操作に応じて、前記画面上に表示された前記 1以上の競合単語から適切な訂正単語を選択する競合単語選択手段と、

前記競合単語選択手段により選択された前記訂正単語を、前記音声認識手段により認識された前記一番競合確率の高い単語と置き換えることを前記音声認識手段に指令する単語置き換え指令手段とを備えていることを特徴とする音声認識装置。

[2] 前記競合単語表示指令手段は、前記競合単語の前記競合確率の分布状況に応じて、前記画面上に表示する前記競合単語の数を変えることを特徴とする請求項 1に記載の音声認識装置。

[3] 前記競合単語表示指令手段は、前記一番競合確率の高！ヽ単語の競合確率に近い競合確率を持つ前記競合単語の数が少ない場合には、前記画面上に表示する前記競合単語の数を少なくし、前記一番競合確率の高、単語の競合確率に近、競合確率を持つ前記競合単語の数が多い場合には、前記画面上に表示する前記競合単語の数を多くする請求項 2に記載の音声認識装置。

[4] 前記競合単語表示指令手段は、前記単語列に含まれる前記複数の単語の上側または下側に、競合確率の高い順番に前記競合単語が並ぶように前記画面上に表示させる機能をさらに備えて、る請求項 1に記載の音声認識装置。

[5] 前記予め定めた判定手法は、コンフュージョン 'ネットワークを用いて前記音声入力に基づく単語グラフを音響的なクラスタリングによりリニアな形式に圧縮した複数の単語の区間に分け、前記複数の単語の区間ごとに前記競合確率を求めて、一番競合確率の高い単語を決定する手法である請求項 1または 2に記載の音声認識装置。

[6] 前記競合単語表示指令手段は、前記競合単語の中に、前記一番競合確率の高ヽ単語が不要であるために前記認識結果力削除することを選択可能にするスキップ候補を含む機能を備えており、

前記単語置き換え指令手段は、前記スキップ候補が選択されると、前記音声認識手段による前記認識結果から対応する前記一番競合確率の高い単語を削除することを前記音声認識手段に指令する機能を備えている請求項 1または 2に記載の音声認識装置。

[7] 前記競合単語表示指令手段は、前記競合単語の中に、前記一番競合確率の高ヽ単語が不要であるために前記認識結果力削除することを選択可能にするスキップ候補を含む機能を備えており、

前記単語置き換え指令手段は、前記スキップ候補が選択されると、前記音声認識手段による前記認識結果から対応する前記一番競合確率の高い単語を削除することを前記音声認識手段に指令する機能を備えており、

前記スキップ候補にも競合確率が付与されることを特徴とする請求項 2に記載の音声認識装置。

[8] 前記予め定めた判定手法は、

コンフュージョン'ネットワークを用、て前記音声入力に基づく単語グラフを音響的なクラスタリングによりリニアな形式に圧縮した複数の単語の区間に分け、前記複数の単語の区間ごとに前記競合確率を求めて、一番競合確率の高い単語を決定し、また一つの前記単語の一部を構成する音が二つの前記単語の区間のいずれにも入り得る場合には、前記一つの単語の一部を構成する音を前記二つの単語の区間の一方に含め、前記単語訂正手段により前記二つの単語の区間の一方に属する単語の訂正が行われると、前記二つの単語の区間の他方の単語の区間では、時間的な整合性が取れるように前記スキップ候補を自動選択する手法である請求項 7に記載の音声認識装置。

[9] 前記認識結果表示手段は、リアルタイムに前記認識結果を前記画面に表示する機能を有し、

前記単語訂正手段は、前記認識結果表示手段による前記認識結果の前記画面への表示と一緒に前記競合単語をリアルタイムに前記画面上に表示する機能を有して V、る請求項 1に記載の音声認識装置。

[10] 前記競合単語表示指令手段は、前記単語訂正手段により一部の前記単語が訂正されると、その訂正された単語を前記単語列においては、ユーザにより訂正された本来正解である単語として、再度競合単語の選び直しを行う機能を有してヽる請求項 1 に記載の音声認識装置。

[11] 前記競合単語表示指令手段は、前記単語列中の前記訂正された単語とその前後にそれぞれ位置し得る二つの単語及びこの二つの単語の前記競合単語との言語的な接続確率を算出し、前記接続確率が大きいものを前記画面に表示する前記競合単語として選び、前に前記画面に表示してヽる前記競合単語と入れ替えを行うまたは前に前記画面に表示して、る前記競合単語に追加する機能をさらに有して、る請求項 10に記載の音声認識装置。

[12] 前記音声認識手段は、前記単語訂正手段により訂正の対象となった単語、訂正時間の情報及び前記訂正された単語に対する事後確率を蓄積データとして保存し、これらの蓄積データを利用して再度の音声認識を行う機能をさらに有している請求項 1 に記載の音声認識装置。

[13] 前記音声認識手段は、前記音声が入力されている途中において、発話者が発声する特定の音声の入力により一時的に音声認識処理を停止して、前記単語訂正手段による訂正を許容する機能を有して、る請求項 1に記載の音声認識装置。

[14] 前記音声認識手段は、

入力される前記音声が一定時間以上連続して続く連続音であることを判定する連続音判定手段を備えており、

前記連続音判定手段が前記連続音の入力を判定すると、前記音声認識処理を一時停止し、前記連続音判定手段が前記連続音を判定した後に前記連続音以外の音が入力されたことを判定すると、前記一時停止前の状態力前記音声認識処理を続行する機能を有して、る請求項 1に記載の音声認識装置。

[15] 前記音声認識手段は，前記単語訂正手段により訂正の対象となった単語と，入力された音声における前記単語の位置情報または時間情報を保存し，前記再度の音声認識にぉ、て、保存した位置情報または時間情報における前記単語の言語確率を動的に強化することにより，その単語に関連する単語を認識しやすくする機能を有している請求項 12に記載の音声認識装置.

[16] 前記音声認識手段は、音声が入力されると、音声認識処理を行うと同時に、前記音声認識処理の認識結果を教師信号としたオンラインでの音響的適応処理を行う音響的適応処理手段を備えて!/、る請求項 1に記載の音声認識装置.

[17] 前記音響的適応処理手段は、前記単語訂正手段により、認識誤りのない正確な教師信号をリアルタイムに生成することで、高精度な音響的適応機能を有している請求項 16に記載の音声認識装置。

[18] 予め定めた判定手法に従って、入力された音声に含まれる複数の単語を予め辞書手段に記憶されている複数の単語とそれぞれ比較し、競合候補の中から一番競合確率の高、単語を認識結果とする音声認識ステップと、

前記音声認識ステップにより認識された認識結果を複数の単語の単語列として画面に表示する認識結果表示ステップと、

前記画面に表示された単語列を構成する前記一番競合確率の高い複数の単語を訂正する単語訂正ステップとを実行する音声認識方法であって、

前記単語訂正ステップでは、

前記競合候補の中から前記一番競合確率の高!ヽ単語の競合確率に近!ヽ競合確率を持つ 1以上の競合単語を選び、対応する前記一番競合確率の高い単語に隣接して前記画面上に表示させる競合単語表示ステップと、

ユーザによるマニュアル操作に応じて、前記画面上に表示された前記 1以上の競合単語から適切な訂正単語を選択する競合単語選択ステップと、

前記競合単語選択ステップで選択された前記訂正単語を、先に前記音声認識ステップにより認識された前記一番競合確率の高い単語と置き換えて前記画面に表示する単語置き換えステップとを実行することを特徴とする音声認識方法。

[19] 前記競合単語表示ステップでは、前記競合単語の前記競合確率の分布状況に応じて、前記画面上に表示する前記競合単語の数を変えることを特徴とする請求項 18 に記載の音声認識方法。

[20] 前記競合単語表示ステップでは、前記一番競合確率の高！ヽ単語の競合確率に近い競合確率を持つ前記競合単語の数が少ない場合には、前記画面上に表示する前記競合単語の数を少なくし、前記一番競合確率の高、単語の競合確率に近、競合確率を持つ前記競合単語の数が多い場合には、前記画面上に表示する前記競合単語の数を多くする請求項 19に記載の音声認識方法。

[21] 前記競合単語表示ステップでは、前記単語列に含まれる前記複数の単語の上側または下側に、競合確率の高い順番に前記競合単語が並ぶように前記画面上に表示する請求項 18に記載の音声認識方法。

[22] 前記予め定めた判定手法は、コンフュージョン 'ネットワークを用いて前記音声入力に基づく単語グラフを音響的なクラスタリングによりリニアな形式に圧縮した複数の単語の区間に分け、前記複数の単語の区間ごとに前記競合確率を求めて、一番競合確率の高い単語を決定する手法である請求項 18または 19に記載の音声認識方法。

[23] 前記競合単語表示ステップでは、前記競合単語の中に、前記一番競合確率の高い単語が不要であるために前記認識結果力削除することを選択可能にするスキップ候を含めてあり、

前記単語置き換えステップでは、前記スキップ候補が選択されると、前記音声認識ステップによる前記認識結果力対応する前記一番競合確率の高い単語を削除する請求項 18または 19に記載の音声認識方法。

[24] 前記競合単語表示ステップでは、前記競合単語の中に、前記一番競合確率の高い単語が不要であるために前記認識結果力削除することを選択可能にするスキップ候補を含めており、

前記単語置き換えステップでは、前記スキップ候補が選択されると、前記音声認識ステップによる前記認識結果から対応する前記一番競合確率の高い単語を削除し、前記スキップ候補にも競合確率を付与することを特徴とする請求項 19に記載の音声認識方法。

[25] 前記予め定めた判定手法は、

コンフュージョン'ネットワークを用、て前記音声入力に基づく単語グラフを音響的なクラスタリングによりリニアな形式に圧縮した複数の単語の区間に分け、前記複数の単語の区間ごとに前記競合確率を求めて、一番競合確率の高い単語を決定し、また一つの前記単語の一部を構成する音が二つの前記単語の区間のいずれにも入り得る場合には、前記一つの単語の一部を構成する音を前記二つの単語の区間の一方に含め、前記単語訂正手段により前記二つの単語の区間の一方に属する単語の訂正が行われると、前記二つの単語の区間の他方の単語の区間では、時間的な整合性が取れるように前記スキップ候補を自動選択する手法である請求項 24に記載の音声認識方法。

[26] 前記認識結果表示ステップは、リアルタイムに前記認識結果を前記画面に表示し、前記単語訂正ステップでは、前記認識結果表示ステップによる前記認識結果の前記画面への表示と一緒に前記競合単語をリアルタイムに前記画面上に表示する請求項 18に記載の音声認識方法。

[27] 前記競合単語表示ステップでは、前記単語訂正ステップにより一部の前記単語が訂正されると、その訂正された単語を前記単語列においては、ユーザにより訂正された本来正解である単語として、再度競合単語の選び直しを行う請求項 18に記載の音声認識方法。

[28] 前記競合単語表示ステップでは、前記単語列中の前記訂正された単語とその前後にそれぞれ位置し得る二つの単語及びこの二つの単語の前記競合単語との言語的な接続確率を算出し、前記接続確率が大きいものを前記画面に表示する前記競合単語として選び、前に前記画面に表示してヽる前記競合単語と入れ替えを行うまたは前に前記画面に表示している前記競合単語に追加する請求項 27に記載の音声認識方法。

[29] 前記音声認識ステップでは、前記単語訂正ステップにより訂正の対象となった単語、訂正時間の情報及び前記訂正された単語に対する事後確率を蓄積データとして保存し、これらの蓄積データを利用して再度の音声認識を行う請求項 18に記載の音声認識方法。

[30] 前記音声認識ステップでは、前記音声が入力されて!、る途中にぉ、て、発話者が発声する特定の音声の入力により一時的に音声認識処理を停止して、前記単語訂正ステップによる訂正を許容する請求項 18に記載の音声認識方法。

[31] 前記音声認識ステップでは、

入力される前記音声が一定時間以上連続して続く連続音であることを判定すると、前記音声認識処理を一時停止し、前記連続音を判定した後に前記連続音以外の音が入力されたことを判定すると、前記一時停止前の状態力前記音声認識処理を続行する請求項 18に記載の音声認識方法。

[32] 前記音声認識ステップでは，前記単語訂正ステップにより訂正の対象となった単語と、入力された音声における前記単語の位置情報または時間情報を保存し、前記再度の音声認識において，

保存した位置情報または時間情報における前記単語の言語確率を動的に強化することにより、その単語に関連する単語を認識しやすくする請求項 29に記載の音声認識方法。

[33] 前記音声認識ステップでは、音声が入力されると、音声認識処理を行うと同時に，前記音声認識処理の認識結果を教師信号としたオンラインでの音響的適応処理を行う請求項 18に記載の音声認識方法。

[34] コンピュータを用いて、音声を認識し、画面上に認識結果を文字で表示する機能を前記コンピュータに実行させるためのプログラムであって、

入力された音声に含まれる複数の単語を予め辞書手段に記憶されている複数の単語とそれぞれ比較し、競合候補の中から一番競合確率の高、単語を認識結果とする音声認識機能と、

前記音声認識機能により認識された認識結果を複数の単語の単語列として画面に表示する認識結果表示機能と、

前記画面に表示された単語列を構成する前記一番競合確率の高い複数の単語を訂正する単語訂正機能とを前記コンピュータに実行させ、前記単語訂正機能では、

前記競合候補の中から前記一番競合確率の高!ヽ単語の競合確率に近!ヽ競合確率を持つ 1以上の競合単語を選び、対応する前記一番競合確率の高い単語に隣接して前記画面上に表示させる競合単語表示機能と、

ユーザによるマニュアル操作に応じて、前記画面上に表示された前記 1以上の競合単語から適切な訂正単語を選択する競合単語選択機能と、

前記競合単語選択ステップで選択された前記訂正単語を、先に前記音声認識ステップにより認識された前記一番競合確率の高い単語と置き換えて前記画面に表示する単語置き換え機能とを前記コンピュータに実行させるように構成されていることを特徴とするプログラム。

[35] 前記競合単語表示機能では、前記競合単語の前記競合確率の分布状況に応じて、前記画面上に表示する前記競合単語の数を変えることを特徴とする請求項 34に記載のプログラム。

[36] 前記競合単語表示機能では、前記一番競合確率の高!ヽ単語の競合確率に近、競合確率を持つ前記競合単語の数が少ない場合には、前記画面上に表示する前記競合単語の数を少なくし、前記一番競合確率の高！、単語の競合確率に近、競合確率を持つ前記競合単語の数が多い場合には、前記画面上に表示する前記競合単語の数を多くする請求項 35に記載のプログラム。

[37] 前記競合単語表示機能では、前記単語列に含まれる前記複数の単語の上側または下側に、競合確率の高い順番に前記競合単語が並ぶように前記画面上に表示する請求項 34に記載のプログラム。

[38] 前記音声認識機能では、コンフュージョン 'ネットワークを用いて前記音声入力に基づく単語グラフを音響的なクラスタリングによりリニアな形式に圧縮した複数の単語の区間に分け、前記複数の単語の区間ごとに前記競合確率を求めて、一番競合確率の高い単語を決定する請求項 34または 35に記載のプログラム。

[39] 前記競合単語表示機能では、前記競合単語の中に、前記一番競合確率の高!ヽ単語が不要であるために前記認識結果力削除することを選択可能にするスキップ候ネ ΐを含めてあり、前記単語置き換え機能では、前記スキップ候補が選択されると、前記音声認識機能の実行による前記認識結果から対応する前記一番競合確率の高い単語を削除する請求項 34または 35に記載のプログラム。

[40] 前記競合単語表示機能では、前記競合単語の中に、前記一番競合確率の高!ヽ単語が不要であるために前記認識結果力削除することを選択可能にするスキップ候補を含めており、

前記単語置き換え機能では、前記スキップ候補が選択されると、前記音声認識機能の実行による前記認識結果から対応する前記一番競合確率の高い単語を削除し前記スキップ候補にも競合確率を付与することを特徴とする請求項 35に記載のプログラム。

[41] 前記音声認識機能では、

コンフュージョン'ネットワークを用、て前記音声入力に基づく単語グラフを音響的なクラスタリングによりリニアな形式に圧縮した複数の単語の区間に分け、前記複数の単語の区間ごとに前記競合確率を求めて、一番競合確率の高い単語を決定し、また一つの前記単語の一部を構成する音が二つの前記単語の区間のいずれにも入り得る場合には、前記一つの単語の一部を構成する音を前記二つの単語の区間の一方に含め、前記単語訂正手段により前記二つの単語の区間の一方に属する単語の訂正が行われると、前記二つの単語の区間の他方の単語の区間では、時間的な整合性が取れるように前記スキップ候補を自動選択する請求項 40に記載のプログラム。

[42] 前記認識結果表示機能では、リアルタイムに前記認識結果を前記画面に表示し、前記単語訂正機能では、前記認識結果表示機能の実行による前記認識結果の前記画面への表示と一緒に前記競合単語をリアルタイムに前記画面上に表示する請求項 34に記載のプログラム。

[43] 前記競合単語表示機能では、前記単語訂正機能により一部の前記単語が訂正されると、その訂正された単語を前記単語列においては、ユーザにより訂正された本来正解である単語として、再度競合単語の選び直しを行う請求項 34に記載のプロダラム。

[44] 前記競合単語表示機能では、前記単語列中の前記訂正された単語とその前後にそれぞれ位置し得る二つの単語及びこの二つの単語の前記競合単語との言語的な接続確率を算出し、前記接続確率が大きいものを前記画面に表示する前記競合単語として選び、前に前記画面に表示して、る前記競合単語と入れ替えを行うまたは前に前記画面に表示している前記競合単語に追加する請求項 43に記載のプロダラム。

[45] 前記音声認識機能では、前記単語訂正機能の実行により訂正の対象となった単語、訂正時間の情報及び前記訂正された単語に対する事後確率を蓄積データとして保存し、これらの蓄積データを利用して再度の音声認識を行う請求項 34に記載のプログラム。

[46] 前記音声認識機能では、前記音声が入力されている途中において、発話者が発声する特定の音声の入力により一時的に音声認識処理を停止して、前記単語訂正機能の実行による訂正を許容する請求項 34に記載のプログラム。

[47] 前記音声認識機能では、

入力される前記音声が一定時間以上連続して続く連続音であることを判定すると、前記音声認識処理を一時停止し、前記連続音を判定した後に前記連続音以外の音が入力されたことを判定すると、前記一時停止前の状態力前記音声認識処理を続行する請求項 34に記載のプログラム。

[48] 前記音声認識機能では、前記単語訂正機能の実行により訂正の対象となった単語と、入力された音声における前記単語の位置情報または時間情報を保存し、前記再度の音声認識において、

保存した位置情報または時間情報における前記単語の言語確率を動的に強化することにより、その単語に関連する単語を認識しやすくする請求項 45に記載のプロダラム。

[49] 前記音声認識機能では、音声が入力されると、音声認識処理を行うと同時に、前記認識処理の認識結果を教師信号としたオンラインでの音響的適応処理を行う請求項 34に記載のプログラム。

[50] 前記音響的適応処理は、前記単語訂正機能により、認識誤りのない正確な教師信号をリアルタイムに生成することで、高精度な音響的適応機能を有する請求項 49に記載のプログラム。

[51] 前記音響的適応処理は、前記単語訂正ステップにより、認識誤りのない正確な教師信号をリアルタイムに生成することで、高精度な音響的適応機能を有する請求項 33 に記載の音声認識方法。