WO2012043168A1

WO2012043168A1 - 音声変換装置、携帯電話端末、音声変換方法および記録媒体

Info

Publication number: WO2012043168A1
Application number: PCT/JP2011/070248
Authority: WO
Inventors: 俊彦藤林
Original assignee: Ｎｅｃカシオモバイルコミュニケーションズ株式会社
Priority date: 2010-09-29
Filing date: 2011-09-06
Publication date: 2012-04-05
Also published as: CN103140889A; CN103140889B; JPWO2012043168A1; US20130179166A1; JP5874640B2

Abstract

ユーザが同じような修正処理を繰り返し行う手間を少なくできる携帯電話端末を提供する。音声変換装置は、音声を受け付けるごとに当該音声を文字列に変換する音声認識手段と、前記文字列を表示する表示手段と、表示手段に表示された文字列の一部である語句を修正する旨の修正指示を受け付けると当該修正指示に従って前記語句を修正する修正手段と、修正手段が実行した語句についての修正の内容を格納する格納手段と、音声認識手段が音声を文字列に変換した際に、当該文字列内の語句についての修正の内容が格納手段に格納されている場合には、修正の内容を反映した選択候補を生成し、当該選択候補を、前記音声の認識結果候補として、表示手段に表示する制御手段と、を含む。

Description

音声変換装置、携帯電話端末、音声変換方法および記録媒体

　本発明は、音声変換装置、携帯電話端末、音声変換方法および記録媒体に関する。

　携帯電話端末などの機器に搭載されている音声認識エンジンが音声認識処理を行った際、ユーザが発声した文言と、その文言についての音声認識の結果は、必ずしも一致しない。

　これは、ユーザが発声した文言と音声認識結果との不一致が、音声認識エンジン自体の認識率にも依存するが、ユーザの発声時の癖、ユーザの訛、および、マイク特性などの、音声認識エンジン以外の要因にも依存するからである。

　このため、ユーザは、誤った音声認識結果を正しい文言に修正する最適化処理（修正処理）を行う必要がある。

　特許文献１には、音声認識結果の誤りがユーザの修正用発話によって修正された際に、その修正の内容、具体的には、修正前の音声認識結果と修正後の音声認識結果とを格納する音声認識装置が記載されている。

　特許文献１に記載の音声認識装置は、音声認識結果がユーザの修正用発話によって一度修正されたにもかかわらず、再度、ユーザの修正用発話を受け付けた場合、前回の修正結果、つまり、誤った音声認識結果が、再度出力されることを抑制する。

特開２００７－９３７８９号公報

　特許文献１に記載の音声認識装置では、過去に行われた修正の内容は、修正用発話によって修正が繰り返し行われている音声認識結果にしか反映されず、新規の発話についての音声認識結果には反映されない。

　このため、特許文献１に記載の音声認識装置では、新規の発話についての各音声認識結果には、同じ認識誤りが生じる可能性が高い。よって、ユーザは、新規の発話についての音声認識結果に、過去に修正したことのある認識誤りが生じた場合、過去に行った修正処理（最適化処理）と同様の修正処理を行わなければならず、手間がかかるという課題があった。

　本発明の目的は、上述した課題を解決可能な音声変換装置、携帯電話端末、音声変換方法および記録媒体を提供することである。

　本発明の音声変換装置は、音声を受け付けるごとに、当該音声を文字列に変換する音声認識手段と、前記文字列を表示する表示手段と、前記表示手段に表示された文字列の一部である語句を修正する旨の修正指示を受け付けると、当該修正指示に従って前記語句を修正する修正手段と、前記修正手段が実行した語句についての修正の内容を格納する格納手段と、前記音声認識手段が音声を文字列に変換した際に、当該文字列内の語句についての修正の内容が前記格納手段に格納されている場合には、前記修正の内容を反映した選択候補を生成し、当該選択候補を、前記音声の認識結果候補として、前記表示手段に表示する制御手段と、を含む。

　本発明の音声変換装置は、音声データを受信するごとに当該音声データを文字列に変換し当該文字列を前記音声データの送信元に送信する音声認識装置と通信可能な音声変換装置であって、入力された音声を音声データに変換する出力手段と、前記音声データを前記音声認識装置に送信し、その後、前記音声認識装置から前記音声データの変換結果である文字列を受信する通信手段と、前記文字列を表示する表示手段と、前記表示手段に表示された文字列の一部である語句を修正する修正指示を受け付けると、当該修正指示に従って前記文字列内の語句を修正する修正手段と、前記修正手段が実行した語句についての修正の内容を格納する格納手段と、前記通信手段が前記音声認識装置から文字列を受信した際に、当該文字列内の語句についての修正の内容が前記格納手段に格納されている場合には、前記修正の内容を反映した選択候補を生成し、当該選択候補を、前記音声の認識結果候補として、前記表示手段に表示する制御手段と、を含む。

　本発明の音声変換方法は、音声変換装置が行う音声変換方法であって、音声を受け付けるごとに、当該音声を文字列に変換し、前記文字列を表示手段に表示し、前記表示手段に表示された文字列の一部である語句を修正する旨の修正指示を受け付けると、当該修正指示に従って前記語句を修正し、前記修正が実行された語句についての修正の内容を格納手段に格納し、前記音声が文字列に変換された際に、当該文字列内の語句についての修正の内容が前記格納手段に格納されている場合には、前記修正の内容を反映した選択候補を生成し、当該選択候補を、前記音声の認識結果候補として、前記表示手段に表示する。

　本発明の音声変換方法は、音声データを受信するごとに当該音声データを文字列に変換し当該文字列を前記音声データの送信元に送信する音声認識装置と通信可能な音声変換装置が行う音声変換方法であって、入力された音声を音声データに変換し、前記音声データを前記音声認識装置に送信し、その後、前記音声認識装置から前記音声データの変換結果である文字列を受信し、前記文字列を表示手段に表示し、前記表示手段に表示された文字列の一部である語句を修正する修正指示を受け付けると、当該修正指示に従って前記文字列内の語句を修正し、前記修正が実行された語句についての修正の内容を格納手段に格納し、前記音声認識装置から文字列が受信された際に、当該文字列内の語句についての修正の内容が前記格納手段に格納されている場合には、前記修正の内容を反映した選択候補を生成し、当該選択候補を、前記音声の認識結果候補として、前記表示手段に表示する。

　本発明の記録媒体は、コンピュータに、音声を受け付けるごとに、当該音声を文字列に変換する音声認識手順と、前記文字列を表示手段に表示する表示手順と、前記表示手段に表示された文字列の一部である語句を修正する旨の修正指示を受け付けると、当該修正指示に従って前記語句を修正する修正手順と、前記修正が実行された語句についての修正の内容を格納手段に格納する格納手順と、前記音声認識手順にて音声が文字列に変換された際に、当該文字列内の語句についての修正の内容が前記格納手段に格納されている場合には、前記修正の内容を反映した選択候補を生成し、当該選択候補を、前記音声の認識結果候補として、前記表示手段に表示する制御手順と、を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体である。

　本発明の記録媒体は、音声データを受信するごとに当該音声データを文字列に変換し当該文字列を前記音声データの送信元に送信する音声認識装置と通信可能なコンピュータに、入力された音声を音声データに変換する出力手順と、前記音声データを前記音声認識装置に送信し、その後、前記音声認識装置から前記音声データの変換結果である文字列を受信する通信手順と、前記文字列を表示手段に表示する表示手順と、前記表示手段に表示された文字列の一部である語句を修正する修正指示を受け付けると、当該修正指示に従って前記文字列内の語句を修正する修正手順と、前記修正が実行された語句についての修正の内容を格納手段に格納する格納手順と、前記音声認識装置から文字列が受信された際に、当該文字列内の語句についての修正の内容が前記格納手段に格納されている場合には、前記修正の内容を反映した選択候補を生成し、当該選択候補を、前記音声の認識結果候補として、前記表示手段に表示する制御手順と、を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体である。

　本発明によれば、ユーザが同じような修正処理（最適化処理）を繰り返し行う手間を少なくすることが可能になる。

本発明の一実施形態の携帯電話端末１を示したブロック図である。差分辞書の一例を示した図である。携帯電話端末１の動作を説明するためのフローチャートである。携帯電話端末１の動作を説明するための図である。携帯電話端末１の動作を説明するための図である。

　以下、本発明の一実施形態を図面を参照して説明する。

　図１は、本発明の一実施形態の携帯電話端末１を示したブロック図である。

　図１において、携帯電話端末１は、電子メール等の文字データを扱う機能を有する。携帯電話端末１は、本発明の一実施形態の音声変換装置１０を含む。

　音声変換装置１０は、変換部１１と、表示部１２と、修正部１３と、記憶装置１４と、制御部１５と、通信部１６と、アンテナ１７と、を含む。変換部１１は、マイク１１ａと、音声認識部１１ｂと、を含む。修正部１３は、操作部１３ａと、文字編集部１３ｂと、を含む。

　変換部１１は、一般的に音声認識手段と呼ぶことができる。

　変換部１１は、音声を受け付けるごとに、音声について音声認識処理を行うことによって音声を文字列に変換する。

　マイク１１ａは、一般的に出力手段と呼ぶことができる。マイク１１ａは、入力されたユーザの音声を受け付けるごとに、入力されたユーザの音声を音声データに変換し、その音声データを出力する。音声データは、例えば、制御部１５を介して音声認識部１１ｂに提供される。

　音声認識部１１ｂは、音声データを受け付けるごとに、音声データについて音声認識処理を行うことによって音声データを文字列に変換して出力する。本実施形態では、音声認識部１１ｂは、文字列として、カナ文字（カタカナまたはひらがな）の列を出力する。

　表示部１２は、一般的に表示手段と呼ぶことができる。

　表示部１２は、音声認識部１１ｂからの出力である文字列を表示する。また、表示部１２は、文字編集部１３ｂでの文字編集状況も表示する。

　修正部１３は、一般的に修正手段と呼ぶことができる。

　修正部１３は、音声認識部１１ｂが出力した文字列の一部である語句（１個以上の文字からなる語句）を修正する旨の修正指示を受け付ける。本実施形態では、修正指示は、修正される語句を指定し、かつ、修正後の語句を示す。

　修正部１３は、修正指示を受け付けると、文字列内の語句のうち、修正指示にて修正を指定された語句を、修正指示にて修正後の語句として示された語句に修正する。以下、修正指示にて修正を指定された語句を「修正前語句」と称し、修正指示にて修正後の語句として示された語句を「修正後語句」と称する。

　操作部１３ａは、操作ボタンである。なお、操作ボタンは、表示部１２に表示されてもよい。操作部１３ａは、ユーザにて操作されることによって、ユーザからの種々の入力（例えば、修正指示）を受け付ける。操作部１３ａが修正指示を受け付けた場合、その修正指示は、制御部１５を介して文字編集部１３ｂに提供される。

　文字編集部１３ｂは、修正指示を受け付けると、その修正指示に従って、音声認識部１１ｂの出力である文字列を編集する。本実施形態では、文字編集部１３ｂは、修正指示を受け付けると、文字列内の修正前語句を修正後語句に置き換える。

　記憶装置１４は、一般的に格納手段と呼ぶことができる。

　記憶装置１４は、文字編集部１３ｂでの文字編集および音声認識部１１ｂでの音声認識処理に必要な辞書（辞書データ）を格納する。

　また、記憶装置１４は、文字編集部１３ｂが実行した語句についての修正の内容（修正前語句と修正後語句との組）を格納する。本実施形態では、記憶装置１４は、修正の内容を示す差分辞書（差分辞書データ）を格納する。差分辞書は、互いに関連づけられた修正前語句と修正後語句とを表す。

　制御部１５は、一般的に制御手段と呼ぶことができる。

　制御部１５は、携帯電話端末１内の各部を制御する。

　制御部１５は、例えば、変換部１１が音声を文字列に変換した際に、その文字列内の語句についての修正の内容が記憶装置１４に格納されている場合には、その修正の内容を反映した選択候補を生成し、その選択候補を、その音声の認識結果候補として、表示部１２に表示する。

　本実施形態では、制御部１５は、変換部１１が音声を文字列に変換した際に、その文字列内の語句が記憶装置１４に修正前語句として格納されている場合には、その文字列内の修正前語句をその修正前語句と関連づけられた修正後語句に置き換えた置換文字列を、選択候補として生成する。

　なお、制御部１５は、修正後語句を、置換文字列内の文字のうち修正後語句以外の文字と異なる表示形態で、表示部１２に表示する。例えば、制御部１５は、置換文字列において、修正後文字を、修正後文字以外の文字と異なる色、異なる大きさ、または、異なる書体で表示する。

　通信部１６は、一般的に通信手段と呼ぶことができる。

　通信部１６は、例えば、音声認識処理を、携帯電話端末１内の音声認識部１１ｂで実行せずに、外部の音声認識装置２で実行する場合、マイク１１ａから出力された音声データをアンテナ１７を介して音声認識装置２に送信し、その後、アンテナ１７を介して音声認識装置２から音声データの変換結果である文字列を受信する。

　なお、音声認識装置２は、音声データを受け付けるごとに、その音声データを文字列に変換し、変換結果（文字列）を、音声データの送信元に送信する。

　図２は、記憶装置１４が記憶する差分辞書（データベース）の一例を示した図である。

　図２において、差分辞書１４Ａには、複数の認識結果差分格納領域１４Ａ１が設けられている。音声認識部１１ｂからカナで出力された文字列内の語句に対して、ユーザが修正指示を用いて修正を行うごとに、制御部１５は、認識結果差分格納領域１４Ａ１に、音声認識部１１ｂでの音声認識結果とユーザの認識との差を表す認識結果差分情報（修正の内容）を登録していく。

　認識結果差分格納領域１４Ａ１は、認識結果カナ格納領域１４Ａ２と、修正結果カナ格納領域１４Ａ３と、差分発生回数格納領域１４Ａ４と、を有する。

　認識結果カナ格納領域１４Ａ２には、音声認識部１１ｂからカナで出力された文字列のうち、修正指示にて修正を指定された語句（修正前語句）であるカナ（以下「認識結果カナ」と称する）が格納される。

　修正結果カナ格納領域１４Ａ３には、修正指示にて修正後の語句として示された語句（修正後語句）であるカナ（以下「修正結果カナ」と称する）が格納される。

　差分発生回数格納領域１４Ａ４には、認識結果カナ格納領域１４Ａ２に格納された「認識結果カナ」が、修正結果カナ格納領域１４Ａ３に格納された「修正結果カナ」に修正された回数（以下「差分発生回数」と称する）が格納される。

　図２に示したように、本実施形態では、記憶装置１４は、修正前語句と修正後語句との組を複数格納し、かつ、組ごとに、その組にて特定される修正が実行された回数（以下「実行回数」と称する）を格納する。

　制御部１５は、変換部１１が音声を文字列に変換した際に、その文字列内の互いに異なる語句のそれぞれが記憶装置１４に修正前語句として格納されている場合には、修正前語句として示された文字列内の語句ごとに、修正前語句として示された文字列内の語句をその修正前語句と組になっている修正後語句に置き換えた置換文字列を、選択候補として生成する。

　制御部１５は、表示部１２への選択候補の表示順を、選択候補を生成するために使用した組についての実行回数、および、その選択候補を生成するために使用した修正前語句の文字数と、に基づいて決定する。

　制御部１５は、例えば、選択候補のそれぞれに、実行回数が多くなるほど高くなり修正前語句の文字数が多くなるほど高くなる値を付与し、その値が高い順に、選択候補を表示部１２に表示する。

　なお、音声変換装置１０は、コンピュータにて実現されてもよい。この場合、コンピュータは、コンピュータにて読み取り可能なＣＤ－ＲＯＭ（Compact　Disk　Read　Only　Memory）のような記録媒体に記録されたプログラムを読込み実行することによって、変換部１１、表示部１２、修正部１３、記憶装置１４および制御部１５として機能する。記録媒体は、ＣＤ－ＲＯＭに限らず適宜変更可能である。

　次に、本実施形態の動作の概要を説明する。

　本実施形態では、音声認識部１１ｂでの音声認識結果に対して、ユーザが、文字編集部１３ｂを使用して修正を行った場合に、音声認識結果と文字編集にて修正された後の文字列との間のよみ仮名（カナ）の違いを表す差分情報（認識結果差分情報）が、携帯電話端末１内の記憶装置１４に蓄積される。

　携帯電話端末１は、その後、音声認識部１１ｂにて実行された音声認識処理の結果について、差分情報を反映した選択候補を生成し、その選択候補を、音声の認識結果候補として表示する。

　また、携帯電話端末１は、音声認識部１１ｂから出力された文字列内の修正前語句（認識結果カナ）を修正後語句（修正結果カナ）に置き換えた置換文字列を、選択候補として生成し、置換文字列内の修正後文字を、修正後文字以外の文字と異なる色、異なる大きさ、または、異なる書体で表示する。

　次に、本実施形態の動作を詳細に説明する。

　図３は、ユーザの操作に応じた携帯電話端末１の動作を説明するためのフローチャートである。

　ユーザは、携帯電話端末１に音声による文字入力を実行する場合、マイク１１ａに入力したい文言を発声することで、音声入力を行う（ステップ３０１）。

　入力された音声は、マイク１１ａで音声データに変換され、その後、音声データについての音声認識処理が、音声認識部１１ｂ、または、外部の音声認識装置２で実行される。その後、制御部１５は、音声認識結果であるカナ情報（文字列）を入手する（ステップ３０２）。

　その後、制御部１５は、音声認識結果であるカナ情報（文字列）に基づいて、カナ情報（文字列）についての認識結果候補を生成する。文字編集部１３ｂは、認識結果候補について漢字変換処理を実行する。制御部１５は、漢字変換された認識結果候補を、表示部１２に表示する。

　制御部１５は、認識結果候補を生成する際、今回の音声認識結果であるカナ情報と、差分辞書１４Ａに格納された差分情報と、の照合を行い（ステップ３０３）、差分情報に示された認識結果カナのうち、今回の音声認識結果であるカナ情報の一部と一致する認識結果カナがあるか検索を行う（ステップ３０４）。

　例えば、差分辞書１４Ａが図４に示す差分情報を格納している状況で、ユーザが「ヘンチョウ」と発声し、音声認識部１１ｂ内の音声認識エンジンまたは音声認識装置２内の音声認識エンジンによる音声認識結果であるカナ情報が「へンシュウ」であった場合、制御部１５が、今回の音声認識結果であるカナ情報と差分辞書１４Ａ内の認識結果カナとの照合を行うと、部分一致する認識結果カナとして「シュウ」と「シュ」を得る。制御部１５は、今回の音声認識結果であるカナ情報のうち、認識結果カナと一致したカナを、その認識結果カナに関連づけられた修正結果カナに置換した認識結果候補カナ（置換文字列）を作成する（ステップ３０５）。

　部分一致したカナが複数見つかった場合には、制御部１５は、認識結果候補カナの作成に使用した認識結果差分情報ごとに、認識結果カナの文字列長と差分発生回数とに基づいて、認識結果カナ文字列長ａおよび差分発生回数ｂの値を設定し、重要度ｎの計算式：ｎ＝Ａ×ａ＋Ｂ×ｂに従った計算を実行して重要度ｎを求める。なお、重要度ｎの計算式において、Ａは認識結果カナ係数であり、Ｂは差分発生回数係数であり、共に、予め制御部１５に格納されている。

　本実施形態では、認識結果カナの文字列長が長いほど発声と類似している可能性が高いとし、発生回数については認識差分の発生頻度を考慮した値として、これらを組み合わせることで重要度を算出する。

　図４の例では、認識結果差分１が用いられた場合には、ヘンシュウの「シュウ」が「チョウ」に置き換えられた「ヘンチョウ」が、認識結果候補カナとなる。

　このときの重要度ｎは、重要度ｎの計算式：ｎ＝Ａ×ａ＋Ｂ×ｂにおいて、認識結果カナ係数Ａ＝５、差分発生回数係数Ｂ＝２とすると、認識結果カナ文字列長ａは「３」となり、差分発生回数ｂは「１」となるため、ｎ＝Ａ×ａ＋Ｂ×ｂ＝５×３＋２×１＝１７となる。

　同様に認識結果差分２では、ヘンシュウの「シュ」が「ス」に置き換えられた「ヘンスウ」が、認識結果候補カナとなる。

　このときの重要度は、識結果カナ文字列長ａは「２」となり、差分発生回数ｂは「１」となるため、ｎ＝Ａ×ａ＋Ｂ×ｂ＝５×２＋２×２＝１４となる。

　よって、制御部１５は、認識結果差分１を使用して作成した認識結果候補カナ「ヘンチョウ」と、認識結果差分２を使用して作成した認識結果候補カナ「ヘンスウ」とを、重要度の大きい順に「ヘンチョウ」「ヘンスウ」の順に表示部１２に表示する。

　なお、認識結果候補カナは、文字編集部１３ｂによって、日本語辞書に登録されている文字列と照合され、辞書に登録されている日本語と一致する場合のみ認識結果候補として表示される。認識結果候補カナが辞書に登録されている日本語と一致しない場合は、文字編集部１３ｂは、認識結果候補カナが日本語として正しい単語ではないと判断し、制御部１５は、認識結果候補カナを認識結果候補として認定しない。

　今回の音声認識結果であるカナ情報とともに、認識結果候補カナが、認識結果候補として、表示される（ステップ３０６）。表示順としては、今回の音声認識結果であるカナ情報が先頭に表示され、続いて、重要度の高い順に認識結果候補が表示される。

　このとき、置換した箇所が、置換していない箇所と異なる文字色や文字サイズ、フォント変更などで明示されることで、ユーザに通知される。

　また、制御部１５は、認識結果候補カナを文字編集部１３ｂにて漢字変換などが行われた結果についても、認識結果候補として、表示部１２に表示する。

　なお、部分一致したデータがない場合は、制御部１５は、音声認識結果であるカナ情報を漢字変換した文字列を認識結果候補として表示する。

　表示された認識結果候補の中から、ユーザは、発声した文字列と一致する文字列を選択する（ステップ３０７）。

　このとき、ユーザが今回の音声認識結果を選択した場合は、ユーザの発声と音声認識結果が一致したとして、制御部１５は、差分辞書の変更は行わない（ステップ３０８）。しかし、ユーザが今回の音声認識結果とは異なる認識結果候補を選択した場合や文字編集にて修正を行った場合（ステップ３０９）は、制御部１５は、ユーザの発声と音声認識結果に差分があるとして、カナの差分を取得し、その差分を差分辞書に登録する（ステップ３１０）。

　例えば、図５の例のように、ユーザが「ヘンソウ」と発声したにもかかわらず、音声認識結果で「ヘンシュウ」が得られた場合、ユーザは、文字編集で「シュ」を「ソ」に修正する。

　このとき、差分辞書には、音声認識を行った日時、認識結果カナとして「ヘンシュウ」、修正結果カナとして「ヘンソウ」、差分発生回数については同一の修正を行った回数が、差分情報として保存される。

　このとき、差分情報の登録は、単語や文節単位とは限らず、修正を行った箇所だけを抽出した認識結果カナ「シュ」と修正結果カナ「ソ」との組み合わせ（組）や、修正箇所の前後の文字列を追加した認識結果カナ「シュウ」と修正結果カナ「ソウ」との組み合わせ（組）が、差分辞書に登録されてもよい。

　更新された差分辞書は次回の音声認識に反映される。

　本実施形態によれば、制御部１５は、変換部１１が音声を文字列に変換した際に、その文字列内の語句についての修正の内容が記憶装置１４に格納されている場合には、その修正の内容を反映した選択候補を生成し、その選択候補を、その文字列の認識結果候補として、表示部１２に表示する。

　このため、ユーザが同じような修正処理（最適化処理）を繰り返し行う手間を少なくすることが可能になる。

　また、本実施形態では、制御部１５は、変換部１１が音声を文字列に変換した際に、その文字列内の語句が記憶装置１４に修正前語句として格納されている場合には、その文字列内の修正前語句をその修正前語句と関連づけられた修正後語句に置き換えた置換文字列を、選択候補として生成する。この場合、以前に行われた修正が再現される可能性が高くなる。

　また、本実施形態では、制御部１５は、修正後語句を、置換文字列内の文字のうち修正後語句以外の文字と異なる表示形態で、表示部１２に表示する。例えば、制御部１５は、置換文字列において、修正後文字を、修正後文字以外の文字と異なる色、異なる大きさ、または、異なる書体で表示する。この場合、どのような置換が行われたのかを強調してユーザに示すことができ、ユーザの癖やマイクの特性に起因する音声認識の誤りを、ユーザに気付かせやすくなる。

　以上説明したように、本実施形態によれば、音声認識エンジンに依存することなく、差分情報をユーザの癖やマイクの特性を示す情報として音声認識結果に反映し、その反映結果を提示することで、文字編集による修正作業を行う手間を少なくでき、ユーザに適した音声認識結果の表示やユーザが発声動作の問題点を把握することが可能となる。

　なお、上記実施形態は、以下のように変形されてもよい。

　重要度を判断する方法として、文字列長や発生回数を用いたｎ＝Ａ×ａ＋Ｂ×ｂの式以外に、データの更新日といった時間情報や認識結果カナと修正結果カナを比較して子音（「マ」と「ム」など）や母音(「カ」と「ハ」など）の類似を数値化した情報などをパラメータとして設けた別の算出式が用いられてもよい。

　また、差分辞書へのデータ登録方法は音声認識を実施した機会以外にも、ユーザが辞書データを直接編集してもよい。

　以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　この出願は、２０１０年９月２９日に出願された日本出願特願２０１０－２１９０５３を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　　　１　　　携帯電話端末
　　　１０　　音声変換装置
　　　１１　　変換部
　　　１１ａ　マイク
　　　１１ｂ　音声認識部
　　　１２　　表示部
　　　１３　　修正部
　　　１３ａ　操作部
　　　１３ｂ　文字編集部
　　　１４　　記憶装置
　　　１５　　制御部
　　　１６　　通信部
　　　１７　　アンテナ
　　　２　　　音声認識装置

Claims

　音声を受け付けるごとに、当該音声を文字列に変換する音声認識手段と、
　前記文字列を表示する表示手段と、
　前記表示手段に表示された文字列の一部である語句を修正する旨の修正指示を受け付けると、当該修正指示に従って前記語句を修正する修正手段と、
　前記修正手段が実行した語句についての修正の内容を格納する格納手段と、
　前記音声認識手段が音声を文字列に変換した際に、当該文字列内の語句についての修正の内容が前記格納手段に格納されている場合には、前記修正の内容を反映した選択候補を生成し、当該選択候補を、前記音声の認識結果候補として、前記表示手段に表示する制御手段と、を含む音声変換装置。
　前記格納手段は、前記修正の内容として、前記修正手段にて修正される前の語句である修正前語句と、前記修正前語句を修正した修正後語句と、を格納し、
　前記制御手段は、前記音声認識手段が音声を文字列に変換した際に、当該文字列内の語句が前記格納手段に前記修正前語句として格納されている場合には、前記文字列内の語句のうち前記修正前語句として示された語句を前記修正後語句に置き換えた置換文字列を、前記選択候補として生成する、請求項１に記載の音声変換装置。
　前記制御手段は、前記修正後語句を、前記置換文字列内の文字のうち当該修正後語句以外の文字と異なる表示形態で、前記表示手段に表示する、請求項２に記載の音声変換装置。
　音声データを受信するごとに当該音声データを文字列に変換し当該文字列を前記音声データの送信元に送信する音声認識装置と通信可能な音声変換装置であって、
　入力された音声を音声データに変換する出力手段と、
　前記音声データを前記音声認識装置に送信し、その後、前記音声認識装置から前記音声データの変換結果である文字列を受信する通信手段と、
　前記文字列を表示する表示手段と、
　前記表示手段に表示された文字列の一部である語句を修正する修正指示を受け付けると、当該修正指示に従って前記文字列内の語句を修正する修正手段と、
　前記修正手段が実行した語句についての修正の内容を格納する格納手段と、
　前記通信手段が前記音声認識装置から文字列を受信した際に、当該文字列内の語句についての修正の内容が前記格納手段に格納されている場合には、前記修正の内容を反映した選択候補を生成し、当該選択候補を、前記音声の認識結果候補として、前記表示手段に表示する制御手段と、を含む音声変換装置。
　前記格納手段は、前記修正の内容として、前記修正手段にて修正される前の語句である修正前語句と、前記修正前語句を修正した修正後語句と、を格納し、
　前記制御手段は、前記通信手段が前記音声認識装置から文字列を受信した際に、当該文字列内の語句が前記格納手段に前記修正前語句として格納されている場合には、前記文字列内の語句のうち前記修正前語句として示された語句を前記修正後文字に置き換えた置換文字列を、前記選択候補として生成する、請求項４に記載の音声変換装置。
　請求項１から５のいずれか１項に記載の音声変換装置を備えた携帯電話端末。
　音声変換装置が行う音声変換方法であって、
　音声を受け付けるごとに、当該音声を文字列に変換し、
　前記文字列を表示手段に表示し、
　前記表示手段に表示された文字列の一部である語句を修正する旨の修正指示を受け付けると、当該修正指示に従って前記語句を修正し、
　前記修正が実行された語句についての修正の内容を格納手段に格納し、
　前記音声が文字列に変換された際に、当該文字列内の語句についての修正の内容が前記格納手段に格納されている場合には、前記修正の内容を反映した選択候補を生成し、当該選択候補を、前記音声の認識結果候補として、前記表示手段に表示する、音声変換方法。
　音声データを受信するごとに当該音声データを文字列に変換し当該文字列を前記音声データの送信元に送信する音声認識装置と通信可能な音声変換装置が行う音声変換方法であって、
　入力された音声を音声データに変換し、
　前記音声データを前記音声認識装置に送信し、その後、前記音声認識装置から前記音声データの変換結果である文字列を受信し、
　前記文字列を表示手段に表示し、
　前記表示手段に表示された文字列の一部である語句を修正する修正指示を受け付けると、当該修正指示に従って前記文字列内の語句を修正し、
　前記修正が実行された語句についての修正の内容を格納手段に格納し、
　前記音声認識装置から文字列が受信された際に、当該文字列内の語句についての修正の内容が前記格納手段に格納されている場合には、前記修正の内容を反映した選択候補を生成し、当該選択候補を、前記音声の認識結果候補として、前記表示手段に表示する、音声変換方法。
　コンピュータに、
　音声を受け付けるごとに、当該音声を文字列に変換する音声認識手順と、
　前記文字列を表示手段に表示する表示手順と、
　前記表示手段に表示された文字列の一部である語句を修正する旨の修正指示を受け付けると、当該修正指示に従って前記語句を修正する修正手順と、
　前記修正が実行された語句についての修正の内容を格納手段に格納する格納手順と、
　前記音声認識手順にて音声が文字列に変換された際に、当該文字列内の語句についての修正の内容が前記格納手段に格納されている場合には、前記修正の内容を反映した選択候補を生成し、当該選択候補を、前記音声の認識結果候補として、前記表示手段に表示する制御手順と、を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
　音声データを受信するごとに当該音声データを文字列に変換し当該文字列を前記音声データの送信元に送信する音声認識装置と通信可能なコンピュータに、
　入力された音声を音声データに変換する出力手順と、
　前記音声データを前記音声認識装置に送信し、その後、前記音声認識装置から前記音声データの変換結果である文字列を受信する通信手順と、
　前記文字列を表示手段に表示する表示手順と、
　前記表示手段に表示された文字列の一部である語句を修正する修正指示を受け付けると、当該修正指示に従って前記文字列内の語句を修正する修正手順と、
　前記修正が実行された語句についての修正の内容を格納手段に格納する格納手順と、
　前記音声認識装置から文字列が受信された際に、当該文字列内の語句についての修正の内容が前記格納手段に格納されている場合には、前記修正の内容を反映した選択候補を生成し、当該選択候補を、前記音声の認識結果候補として、前記表示手段に表示する制御手順と、を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。