WO2016088411A1

WO2016088411A1 - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: WO2016088411A1
Application number: PCT/JP2015/073747
Authority: WO
Inventors: 真一河野; 祐平滝
Original assignee: ソニー株式会社
Priority date: 2014-12-02
Filing date: 2015-08-24
Publication date: 2016-06-09
Also published as: US20170337920A1; JP2016109725A; EP3229231A4; US10540968B2; EP3229231A1; CN107004406A

Abstract

【課題】入力音声から認識された文字列に対する処理をより効率的に行うことが可能な技術を提供する。【解決手段】第１の入力音声に対して音声認識を行うことにより得られた第１の認識文字列からノイズ音量に基づいて１または複数の処理単位を得る処理単位取得部と、前記１または複数の処理単位のいずれかが処理対象として選択された場合、前記処理対象を処理する処理部と、を備える、情報処理装置が提供される。

Description

情報処理装置、情報処理方法およびプログラム

　本開示は、情報処理装置、情報処理方法およびプログラムに関する。

　近年、ユーザから発せられた音声を入力音声として受け付け、入力音声に対して音声認識を行うことによって入力音声から文字列を認識する技術が存在する。しかし、音声認識には誤りが生じる可能性もある。そこで、入力音声から認識された文字列から一部の文字列を除外した処理単位を複数生成してユーザに提示し、複数の処理単位からユーザによって選択された処理単位を処理対象とする技術が開示されている（例えば、特許文献１参照）。

特開２００８－２０９７１７号公報

　しかし、入力音声から認識された文字列に対する処理をより効率的に行うことが可能な技術が提供されることが望まれる。

　本開示によれば、第１の入力音声に対して音声認識を行うことにより得られた第１の認識文字列からノイズに基づいて１または複数の処理単位を得る処理単位取得部と、前記１または複数の処理単位のいずれかが処理対象として選択された場合、前記処理対象を処理する処理部と、を備える、情報処理装置が提供される。

　本開示によれば、第１の入力音声に対して音声認識を行うことにより得られた第１の認識文字列からノイズに基づいて１または複数の処理単位を得ることと、前記１または複数の処理単位のいずれかが処理対象として選択された場合、前記処理対象を処理することと、を含む、情報処理方法が提供される。

　本開示によれば、コンピュータを、第１の入力音声に対して音声認識を行うことにより得られた第１の認識文字列からノイズに基づいて１または複数の処理単位を得る処理単位取得部と、前記１または複数の処理単位のいずれかが処理対象として選択された場合、前記処理対象を処理する処理部と、を備える情報処理装置として機能させるためのプログラムが提供される。

　以上説明したように本開示によれば、入力音声から認識された文字列に対する処理をより効率的に行うことが可能な技術が提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の実施形態に係る情報処理システムの構成例を示す図である。同実施形態に係る情報処理システムの機能構成例を示すブロック図である。同実施形態に係る情報処理装置の動作の概要を示すフローチャートである。同実施形態に係る情報処理装置の動作の概要を示すフローチャートである。表示制御部が表示部に表示させる画面の構成例を示す図である。ユーザが発話を行っている状態において表示される画面の例を示す図である。ユーザが入力したい文字列の例と音声認識により得られた認識文字列の例とを示す図である。認識文字列が表示された画面の例を示す図である。認識文字列からノイズ音量に基づいて１または複数の処理単位を得る例を説明するための図である。処理単位の決定動作の例を示すフローチャートである。処理単位の決定動作の例を示すフローチャートである。予測変換カテゴリデータベースの例を示す図である。Ｐｈｒａｓｅカテゴリデータベースの例を示す図である。オリジナルフォームカテゴリデータベースの例を示す図である。過去修正結果カテゴリデータベースの例を示す図である。類似音カテゴリデータベースの例を示す図である。類似意味カテゴリデータベースの例を示す図である。変換フォームカテゴリデータベースの例を示す図である。カテゴリごとに表示される修正候補文字列の一例を示す図である。カテゴリごとに表示される修正候補文字列の他の一例を示す図である。カテゴリごとに表示される修正候補文字列の他の一例を示す図である。カテゴリごとに表示される修正候補文字列の他の一例を示す図である。カテゴリごとに表示される修正候補文字列の他の一例を示す図である。記号カテゴリデータベースの例を示す図である。数字カテゴリデータベースの例を示す図である。アルファベットカテゴリデータベースの例を示す図である。顔文字カテゴリデータベースの例を示す図である。カテゴリごとに表示される追加候補文字列の他の一例を示す図である。修正候補文字列の取得動作の例を示すフローチャートである。修正候補文字列の取得動作の例を示すフローチャートである。処理対象の長さを制御する例を説明するための図である。処理対象の長さの制御動作の例を示すフローチャートである。処理単位の数を変更する例を説明するための図である。処理単位の数を変更する他の例を説明するための図である。処理単位の削除について説明するための図である。キャレット位置の選択について説明するための図である。キャレット位置の選択について説明するための図である。キャレット位置の選択について説明するための図である。中央領域が選択された場合における動作を説明するための図である。左側領域が選択された場合における動作を説明するための図である。右側領域が選択された場合における動作を説明するための図である。処理単位の表示領域を選択したときの動作の例を示すフローチャートである。処理単位の表示領域を選択したときの動作の例を示すフローチャートである。表示部による表示形態の変形例を示す図である。同実施形態に係る情報処理システムのハードウェア構成例を示すブロック図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットまたは数字を付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。

　なお、説明は以下の順序で行うものとする。
　１．本開示の実施形態
　　１．１．システム構成例
　　１．２．機能構成例
　　１．３．動作の概要
　　１．４．画面構成例
　　１．５．処理単位の決定
　　１．６．文字列の提示
　　１．７．処理対象の長さの制御
　　１．８．処理単位の数の変更
　　１．９．処理単位の削除
　　１．１０．キャレット位置の選択
　　１．１１．処理単位の表示領域
　　１．１２．表示形態の変形例
　　１．１３．ハードウェア構成例
　２．むすび

　＜１．本開示の実施形態＞
　［１．１．システム構成例］
　まず、図面を参照しながら本開示の実施形態に係る情報処理システム１０の構成例について説明する。図１は、本開示の実施形態に係る情報処理システム１０の構成例を示す図である。図１に示したように、本開示の実施形態に係る情報処理システム１０は、画像入力部１１０と、操作入力部１１５と、音声入力部１２０と、表示部１３０とを備える。情報処理システム１０は、ユーザＵ（以下、単に「ユーザ」とも言う。）によって発せられた音声に対して音声認識を行うことが可能である。

　画像入力部１１０は、画像を入力する機能を有する。図１に示した例では、画像入力部１１０は、テーブルＴｂｌに埋め込まれた２つのカメラを含んでいる。しかし、画像入力部１１０に含まれるカメラの数は１以上であれば特に限定されない。かかる場合、画像入力部１１０に含まれる１以上のカメラそれぞれが設けられる位置も特に限定されない。また、１以上のカメラには、単眼カメラが含まれてもよいし、ステレオカメラが含まれてもよい。

　操作入力部１１５は、ユーザＵの操作を入力する機能を有する。図１に示した例では、操作入力部１１５は、テーブルＴｂｌの上方に存在する天井から吊り下げられた１つのカメラを含んでいる。しかし、操作入力部１１５に含まれるカメラが設けられる位置は特に限定されない。また、カメラには、単眼カメラが含まれてもよいし、ステレオカメラが含まれてもよい。また、操作入力部１１５はユーザＵの操作を入力する機能を有していればカメラでなくてもよく、例えば、タッチパネルであってもよいし、ハードウェアボタンであってもよい。

　表示部１３０は、テーブルＴｂｌに画面を表示する機能を有する。図１に示した例では、表示部１３０は、テーブルＴｂｌの上方に天井から吊り下げられている。しかし、表示部１３０が設けられる位置は特に限定されない。また、典型的には、表示部１３０は、テーブルＴｂｌの天面に画面を投影することが可能なプロジェクタであってよいが、画面を表示する機能を有すれば、他の形態のディスプレイであってもよい。

　なお、本明細書では、テーブルＴｂｌの天面が画面の表示面となる場合を主に説明するが、画面の表示面は、テーブルＴｂｌの天面以外であってもよい。例えば、画面の表示面は、壁であってもよいし、建物であってもよいし、床面であってもよいし、地面であってもよいし、天井であってもよいし、他の場所にある面であってもよい。また、表示部１３０が表示面を有する場合には、画面の表示面は、表示部１３０が有する表示面であってもよい。

　音声入力部１２０は、音声を入力する機能を有する。図１に示した例では、音声入力部１２０は、テーブルＴｂｌの上方に存在する３つのマイクとテーブルＴｂｌの上面に存在する３つのマイクとの合計６つのマイクを含んでいる。しかし、音声入力部１２０に含まれるマイクの数は１以上であれば特に限定されない。かかる場合、音声入力部１２０に含まれる１以上のマイクそれぞれが設けられる位置も特に限定されない。ただし、音声入力部１２０が、複数のマイクを含んでいれば、複数のマイクそれぞれに入力された音声に基づいて音源方向が推定され得る。また、音声入力部１２０が指向性を有するマイクを含んでいれば、指向性を有するマイクに入力された音声に基づいて音源方向が推定され得る。

　以上、本開示の実施形態に係る情報処理システム１０の構成例について説明した。

　［１．２．機能構成例］
　続いて、本開示の実施形態に係る情報処理システム１０の機能構成例について説明する。図２は、本開示の実施形態に係る情報処理システム１０の機能構成例を示すブロック図である。図２に示したように、本開示の実施形態に係る情報処理システム１０は、画像入力部１１０と、操作入力部１１５と、音声入力部１２０と、表示部１３０と、情報処理装置１４０（以下、「制御部１４０」とも言う。）と、を備える。

　情報処理装置１４０は、情報処理システム１０の各部の制御を実行する。例えば、情報処理装置１４０は、表示部１３０から出力する情報を生成する。また、例えば、情報処理装置１４０は、画像入力部１１０、操作入力部１１５および音声入力部１２０それぞれが入力した情報を、表示部１３０から出力する情報に反映させる。図２に示したように、情報処理装置１４０は、入力画像取得部１４１と、入力音声取得部１４２と、操作検出部１４３と、音声認識部１４４と、処理単位取得部１４５と、処理部１４６と、表示制御部１４７とを備える。これらの各機能ブロックについての詳細は、後に説明する。

　なお、情報処理装置１４０は、例えば、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ；中央演算処理装置）などで構成されていてもよい。情報処理装置１４０がＣＰＵなどといった処理装置によって構成される場合、かかる処理装置は、電子回路によって構成され得る。

　以上、本開示の実施形態に係る情報処理システム１０の機能構成例について説明した。

　［１．３．動作の概要］
　続いて、本開示の実施形態に係る情報処理装置１４０の動作の概要について説明する。図３Ａおよび図３Ｂは、本開示の実施形態に係る情報処理装置１４０の動作の概要を示すフローチャートである。まず、ユーザが発話を行うと（Ｓ１１）、入力音声取得部１４２は、音声入力部１２０によって入力された音声を入力音声として取得する（Ｓ１２）。続いて、音声認識部１４４は、入力音声からノイズ音量を取得する（Ｓ１３）。ノイズは、入力音声のうちユーザによる発話音声以外の音声に相当し得る。ノイズ音量の取得についての詳細は、後に説明する。

　続いて、音声認識部１４４は、入力音声に対して音声認識を行うことにより（Ｓ１４）、入力音声から文字列（以下、「認識文字列」とも言う）を得る（Ｓ１５）。音声認識部１４４により用いられる音声認識技術は特に限定されないが、隠れマルコフモデルなどの音声認識技術が用いられてよい。なお、本明細書においては、文字列には一つの文字も含まれ得る。続いて、処理単位取得部１４５は、ノイズ音量に基づいて認識文字列から１または複数の処理単位を得る（Ｓ１６）。例えば、処理単位取得部１４５は、ノイズ音量が大きくなるほど音声認識に誤りが生じる可能性が高まるため、１つ当たりの処理単位は長くするのがよい。そうすれば、処理単位をユーザに選択させる手間を低減することが可能となる。

　一方、例えば、処理単位取得部１４５は、ノイズ音量が小さくなるほど音声認識に誤りが生じる可能性が低下するため、１つ当たりの処理単位は短くするのがよい。そうすれば、ユーザに音声入力をさせる手間を低減することが可能となる。例えば、認識文字列の言語が、英語、フランス語、ドイツ語などといった、分かち書きされる言語の場合には、処理単位は、単語単位であってもよいし、複数の単語の組み合わせであってもよい。また、認識文字列の言語が、日本語、中国語、韓国語など、分かち書きされない言語の場合には、処理単位は、認識文字列に対して形態素解析を行うことにより得られる形態素単位であってもよいし、自立語と付属語との組み合わせ（文節）単位であってもよいし、所定の文字数で区分された文字列単位であってもよいし、音声入力された文章単位であってもよい。

　また、処理単位取得部１４５は、認識文字列の文脈に基づいて認識文字列から１または複数の処理単位を得ることも可能である。例えば、処理単位取得部１４５は、予め登録された辞書データを参照し、認識文字列に含まれる各単語に関して前または後ろの単語との連結のしやすさを算出することにより、意味上一つのまとまりと判定される１以上の単語の組み合わせを、処理単位として区分することもできる。続いて、処理部１４６は、修正候補文字列を取得する（Ｓ１７）。修正候補文字列の種類には、後に説明するように様々なカテゴリが存在し得る。

　続いて、表示制御部１４７は、修正候補文字列を表示部１３０に表示させることによって修正候補文字列をユーザに提示する（Ｓ１８）。ここで、所望の認識文字列が得られた場合には（Ｓ１９において「Ｙｅｓ」）、認識文字列が確定される（Ｓ２０）。また、処理部１４６は、所望の認識文字列が得られない場合、かつ、処理種別として削除が選択された場合には（Ｓ１９において「Ｎｏ（削除）」）、処理対象を削除して、Ｓ１８に戻る。一方、処理部１４６は、所望の認識文字列が得られない場合、かつ、処理種別として修正が選択された場合には（Ｓ１９において「Ｎｏ（修正）」）、処理対象に対する修正を行う（Ｓ２２）。

　処理対象に対する修正において、処理部１４６は、新たな文字列を追加する処理（Ｓ２３）、または、処理対象を文字列により置換する処理（Ｓ２４）を行う。ここで、処理部１４６は、処理対象に対して音声による置換（すなわち、音声から認識された文字列による置換）を行った場合には、処理対象が置換された後の認識文字列に対して処理単位の再構築を行う。続いて、処理部１４６は、音声による修正を行った場合には（Ｓ２６において「Ｙｅｓ」）、Ｓ１１に戻るが、音声以外による修正（例えば、修正候補文字列から選択された修正文字列による修正など）を行った場合には（Ｓ２６において「Ｎｏ」）、Ｓ１５に戻る。

　以上、本開示の実施形態に係る情報処理装置１４０の動作の概要について説明した。

　［１．４．画面構成例］
　続いて、表示制御部１４７が表示部１３０に表示させる画面の構成例を説明する。図４は、表示制御部１４７が表示部１３０に表示させる画面の構成例を示す図である。図４に示すように、画面Ｇ１０は、文字列が表示される文字列表示欄Ｇ１１、文字列全削除操作オブジェクトＧ１２、文字列確定操作オブジェクトＧ１３および音声による文字列追加開始操作オブジェクトＧ１４を含む。また、図４に示すように、画面Ｇ１０は、キャレット位置を前方に移動させるための操作オブジェクトＧ１５、キャレット位置を後方に移動させるための操作オブジェクトＧ１６および処理対象を削除するための操作オブジェクトＧ１７を含む。

　ここで、図４に示すように、音声による文字列追加開始操作オブジェクトＧ１４を選択する操作が操作検出部１４３によって検出され、入力音声が入力音声取得部１４２によって取得されると、音声認識部１４４によって入力音声に対する音声認識が開始される。図５は、ユーザが発話を行っている状態において表示される画面の例を示す図である。図５に示した例では、音声による文字列追加開始操作オブジェクトＧ１４が音声による文字列追加終了操作オブジェクトＧ２３に変化している。

　音声認識部１４４による音声認識が開始されると、音声認識部１４４は、入力音声に基づいてユーザＵによる発話音量を判定する。ここで、ユーザ発話音量の判定手法は特に限定されない。例えば、音声認識部１４４は、ユーザによる発話音声の音源方向Ｄｕを推定し、ユーザによる発話音声の音源方向Ｄｕから入力される音量をユーザ発話音量として判定してよい。なお、ユーザによる発話音声の音源方向Ｄｕの推定手法も特に限定されない。

　例えば、音声認識部１４４は、音声入力部１２０によって最初に閾値を超える大きさの音量で入力された音声の到来方向をユーザによる発話音声の音源方向として推定してもよい。また、音声認識部１４４は、閾値を超える大きさの音量で入力された音声の到来方向が複数あった場合には、複数の到来方向のうち音声による文字列追加開始操作オブジェクトＧ１４を選択する操作を行ったユーザの指方向（例えば、指先から指の根元への方向）に一致または類似する１の到来方向をユーザによる発話音声の音源方向として推定してもよい。類似範囲はあらかじめ定められていてよい。また、指方向は入力画像を解析することによって取得されてよい。

　また、例えば、音声認識部１４４は、音声入力部１２０によって最も大きな音量で入力された音声の到来方向をユーザによる発話音声の音源方向Ｄｕとして推定してもよい。あるいは、音声認識部１４４は、文字列追加開始操作オブジェクトＧ１４を選択する操作を行ったユーザの指方向に一致または類似する１の到来方向をユーザによる発話音声の音源方向Ｄｕとして推定してもよい。このとき、音声認識部１４４は、ユーザによる発話音声の音源方向以外の方向から音声入力部１２０に入力された音声をノイズとして判定し、ユーザによる発話音声の音源方向Ｄｕ以外の方向から音声入力部１２０に入力された音量をノイズ音量として判定してよい。

　そして、表示制御部１４７は、音声認識が可能な音量（以下、「認識可能音量」とも言う。）をユーザ発話音量が超えている場合に、文字列追加終了操作オブジェクトＧ２３に向かって移動する第１の動きオブジェクトＭｕを表示部１３０に表示させればよい。そうすれば、音声認識が可能な音量で発話がなされているか否かをユーザに把握させることが可能となる。また、表示制御部１４７は、ユーザによる発話音声の音源方向Ｄｕに基づいて第１の動きオブジェクトＭｕを表示部１３０に表示させてもよい。そうすれば、自分自身の発話音量が音声認識可能な音量を超えているか否かをユーザにより確実に把握させることが可能となる。

　具体的には、表示制御部１４７は、ユーザによる発話音声の音源方向Ｄｕとは逆向きに第１の動きオブジェクトＭｕを文字列追加終了操作オブジェクトＧ２３に向かって移動させるとよい。図５に示した例では、ユーザの近隣に次々と出現した円形状のオブジェクトが、ユーザによる発話音声の音源方向Ｄｕとは逆向きに移動し、文字列追加終了操作オブジェクトＧ２３に到達すると消失する場合を想定しているが、第１の動きオブジェクトＭｕの動きは、かかる例に限定されない。また、第１の動きオブジェクトＭｕの移動先は、文字列追加終了操作オブジェクトＧ２３に限定されず、何らかの表示オブジェクトであればよい。

　［１．５．処理単位の決定］
　このようにして入力音声に対して音声認識がなされることにより認識文字列が得られるが、入力音声に対する音声認識に誤りが生じる可能性もある。図６は、ユーザが入力したい文字列の例と音声認識により得られた認識文字列の例とを示す図である。図６を参照すると、ユーザが入力したい文字列の例として「I drive your car to airports」が示されており、音声認識により得られた文字列の例として「I drove your car to airports」が示されている。そこで、音声認識により得られた文字列に対しては、何らかの処理を施すことが可能であるとよい。

　図７は、認識文字列が表示された画面の例を示す図である。図７に示すように、表示制御部１４７は、認識文字列「I drove your car to airports」を表示部１３０に表示させることが可能である。このとき、処理単位取得部１４５によって認識文字列「I drove your car to airports」から、処理単位Ｕ１「I
drove」、処理単位Ｕ２「your car」および処理単位Ｕ３「to airports」が得られた場合、表示制御部１４７は、これらの処理単位Ｕ１～Ｕ３を表示部１３０に表示させることができる。そうすれば、処理部１４６は、処理単位Ｕ１～Ｕ３のいずれかをユーザに選択させ、ユーザによって選択された処理対象を処理することができる。

　なお、図７に示すように、表示制御部１４７は、処理単位Ｕ１の前方にキャレット位置選択用オブジェクトＢ１を表示させ、処理単位Ｕ１と処理単位Ｕ２との間にキャレット位置選択用オブジェクトＢ２を表示させることが可能である。また、表示制御部１４７は、処理単位Ｕ２と処理単位Ｕ３との間にキャレット位置選択用オブジェクトＢ３を表示させ、処理単位Ｕ４の前方にキャレット位置選択用オブジェクトＢ４を表示させることが可能である。そして、表示制御部１４７は、キャレットＣＬをキャレット位置選択用オブジェクトＢ１～Ｂ４のいずれかに配置することが可能である。

　図７に示した例では、処理単位取得部１４５によって認識文字列「I drove your car to airports」から、処理単位Ｕ１「I
drove」、処理単位Ｕ２「your car」および処理単位Ｕ３「to airports」が得られる例について説明した。しかし、入力音声に対する音声認識に誤りが生じる可能性はノイズに応じて変化し得るため、処理単位の数も変化させたほうが、入力音声から認識された文字列に対する処理が効率的になる。そこで、処理単位取得部１４５は、認識文字列「I drove your car to airports」からノイズに基づいて１または複数の処理単位を得るようにするのがよい。より具体的には、処理単位取得部１４５は、認識文字列「I drove your car to airports」からノイズ音量に基づいて１または複数の処理単位を得るようにするとよい。

　図８は、認識文字列「I drove your car to airports」からノイズ音量に基づいて１または複数の処理単位を得る例を説明するための図である。上記したように、処理単位取得部１４５は、ノイズ音量が大きくなるほど音声認識に誤りが生じる可能性が高まるため、図８の「ノイズ音量大」に示したように、処理単位の数を小さくするのがよい。そうすれば、処理単位をユーザに選択させる手間を低減することが可能となる。一方、処理単位取得部１４５は、ノイズ音量が小さくなるほど音声認識に誤りが生じる可能性が低下するため、図８の「ノイズ音量小」に示したように、処理単位の数を大きくするのがよい。そうすれば、ユーザに音声入力をさせる手間を低減することが可能となる。

　続いて、処理単位の決定動作について説明する。図９および図１０は、処理単位の決定動作の例を示すフローチャートである。なお、このフローチャートは、処理単位の決定動作の例を示したに過ぎないため、処理単位の決定動作は、このフローチャートに示した例に限定されない。まず、入力音声取得部１４２は、入力音声を取得する（Ｓ１０１）。続いて、音声認識部１４４は、入力音声からノイズ音量を取得する（Ｓ１０２）。そして、音声認識部１４４は、入力音声に対して音声認識を行って認識文字列を取得する（Ｓ１０３）。

　続いて、処理単位取得部１４５は、ノイズ音量が閾値Ｔａを下回る場合には（Ｓ１０４において「Ｙｅｓ」）、１文字単位に認識文字列を分割して（Ｓ１０５）、Ｓ１１３に進む。一方、処理単位取得部１４５は、ノイズ音量が閾値Ｔａを上回る場合には（Ｓ１０４において「Ｎｏ」）、Ｓ１０６に進む。続いて、処理単位取得部１４５は、ノイズ音量が閾値Ｔｂを下回る場合には（Ｓ１０６において「Ｙｅｓ」）、意味を持つ最小単位に認識文字列を分割して（Ｓ１０７）、Ｓ１１３に進む。一方、処理単位取得部１４５は、ノイズ音量が閾値Ｔｂを上回る場合には（Ｓ１０６において「Ｎｏ」）、Ｓ１０８に進む。

　続いて、処理単位取得部１４５は、ノイズ音量が閾値Ｔｃを下回る場合には（Ｓ１０８において「Ｙｅｓ」）、意味を持つ最小単位を一つ以上組み合わせた単位Ｎａに認識文字列を分割して（Ｓ１０９）、Ｓ１１３に進む。一方、処理単位取得部１４５は、ノイズ音量が閾値Ｔｃを上回る場合には（Ｓ１０８において「Ｎｏ」）、Ｓ１１０に進む。続いて、処理単位取得部１４５は、ノイズ音量が閾値Ｔｄを下回る場合には（Ｓ１１０において「Ｙｅｓ」）、単位Ｎａを一つ以上組み合わせた単位Ｎｂに認識文字列を分割して（Ｓ１１１）、Ｓ１１３に進む。一方、処理単位取得部１４５は、ノイズ音量が閾値Ｔｂを上回る場合には（Ｓ１１０において「Ｎｏ」）、認識文字列全体を単位Ｎｃとして（Ｓ１１２）、Ｓ１１３に進む。

　続いて、処理単位取得部１４５は、上記のようにして認識文字列から生成された各単位を処理単位として決定する（Ｓ１１３）。なお、上記において、処理単位取得部１４５は、閾値とノイズ音量とが等しい場合、いずれの処理に動作を移行させてもよい。以上に説明したように、処理単位取得部１４５は、認識文字列からノイズ音量に基づいて１または複数の処理単位を取得し、処理部１４６は、１または複数の処理単位のいずれかが処理対象として選択された場合、選択された処理対象を処理することが可能である。かかる構成により、認識文字列に対する処理をより効率的に行うことが可能となる。

　［１．６．文字列の提示］
　以上に説明したように、表示制御部１４７は、処理単位Ｕ１～Ｕ３を表示部１３０に表示させ、処理部１４６は、処理単位Ｕ１～Ｕ３のいずれかが処理対象として選択された場合、選択された処理対象を処理することができる。例えば、音声による置換操作オブジェクトＧ２５（図１８参照）を選択する操作が操作検出部１４３によって検出され、再度の入力音声が入力音声取得部１４２によって取得されると、処理部１４６は、再度の入力音声に対して音声認識を行うことにより得られた認識文字列で処理対象を置換することによって処理対象を修正することが可能である。

　このとき、処理単位取得部１４５は、ノイズ音量が大きいほど再度の入力音声に対する音声認識に誤りが生じる可能性が高まるため、音声認識の成功率を上げるのがよい。ここで、再度の入力音声が長いほど再度の入力音声に対する音声認識が成功する可能性が高まる。したがって、処理単位取得部１４５は、ノイズ音量が大きいほど処理単位を長くするのがよい（ノイズ音量が大きいほど処理単位の数を小さくするのがよい）。一方、再度の入力音声が長いほど再度の音声入力に手間が掛かるため、処理単位取得部１４５は、ノイズ音量が小さいほど処理単位を短くするのがよい（ノイズ音量が小さいほど処理単位の数を大きくするのがよい）。

　しかし、音声認識に誤りが生じた処理対象を音声認識によって修正しようとしても、ユーザによる発話のくせ、ユーザによって発話がなされる環境、音声認識エンジンの性能などによって修正に成功しないことがあり得る。そこで、処理部１４６は、１または複数の修正候補文字列からユーザによって修正文字列が選択された場合、処理対象を修正文字列で置換することにより処理対象を修正するようにするとよい。より具体的には、表示制御部１４７は、１または複数の修正候補文字列をカテゴリごとに表示部１３０に表示させるのがよい。そうすれば、ユーザは１または複数の修正候補文字列をカテゴリごとに探すことが可能となる。

　ここで、修正候補文字列をカテゴリごとにユーザに提供するためのデータベースについて説明する。図１１～図１７は、修正候補文字列をカテゴリごとにユーザに提供するためのデータベースの例を示す図である。特に、図１１は、予測変換カテゴリデータベースの例を示す図である。例えば、形態素または単語に基づいて辞書データなどから予測される連語などが予測変換カテゴリに属する。図１２は、Ｐｈｒａｓｅカテゴリデータベースの例を示す図である。例えば、英語が入力された場合、入力された単語に前置詞を追加した文字列、入力された単語を含む熟語などがＰｈｒａｓｅカテゴリに属する。また、例えば、日本語が入力された場合、形態素解析によって得られた形態素に助詞を追加した文字列などがＰｈｒａｓｅカテゴリに属する。

　図１３は、オリジナルフォームカテゴリデータベースの例を示す図である。例えば、英語が入力された場合、名詞の複数形に対する名詞の単数形がオリジナルフォームカテゴリに属し、動詞の過去形に対する動詞の原型がオリジナルフォームカテゴリに属する。また、例えば、日本語が入力された場合、形態素解析によって得られた形態素に対応する読み（平仮名または片仮名）などがオリジナルフォームカテゴリに属する。

　図１４は、過去修正結果カテゴリデータベースの例を示す図である。例えば、入力された単語と同一の単語に対して過去に行った修正結果が過去修正結果カテゴリに属する。図１５は、類似音カテゴリデータベースの例を示す図である。図１６は、類似意味カテゴリデータベースの例を示す図である。図１７は、変換フォームカテゴリデータベースの例を示す図である。例えば、英語が入力された場合、単語の原型に対する、複数形、現在進行形、過去形、形容詞化した単語、副詞化した単語、比較級、最上級などが変換フォームカテゴリに属する。また、例えば、日本語が入力された場合、他の漢字候補などが変換フォームカテゴリに属する。

　図１８は、カテゴリごとに表示される修正候補文字列の一例を示す図である。図１８に示すように、処理単位Ｕ１～Ｕ３のうち処理単位Ｕ１「I drove」を「I drive」に修正するため、ユーザが処理対象として処理単位Ｕ１「I drove」を選択する操作を行った場合を想定する。かかる場合においては、表示制御部１４７は、処理単位Ｕ１「I drove」に対応する修正候補文字列を各データベースから取得して、文字列表示欄Ｇ１８に表示させる。図１８に示した文字列表示欄Ｇ１８には、処理単位Ｕ１「I drove」に対応する修正候補文字列として、予測変換カテゴリ、Ｐｈｒａｓｅカテゴリおよびオリジナルカテゴリそれぞれに属する修正候補文字列が表示されている。

　そして、処理部１４６は、このように表示された修正候補文字列のいずれかを選択する操作が入力された場合、選択された修正候補文字列によって処理対象「I drove」を置換すればよい。例えば、処理部１４６は、オリジナルフォームカテゴリに表示されている修正候補文字列「I drive」を選択する操作が入力された場合、選択された修正候補文字列「I drive」によって処理対象「I drove」を置換すればよい。なお、表示制御部１４７は、修正候補文字列のすべてが文字列表示欄Ｇ１８に収まり切っていないカテゴリのスクロール操作オブジェクトＧ１９を選択する操作に基づいて、そのカテゴリに属する修正候補文字列をスクロール表示させることができる。

　また、表示制御部１４７は、文字列表示欄Ｇ１８に表示されるカテゴリを所定の操作に基づいてスクロール表示させることも可能である。図１９は、カテゴリごとに表示される修正候補文字列の他の一例を示す図である。図１９を参照すると、文字列表示欄Ｇ１８に表示されるカテゴリがスクロールされた結果、過去修正結果カテゴリに属する修正候補文字列が文字列表示欄Ｇ１８に表示されている。例えば、処理部１４６は、過去修正結果カテゴリに表示されている修正候補文字列「I drive」を選択する操作が入力された場合、選択された修正候補文字列「I drive」によって処理対象「I drove」を置換すればよい。

　以上においては、認識文字列「I drove your car to airports」が取得された場合を想定した。続いて、認識文字列「I live in Tokyo」が得られた場合を想定する。図２０は、カテゴリごとに表示される修正候補文字列の他の一例を示す図である。図２０に示すように、処理単位取得部１４５によって認識文字列「I live in Tokyo」から、処理単位Ｕ１「I live」および処理単位Ｕ２「in Tokyo」が得られた場合を想定する。このとき、図２０に示したように、表示制御部１４７は、これらの処理単位Ｕ１、Ｕ２を表示部１３０に表示させることができる。

　ここで、処理単位Ｕ１、Ｕ２のうち処理単位Ｕ１「I live」を「I leave」に修正するため、ユーザが処理対象として処理単位Ｕ１「I live」を選択する操作を行った場合を想定する。かかる場合においては、表示制御部１４７は、処理単位Ｕ１「I live」に対応する修正候補文字列を各データベースから取得して、文字列表示欄Ｇ１８に表示させる。図２０に示した文字列表示欄Ｇ１８には、処理単位Ｕ１「I live」に対応する修正候補文字列として、類似音カテゴリおよび他認識結果カテゴリそれぞれに属する修正候補文字列が表示されている。

　そして、処理部１４６は、このように表示された修正候補文字列のいずれかを選択する操作が入力された場合、選択された修正候補文字列によって処理対象「I live」を置換すればよい。例えば、処理部１４６は、類似音カテゴリに表示されている修正候補文字列「I leave」を選択する操作が入力された場合、選択された修正候補文字列「I leave」によって処理対象「I live」を置換すればよい。

　以上においては、認識文字列「I live in Tokyo」が取得された場合を想定した。続いて、認識文字列「I
view this as credible」が得られた場合を想定する。図２１は、カテゴリごとに表示される修正候補文字列の他の一例を示す図である。図２１に示すように、処理単位取得部１４５によって認識文字列「I view this as credible」から、処理単位Ｕ１「I view」、処理単位Ｕ２「this」および処理単位Ｕ３「as credible」が得られた場合を想定する。このとき、図２１に示したように、表示制御部１４７は、これらの処理単位Ｕ１～Ｕ３を表示部１３０に表示させることができる。

　ここで、処理単位Ｕ１、Ｕ２のうち処理単位Ｕ１「I view」を修正するため、ユーザが処理対象として処理単位Ｕ１「I view」を選択する操作を行った場合を想定する。かかる場合においては、表示制御部１４７は、処理単位Ｕ１「I view」に対応する修正候補文字列を各データベースから取得して、文字列表示欄Ｇ１８に表示させる。図２１に示した文字列表示欄Ｇ１８には、処理単位Ｕ１「I view」に対応する修正候補文字列として、類似意味カテゴリに属する修正候補文字列が表示されている。

　そして、処理部１４６は、このように表示された修正候補文字列のいずれかを選択する操作が入力された場合、選択された修正候補文字列によって処理対象「I view」を置換すればよい。例えば、処理部１４６は、類似意味カテゴリに表示されている修正候補文字列「I consider」を選択する操作が入力された場合、選択された修正候補文字列「I
consider」によって処理対象「I live」を置換すればよい。

　以上においては、認識文字列「I view this as credible」が取得された場合を想定した。続いて、認識文字列「Help me」が得られた場合を想定する。図２２は、カテゴリごとに表示される修正候補文字列の他の一例を示す図である。図２２に示すように、処理単位取得部１４５によって認識文字列「Help me」から、処理単位Ｕ１「Help」および処理単位Ｕ２「me」が得られた場合を想定する。このとき、図２２に示したように、表示制御部１４７は、これらの処理単位Ｕ１、Ｕ２を表示部１３０に表示させることができる。

　ここで、ユーザが処理対象として処理単位Ｕ１「Help」を選択する操作を行った場合を想定する。かかる場合においては、表示制御部１４７は、処理単位Ｕ１「Help」に対応する修正候補文字列を各データベースから取得して、文字列表示欄Ｇ１８に表示させる。図２２に示した文字列表示欄Ｇ１８には、処理単位Ｕ１「Help」に対応する修正候補文字列として、変換フォームカテゴリに属する修正候補文字列が表示されている。

　そして、処理部１４６は、このように表示された修正候補文字列のいずれかを選択する操作が入力された場合、選択された修正候補文字列によって処理対象「Help」を置換すればよい。しかし、ユーザは、認識文字列「Help me」に対して特に修正を施す必要がないと考え直したときは、文字列確定操作オブジェクトＧ１３を選択する操作を行えばよい。文字列確定操作オブジェクトＧ１３を選択する操作が検出された場合、処理部１４６は、認識文字列「Help me」を確定すればよい。

　以上、修正候補文字列の例について説明したが、追加候補文字列がユーザに提示されてもよい。追加候補文字列は、記号、数字、アルファベットなどといった一文字であってもよいし、これらの組み合わせにより成り立つ顔文字などであってもよい。記号、数字、アルファバット、顔文字などは、音声認識エンジンの性能によっては入力できない場合または音声認識エンジンによっては入力が困難である場合などがあるため、追加候補文字列として、これらの記号、数字、アルファバット、顔文字などを表示させることはユーザにとって有用である。

　具体的な処理として、処理部１４６は、１または複数の追加候補文字列からユーザによって追加文字列が選択された場合、認識文字列に追加文字列を追加するとよい。追加文字列の追加先は、キャレットＣＬが存在する位置であってよい。このとき、表示制御部１４７は、１または複数の追加候補文字列をカテゴリごとに表示部１３０に表示させるのがよい。そうすれば、ユーザは１または複数の追加候補文字列をカテゴリごとに探すことが可能となる。

　続いて、記号、数字、アルファバット、顔文字といった追加候補文字列をカテゴリごとにユーザに提供するためのデータベースについて説明する。図２３～図２６は、追加候補文字列をカテゴリごとにユーザに提供するためのデータベースの例を示す図である。特に、図２３は、記号カテゴリデータベースの例を示す図である。図２４は、数字カテゴリデータベースの例を示す図である。図２５は、アルファベットカテゴリデータベースの例を示す図である。図２６は、顔文字カテゴリデータベースの例を示す図である。

　図２７は、カテゴリごとに表示される追加候補文字列の他の一例を示す図である。図２７に示すように、キャレット位置選択用オブジェクトＢ４に顔文字を追加するため、ユーザが追加位置としてキャレット位置選択用オブジェクトＢ４を選択する操作を行った場合を想定する。かかる場合においては、表示制御部１４７は、追加候補文字列を各データベースから取得して、文字列表示欄Ｇ１８に表示させる。図２７に示した文字列表示欄Ｇ１８には、追加候補文字列として、数字カテゴリ、アルファベットカテゴリおよび顔文字カテゴリそれぞれに属する追加候補文字列が表示されている。

　そして、処理部１４６は、このように表示された追加候補文字列のいずれかを選択する操作が入力された場合、選択された追加候補文字列をキャレット位置選択用オブジェクトＢ４の位置に追加すればよい。例えば、処理部１４６は、顔文字カテゴリに表示されている追加候補文字列「(-_-)」を選択する操作が入力された場合、選択された追加候補文字列「(-_-)」をキャレット位置選択用オブジェクトＢ４に追加すればよい。なお、表示制御部１４７は、追加候補文字列のすべてが文字列表示欄Ｇ１８に収まり切っていないカテゴリのスクロール操作オブジェクトＧ１９を選択する操作に基づいて、そのカテゴリに属する追加候補文字列をスクロール表示させることができる。

　続いて、修正候補文字列の取得動作について説明する。図２８および図２９は、修正候補文字列の取得動作の例を示すフローチャートである。なお、このフローチャートは、修正候補文字列の取得動作の例を示したに過ぎないため、修正候補文字列の取得動作は、このフローチャートに示した例に限定されない。まず、処理部１４６は、文字列Ａ（処理単位）を取得し（Ｓ２０１）、文字列Ａから意味を持つ最小単位の文字列群Ｂを取得する。続いて、処理部１４６は、オリジナルフォームカテゴリデータベースから文字列Ａに対応するオリジナルフォーム文字列Ｃを取得する。（Ｓ２０３）。

　続いて、処理部１４６は、文字列群Ｂに属する文字列に補助文字列Ｄを追加して補助追加文字列Ｅを取得する（Ｓ２０４）。文字列群Ｂが英語の場合、補助文字列Ｄには、前置詞などが該当し得る。また、文字列群Ｂが日本語の場合、補助文字列Ｄには、助詞などが該当し得る。続いて、処理部１４６は、変換フォームカテゴリデータベースからオリジナルフォーム文字列Ｃに対応する変換フォーム文字列Ｆを取得する（Ｓ２０５）。続いて、処理部１４６は、予測変換カテゴリデータベースから文字列Ａに対応する予測変換フォーム文字列Ｇを取得する（Ｓ２０６）。

　続いて、処理部１４６は、類似音カテゴリデータベースから文字列群Ｂに対応する類似音フォーム情報Ｈを取得する（Ｓ２０７）。続いて、処理部１４６は、文字列Ａの他に認識された結果を他認識結果Ｊとして取得する（Ｓ２０８）。続いて、処理部１４６は、過去修正結果カテゴリデータベースから文字列Ａに対応する過去修正結果Ｋを取得する（Ｓ２０９）。続いて、処理部１４６は、類似意味カテゴリデータベースから文字列Ａに対応する類似意味文字列Ｌを取得する（Ｓ２１０）。

　以上のようにして取得された文字列（例えば、オリジナルフォーム文字列Ｃ、補助追加文字列Ｅ、変換フォーム文字列Ｆ、予測変換フォーム文字列Ｇ、類似音フォーム情報Ｈ、過去修正結果Ｋ、他認識結果Ｊ、過去修正結果Ｋ、類似意味文字列Ｌなど）は、修正候補文字列として、表示部１３０に表示され得る。なお、それぞれの文字列が取得される順序は、図２８および図２９のフローチャートに示した順序に限定されない。

　［１．７．処理対象の長さの制御］
　上記したように、処理対象は再度の入力音声に対する音声認識によって修正され得る。しかし、再度の入力音声に対する音声認識により処理対象を修正する場合、処理対象を長くしてから修正すると修正成功率が向上し得る。そこで、処理部１４６は、処理対象を再度の入力音声によって修正する旨が選択された場合、処理対象の長さを制御してよい。例えば、処理部１４６は、処理対象を再度の入力音声によって修正する旨が選択された場合、処理対象を長くしてもよい。

　図３０は、処理対象の長さを制御する例を説明するための図である。図３０を参照すると、処理単位取得部１４５によって認識文字列「I
drove your car to airports」から、処理単位Ｕ１「I drove」、処理単位Ｕ２「your car」および処理単位Ｕ３「to airports」が得られ、表示制御部１４７は、これらの処理単位Ｕ１～Ｕ３を表示部１３０に表示させている。ここで、音声による置換操作オブジェクトＧ２４を選択する操作がなされ、図３０に示すように、処理単位Ｕ２が処理対象として選択された場合、処理部１４６は、処理対象を処理単位Ｕ２と処理単位Ｕ２の前後にある処理単位Ｕ１、Ｕ３とを含んだ新たな処理対象としてよい。

　なお、ここでは、処理部１４６は、処理対象を再度の入力音声によって修正する旨が選択された場合、処理対象の前後に隣接する処理単位を含むように処理対象を長くする例について説明したが、処理対象をどの程度長くするかについては特に限定されない。また、処理対象の長さをユーザに把握させるため、表示制御部１４７は、処理対象の長さを制御した後、制御された後の処理対象の長さに応じた音声入力を促すメッセージを表示部１３０に表示させてもよい。図３０に示された例では、表示制御部１４７は、処理対象が処理単位Ｕ１～処理単位Ｕ３の三処理単位分に拡張されたため、「三つの処理単位をつなげて発話してください」というメッセージを表示させている。

　また、ノイズ音量に応じて再度の入力音声に対する音声認識に誤りが生じる可能性が変化し得る。そこで、処理部１４６は、処理対象を音声によって修正する旨が選択された場合、ノイズ音量に基づいて処理対象の長さを制御してもよい。より具体的には、ノイズ音量が大きくなるほど再度の入力音声に対する音声認識に誤りが生じる可能性が高まると考えられる。そこで、処理部１４６は、処理対象を音声によって修正する旨が選択された場合、ノイズ音量が大きいほど処理対象を長くするとよい。

　また、処理部１４６は、処理対象を音声によって修正する旨が選択された場合、処理対象に近い単語から順次に処理対象に含めるか否かを決定するに際して品詞に応じて処理対象に単語を含めるか否かを決定してもよい。例えば、複数の名詞は同時ではなく別々に処理したいと考えるのが一般的であるため、表示制御部１４７は、２つ目の名詞にたどり着く手前の単語までは処理対象に含めるが、２つ目の名詞は処理対象に含めないようにしてよい。

　続いて、処理対象の長さの制御動作について説明する。図３１は、処理対象の長さの制御動作の例を示すフローチャートである。なお、このフローチャートは、処理対象の長さの制御動作の例を示したに過ぎないため、処理対象の長さの制御動作は、このフローチャートに示した例に限定されない。まず、処理部１４６は、処理対象の選択に伴って修正インタラクションを起動する（Ｓ３０１）。処理部１４６は、ノイズ音量を利用しない場合には（Ｓ３０２において「Ｎｏ」）、Ｓ３０７に動作を移行させる。

　一方、音声認識部１４４は、ノイズ音量を利用する場合には（Ｓ３０３において「Ｙｅｓ」）、入力音声からノイズ音量を取得し（Ｓ３０３）、処理部１４６は、ノイズ音量が閾値Ｈａを下回る場合には（Ｓ３０４において「Ｙｅｓ」）、選択された処理対象に処理単位を追加せずに（Ｓ３０５）、動作を終了させる。一方、処理部１４６は、ノイズ音量が閾値Ｈａを上回る場合には（Ｓ３０４において「Ｎｏ」）、Ｓ３０６に動作を移行させる。

　続いて、処理部１４６は、ノイズ音量が閾値Ｈｂを上回る場合には（Ｓ３０６において「Ｎｏ」）、認識文字列に含まれるすべての処理単位を１つの新たな処理単位とし（Ｓ３０８）、動作を終了させる。一方、処理部１４６は、ノイズ音量が閾値Ｈｂを下回る場合には（Ｓ３０６において「Ｙｅｓ」）選択された処理対象の前後の処理対象を処理対象に追加して１つの新たな処理単位とし（Ｓ３０７）、動作を終了させる。

　［１．８．処理単位の数の変更］
　以上においては、ノイズ音量が大きいほど処理単位を長くする例（ノイズ音量が大きいほど処理単位の数を小さくする例）について説明したが、音声認識に誤りが生じていない文字列がユーザの想定よりも多く一つの処理単位に含まれてしまう場合もあり得る。そこで、処理単位取得部１４５は、所定の変更操作が入力された場合、１または複数の処理単位の少なくともいずれか一つに含まれる処理単位の数を変更してもよい。例えば、処理単位取得部１４５は、所定の変更操作がなされた位置に基づいて分割対象の処理単位および処理単位の分割位置を決定し、分割対象の処理単位を分割位置において分割すればよい。

　図３２は、処理単位の数を変更する例を説明するための図である。図３２を参照すると、処理単位取得部１４５によって、処理単位Ｕ０「I drove your car to
airports every day」が得られた例が示されている。かかる状況において、ユーザが処理単位Ｕ０「I
drove your car to airports every day」を「I drove your car」と「to airports every day」との間で分割したいと考えた場合、図３２に示したように、「I drove your car」と「to airports every day」との間に対して所定の変更操作を行えばよい。所定の変更操作は特に限定されず、例えば、ダブルタップであってもよいし、ロングタップであってもよい。

　また、図３２に示したように、処理単位取得部１４５は、操作検出部１４３によって所定の変更操作が検出された場合、所定の変更操作がなされた位置に基づいて分割対象の処理単位を処理対象Ｕ０に決定するとともに分割位置を「I drove your car」と「to airports every day」との間に決定すればよい。そして、処理単位取得部１４５は、分割対象の処理単位Ｕ０を分割位置において分割することによって、処理単位Ｕ１「I drove your car」および処理単位Ｕ２「to airports every day」を得ればよい。

　また、他の例として、処理単位取得部１４５は、所定の変更操作がなされた位置に基づいて分割対象の処理単位を決定し、分割対象の処理単位を所定の分割単位に分割してもよい。所定の分割単位は、意味を持つ最小単位であってよい。意味を持つ最小単位は、認識文字列の言語が分かち書きされない言語の場合には、形態素単位であってもよいし、認識文字列の言語が分かち書きされる言語の場合には、単語単位であってもよい。

　図３３は、処理単位の数を変更する他の例を説明するための図である。図３３を参照すると、処理単位取得部１４５によって、処理単位Ｕ０「I drove your car to
airports every day」が得られた例が示されている。かかる状況において、ユーザが処理単位Ｕ０「I
drove your car to airports every day」を分割したいと考えた場合、図３３に示したように、処理単位Ｕ０「I drove your car to airports every day」に対して所定の変更操作を行えばよい。所定の変更操作は特に限定されず、例えば、ダブルタップであってもよいし、ロングタップであってもよい。

　また、図３３に示したように、処理単位取得部１４５は、操作検出部１４３によって所定の変更操作が検出された場合、所定の変更操作がなされた位置に基づいて分割対象の処理単位を決定すればよい。そして、処理単位取得部１４５は、分割対象の処理単位Ｕ０を単語単位に分割することによって、処理単位Ｕ１「I」、処理単位Ｕ２「drove」、処理単位Ｕ３「your」、処理単位Ｕ４「car」、処理単位Ｕ５「to」、処理単位Ｕ６「airports」、処理単位Ｕ７「every」および処理単位Ｕ８「day」を得ればよい。

　［１．９．処理単位の削除］
　上記においては、処理対象を置換する例を説明したが、処理対象を削除できるようにするとユーザにとって利便性が高い。したがって、処理部１４６は、処理対象を削除すべき旨が選択された場合、処理対象を削除してもよい。図３４は、処理単位の削除について説明するための図である。例えば、処理部１４６は、図３４に示すように、処理対象として処理単位Ｕ３「to airports」が選択されている状態において、処理対象を削除するための操作オブジェクトＧ１７を選択する操作が検出された場合、処理単位Ｕ３「to airports」を削除してもよい。

　［１．１０．キャレット位置の選択］
　上記においては、キャレットが存在する位置に追加文字列を追加する例について説明した。かかる例において、ユーザが追加文字列の追加を行いたい場合などには、キャレットの位置を指定する必要が生じる。このとき、ユーザはドラッグ操作によってキャレットを指定しようとしてしまうことがある。特に画面上のオブジェクトを移動させるためにドラッグ操作を行うことが要求される端末（例えば、スマートフォンなど）に慣れているユーザは、キャレットの位置を指定するためにドラッグ操作を行おうとする可能性がある。

　しかし、ドラッグ操作を検出することが困難な状況もあり得る。例えば、ユーザの視線によってユーザの操作を検出する場合には、ユーザの視線に基づいてドラッグ操作を検出する必要がありドラッグ操作の検出精度が向上しない可能性がある。また、例えば、画像の解析によってユーザの操作を検出する場合には、画像の解析結果に基づいてユーザのドラッグ操作を検出する必要がありドラッグ操作の検出精度が向上しない可能性がある。そこで、キャレット位置の指定を選択操作（例えば、タップ操作）によって行うことができるようにするとよい。

　具体的には、表示制御部１４７は、表示されたキャレット位置選択用オブジェクトが選択された場合、キャレット位置選択用オブジェクトが存在する位置をキャレットの位置として選択するとよい。図３５は、キャレット位置の選択について説明するための図である。例えば、図３５に示すように、処理単位Ｕ３が処理対象として選択されている状態において、キャレット位置選択用オブジェクトＢ４に対する選択操作がなされると、表示制御部１４７は、キャレットＣＬの位置としてキャレット位置選択用オブジェクトＢ４の位置を選択するとよい。

　図３６は、キャレット位置の選択について説明するための図である。例えば、図３６に示すように、処理単位Ｕ３が処理対象として選択されている状態において、キャレット位置選択用オブジェクトＢ３に対する選択操作がなされると、表示制御部１４７は、キャレットＣＬの位置としてキャレット位置選択用オブジェクトＢ４の位置を選択するとよい。

　図３７は、キャレット位置の選択について説明するための図である。図３７に示すように、キャレットＣＬの位置が位置選択用オブジェクトＢ４の位置である状態において、キャレット位置を前方に移動させるための操作オブジェクトＧ１５に対する選択操作がなされると、表示制御部１４７は、キャレットＣＬの位置として位置選択用オブジェクトＢ４の前方にあるキャレット位置選択用オブジェクトＢ３の位置を選択するとよい。

　［１．１１．処理単位の表示領域］
　上記においては、ユーザによって選択操作がなされたキャレット位置選択用オブジェクトの位置がキャレットの位置として選択される例を説明した。しかし、キャレット位置選択用オブジェクトに対して正確に選択操作を行うことが困難な状況もあり得る。例えば、ユーザの視線によってユーザの操作を検出する場合には、ユーザの視線に基づいて選択操作を検出する必要があり選択操作の検出精度が向上しない可能性がある。また、例えば、画像の解析によってユーザの操作を検出する場合には、画像の解析結果に基づいてユーザの選択操作を検出する必要があり選択操作の検出精度が向上しない可能性がある。そこで、キャレット位置の指定をタップ操作によって行うことができるようにするとよい。

　具体的には、処理単位の表示領域が、左側領域、中央領域および右側領域を含むようにし、左側領域は、処理単位の左側に位置するキャレット位置選択用オブジェクトの選択領域であり、中央領域は、処理単位の選択領域であり、右側領域は、処理単位の右側に位置するキャレット位置選択用オブジェクトの選択領域であるとするのがよい。以下、左側領域、中央領域および右側領域それぞれが選択された場合における動作の例を順に説明する。

　図３８は、中央領域Ｒ０が選択された場合における動作を説明するための図である。図３８に示すように、処理単位Ｕ１の表示領域は、左側領域Ｒ１、中央領域Ｒ０および右側領域Ｒ２を含んでいる。ここで、図３８に示すように、中央領域Ｒ０を選択する操作が検出された場合、処理部１４６は、処理単位Ｕ１を処理対象として選択してよい。なお、左側領域Ｒ１、中央領域Ｒ０および右側領域Ｒ２それぞれの長さは特に限定されないが、処理部１４６は、処理単位Ｕ１の長さに応じて、左側領域Ｒ１および右側領域Ｒ２それぞれの長さを制御してもよい。

　例えば、処理単位Ｕ１の長さが閾値を上回る場合には、左側領域Ｒ１および右側領域Ｒ２それぞれに対する選択操作が同じ程度に行いやすいと考えられる。そこで、処理部１４６は、処理単位Ｕ１の長さが閾値を上回る場合には、左側領域Ｒ１および右側領域Ｒ２を同サイズにしてよい。一方、例えば、処理単位Ｕ１の長さが閾値を下回る場合には、ユーザの利き腕側の領域に対する選択領域が行いやすいと考えられる。そこで、処理部１４６は、処理単位Ｕ１の長さが閾値を下回る場合には、左側領域Ｒ１および右側領域Ｒ２のうち、利き腕とは反対側の領域をユーザの利き腕側の領域よりも狭くするとよい。

　ユーザの利き腕はどのようにして取得されてもよいが、一例として、処理部１４６は、音声による文字列追加開始操作オブジェクトＧ１４を選択する操作を行ったユーザの指が左右どちらの指であるかによって利き腕を判定してもよい。例えば、処理部１４６は、画像入力部１１０によって入力された入力画像から、音声による文字列追加開始操作オブジェクトＧ１４を選択する操作を行ったユーザの指の形状を判定し、指の形状に基づいてユーザの指が左右どちらの指であるかを判定し、判定結果に基づいて利き腕を判定してもよい。

　図３９は、左側領域Ｒ１が選択された場合における動作を説明するための図である。図３９に示すように、左側領域Ｒ１を選択する操作が検出された場合、処理部１４６は、処理単位Ｕ１の左側に位置するキャレット位置選択用オブジェクトＢ１をキャレットＣＬの位置として選択してよい。図４０は、右側領域Ｒ２が選択された場合における動作を説明するための図である。図４０に示すように、右側領域Ｒ２を選択する操作が検出された場合、処理部１４６は、処理単位Ｕ１の右側に位置するキャレット位置選択用オブジェクトＢ２をキャレットＣＬの位置として選択してよい。

　続いて、処理単位の表示領域を選択したときの動作について説明する。図４１および図４２は、処理単位の表示領域を選択したときの動作の例を示すフローチャートである。なお、このフローチャートは、処理単位の表示領域を選択したときの動作の例を示したに過ぎないため、処理単位の表示領域を選択したときの動作は、このフローチャートに示した例に限定されない。まず、処理部１４６は、Flgにfalseを設定し（Ｓ４０１）、処理単位の長さを取得する（Ｓ４０２）。続いて、処理部１４６は、処理単位の長さが閾値Ｚａを下回る場合には（Ｓ４０３において「Ｎｏ」）、左側領域Ｒ１と右側領域Ｒ２とを同サイズに設定し、両領域間を中央領域Ｒ０として設定する（Ｓ４０４）。一方、処理部１４６は、処理単位の長さが閾値Ｚａを上回る場合には（Ｓ４０３において「Ｙｅｓ」）、左側領域Ｒ１を右側領域Ｒ２よりも広いサイズに設定し（Ｓ４０５）、両領域間を中央領域Ｒ０として設定し、Flgにtrueを設定する（Ｓ４０６）。

　続いて、処理部１４６は、ユーザによるインタラクション情報を取得し（Ｓ４０７）、インタラクションの左右情報を取得する（Ｓ４０８）。処理部１４６は、インタラクションがユーザの右手によってなされた場合には（Ｓ４０９において「Ｙｅｓ」）、Ｓ４１２に動作を移行させるが、インタラクションがユーザの左手によってなされた場合には（Ｓ４０９において「Ｎｏ」）、Flgにfalseが設定されている場合（Ｓ４１０において「Ｎｏ」）、Ｓ４１２に動作を移行させるが、Flgにtrueが設定されている場合（Ｓ４１０において「Ｙｅｓ」）、右側領域Ｒ２を左側領域Ｒ１よりも広いサイズに設定し、両領域間を中央領域Ｒ０として設定する（Ｓ４１１）。

　続いて、処理部１４６は、インタラクション位置を取得し（Ｓ４１２）、インタラクション位置が中央領域Ｒ０の内部である場合には（Ｓ４１３において「Ｙｅｓ」）、処理単位を処理対象として選択し（Ｓ４１４）、動作を終了させる。一方、表示制御部１４７は、インタラクション位置が左側領域Ｒ１の内部である場合には（Ｓ４１３において「Ｎｏ」、Ｓ４１５において「Ｙｅｓ」）、処理単位の左側にキャレットを移動させ、動作を終了させる。

　また、表示制御部１４７は、インタラクション位置が右側領域Ｒ２の内部である場合には（Ｓ４１３において「Ｎｏ」、Ｓ４１５において「Ｎｏ」、Ｓ４１７において「Ｙｅｓ」）、処理単位の右側にキャレットを移動させ、動作を終了させる。処理部１４６は、インタラクション位置が、中央領域Ｒ０、左側領域Ｒ１および右側領域Ｒ２のいずれの内部でもない場合には（Ｓ４１３において「Ｎｏ」、Ｓ４１５において「Ｎｏ」、Ｓ４１７において「Ｎｏ」）、動作を終了させる。

　［１．１２．表示形態の変形例］
　上記においては、表示部１３０がテーブルＴｂｌの天面に画面を投影することが可能なプロジェクタである例について説明した。しかし、表示部１３０による表示形態は、かかる例に限定されない。図４３は、表示部１３０による表示形態の変形例を示す図である。図４３に示すように、情報処理システム１０が携帯端末である場合に、表示部１３０は、携帯端末に備わっていてもよい。携帯端末の種類は特に限定されず、タブレット端末であってもよいし、スマートフォンであってもよいし、携帯電話であってもよい。

　［１．１３．ハードウェア構成例］
　次に、図４４を参照して、本開示の実施形態に係る情報処理システム１０のハードウェア構成について説明する。図４４は、本開示の実施形態に係る情報処理システム１０のハードウェア構成例を示すブロック図である。

　図４４に示すように、情報処理システム１０は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　ｕｎｉｔ）９０１、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）９０３、およびＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）９０５を含む。また、情報処理システム１０は、ホストバス９０７、ブリッジ９０９、外部バス９１１、インターフェース９１３、入力装置９１５、出力装置９１７、ストレージ装置９１９、ドライブ９２１、接続ポート９２３、通信装置９２５を含んでもよい。さらに、情報処理システム１０は、必要に応じて、撮像装置９３３、およびセンサ９３５を含んでもよい。情報処理システム１０は、ＣＰＵ９０１に代えて、またはこれとともに、ＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）またはＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）と呼ばれるような処理回路を有してもよい。

　ＣＰＵ９０１は、演算処理装置および制御装置として機能し、ＲＯＭ９０３、ＲＡＭ９０５、ストレージ装置９１９、またはリムーバブル記録媒体９２７に記録された各種プログラムに従って、情報処理システム１０内の動作全般またはその一部を制御する。ＲＯＭ９０３は、ＣＰＵ９０１が使用するプログラムや演算パラメータなどを記憶する。ＲＡＭ９０５は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一時的に記憶する。ＣＰＵ９０１、ＲＯＭ９０３、およびＲＡＭ９０５は、ＣＰＵバスなどの内部バスにより構成されるホストバス９０７により相互に接続されている。さらに、ホストバス９０７は、ブリッジ９０９を介して、ＰＣＩ（Ｐｅｒｉｐｈｅｒａｌ　Ｃｏｍｐｏｎｅｎｔ　Ｉｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス９１１に接続されている。

　入力装置９１５は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置９１５は、ユーザの音声を検出するマイクを含んでもよい。入力装置９１５は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理システム１０の操作に対応した携帯電話などの外部接続機器９２９であってもよい。入力装置９１５は、ユーザが入力した情報に基づいて入力信号を生成してＣＰＵ９０１に出力する入力制御回路を含む。ユーザは、この入力装置９１５を操作することによって、情報処理システム１０に対して各種のデータを入力したり処理動作を指示したりする。また、後述する撮像装置９３３も、ユーザの手の動き、ユーザの指などを撮像することによって、入力装置として機能し得る。このとき、手の動きや指の向きに応じてポインティング位置が決定されてよい。

　出力装置９１７は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。出力装置９１７は、例えば、ＬＣＤ（Ｌｉｑｕｉｄ　Ｃｒｙｓｔａｌ　Ｄｉｓｐｌａｙ）、ＰＤＰ（Ｐｌａｓｍａ　Ｄｉｓｐｌａｙ　Ｐａｎｅｌ）、有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ、プロジェクタなどの表示装置、ホログラムの表示装置、スピーカおよびヘッドホンなどの音声出力装置、ならびにプリンタ装置などであり得る。出力装置９１７は、情報処理システム１０の処理により得られた結果を、テキストまたは画像などの映像として出力したり、音声または音響などの音声として出力したりする。また、出力装置９１７は、周囲を明るくするためライトなどを含んでもよい。

　ストレージ装置９１９は、情報処理システム１０の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置９１９は、例えば、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）などの磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。このストレージ装置９１９は、ＣＰＵ９０１が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。

　ドライブ９２１は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体９２７のためのリーダライタであり、情報処理システム１０に内蔵、あるいは外付けされる。ドライブ９２１は、装着されているリムーバブル記録媒体９２７に記録されている情報を読み出して、ＲＡＭ９０５に出力する。また、ドライブ９２１は、装着されているリムーバブル記録媒体９２７に記録を書き込む。

　接続ポート９２３は、機器を情報処理システム１０に直接接続するためのポートである。接続ポート９２３は、例えば、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Ｓｍａｌｌ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍ　Ｉｎｔｅｒｆａｃｅ）ポートなどであり得る。また、接続ポート９２３は、ＲＳ－２３２Ｃポート、光オーディオ端子、ＨＤＭＩ（登録商標）（Ｈｉｇｈ－Ｄｅｆｉｎｉｔｉｏｎ　Ｍｕｌｔｉｍｅｄｉａ　Ｉｎｔｅｒｆａｃｅ）ポートなどであってもよい。接続ポート９２３に外部接続機器９２９を接続することで、情報処理システム１０と外部接続機器９２９との間で各種のデータが交換され得る。

　通信装置９２５は、例えば、通信ネットワーク９３１に接続するための通信デバイスなどで構成された通信インターフェースである。通信装置９２５は、例えば、有線または無線ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、またはＷＵＳＢ（Ｗｉｒｅｌｅｓｓ　ＵＳＢ）用の通信カードなどであり得る。また、通信装置９２５は、光通信用のルータ、ＡＤＳＬ（Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅ）用のルータ、または、各種通信用のモデムなどであってもよい。通信装置９２５は、例えば、インターネットや他の通信機器との間で、ＴＣＰ／ＩＰなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置９２５に接続される通信ネットワーク９３１は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内ＬＡＮ、赤外線通信、ラジオ波通信または衛星通信などである。

　撮像装置９３３は、例えば、ＣＣＤ（Ｃｈａｒｇｅ　Ｃｏｕｐｌｅｄ　Ｄｅｖｉｃｅ）またはＣＭＯＳ（Ｃｏｍｐｌｅｍｅｎｔａｒｙ　Ｍｅｔａｌ　Ｏｘｉｄｅ　Ｓｅｍｉｃｏｎｄｕｃｔｏｒ）などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成する装置である。撮像装置９３３は、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。

　センサ９３５は、例えば、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサなどの各種のセンサである。センサ９３５は、例えば情報処理システム１０の筐体の姿勢など、情報処理システム１０自体の状態に関する情報や、情報処理システム１０の周辺の明るさや騒音など、情報処理システム１０の周辺環境に関する情報を取得する。また、センサ９３５は、ＧＰＳ（Ｇｌｏｂａｌ　Ｐｏｓｉｔｉｏｎｉｎｇ　Ｓｙｓｔｅｍ）信号を受信して装置の緯度、経度および高度を測定するＧＰＳセンサを含んでもよい。

　以上、情報処理システム１０のハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更され得る。

　＜２．むすび＞
　以上説明したように、本開示の実施形態によれば、第１の入力音声に対して音声認識を行うことにより得られた第１の認識文字列からノイズ音量に基づいて１または複数の処理単位を得る処理単位取得部１４５と、１または複数の処理単位のいずれかが処理対象として選択された場合、処理対象を処理する処理部１４６と、を備える、情報処理装置１４０が提供される。かかる構成によれば、入力音声から認識された文字列に対する処理をより効率的に行うことが可能となる。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　例えば、上記においては、表示部１３０による表示形態の変形例を説明したが、表示部１３０による表示形態は、上記した例に限定されない。例えば、表示部１３０は、ヘッドマウントディスプレイ以外のウェアラブル端末（例えば、時計、眼鏡など）に備わるディスプレイであってもよい。また、例えば、表示部１３０は、車載向けナビゲーションシステムに備わるディスプレイであってもよい。また、例えば、表示部１３０は、ヘルスケア分野において利用されるディスプレイであってもよい。

　また、上記では、処理単位取得部１４５が認識文字列からノイズ音量に基づいて１または複数の処理単位を得る例を主に説明した。しかし、ノイズ音量の代わりに他のノイズに関する情報が用いられてもよい。例えば、処理単位取得部１４５は、認識文字列からノイズの音圧に基づいて１または複数の処理単位を得てもよい。かかる場合、処理単位取得部１４５は、ノイズの音圧が大きいほど処理単位の数を小さくしてよい。また、例えば、処理単位取得部１４５は、認識文字列からノイズの音圧レベルに基づいて１または複数の処理単位を得てもよい。かかる場合、処理単位取得部１４５は、ノイズの音圧レベルが大きいほど処理単位の数を小さくしてよい。

　あるいは、処理単位取得部１４５は、認識文字列からノイズの周波数に基づいて１または複数の処理単位を得てもよい。

　また、コンピュータに内蔵されるＣＰＵ、ＲＯＭおよびＲＡＭなどのハードウェアを、上記した情報処理システム１０が有する機能と同等の機能を発揮させるためのプログラムも作成可能である。また、該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。

　また、表示制御部１４７は、表示部１３０に表示内容を表示させるための表示制御情報を生成し、生成した表示制御情報を表示部１３０に出力することで、当該表示内容が表示部１３０に表示されるように表示部１３０を制御することが可能である。かかる表示制御情報の内容はシステム構成にあわせて適宜変更されてよい。

　具体的な一例として、情報処理装置１４０を実現するためのプログラムは、ウェブアプリケーションであってもよい。かかる場合、表示制御情報は、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔ　Ｍａｒｋｕｐ　Ｌａｎｇｕａｇｅ）、ＳＧＭＬ（Ｓｔａｎｄａｒｄ　Ｇｅｎｅｒａｌｉｚｅｄ　Ｍａｒｋｕｐ　Ｌａｎｇｕａｇｅ）、ＸＭＬ（Ｅｘｔｅｎｓｉｂｌｅ　Ｍａｒｋｕｐ　Ｌａｎｇｕａｇｅ）などのマークアップ言語により実現されてもよい。

　なお、上述した情報処理システム１０の動作が実現されれば、各構成の位置は特に限定されない。具体的な一例として、画像入力部１１０、操作入力部１１５および音声入力部１２０と表示部１３０と情報処理装置１４０とは、ネットワークを介して接続された互いに異なる装置に設けられてもよい。この場合には、情報処理装置１４０が、例えば、ウェブサーバやクラウドサーバのようなサーバに相当し、画像入力部１１０、操作入力部１１５および音声入力部１２０と表示部１３０とが当該サーバにネットワークを介して接続されたクライアントに相当し得る。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏し得る。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）
　第１の入力音声に対して音声認識を行うことにより得られた第１の認識文字列からノイズに基づいて１または複数の処理単位を得る処理単位取得部と、
　前記１または複数の処理単位のいずれかが処理対象として選択された場合、前記処理対象を処理する処理部と、
　を備える、情報処理装置。
（２）
　前記処理単位取得部は、前記第１の認識文字列からノイズ音量に基づいて前記１または複数の処理単位を得る、
　前記（１）に記載の情報処理装置。
（３）
　前記処理単位取得部は、前記ノイズ音量が大きいほど前記処理単位の数を小さくする、
　前記（２）に記載の情報処理装置。
（４）
　前記情報処理装置は、前記１または複数の処理単位が表示部によって表示されるように前記表示部を制御する表示制御部を備える、
　前記（１）～前記（３）のいずれか一項に記載の情報処理装置。
（５）
　前記処理部は、１または複数の修正候補文字列から修正文字列が選択された場合、前記処理対象を前記修正文字列で置換することにより前記処理対象を修正する、
　前記（４）に記載の情報処理装置。
（６）
　前記表示制御部は、前記１または複数の修正候補文字列をカテゴリごとに前記表示部に表示させる、
　前記（５）に記載の情報処理装置。
（７）
　前記処理部は、１または複数の追加候補文字列から追加文字列が選択された場合、前記追加文字列をキャレットが存在する位置に追加する、
　前記（４）に記載の情報処理装置。
（８）
　前記表示制御部は、前記１または複数の追加候補文字列をカテゴリごとに前記表示部に表示させる、
　前記（７）に記載の情報処理装置。
（９）
　前記処理単位取得部は、所定の変更操作が入力された場合、前記１または複数の処理単位の少なくともいずれか一つに含まれる処理単位の数を変更する、
　前記（１）～前記（８）のいずれか一項に記載の情報処理装置。
（１０）
　前記処理部は、第２の入力音声が入力された場合、前記第２の入力音声に対して音声認識を行うことにより得られた第２の認識文字列で前記処理対象を置換することにより前記処理対象を修正する、
　前記（１）～前記（９）のいずれか一項に記載の情報処理装置。
（１１）
　前記表示制御部は、キャレット位置選択用オブジェクトが選択された場合、前記キャレット位置選択用オブジェクトが存在する位置をキャレットの位置として選択する、
　前記（４）に記載の情報処理装置。
（１２）
　前記処理単位の表示領域は、左側領域、中央領域および右側領域を含み、
　前記左側領域は、前記処理単位の左側に位置する前記キャレット位置選択用オブジェクトの選択領域であり、前記中央領域は、前記処理単位の選択領域であり、前記右側領域は、前記処理単位の右側に位置する前記キャレット位置選択用オブジェクトの選択領域である、
　前記（１１）に記載の情報処理装置。
（１３）
　前記処理部は、前記処理単位の長さに応じて、前記左側領域および前記右側領域それぞれの長さを制御する、
　前記（１２）に記載の情報処理装置。
（１４）
　前記処理部は、前記処理対象を削除すべき旨が選択された場合、前記処理対象を削除する、
　前記（１）～前記（１３）のいずれか一項に記載の情報処理装置。
（１５）
　前記処理部は、前記処理対象を音声によって修正する旨が選択された場合、前記処理対象の長さを制御する、
　前記（４）に記載の情報処理装置。
（１６）
　前記処理部は、前記処理対象を音声によって修正する旨が選択された場合、ノイズ音量に基づいて前記処理対象の長さを制御する、
　前記（１５）に記載の情報処理装置。
（１７）
　前記処理部は、前記処理対象を音声によって修正する旨が選択された場合、ノイズ音量が大きいほど前記処理対象を長くする、
　前記（１６）に記載の情報処理装置。
（１８）
　前記表示制御部は、前記処理対象の長さを制御した後、制御された後の前記処理対象の長さに応じた音声入力を促すメッセージを前記表示部に表示させる、
　前記（１６）に記載の情報処理装置。
（１９）
　前記処理部は、前記処理対象を音声によって修正する旨が選択された場合、前記処理対象の前方および後方の少なくともいずれか一方に存在する単語の品詞に応じて前記処理対象に前記単語を含めるか否かを決定する、
　前記（１５）に記載の情報処理装置。
（２０）
　前記処理単位取得部は、前記第１の認識文字列からノイズの音圧に基づいて前記１または複数の処理単位を得る、
　前記（１）に記載の情報処理装置。
（２１）
　前記処理単位取得部は、前記第１の認識文字列からノイズの音圧レベルに基づいて前記１または複数の処理単位を得る、
　前記（１）に記載の情報処理装置。
（２２）
　第１の入力音声に対して音声認識を行うことにより得られた第１の認識文字列からノイズに基づいて１または複数の処理単位を得ることと、
　前記１または複数の処理単位のいずれかが処理対象として選択された場合、前記処理対象を処理することと、
　を含む、情報処理方法。
（２３）
　コンピュータを、
　第１の入力音声に対して音声認識を行うことにより得られた第１の認識文字列からノイズに基づいて１または複数の処理単位を得る処理単位取得部と、
　前記１または複数の処理単位のいずれかが処理対象として選択された場合、前記処理対象を処理する処理部と、
　を備える情報処理装置として機能させるためのプログラム。

　１０　　情報処理システム
　１１０　画像入力部
　１１５　操作入力部
　１２０　音声入力部
　１３０　表示部
　１４０　情報処理装置（制御部）
　１４１　入力画像取得部
　１４２　入力音声取得部
　１４３　操作検出部
　１４４　音声認識部
　１４５　処理単位取得部
　１４６　処理部
　１４７　表示制御部
　Ｂ１～Ｂ４　キャレット位置選択用オブジェクト
　ＣＬ　　キャレット
　Ｒ０　　中央領域
　Ｒ１　　左側領域
　Ｒ２　　右側領域
　Ｕ０～Ｕ８　処理単位

Claims

　第１の入力音声に対して音声認識を行うことにより得られた第１の認識文字列からノイズに基づいて１または複数の処理単位を得る処理単位取得部と、
　前記１または複数の処理単位のいずれかが処理対象として選択された場合、前記処理対象を処理する処理部と、
　を備える、情報処理装置。
　前記処理単位取得部は、前記第１の認識文字列からノイズ音量に基づいて前記１または複数の処理単位を得る、
　請求項１に記載の情報処理装置。
　前記処理単位取得部は、前記ノイズ音量が大きいほど前記処理単位の数を小さくする、
　請求項２に記載の情報処理装置。
　前記情報処理装置は、前記１または複数の処理単位が表示部によって表示されるように前記表示部を制御する表示制御部を備える、
　請求項１に記載の情報処理装置。
　前記処理部は、１または複数の修正候補文字列から修正文字列が選択された場合、前記処理対象を前記修正文字列で置換することにより前記処理対象を修正する、
　請求項４に記載の情報処理装置。
　前記表示制御部は、前記１または複数の修正候補文字列をカテゴリごとに前記表示部に表示させる、
　請求項５に記載の情報処理装置。
　前記処理部は、１または複数の追加候補文字列から追加文字列が選択された場合、前記追加文字列をキャレットが存在する位置に追加する、
　請求項４に記載の情報処理装置。
　前記表示制御部は、前記１または複数の追加候補文字列をカテゴリごとに前記表示部に表示させる、
　請求項７に記載の情報処理装置。
　前記処理単位取得部は、所定の変更操作が入力された場合、前記１または複数の処理単位の少なくともいずれか一つに含まれる処理単位の数を変更する、
　請求項１に記載の情報処理装置。
　前記処理部は、第２の入力音声が入力された場合、前記第２の入力音声に対して音声認識を行うことにより得られた第２の認識文字列で前記処理対象を置換することにより前記処理対象を修正する、
　請求項１に記載の情報処理装置。
　前記表示制御部は、キャレット位置選択用オブジェクトが選択された場合、前記キャレット位置選択用オブジェクトが存在する位置をキャレットの位置として選択する、
　請求項４に記載の情報処理装置。
　前記処理単位の表示領域は、左側領域、中央領域および右側領域を含み、
　前記左側領域は、前記処理単位の左側に位置する前記キャレット位置選択用オブジェクトの選択領域であり、前記中央領域は、前記処理単位の選択領域であり、前記右側領域は、前記処理単位の右側に位置する前記キャレット位置選択用オブジェクトの選択領域である、
　請求項１１に記載の情報処理装置。
　前記処理部は、前記処理単位の長さに応じて、前記左側領域および前記右側領域それぞれの長さを制御する、
　請求項１２に記載の情報処理装置。
　前記処理部は、前記処理対象を削除すべき旨が選択された場合、前記処理対象を削除する、
　請求項１に記載の情報処理装置。
　前記処理部は、前記処理対象を音声によって修正する旨が選択された場合、前記処理対象の長さを制御する、
　請求項４に記載の情報処理装置。
　前記処理部は、前記処理対象を音声によって修正する旨が選択された場合、ノイズ音量に基づいて前記処理対象の長さを制御する、
　請求項１５に記載の情報処理装置。
　前記処理部は、前記処理対象を音声によって修正する旨が選択された場合、ノイズ音量が大きいほど前記処理対象を長くする、
　請求項１６に記載の情報処理装置。
　前記表示制御部は、前記処理対象の長さを制御した後、制御された後の前記処理対象の長さに応じた音声入力を促すメッセージを前記表示部に表示させる、
　請求項１６に記載の情報処理装置。
　前記処理部は、前記処理対象を音声によって修正する旨が選択された場合、前記処理対象の前方および後方の少なくともいずれか一方に存在する単語の品詞に応じて前記処理対象に前記単語を含めるか否かを決定する、
　請求項１５に記載の情報処理装置。
　前記処理単位取得部は、前記第１の認識文字列からノイズの音圧に基づいて前記１または複数の処理単位を得る、
　請求項１に記載の情報処理装置。
　前記処理単位取得部は、前記第１の認識文字列からノイズの音圧レベルに基づいて前記１または複数の処理単位を得る、
　請求項１に記載の情報処理装置。
　第１の入力音声に対して音声認識を行うことにより得られた第１の認識文字列からノイズに基づいて１または複数の処理単位を得ることと、
　前記１または複数の処理単位のいずれかが処理対象として選択された場合、前記処理対象を処理することと、
　を含む、情報処理方法。
　コンピュータを、
　第１の入力音声に対して音声認識を行うことにより得られた第１の認識文字列からノイズに基づいて１または複数の処理単位を得る処理単位取得部と、
　前記１または複数の処理単位のいずれかが処理対象として選択された場合、前記処理対象を処理する処理部と、
　を備える情報処理装置として機能させるためのプログラム。