WO2018043138A1

WO2018043138A1 - 情報処理装置および情報処理方法、並びにプログラム

Info

Publication number: WO2018043138A1
Application number: PCT/JP2017/029492
Authority: WO
Inventors: 真一河野; 祐平滝
Original assignee: ソニー株式会社
Priority date: 2016-08-31
Filing date: 2017-08-17
Publication date: 2018-03-08
Also published as: EP3509062A4; JPWO2018043138A1; CN109643551A; EP3509062B1; US20200320976A1; EP3509062A1

Abstract

本発明は、より良好な音声入力を行うことができるようにする情報処理装置および情報処理方法、並びにプログラムに関する。音声情報から検出される発話の特徴および特定無音期間に基づいて、通常モードの音声認識処理および特殊モードの音声認識処理のいずれかが選択され、その選択された音声認識処理で認識された音声認識結果とともに、その音声認識結果が得られた音声認識処理を示す音声認識結果情報が出力される。本技術は、例えば、ネットワークを介して音声認識処理を提供する音声認識システムに適用できる。

Description

情報処理装置および情報処理方法、並びにプログラム

　本発明は、情報処理装置および情報処理方法、並びにプログラムに関し、特に、より良好な音声入力を行うことができるようにした情報処理装置および情報処理方法、並びにプログラムに関する。

　近年、音声入力を利用したユーザインタフェースの活用が広まっており、より良好な音声入力を可能とするような音声認識処理を実現することが重要となっている。

　一般的に、音声認識処理では、音声情報に対して特徴量を抽出する処理が行われ、例えば、MFCC（Mel-Frequency Cepstrum Coefficients）などの特徴量が抽出される。そして、音声情報から抽出された特徴量に基づいて、音声認識エンジンが、音響モデルや、認識辞書、言語モデルを参照して音声認識処理を行って、音声から認識された文字列が出力される。

　例えば、特許文献１には、不特定多数のユーザを対象とする音声認識において、ユーザの類別に基づいて、音声認識に使用する音響モデルを選択する音声認識システムが開示されている。

特開２０００－３４７６８４号公報

　ところで、ゲームチャットやライブ配信プラットフォームなどにおいてメッセージを入力する用途では、通常の語句による文章だけでなく、ＩＤ（Identification）や、省略語、固有名詞、ネットスラングなどのような認識辞書には掲載されていない特殊な文字列が入力されることがある。このような特殊な文字列に対して、音声認識処理を正確に行うことは困難であり、良好な音声入力を行うことが難しかった。

　本発明は、このような状況に鑑みてなされたものであり、より良好な音声入力を行うことができるようにするものである。

　本開示の一側面の情報処理装置は、ユーザの発話により得られる音声情報を取得して、前記音声情報から発話の特徴を検出する発話特徴検出部と、前記音声情報に音声が含まれている発話区間を検出する処理においては無音期間と判定されない特定の短い無音期間である特定無音期間を検出する特定無音期間検出部と、前記発話特徴検出部により前記音声情報から検出された前記発話の特徴、および、前記特定無音期間検出部により前記音声情報から検出された前記特定無音期間に基づいて、前記音声情報に対して行われる音声認識処理を選択する選択部と、前記選択部により選択された音声認識処理で認識された音声認識結果とともに、その音声認識結果が得られた音声認識処理を示す音声認識結果情報を出力する出力処理部とを備える。

　本開示の一側面の情報処理方法またはプログラムは、ユーザの発話により得られる音声情報を取得して、前記音声情報から発話の特徴を検出し、前記音声情報に音声が含まれている発話区間を検出する処理においては無音期間と判定されない特定の短い無音期間である特定無音期間を検出し、前記音声情報から検出された前記発話の特徴、および、前記音声情報から検出された前記特定無音期間に基づいて、前記音声情報に対して行われる音声認識処理を選択し、選択された音声認識処理で認識された音声認識結果とともに、その音声認識結果が得られた音声認識処理を示す音声認識結果情報を出力するステップを含む。

　本開示の一側面においては、ユーザの発話により得られる音声情報を取得して、声情報から発話の特徴が検出され、音声情報に音声が含まれている発話区間を検出する処理においては無音期間と判定されない特定の短い無音期間である特定無音期間が検出される。そして、音声情報から検出された発話の特徴、および、音声情報から検出された特定無音期間に基づいて、音声情報に対して行われる音声認識処理が選択され、その音声認識処理で認識された音声認識結果とともに、その音声認識処理が行われたことを示す音声認識結果情報が出力される。

　本開示の一側面によれば、より良好な音声入力を行うことができる。

本技術を適用した音声認識システムの一実施の形態の構成例を示すブロック図である。音声認識サーバの構成例を示すブロック図である。文字列数字変換テーブルの一例を示す図である。音声認識処理の基本的なユーザインタフェースの一例を示す図である。音量レベルの比較について説明する図である。通常モードの音声認識処理におけるユーザインタフェースの一例を示す図である。音量レベルの比較および特定無音期間の検出について説明する図である。１文字モードおよび大文字変換モードにおけるユーザインタフェースの一例を示す図である。音声認識結果の一例を示す図である。音量レベルの比較および特定無音期間の検出について説明する図である。１文字モードおよび数字変換モードにおけるユーザインタフェースの一例を示す図である。音声認識結果の一例を示す図である。音声認識処理を説明するフローチャートである。日本語に対する音声認識処理におけるユーザインタフェースの一例を示す図である。音声認識処理を実現するＡＰＩの一例を示す図である。音声認識結果を強調表示する一例を示す図である。音声認識結果を強調表示する他の例を示す図である。本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。

　以下、本技術を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。

　＜音声認識システムの構成例＞

　図１は、本技術を適用した音声認識システムの一実施の形態の構成例を示すブロック図である。

　図１に示すように、音声認識システム１１は、インターネットなどのネットワーク１２を介して、複数台（図１の例ではＮ台）のクライアント端末１３－１乃至１３－Ｎおよび音声認識サーバ１４が接続されて構成される。なお、クライアント端末１３－１乃至１３－Ｎは、それぞれ同様に構成されており、互いに区別する必要がない場合、以下適宜、クライアント端末１３と称する。

　クライアント端末１３は、ユーザにより発話された音声を入力し、音声情報を取得するためのマイクロホンなどの音声情報取得装置を備えており、音声情報取得装置が取得した音声情報を、ネットワーク１２を介して音声認識サーバ１４に送信する。また、クライアント端末１３は、音声認識サーバ１４から送信されてくる音声認識結果を受信して、ユーザに提示する。例えば、クライアント端末１３は、音声認識結果を表すユーザインタフェースを映像出力装置に表示したり、音声認識結果を表す合成音声を音声出力装置から出力したりする。

　音声認識サーバ１４は、ネットワーク１２を介してクライアント端末１３から送信されてくる音声情報に対する音声認識処理を行う。そして、音声認識サーバ１４は、音声情報から認識された単語列などを音声認識結果として、ネットワーク１２を介してクライアント端末１３に送信する。このとき、音声認識サーバ１４は、音声情報を送信してきたクライアント端末１３だけでなく、例えば、そのクライアント端末１３のユーザがコミュニケーションを行っている他のユーザのクライアント端末１３にも、音声認識結果を送信することができる。

　このように音声認識システム１１は構成されており、クライアント端末１３のユーザの発話により得られる音声情報が音声認識サーバ１４に送信され、音声認識サーバ１４において音声認識処理が行われ、クライアント端末１３に音声認識結果が送信される。従って、音声認識システム１１は、例えば、より高性能で最新の音声認識処理を音声認識サーバ１４に実装することで、個々のクライアント端末１３の処理能力が低くても、より良好な音声入力を可能とする音声認識処理を提供することができる。

　＜音声認識サーバの第１の構成例＞

　図２は、音声認識サーバ１４の第１の構成例を示すブロック図である。

　図２に示すように、音声認識サーバ１４は、通信部２１、入力音処理部２２、発話特徴検出部２３、特定無音期間検出部２４、雑音検出部２５、音声認識モード切り替え処理部２６、通常モード音声認識部２７、特殊モード音声認識部２８、および音声認識結果出力処理部２９を備えて構成される。

　通信部２１は、図１のネットワーク１２を介して、クライアント端末１３と各種の通信を行う。例えば、通信部２１は、クライアント端末１３から送信されてくる音声情報を受信して、入力音処理部２２に供給する。また、通信部２１は、音声認識結果出力処理部２７から供給される音声認識結果情報を、クライアント端末１３に送信する。

　入力音処理部２２は、通信部２１から供給される音声情報に対して、通常モード音声認識部２７および特殊モード音声認識部２８において音声認識を行う前に必要な各種の前処理を行う。例えば、入力音処理部２２は、音声情報において無音となっている区間や雑音だけの区間を排除し、発話された音声が含まれている発話区間を音声情報から検出するＶＡＤ（Voice Activity Detection）処理を行って、発話区間の音声情報を取得する。そして、入力音処理部２２は、発話区間の音声情報を、発話特徴検出部２３、特定無音期間検出部２４、雑音検出部２５、および音声認識モード切り替え処理部２６に供給する。

　発話特徴検出部２３は、入力音処理部２２から供給される発話区間の音声情報から、ユーザの発話の特徴を検出して、その検出した発話の特徴を示す発話特徴検出結果を音声認識モード切り替え処理部２６に供給する。

　例えば、発話特徴検出部２３は、発話の特徴として、音声情報に基づく音声の音量レベルを検出し、音声情報に基づく音声の音量レベルと、予め設定されている通常時の音量レベルとの比較結果を発話特徴検出結果とする。また、発話特徴検出部２３は、例えば、発話の特徴として、音声情報に基づく音声の入力速度を検出し、それまでの音声の入力速度と相対的に比較した比較結果（それまでより速くなった／遅くなった）を発話特徴検出結果とする。また、発話特徴検出部２３は、例えば、発話の特徴として、音声情報に基づく音声の周波数を検出し、それまでの音声の周波数と相対的に比較した比較結果（それまでより高くなった／低くなった）を発話特徴検出結果とする。

　特定無音期間検出部２４は、入力音処理部２２から供給される発話区間の音声情報から、入力音処理部２２が音声情報から発話区間を検出するＶＡＤ処理においては無音期間と判定されないような非常に短い無音期間を、特定無音期間として検出する。例えば、特定無音期間は、アルファベットを１文字ずつ発話する際の各アルファベットの発話の区切りで発生する短時間の無音期間であり、いわゆる間（ま）と称されるものである。そして、特定無音期間検出部２４は、発話区間の音声情報から特定無音期間を検出したタイミングおよび間隔を示す特定無音期間検出結果を、音声認識モード切り替え処理部２６に供給する。

　雑音検出部２５は、入力音処理部２２から供給される発話区間の音声情報に含まれている雑音の音量レベルを検出し、その検出した雑音の音量レベルを音声認識モード切り替え処理部２６に供給する。

　音声認識モード切り替え処理部２６は、発話特徴検出部２３から供給される発話特徴検出結果、特定無音期間検出部２４から供給される特定無音期間検出結果、および、雑音検出部２５から供給される雑音の音量レベルに基づいて、音声認識処理を切り替える処理を行う。

　例えば、音声認識モード切り替え処理部２６は、発話特徴検出結果に基づいて、音声情報に基づく音声の音量レベルが通常時の音量レベルよりも低い場合には、通常モードの音声認識処理を選択する。一方、音声認識モード切り替え処理部２６は、発話特徴検出結果に基づいて、音声情報に基づく音声の音量レベルが通常時の音量レベルよりも高く、かつ、特定無音期間検出結果に基づいて、特定無音期間が所定の間隔で繰り返して検出されている場合、特殊モードの音声認識処理を行う条件が発生したとして、特殊モードの音声認識処理を選択する。

　また、音声認識モード切り替え処理部２６は、発話特徴検出結果に基づいて、音声情報に基づく音声の入力速度が相対的に遅い場合、および、音声情報に基づく音声の周波数が相対的に高い場合にも、音声情報に基づく音声の音量レベルが通常時の音量レベルよりも高い場合と同様に、特殊モードの音声認識処理を行う条件が発生したとして、特殊モードの音声認識処理を選択する。

　ここで、例えば、ユーザが、通常よりも大きな音量で、間が空いたうえで短い発話と間とを繰り返すような発話をする場合、ＩＤを入力するような１文字ずつの音声の入力が行われていると考えることができる。従って、この場合、音声認識モード切り替え処理部２６は、そのような１文字ずつの音声認識を行う特殊モードの音声認識処理を選択することが好ましい。

　さらに、音声認識モード切り替え処理部２６は、雑音の音量レベルが、予め設定されている所定の音量レベルを超えている場合、特殊モードの音声認識処理の選択を回避する。即ち、雑音が大きい場合には、特殊モードの音声認識処理の認識精度が低下することが考えられるため、特殊モードの音声認識処理を選択しないことが好ましい。

　そして、音声認識モード切り替え処理部２６は、通常モードの音声認識処理を選択した場合には、入力音処理部２２から供給される発話区間の音声情報を通常モード音声認識部２７に供給する。一方、音声認識モード切り替え処理部２６は、特殊モードの音声認識処理を選択した場合には、入力音処理部２２から供給される発話区間の音声情報を特殊モード音声認識部２８に供給する。

　通常モード音声認識部２７は、例えば、従来と同様に、一般的な認識辞書を参照して、音声認識モード切り替え処理部２６から供給される音声情報に対する音声認識処理を行う。そして、通常モード音声認識部２７は、例えば、音声情報から認識された文字列を、音声認識結果として音声認識結果出力処理部２９に供給する。

　特殊モード音声認識部２８は、音声認識モード切り替え処理部２６から供給される音声情報から、ＩＤや、省略語、固有名詞、ネットスラングなどのような特殊な文字列（以下適宜、特殊文字と称する）を認識する特殊モードの音声認識処理を行う。特殊モードの音声認識処理には、例えば、１文字ごとの音声認識を行う１文字モードや、音声認識結果をアルファベットの大文字に変換する大文字変換モード、音声認識結果の単語を数字に変換する数字変換モードなどがある。

　例えば、特殊モード音声認識部２８は、特定無音期間が所定の間隔で繰り返して検出されている場合、ＩＤを入力するような１文字ずつの音声の入力が行われているとして、１文字モードで特殊モードの音声認識処理を行う。また、特殊モード音声認識部２８は、１文字モードのときに、音声情報に基づく音声の音量レベルが通常時の音量レベルを超えている場合、認識した１文字をアルファベットの大文字に変換する大文字変換モードで特殊モードの音声認識処理を行う。また、特殊モード音声認識部２８は、図３に示すような文字列数字変換テーブルを参照し、音声認識により認識した単語が文字列数字変換テーブルに登録されている場合、認識した単語を数字に変換する数字変換モードで特殊モードの音声認識処理を行う。

　音声認識結果出力処理部２９は、通常モード音声認識部２７または特殊モード音声認識部２８から供給される音声認識結果とともに、その音声認識結果が得られた音声認識処理を示す音声認識結果情報を生成して、通信部２１に供給する。例えば、音声認識結果出力処理部２９は、クライアント端末１３のユーザに、音声認識結果および音声認識処理を認識させるためのユーザインタフェースを表示させる表示情報や、音声認識結果および音声認識処理を認識させるための合成音声を出力させるための合成音声情報などを音声認識結果情報として生成する。

　このように音声認識サーバ１４は構成されており、クライアント端末１３からネットワーク１２を介して送信されてくる音声情報に対して、通常モードの音声認識処理または特殊モードの音声認識処理を切り替えて、いずれかの音声認識処理を行うことができる。そして、音声認識サーバ１４は、音声認識処理を行って得られる音声認識結果情報を、ネットワーク１２を介してクライアント端末１３に送信し、音声認識結果とともに、その音声認識結果が得られた音声認識処理をユーザに提示することができる。

　従って、音声認識サーバ１４は、例えば、一般的な認識辞書を参照しただけでは認識できないような特殊文字を、特殊モードの音声認識処理によって認識することができ、より良好な音声入力を提供することができる。

　例えば、従来、ＩＤや、省略語、固有名詞、ネットスラングなどのような認識辞書には掲載されていない特殊文字に対する音声認識を行うことは、音声認識の技術的な特性（語句が登録された認識辞書を使って認識するという特性）より困難であった。また、このような特殊文字は、利用シーンなどによって表現方法が変更されることも多く、全ての特殊文字を認識辞書に登録することは現実的ではない。

　具体的には、英語の語句「laughing out loud」に対して省略語「lol」が用いられることがあるが、省略語「lol」の発音としては、「エル・オー・エル」と一文字ずつ読むこともあれば、「ロゥル」と一つの単語として発音することもある。さらに、省略語「lol」のバリエーション（表記ゆれ）として、「LOLOLOLOL」や「lolz」「lul」などニュアンスの違いなどで表記が変わることがある。この例以外にも、同様な省略語が用いられることがあり、それらの全てを辞書に反映させることは非常に困難である。さらに、ＩＤや、省略語、固有名詞、ネットスラングなどは、日々増えていくので辞書の反映にはコストが高過ぎると考えられる。または、ソーシャルネットワークの特定のグループの仲間だけで使用される言葉などは、通常、認識辞書に反映されることはない。

　これに対し、音声認識サーバ１４は、上述したような特殊モードの音声認識処理を行う条件が発生したときには、特殊モード音声認識部２８により特殊モードの音声認識処理が行われるので、従来よりも、特殊文字に対する音声認識を正確に行うことができる。これにより、音声認識サーバ１４は、通常の会話と、特殊文字の発話とが混在したような場合でも、適切に音声認識処理を選択することで、より良好な音声入力を提供することができる。

　＜音声認識システムの音声認識処理＞

　図４乃至図１２を参照して、音声認識システム１１により提供される音声認識処理について説明する。

　ここで、図４乃至図１２では、クライアント端末１３のユーザが発話した「Let’s start this battle BTX505」という音声情報に対して、音声認識サーバ１４において実行される音声認識処理について説明する。

　例えば、クライアント端末１３の映像出力装置の画面には、ユーザの発話状態を表すアイコン５１が表示されており、ユーザの発話が検出されていないときには、図４の上段に示すように、アイコン５１内のマイクロホンが薄く（図４の例では破線で）表示される。そして、クライアント端末１３の音声情報取得装置がユーザの発話を検出すると、図４の下段に示すように、アイコン５１内のマイクロホンの表示が濃く変更されるとともに、アイコン５１の下方に、ユーザの発話から認識された文字を表示するための表示フィールド５２が表示される。

　図５には、音声情報「Let’s start this battle BTX505」のうち、音声情報「Let's start this battle」までが音声認識サーバ１４に供給された状態が示されている。まず、音声認識サーバ１４の発話特徴検出部２３は、音声情報「Let's start this battle」から発話特徴を検出する処理として、音量レベルの比較を行う。図５の例では、音声情報「Let's start this battle」の音量レベルは通常時音量レベル以下であり、発話特徴検出部２３は、音量レベルは通常時音量レベル以下であることを示す発話特徴検出結果を、音声認識モード切り替え処理部２６に供給する。

　そして、音声認識モード切り替え処理部２６は、音声情報「Let's start this battle」の音量レベルは通常時音量レベル以下であるという発話特徴検出結果に従って、音声情報「Let's start this battle」に対する音声認識を通常モードで行うと判定する。これに基づき、音声認識モード切り替え処理部２６は、音声情報「Let's start this battle」を通常モード音声認識部２７に供給し、通常モード音声認識部２７による通常モードの音声認識処理が行われる。

　例えば、通常モード音声認識部２７は、通常モードの音声認識処理を行った音声認識結果として、「Let's start this battle」という文字列を音声認識結果出力処理部２９に供給する。従って、音声認識結果出力処理部２９は、音声認識結果「Let's start this battle」が得られたことを、クライアント端末１３のユーザに認識させるユーザインタフェースを出力させる音声認識結果情報を生成して、通信部２１に供給する。

　その結果、クライアント端末１３では、通常モードの音声認識処理により得られた音声認識結果に基づくユーザインタフェースが表示される。例えば、図６に示すように、通常モードの音声認識処理による認識途中の音声認識結果が、アイコン５１のマイクロホンの周辺に湧き出すような動的な表示を行うユーザインタフェースが表示される。また、表示フィールド５２には、通常モードの音声認識処理による認識途中の単語が順次表示される。即ち、図６の上側に示すように、表示フィールド５２には、認識途中の音声認識結果「Let's start…」が表示される。そして、音声情報「Let's start this battle」に対する全ての音声認識が終了したとき、図６の下側に示すように、表示フィールド５２には、音声認識結果「Let's start this battle」が表示される。

　次に、図７には、音声情報「Let’s start this battle BTX505」のうち、音声情報「Let's start this battle」に続いて音声情報「BTX」までが音声認識サーバ１４に供給された状態が示されている。なお、音声情報「BTX」に対して、通常モードの音声認識処理が行われた場合、図示するように「bee tee ecs」という音声認識結果が得られてしまう。

　まず、発話特徴検出部２３は、音声情報「BTX」から発話特徴を検出する処理として、音量レベルの比較を行う。図７の例では、音声情報「BTX」の音量レベルは通常時音量レベルを超えており、発話特徴検出部２３は、音量レベルは通常時音量レベルを超えていることを示す発話特徴検出結果を、音声認識モード切り替え処理部２６に供給する。

　また、特定無音期間検出部２４は、音声情報「BTX」から特定無音期間を検出する処理を行う。図７の例では、白抜きの矢印で示されている期間が、特定無音期間として検出されており、特定無音期間検出部２４は、特定無音期間を検出したタイミングおよび間隔を示す特定無音期間検出結果を、音声認識モード切り替え処理部２６に供給する。

　そして、音声認識モード切り替え処理部２６は、発話特徴検出部２３から供給される発話特徴検出結果、および、特定無音期間検出部２４から供給される特定無音期間検出結果に基づいて、特殊モードの音声認識処理を行うか否かを判定する。図７に示す例では、音声認識モード切り替え処理部２６は、音量レベルは通常時音量レベルを超えているとともに、所定のタイミングおよび間隔で特定無音期間が検出されていることに基づいて、特殊モードの音声認識処理を行うと判定する。

　従って、音声認識モード切り替え処理部２６は、音声情報「BTX」を特殊モード音声認識部２８に供給し、特殊モード音声認識部２８による特殊モードの音声認識処理が行われる。

　例えば、特殊モード音声認識部２８は、特殊モード（１文字モードおよび大文字変換モード）の音声認識処理を行った音声認識結果として、「BTX」という大文字のアルファベットを音声認識結果出力処理部２９に供給する。従って、音声認識結果出力処理部２９は、大文字のアルファベットの音声認識結果「BTX」が得られたことを、クライアント端末１３のユーザに認識させるユーザインタフェースを出力させる音声認識結果情報を生成して、通信部２１に供給する。

　その結果、クライアント端末１３では、特殊モードの音声認識処理により得られた音声認識結果に基づくユーザインタフェースが表示される。即ち、図８に示すように、アイコン５１の下側には、特殊モードの音声認識処理のうち、１文字モードの音声認識処理を示すマーク「1 character」および大文字変換モードの音声認識処理を示すマーク「Uppercase」が表示される。そして、１文字モードおよび大文字変換モードの音声認識処理による認識途中の音声認識結果が、アイコン５１のマイクロホンの周辺を移動しながら小文字から大文字に変換される動的な表示を行うユーザインタフェースが表示される。

　図８には、小文字「ｂ」から大文字「Ｂ」に変換されるユーザインタフェースの例が示されているが、これに続く大文字「Ｔ」および大文字「Ｘ」についても同様に処理が繰り返して行われる。そして、音声情報「BTX」に対する全ての音声認識が終了したとき、図９に示すように、表示フィールド５２には、音声認識結果「Let's start this battle BTX」が表示される。

　次に、図１０には、音声情報「Let’s start this battle BTX505」のうち、音声情報「Let's start this battle BTX」に続いて音声情報「505」が音声認識サーバ１４に供給された状態が示されている。なお、音声情報「505」に対して、通常モードの音声認識処理が行われた場合、図示するように「five zero five」という音声認識結果が得られてしまう。

　まず、発話特徴検出部２３は、音声情報「505」から発話特徴を検出する処理として、音量レベルの比較を行う。図１０の例では、音声情報「505」の音量レベルは通常時音量レベルを超えており、発話特徴検出部２３は、音量レベルは通常時音量レベルを超えていることを示す発話特徴検出結果を、音声認識モード切り替え処理部２６に供給する。

　また、特定無音期間検出部２４は、音声情報「505」から特定無音期間を検出する処理を行う。図１０の例では、白抜きの矢印で示されている期間が、特定無音期間として検出されており、特定無音期間検出部２４は、特定無音期間を検出したタイミングおよび間隔を示す特定無音期間検出結果を、音声認識モード切り替え処理部２６に供給する。

　そして、音声認識モード切り替え処理部２６は、発話特徴検出部２３から供給される発話特徴検出結果、および、特定無音期間検出部２４から供給される特定無音期間検出結果に基づいて、特殊モードの音声認識処理を行うか否かを判定する。図１０に示す例では、音声認識モード切り替え処理部２６は、音量レベルは通常時音量レベルを超えているとともに、所定のタイミングおよび間隔で特定無音期間が検出されていることに基づいて、特殊モードの音声認識処理を行うと判定する。

　例えば、特殊モード音声認識部２８は、特殊モード（１文字モードおよび数字変換モード）の音声認識処理を行った音声認識結果として、「505」という数字を音声認識結果出力処理部２９に供給する。従って、音声認識結果出力処理部２９は、数字の音声認識結果「505」が得られたことを、クライアント端末１３のユーザに認識させるユーザインタフェースを出力させる音声認識結果情報を生成して、通信部２１に供給する。

　その結果、クライアント端末１３では、特殊モードの音声認識処理により得られた音声認識結果に基づくユーザインタフェースが表示される。即ち、図１１に示すように、アイコン５１の下側には、特殊モードの音声認識処理のうち、１文字モードの音声認識処理を示すマーク「1 character」および数字変換モードの音声認識処理を示すマーク「Number」が表示される。そして、１文字モードおよび数字変換モードの音声認識処理による認識途中の音声認識結果が、アイコン５１のマイクロホンの周辺を移動しながら単語から数字に変換される動的な表示を行うユーザインタフェースが表示される。

　図１１には、単語「five」から数字「５」に変換されるユーザインタフェースの例が示されているが、これに続く数字「０」および数字「５」についても同様に処理が繰り返して行われる。そして、音声情報「505」に対する全ての音声認識が終了したとき、図１２に示すように、表示フィールド５２には、音声認識結果「Let's start this battle BTX505」が表示される。

　＜音声認識処理の説明＞

　図１３は、音声認識サーバ１４において実行される音声認識処理を説明するフローチャートである。

　例えば、クライアント端末１３からネットワーク１２を介して送信されてくる音声情報を通信部２１が受信して入力音処理部２２に供給すると処理が開始される。ステップＳ１１において、入力音処理部２２は、通信部２１から供給される音声情報から、クライアント端末１３のユーザが発話した音声が含まれている発話区間を検出する処理を行う。

　ステップＳ１２において、入力音処理部２２は、ステップＳ１１での処理における発話区間の検出結果に従って、クライアント端末１３のユーザによる発話が始まったか否かを判定する。ステップＳ１２において、入力音処理部２２が、発話が始まっていないと判定した場合、処理はステップＳ１１に戻り、発話が始まったと判定されるまで、処理は待機される。

　一方、ステップＳ１２において、入力音処理部２２が、クライアント端末１３のユーザの発話が始まったと判定した場合、処理はステップＳ１３に進む。このとき、入力音処理部２２は、発話特徴検出部２３、特定無音期間検出部２４、雑音検出部２５、および音声認識モード切り替え処理部２６への発話区間の音声情報の供給を開始する。

　ステップＳ１３において、発話特徴検出部２３は、入力音処理部２２から供給される発話区間の音声情報から発話特徴を検出する処理を行い、発話特徴検出結果を音声認識モード切り替え処理部２６に供給する。例えば、発話特徴検出結果には、音声情報の音量レベルを通常時音量レベルと比較した結果や、音声情報の音声速度が相対的に低下したことを検出した結果、音声情報の音声周波数が相対的に高くなったことを検出した結果などが含まれる。

　ステップＳ１４において、特定無音期間検出部２４は、入力音処理部２２から供給される発話区間の音声情報から特定無音期間を検出する処理を行い、特定無音期間が検出された場合には、特定無音期間検出結果を音声認識モード切り替え処理部２６に供給する。例えば、特定無音期間検出結果には、特定無音期間検出部２４が特定無音期間を検出したタイミングおよび間隔が含まれる。

　ステップＳ１５において、雑音検出部２５は、入力音処理部２２から供給される発話区間の音声情報から雑音を検出する処理を行い、所定レベル以上の雑音が検出された場合には、その旨を示す雑音検出結果を音声認識モード切り替え処理部２６に供給する。

　ステップＳ１６において、音声認識モード切り替え処理部２６は、発話特徴検出結果、特定無音期間、および雑音検出結果に基づいて、特殊モードの音声認識処理を行う条件が発生したか否かを判定する。例えば、音声認識モード切り替え処理部２６は、音声情報に基づく音声の音量レベルが通常時の音量レベルよりも大きく、所定期間（例えば、１～２秒間）に特定無音期間が２回以上検出された場合、特殊モードの音声認識処理を行う条件が発生したと判定する。

　同様に、音声認識モード切り替え処理部２６は、音声情報に基づく音声の入力速度が相対的に遅く、所定期間に特定無音期間が２回以上検出された場合、特殊モードの音声認識処理を行う条件が発生したと判定する。また、音声認識モード切り替え処理部２６は、音声情報に基づく音声の周波数が相対的に高く、所定期間に特定無音期間が２回以上検出された場合、特殊モードの音声認識処理を行う条件が発生したと判定する。例えば、ユーザは、ＩＤなどの特殊文字を発話するとき、一般的に、通常の会話よりも大きな音声で発話したり、ゆっくりとした口調で発話したり、高い声で発話したりする傾向がある。従って、上述のような条件のとき、特殊モードの音声認識処理を選択することが好ましい。また、音声認識モード切り替え処理部２６は、雑音検出結果が、所定レベル以上の雑音が検出されていることを示している場合、特殊モードの音声認識処理を選択せずに、通常モードの音声認識処理を行わせる。

　ステップＳ１６において、音声認識モード切り替え処理部２６が、特殊モードの音声認識処理を行う条件が発生していないと判定した場合、処理はステップＳ１７に進む。

　ステップＳ１７において、音声認識モード切り替え処理部２６は、入力音処理部２２から供給される発話区間の音声情報を通常モード音声認識部２７に供給し、通常モード音声認識部２７は、通常モードの音声認識処理を行う。

　ステップＳ１８において、通常モード音声認識部２７は、例えば、音声情報から単語を認識するたびに、その単語を音声認識結果として音声認識結果出力処理部２９に供給する。音声認識結果出力処理部２９は、通常モードの音声認識処理により取得された音声認識結果であることを、クライアント端末１３のユーザに認識させるユーザインタフェースを出力させる音声認識結果情報を生成して、通信部２１に供給する。これにより、クライアント端末１３では、図６を参照して上述したようなユーザインタフェースが表示される。

　ステップＳ１９において、音声認識モード切り替え処理部２６は、通常モードの音声認識処理を終了するか否かを判定する。例えば、音声認識モード切り替え処理部２６は、ステップＳ１６と同様に特殊モードの音声認識処理を行う条件が発生したか否かを常に監視しており、特殊モードの音声認識処理を行う条件が発生したときには、通常モードの音声認識処理を終了すると判定する。また、例えば、音声認識モード切り替え処理部２６は、入力音処理部２２から発話区間の音声情報の供給が停止したときにも、通常モードの音声認識処理を終了すると判定する。

　ステップＳ１９において、音声認識モード切り替え処理部２６が、通常モードの音声認識処理を終了しないと判定した場合、処理はステップＳ１７に戻り、以下、同様の処理が繰り返される。一方、ステップＳ１９において、音声認識モード切り替え処理部２６が、通常モードの音声認識処理を終了すると判定した場合、処理はステップＳ２０に進む。

　ステップＳ２０において、通常モード音声認識部２７は、通常モードの音声認識処理を開始してから終了したときまでの音声認識結果を、音声認識結果出力処理部２９に供給する。音声認識結果出力処理部２９は、その音声認識結果をユーザに提示するユーザインタフェースを出力させる音声認識結果情報を生成して、通信部２１に供給する。これにより、クライアント端末１３では、この時点において、通常モードの音声認識処理によって認識された音声認識結果を示すユーザインタフェースが表示される。

　一方、ステップＳ１６において、音声認識モード切り替え処理部２６が、特殊モードの音声認識処理を行う条件が発生したと判定した場合、処理はステップＳ２１に進む。

　ステップＳ２１において、音声認識モード切り替え処理部２６は、入力音処理部２２から供給される発話区間の音声情報を特殊モード音声認識部２８に供給し、特殊モード音声認識部２８は、特殊モードの音声認識処理を行う。

　ステップＳ２２において、特殊モード音声認識部２８は、図３に示したような文字列数字変換テーブルを参照し、音声認識結果は数字であるか否かを判定する。

　ステップＳ２２において、特殊モード音声認識部２８が、音声認識結果は数字であると判定した場合、処理はステップＳ２３に進み、特殊モード音声認識部２８は、音声認識結果を数字に変換する。

　一方、ステップＳ２２において、特殊モード音声認識部２８が、音声認識結果が数字でないと判定した場合、処理はステップＳ２４に進み、特殊モード音声認識部２８は、音声認識結果を特殊文字に変更する。

　ステップＳ２３またはＳ２４の処理後、処理はステップＳ２５に進み、特殊モード音声認識部２８は、例えば、音声情報から数字または特殊文字を認識するたびに、その音声認識結果を音声認識結果出力処理部２９に供給する。音声認識結果出力処理部２９は、特殊モードの音声認識処理により取得された音声認識結果であることを、クライアント端末１３のユーザに認識させるユーザインタフェースを出力させる音声認識結果情報を生成して、通信部２１に供給する。これにより、クライアント端末１３では、図８および図１１を参照して上述したようなユーザインタフェースが表示される。

　ステップＳ２６において、音声認識モード切り替え処理部２６は、特殊モードの音声認識処理を終了するか否かを判定する。例えば、音声認識モード切り替え処理部２６は、ステップＳ１６で発生した特殊モードの音声認識処理を行う条件が継続しているか否かを常に監視しており、特殊モードの音声認識処理を行う条件が継続しなくなったとき、特殊モードの音声認識処理を終了すると判定する。また、例えば、音声認識モード切り替え処理部２６は、入力音処理部２２から発話区間の音声情報の供給が停止したときにも、特殊モードの音声認識処理を終了すると判定する。

　ステップＳ２６において、音声認識モード切り替え処理部２６が、特殊モードの音声認識処理を終了しないと判定した場合、処理はステップＳ２１に戻り、以下、同様の処理が繰り返される。一方、ステップＳ２６において、音声認識モード切り替え処理部２６が、特殊モードの音声認識処理を終了すると判定した場合、処理はステップＳ２７に進む。

　ステップＳ２７において、特殊モード音声認識部２８は、特殊モードの音声認識処理を開始してから終了したときまでの音声認識結果を、音声認識結果出力処理部２９に供給する。音声認識結果出力処理部２９は、その音声認識結果をユーザに提示するユーザインタフェースを出力させる音声認識結果情報を生成して、通信部２１に供給する。これにより、クライアント端末１３では、この時点において、特殊モードの音声認識処理によって認識された音声認識結果を示すユーザインタフェースが表示される。

　ステップＳ２０またはＳ２７の処理後、処理はステップＳ２８に進み、入力音処理部２２は、クライアント端末１３のユーザによる発話が終わったか否かを判定する。ステップＳ２８において、入力音処理部２２が、発話が終わっていないと判定した場合、処理はステップＳ１３に戻り、以下、同様の処理が繰り返して行われる。

　一方、ステップＳ２８において、入力音処理部２２が、クライアント端末１３のユーザによる発話が終わったと判定した場合、音声認識処理は終了される。

　以上のように、音声認識サーバ１４は、発話特徴検出結果、特定無音期間、および雑音検出結果に基づいて、通常モードの音声認識処理と特殊モードの音声認識処理とを切り替えることができる。これにより、音声認識サーバ１４は、通常の会話の途中に特殊文字が含まれる場合に、それぞれ適切な音声認識処理を行うことができ、より良好な音声入力を提供することができる。

　＜日本語に対する音声認識処理＞

　音声認識システム１１は、日本語に対する音声認識処理に対応することができる。

　上述したように、英語に対する音声認識処理では、特殊モード音声認識部２８において大文字変換モードが行われる。これに対し、日本語に対する音声認識処理では、例えば、特殊モード音声認識部２８において平仮名または片仮名に変換する変換モードを行うことができる。

　例えば、特定無音期間検出部２４により音声情報から特定無音期間が検出された場合、音声認識モード切り替え処理部２６は、ユーザが１文字ずつの音声認識を求めていると判断し、特殊モード音声認識部２８は、１文字モードの音声認識処理を行う。

　このとき、発話特徴検出部２３により音声情報の音量レベルは通常時音量レベル以下であることが検出されると、特殊モード音声認識部２８は、平仮名モードで音声認識処理を行う。その結果、図１４のＡに示すように、アイコン５１の下側には、特殊モードの音声認識処理のうち、１文字モードの音声認識処理を示すマーク「１文字」および平仮名モードの音声認識処理を示すマーク「かな」が表示される。

　一方、発話特徴検出部２３により音声情報の音量レベルは通常時音量レベルを超えていることが検出されると、特殊モード音声認識部２８は、片仮名モードで音声認識処理を行う。その結果、図１４のＢに示すように、アイコン５１の下側には、特殊モードの音声認識処理のうち、１文字モードの音声認識処理を示すマーク「１文字」および片仮名モードの音声認識処理を示すマーク「カナ」が表示される。

　このように、音声認識システム１１は、それぞれの言語に適した特殊モードの音声認識処理を行うことができる。

　＜音声認識システムのＡＰＩ＞

　図１５には、音声認識システム１１による音声認識処理を実現するＡＰＩ（Application Programming Interface）の一例が示されている。

　まず、クライアント端末１３においてユーザの発話が始まったことが検出されると、クライアント端末１３から音声認識サーバ１４に、音声認識処理の開始を指示するスタートコマンド（start()）が送信される。

　続いて、クライアント端末１３から音声認識サーバ１４に、クライアント送信データ（send Client Data(Data)）が順次送信される。クライアント送信データには、例えば、上述したような音声情報「Let's start this battle」、音声情報「BTX」、および音声情報「505」がデータとして格納される。

　そして、音声認識サーバ１４において音声認識処理が行われた後、音声認識サーバ１４からクライアント端末１３に、サーバ送信データ（send Server Data(result Data)）が順次送信される。サーバ送信データには、例えば、上述したような音声認識結果「Let's start this battle」、音声認識結果「BTX」、および音声認識結果「505」がデータとして格納される。また、それぞれの音声認識結果には、データ番号（result_data_num）、テキスト（result_text）、および、モード情報（recognition_mode）が含まれている。

　このようなデータの送受信が、クライアント端末１３および音声認識サーバ１４の間で行われる。その後、クライアント端末１３においてユーザの発話が終わったことが検出されると、クライアント端末１３から音声認識サーバ１４に、音声認識処理の終了を指示するストップコマンド（stop()）が送信される。

　以上のようなＡＰＩにより、音声認識システム１１による音声認識処理を実現することができる。

　＜音声認識結果の表示例＞

　図１６および図１７を参照して、クライアント端末１３における音声認識結果の表示例について説明する。

　図１６に示すように、クライアント端末１３では、例えば、チャットアプリケーションにおいて音声認識を採用することができる。図１６には、ユーザ名「PSZ09」によるコメント「Are you ready?」に対して、ユーザ名「VVX99」によるコメント「Let's start this battle BTX505」が返信され、ユーザ名「BTX505」によるコメント「Yeeeeees」が行われる例が示されている。

　このとき、クライアント端末１３には、チャットを行うユーザ名が登録されているフレンドリストが保持されており、例えば、ユーザ名「VVX99」のフレンドリストには、ユーザ名「PSZ09」やユーザ名「BTX505」などが登録されている。そこで、クライアント端末１３は、フレンドリストに登録されているユーザ名が音声認識結果として得られた場合、そのユーザ名を強調表示することができる。

　図１６に示す例では、ユーザ名「VVX99」によるコメント「Let's start this battle BTX505」のうちユーザ名「BTX505」が太字で強調されるような装飾が施されている。

　同様に、図１７には、表示フィールド５２において、ユーザ名「BTX505」がハイライト表示により強調されている例が示されている。

　このように、クライアント端末１３により、フレンドリストに登録されているユーザ名を強調表示することにより、ユーザは、音声認識結果がユーザ名であることを容易に視認することができる。なお、このようなユーザ名の強調表示は、例えば、音声認識結果出力処理部２９が、音声認識結果情報により指定し、クライアント端末１３に実行させてもよい。

　また、ユーザ名と同様に、クライアント端末１３は、特殊モード音声認識部２８による特殊モードの音声認識処理が行われて得られる音声認識結果に対して強調表示を行うことで、音声認識結果が略称や数字などの特殊文字であることをユーザに認識させる際の補助とすることができる。このように、ユーザが一目で特殊文字を認識することで、コミュニケーションを円滑に行ったり、本来の作業に集中し易くなったりする。

　その他、クライアント端末１３は、例えば、文字色を変えたり、サイズを変えたり、ハイライト表示にしたりするなど、様々な方法により音声認識結果を強調することができる。なお、クライアント端末１３は、合成音声により音声認識結果を出力する場合には、通常モードの音声認識処理による音声認識結果は、通常の音量で出力し、特殊モードの音声認識処理による音声認識結果は、通常よりも大きな音量で出力することができる。または、特殊モードの音声認識処理による音声認識結果を出力する際の音質を変更してもよい。これにより、特殊文字などを、ユーザに容易に認識させることができる。

　このように、音声認識結果出力処理部２９は、通常モードの音声認識処理による音声認識結果と、特殊モードの音声認識処理による音声認識結果とで、ユーザインタフェースの表現を変更させる音声認識結果情報を生成することができる。

　なお、例えば、音声認識モード切り替え処理部２６は、通常モードの音声認識処理を複数回繰り返しても、同様の音声情報が供給される場合、即ち、ユーザが同じ発話を繰り返している場合、音声認識結果が間違っているものと判断して、特殊モードの音声認識処理を行うようにしてもよい。また、ユーザが、同じ音声認識結果に対する音声入力を全削除する操作を行ったという情報が供給された場合、音声認識結果が間違っていたと判断することができる。従って、この場合、音声認識モード切り替え処理部２６は、例えば、通常モードの音声認識処理を３回行っても、音声入力の全削除が繰り返して行われると、その次に供給される音声情報に対しては、特殊モードの音声認識処理を行うようにすることができる。

　また、例えば、音声認識モード切り替え処理部２６は、音声入力を行う対象となるテキストフィールドの属性によって、特殊モードの音声認識処理の選択を決定することができる。例えば、郵便番号を入力するテキストフィールドでは、数字のみを入力する属性であることより、音声認識モード切り替え処理部２６は、特殊モードの音声認識処理において数字変換モードを行うように決定することができる。

　ところで、特殊モード音声認識部２８は、上述したようなユーザ名「BTX505」に対する音声認識結果「BTX」および音声認識結果「505」のうち、一方の音声認識結果の信頼度が低い場合、いずれか一方の音声認識結果だけを表示させることができる。即ち、このようなユーザ名に対しては、一部が間違った音声認識結果が表示されるよりも、ユーザは、正しい音声認識結果が一部だけ表示された場合の方が、滞りなくユーザ名であることを認識することができる。

　また、例えば、クライアント端末１３において特殊モードの音声認識処理を指示するような操作が行われた場合、音声認識モード切り替え処理部２６は、その操作に従って、特殊モードの音声認識処理にモードを切り替えることができる。

　さらに、音声認識システム１１では、１台の音声認識サーバ１４だけを接続するのではなく、例えば、複数台の音声認識サーバ１４を接続して、同一の音声情報に対して同時にそれぞれの音声認識サーバ１４で音声認識処理を行うことができる。この場合、複数の音声認識結果に対して信頼度が付けられて提示され、ユーザにより選択できるようなユーザインタフェースとすることができる。

　なお、上述のフローチャートを参照して説明した各処理は、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含むものである。また、プログラムは、１のCPU（Central Processing Unit）により処理されるものであっても良いし、複数のCPUによって分散処理されるものであっても良い。

　また、上述した一連の処理（情報処理方法）は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラムが記録されたプログラム記録媒体からインストールされる。

　図１８は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

　ここで、図１８に示すコンピュータ１０１は、例えば、図１のクライアント端末１３に対応し、ネットワーク１２を介して処理を行うことなく、クライアント端末１３単体で処理を行うことができる構成例が示されている。

　コンピュータ１０１は、音声情報取得装置１０２、映像出力装置１０３、音声出力装置１０４、CPU１０５、メモリ１０６、記憶装置１０７、ネットワーク入出力装置１０８を備えて構成される。さらに、コンピュータ１０１は、図２に示した音声認識サーバ１４と同様に、通信部２１、入力音処理部２２、発話特徴検出部２３、特定無音期間検出部２４、雑音検出部２５、音声認識モード切り替え処理部２６、通常モード音声認識部２７、特殊モード音声認識部２８、および音声認識結果出力処理部２９を備える。

　例えば、音声情報取得装置１０２はマイクロホンにより構成され、映像出力装置１０３はディスプレイにより構成され、音声出力装置１０４はスピーカにより構成される。また、ネットワーク入出力装置１０８は、図２の通信部２１に対応し、例えば、ＬＡＮ（Local Area Network）の規格に従った通信を行うことができる。

　そして、コンピュータ１０１では、CPU１０５が、記憶装置１０７に記憶されているプログラムをメモリ１０６に読み出して実行することにより、上述した一連の処理が行われる。

　なお、CPU１０５が実行するプログラムは、例えば、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアに記録して提供したり、ネットワーク入出力装置１０８を利用して、有線または無線の伝送媒体を介して提供することができる。

　なお、本技術は以下のような構成も取ることができる。
（１）
　ユーザの発話により得られる音声情報を取得して、前記音声情報から発話の特徴を検出する発話特徴検出部と、
　前記音声情報に音声が含まれている発話区間を検出する処理においては無音期間と判定されない特定の短い無音期間である特定無音期間を検出する特定無音期間検出部と、
　前記発話特徴検出部により前記音声情報から検出された前記発話の特徴、および、前記特定無音期間検出部により前記音声情報から検出された前記特定無音期間に基づいて、前記音声情報に対して行われる音声認識処理を選択する選択部と、
　前記選択部により選択された音声認識処理で認識された音声認識結果とともに、その音声認識結果が得られた音声認識処理を示す音声認識結果情報を出力する出力処理部と
　を備える情報処理装置。
（２）
　前記選択部は、前記音声情報に対して行われる音声認識処理として、通常の文字列を認識する通常モードの音声認識処理、および、特殊な文字列を認識する特殊モードの音声認識処理のいずれかを選択する
　上記（１）に記載の情報処理装置。
（３）
　前記選択部は、前記発話特徴検出部により前記音声情報から特定の特徴が検出されたと判定し、かつ、前記特定無音期間検出部により前記音声情報から所定の間隔で前記特定無音期間が繰り返して検出されたと判定した場合、前記特殊モードの音声認識処理を選択する
　上記（２）に記載の情報処理装置。
（４）
　前記発話特徴検出部は、前記音声情報に基づく音声の音量レベルを前記発話の特徴として検出し、
　前記選択部は、前記音声の音量レベルが、予め設定されている所定の音量レベルを超えている場合、前記音声情報から前記特定の特徴が検出されたと判定する
　上記（３）に記載の情報処理装置。
（５）
　前記発話特徴検出部は、前記音声情報に基づく音声の入力速度を前記発話の特徴として検出し、
　前記選択部は、前記発話特徴検出部により検出される音声の入力速度が、相対的に遅くなる変化が発生した場合、前記音声情報から前記特定の特徴が検出されたと判定する
　上記（３）または（４）に記載の情報処理装置。
（６）
　前記発話特徴検出部は、前記音声情報に基づく音声の周波数を前記発話の特徴として検出し、
　前記選択部は、前記発話特徴検出部により検出される音声の周波数が、相対的に高くなる変化が発生した場合、前記音声情報から前記特定の特徴が検出されたと判定する
　上記（３）から（５）までのいずれかに記載の情報処理装置。
（７）
　前記特殊モードの音声認識処理では、音声認識により認識した単語が数字に変換されて出力される
　上記（２）から（６）までのいずれかに記載の情報処理装置。
（８）
　前記特殊モードの音声認識処理では、音声認識により認識したアルファベットが１文字ごとに大文字に変換されて出力される
　上記（２）から（７）までのいずれかに記載の情報処理装置。
（９）
　前記特殊モードの音声認識処理では、音声認識により認識した１文字ごとに片仮名に変換されて出力される
　上記（２）から（８）までのいずれかに記載の情報処理装置。
（１０）
　前記音声情報に含まれている雑音の音量レベルを検出する雑音検出部をさらに備え、
　前記選択部は、前記雑音の音量レベルが、予め設定されている所定の音量レベルを超えている場合、前記特殊モードの音声認識処理の選択を回避する
　上記（２）から（９）までのいずれかに記載の情報処理装置。
（１１）
　前記出力処理部は、前記通常モードの音声認識処理による音声認識結果と、前記特殊モードの音声認識処理による音声認識結果とで、ユーザインタフェースの表現を変更する
　上記（２）から（１０）までのいずれかに記載の情報処理装置。
（１２）
　ネットワークを介して他の装置と通信を行う通信部と、
　前記音声情報に音声が含まれている発話区間を検出する処理を行う入力音処理部と
　をさらに備え、
　前記通信部は、
　　前記ネットワークを介して前記他の装置から送信されてくる前記音声情報を取得して前記入力音処理部に供給し、
　　前記出力処理部から出力される前記音声認識結果情報を、前記ネットワークを介して前記他の装置に送信する
　上記（１）から（１１）までのいずれかに記載の情報処理装置。
（１３）
　ユーザの発話により得られる音声情報を取得して、前記音声情報から発話の特徴を検出し、
　前記音声情報に音声が含まれている発話区間を検出する処理においては無音期間と判定されない特定の短い無音期間である特定無音期間を検出し、
　前記音声情報から検出された前記発話の特徴、および、前記音声情報から検出された前記特定無音期間に基づいて、前記音声情報に対して行われる音声認識処理を選択し、
　選択された音声認識処理で認識された音声認識結果とともに、その音声認識結果が得られた音声認識処理を示す音声認識結果情報を出力する
　ステップを含む情報処理方法。
（１４）
　ユーザの発話により得られる音声情報を取得して、前記音声情報から発話の特徴を検出し、
　前記音声情報に音声が含まれている発話区間を検出する処理においては無音期間と判定されない特定の短い無音期間である特定無音期間を検出し、
　前記音声情報から検出された前記発話の特徴、および、前記音声情報から検出された前記特定無音期間に基づいて、前記音声情報に対して行われる音声認識処理を選択し、
　選択された音声認識処理で認識された音声認識結果とともに、その音声認識結果が得られた音声認識処理を示す音声認識結果情報を出力する
　ステップを含む情報処理をコンピュータに実行させるプログラム。

　なお、本実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。

　１１　音声認識システム，　１２　ネットワーク，　１３　クライアント端末，　１４　音声認識サーバ，　２１　通信部，　２２　入力音処理部，　２３　発話特徴検出部，　２４　特定無音期間検出部，　２５　雑音検出部，　２６　音声認識モード切り替え処理部，　２７　通常モード音声認識部，　２８　特殊モード音声認識部，　２９　音声認識結果出力処理部，　５１　アイコン，　５２　表示フィールド，　１０１　コンピュータ，　１０２　音声情報取得装置，　１０３　映像出力装置，　１０４　音声出力装置，　１０５　CPU，　１０６　メモリ，　１０７　記憶装置，　１０８　ネットワーク入出力装置

Claims

　ユーザの発話により得られる音声情報を取得して、前記音声情報から発話の特徴を検出する発話特徴検出部と、
　前記音声情報に音声が含まれている発話区間を検出する処理においては無音期間と判定されない特定の短い無音期間である特定無音期間を検出する特定無音期間検出部と、
　前記発話特徴検出部により前記音声情報から検出された前記発話の特徴、および、前記特定無音期間検出部により前記音声情報から検出された前記特定無音期間に基づいて、前記音声情報に対して行われる音声認識処理を選択する選択部と、
　前記選択部により選択された音声認識処理で認識された音声認識結果とともに、その音声認識結果が得られた音声認識処理を示す音声認識結果情報を出力する出力処理部と
　を備える情報処理装置。
　前記選択部は、前記音声情報に対して行われる音声認識処理として、通常の文字列を認識する通常モードの音声認識処理、および、特殊な文字列を認識する特殊モードの音声認識処理のいずれかを選択する
　請求項１に記載の情報処理装置。
　前記選択部は、前記発話特徴検出部により前記音声情報から特定の特徴が検出されたと判定し、かつ、前記特定無音期間検出部により前記音声情報から所定の間隔で前記特定無音期間が繰り返して検出されたと判定した場合、前記特殊モードの音声認識処理を選択する
　請求項２に記載の情報処理装置。
　前記発話特徴検出部は、前記音声情報に基づく音声の音量レベルを前記発話の特徴として検出し、
　前記選択部は、前記音声の音量レベルが、予め設定されている所定の音量レベルを超えている場合、前記音声情報から前記特定の特徴が検出されたと判定する
　請求項３に記載の情報処理装置。
　前記発話特徴検出部は、前記音声情報に基づく音声の入力速度を前記発話の特徴として検出し、
　前記選択部は、前記発話特徴検出部により検出される音声の入力速度が、相対的に遅くなる変化が発生した場合、前記音声情報から前記特定の特徴が検出されたと判定する
　請求項３に記載の情報処理装置。
　前記発話特徴検出部は、前記音声情報に基づく音声の周波数を前記発話の特徴として検出し、
　前記選択部は、前記発話特徴検出部により検出される音声の周波数が、相対的に高くなる変化が発生した場合、前記音声情報から前記特定の特徴が検出されたと判定する
　請求項３に記載の情報処理装置。
　前記特殊モードの音声認識処理では、音声認識により認識した単語が数字に変換されて出力される
　請求項２に記載の情報処理装置。
　前記特殊モードの音声認識処理では、音声認識により認識したアルファベットが１文字ごとに大文字に変換されて出力される
　請求項２に記載の情報処理装置。
　前記特殊モードの音声認識処理では、音声認識により認識した１文字ごとに片仮名に変換されて出力される
　請求項２に記載の情報処理装置。
　前記音声情報に含まれている雑音の音量レベルを検出する雑音検出部をさらに備え、
　前記選択部は、前記雑音の音量レベルが、予め設定されている所定の音量レベルを超えている場合、前記特殊モードの音声認識処理の選択を回避する
　請求項２に記載の情報処理装置。
　前記出力処理部は、前記通常モードの音声認識処理による音声認識結果と、前記特殊モードの音声認識処理による音声認識結果とで、ユーザインタフェースの表現を変更する
　請求項２に記載の情報処理装置。
　ネットワークを介して他の装置と通信を行う通信部と、
　前記音声情報に音声が含まれている発話区間を検出する処理を行う入力音処理部と
　をさらに備え、
　前記通信部は、
　　前記ネットワークを介して前記他の装置から送信されてくる前記音声情報を取得して前記入力音処理部に供給し、
　　前記出力処理部から出力される前記音声認識結果情報を、前記ネットワークを介して前記他の装置に送信する
　請求項１に記載の情報処理装置。
　ユーザの発話により得られる音声情報を取得して、前記音声情報から発話の特徴を検出し、
　前記音声情報に音声が含まれている発話区間を検出する処理においては無音期間と判定されない特定の短い無音期間である特定無音期間を検出し、
　前記音声情報から検出された前記発話の特徴、および、前記音声情報から検出された前記特定無音期間に基づいて、前記音声情報に対して行われる音声認識処理を選択し、
　選択された音声認識処理で認識された音声認識結果とともに、その音声認識結果が得られた音声認識処理を示す音声認識結果情報を出力する
　ステップを含む情報処理方法。
　ユーザの発話により得られる音声情報を取得して、前記音声情報から発話の特徴を検出し、
　前記音声情報に音声が含まれている発話区間を検出する処理においては無音期間と判定されない特定の短い無音期間である特定無音期間を検出し、
　前記音声情報から検出された前記発話の特徴、および、前記音声情報から検出された前記特定無音期間に基づいて、前記音声情報に対して行われる音声認識処理を選択し、
　選択された音声認識処理で認識された音声認識結果とともに、その音声認識結果が得られた音声認識処理を示す音声認識結果情報を出力する
　ステップを含む情報処理をコンピュータに実行させるプログラム。