WO2014103035A1

WO2014103035A1 - 音声認識デバイス

Info

Publication number: WO2014103035A1
Application number: PCT/JP2012/084150
Authority: WO
Inventors: 満次吉田; 温臼井
Original assignee: 株式会社レイトロン
Priority date: 2012-12-28
Filing date: 2012-12-28
Publication date: 2014-07-03
Also published as: JP6059253B2; CN104871241A; JPWO2014103035A1

Abstract

　音声認識デバイスは、オプション機器を無線または有線により接続可能な端末との接続状態が確立されたことに応じて（Ｓ１２８）、音声の認識処理を実行するための認識処理部が作動可能とされる（Ｓ１３０）。音声認識デバイスは、音声が入力されると（Ｓ１３２）、音声認識処理を実行する（Ｓ１３４）。そして、記憶部に記憶されたコード対応情報に基づいて、認識処理結果を示す単語または文字を、オプション機器に特有の指示コード情報に変換する（Ｓ１３６）。変換処理部による変換後の指示コード情報を、接続されている端末である接続相手に送信する（Ｓ１３８）。

Description

音声認識デバイス

　本発明は、オプション機器を無線または有線により接続可能な端末と通信する音声認識デバイスに関する。

　従来より、音声認識率を向上させる技術が存在する。

　たとえば特開２０１０－２６６４８８号公報（特許文献１）には、音声認識に用いられる音声認識モデルパラメータが、複数の雑音が重畳された音声データの特徴量を正規化して作成されることが開示されている。複数の雑音が重畳された音声データの特徴量を正規化することで、複数の雑音が一般化されるため、音声認識の際に未知の雑音が混入した場合でも、音声認識率を高く維持することができる。

　また、端末以外の装置で音声認識を行い、その認識結果に基づいて端末の操作を行う技術も存在する。

　たとえば特開２００２－１０８６０３号公報（特許文献２）には、リモートコントローラ装置の入力モード機能キーを操作して、パソコン本体を音声入力モードに切替えた後に、リモートコントローラ装置において、マイクロホンから入力された音声が文字データ信号に変換されることが記載されている。また、文字データ信号が、キー入力部から出力される制御信号とともにリモート信号として生成されて、パソコン本体に赤外線にて送信されることが記載されている。

　ＷＯ２００９／１２２７５６号パンフレット（特許文献３）には、Ｇリモコン（グリッド型のドットパターンを読むリモコン）において、入力された音声の認識処理が行われ、処理後の文字列（たとえば「てれびでんげんおん」）がクレードルまたは携帯電話に送られることが記載されている。

　特開２００３－８７３５９号公報（特許文献４）には、運転者が着用するヘルメットに着用可能なブルートゥース通信装置が、携帯電話と通信する機能を有しており、マイクに入力される音声について音声認識を行う音声認識ユニットと、認識された音声を制御信号に変換する制御ユニットとを備えることが記載されている。

特開２０１０－２６６４８８号報特開２００２－１０８６０３号公報ＷＯ２００９／１２２７５６号パンフレット特開２００３－８７３５９号公報

　上記特開２０１０－２６６４８８号報（特許文献１）に記載されたような高精度な音声認識技術を、様々な種類の端末の操作等に利用したいという要望がある。しかしながら、現在流通しているスマートフォンなどの端末に音声認識機能を新たに付加するには、端末のＯＳ（Operation System）に音声認識機能を組み込む必要があるため、手間と時間がかかる。また、既に音声認識機能が搭載された端末も存在するが、その認識性能は、端末の種類あるいは機種によってまちまちであり、適切に音声が認識されない場合がある。

　ここで、上述のように、端末以外の装置で音声認識を行い、その認識結果に基づいて端末を操作する技術も存在する。しかしながら、これらの技術では、従来から存在するリモコンやヘッドセットに音声認識機能を搭載しているため、このような装置において音声認識機能を作動させるにはユーザによる特定の操作が必要となる。

　本発明は、上記のような課題を解決するためになされたものであって、その目的は、既存の端末に手を加えることなく音声認識機能を付加することのできる音声認識デバイスを提供することである。

　また、ユーザによる操作を必要とせずに、音声認識機能を作動させることのできる音声認識デバイスを提供することも、他の目的とする。

　本発明のある局面に従う音声認識デバイスは、オプション機器を無線または有線により接続可能な端末と通信する音声認識デバイスであって、音声を入力するための音声入力手段と、入力された音声の認識処理を実行するための認識処理手段とを備える。認識処理手段は、端末との接続状態が確立されたことに応じて作動可能とされる。音声認識デバイスは、複数の単語または文字と、それぞれに対応するオプション機器に特有の指示コード情報とが関連付けられたコード対応情報を予め記憶するための記憶手段と、記憶手段に記憶されたコード対応情報に基づいて、認識処理手段による認識処理結果を示す単語または文字を、指示コード情報に変換するための変換処理手段と、変換処理手段による変換後の指示コード情報を、接続されている端末である接続相手に送信するための通信手段とをさらに備える。

　好ましくは、オプション機器は、指示入力装置を含み、指示コード情報は、指示入力装置から出力されるコード番号である。

　好ましくは、記憶手段は、さらに、自装置の識別情報および種類情報を含む機器情報を予め記憶し、種類情報は、自装置の種類が指示入力装置であることを示す情報である。

　好ましくは、音声認識デバイスは、端末から、オプション機器の存在を問い合わせる第１の問合せ信号を受信した場合に、第１の問合せ信号を送信してきた端末を、接続相手として判別するための判別処理手段をさらに備える。判別処理手段は、第１の問合せ信号を受信した場合に、機器情報を含む第１の応答信号を生成し、第１の問合せ信号を送信してきた端末に、第１の応答信号を返信する。

　好ましくは、通信手段は、判別処理手段により接続相手として判別された端末と無線通信を実行し、音声認識デバイスは、事前に、端末との間でペアリング設定処理を実行するための設定処理手段をさらに備える。

　好ましくは、設定処理手段は、オプション機器の探索を受付け可能な状態において、端末から第２の問合せ信号を受信した場合に、機器情報を含む第２の応答信号を生成し、第２の問合せ信号を送信してきた端末に、第２の応答信号を返信する。

　好ましくは、音声認識デバイスは、複数のキーを含み、ユーザにより操作される操作手段をさらに備える。設定処理手段は、操作手段の操作を受付け、操作手段の操作に応じたコード番号を、ペアリングのためのパスキーとして、通信手段より端末に送信する。

　好ましくは、設定処理手段は、音声入力手段への音声入力を受付け、認識処理手段による音声の認識処理結果が変換処理手段により変換されたコード番号を、ペアリングのためのパスキーとして、通信手段より端末に送信する。

　好ましくは、通信手段は、判別処理手段により接続相手として判別された端末と有線通信を実行する。

　本発明によれば、オプション機器を接続可能な既存の端末に手を加えることなく音声認識機能を付加することができる。また、端末との接続状態が確立したことに応じて音声認識機能が作動可能とされるため、ユーザによる操作を必要とせずに、音声による端末の操作等を行うことができる。

本発明の実施の形態に係る音声認識システムの構成例を示す図である。本発明の実施の形態に係る音声認識デバイスのハードウェアブロック図である。本発明の実施の形態に係る情報処理端末のハードウェアブロック図である。本発明の実施の形態に係る音声認識デバイスの機能構成を示す機能ブロック図である。本発明の実施の形態におけるペアリング設定処理を示すフローチャートである。本発明の実施の形態における定常通信処理を示すフローチャートである。本発明の実施の形態に係る音声認識デバイスにおいて実行される音声認識処理を示すフローチャートである。本発明の実施の形態の変形例に係る音声認識デバイスのハードウェアブロック図である。

　本発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当手段分には同一符号を付してその説明は繰返さない。

　＜構成について＞
　（システム構成）
　はじめに、本実施の形態に係る音声認識デバイスを備える音声認識システムの構成例について説明する。

　図１は、本発明の実施の形態に係る音声認識システム１の構成例を示す図である。

　図１を参照して、音声認識システム１は、音声認識デバイス１０、および、音声認識デバイス１０と通信可能な端末として情報処理端末２０を含む。

　情報処理端末２０は、オプション機器を無線または有線により接続可能であり、たとえば、ノートＰＣ（Personal Computer）、スマートフォン、およびタブレットＰＣなどを含む。上記オプション機器は、既存の周辺機器であってよく、たとえば、ユーザからの指示を受付けるための指示入力装置や、音声通話を可能とするための通話装置（ヘッドセット）などが含まれる。指示入力装置には、キーボード等の文字入力デバイス、および、マウスなどのポインティングデバイスが含まれる。

　音声認識デバイス１０は、マイクロフォン１４１を有し、音声により情報処理端末２０の操作を可能とするための音声認識専用のモジュールである。ただし、音声認識デバイス１０は、情報処理端末２０との通信においては、上記した既存のオプション機器のうち指示入力装置として動作する。したがって、自装置での音声認識結果を、指示入力装置に特有の指示コード情報に変換して情報処理端末２０に送信する。以下の説明においては、音声認識デバイス１０は、指示入力装置のうち文字入力デバイス（以下「キーボード」という）として動作することとする。

　本実施の形態において、音声認識デバイス１０と情報処理端末２０とは、無線にて接続可能であり、両者はBluetooth（登録商標）規格によって双方向通信を行う。なお、Bluetooth規格による通信は一例であり、他の規格によって無線通信されてもよい。

　（ハードウェア構成）
　次に、音声認識デバイス１０および情報処理端末２０それぞれのハードウェア構成例について説明する。

　図２は、本発明の実施の形態に係る音声認識デバイス１０のハードウェアブロック図である。

　図２を参照して、音声認識デバイス１０は、各種演算処理を実行するＣＰＵ（Central Processing Unit）１１と、情報処理端末２０とのBluetooth通信を実現するための通信モジュール１２と、充電池または乾電池を含む電源部１３と、マイクロフォン１４１からの音声を入力する音声入力部１４と、入力された音声データをデジタルデータに変換するためのＡ／Ｄ（Analog to Digital）変換部１５と、プログラムや各種情報を記憶するための不揮発性の記憶部１６と、ユーザによる操作される操作部１７とを備える。操作部１７は、図１に示した接続ボタン１７１を含み、後述のペアリング設定処理の際に必要となるボタンのみを含む。

　図３は、本発明の実施の形態に係る情報処理端末２０のハードウェアブロック図である。

　図３を参照して、情報処理端末２０は、一般的なスマートフォン等と同様の構成であってよく、たとえば、各種演算処理を実行するＣＰＵ２１と、各種オプション機器とのBluetooth通信を実現するための通信モジュール２２と、電源部２３と、プログラムや情報を記憶するための不揮発性の記憶部２６と、ユーザにより操作される操作部２７と、各種情報を表示するための表示部２８と、オプション機器を含む周辺機器のＵＳＢ端子を受け入れるためのＵＳＢ端子２９とを備える。

　（機能構成）
　続いて、本発明の実施の形態に係る音声認識装置１０の機能構成例について説明する。

　図４は、本発明の実施の形態に係る音声認識デバイス１０の機能構成を示す機能ブロック図である。

　図４を参照して、音声認識デバイス１０は、その機能として、設定処理部１０２、判別処理部１０４、認識処理部１０６、変換処理部１０８、および、通信部１１０を含む。

　設定処理部１０２は、事前に、情報処理端末２０との間でペアリング設定処理を実行する。本実施の形態において、「ペアリング設定処理」とは、他人の情報処理端末との意図しない接続を回避するために、予め、対象の情報処理端末２０に音声認識デバイス１０の登録をさせておく処理をいう。設定処理部１０２で実行されるペアリング設定処理は、情報処理端末２０の通信モジュール１２に搭載されているBluetooth規格のプロファイルに対応するよう定められている。本実施の形態において、情報処理端末２０においてペアリング設定されたオプション機器を「接続可能なオプション機器」という。

　設定処理部１０２は、操作部１７の接続ボタン１７１が押下されたことに応じて作動する。これにより、音声認識デバイス１０は、オプション機器の探索を受付け可能な状態となる。この状態において、情報処理端末２０から、オプション機器の存在を問合せる問合せ信号を受信した場合に、機器情報を含む応答信号を生成して返信する。「機器情報」とは、音声認識デバイス１０に関する情報であり、自装置の識別情報（以下「ＩＤコード」という）と種類情報とを含む。種類情報は、自装置の種類が「キーボード」であることを示す情報である。機器情報は、記憶部１６内に予め記憶されている。

　判別処理部１０４は、ペアリング設定処理（ペアリング設定モード）時以外の通信処理（以下「定常通信処理」という）において、オプション機器の存在を問合せる問合せ信号を送信してきた情報処理端末２０を、接続相手として判別するための処理を実行する。判別処理部１０４は、設定処理部１０２の処理と同様に、当該問合せ信号を受信した場合に、機器情報を含む応答信号を生成して返信する。

　判別処理部１０４が返信した応答信号により、情報処理端末２０において音声認識デバイス１０が接続可能なオプション機器であるかが判断される。そうであれば、たとえば接続を許可する信号（以下「許可信号」という）が音声認識デバイス１０に送信される。音声認識デバイス１０において、当該許可信号を受信した時点で、情報処理端末２０との接続状態が確立する。

　認識処理部１０６は、音声入力部１４に入力された音声の認識処理を実行する。具体的には、Ａ／Ｄ変換部１５においてデジタル化された音声データと、たとえばＨＭＭ（Hidden Markov Model）に基づくモデルパラメータ１６１とに基づいて、音声の認識処理を実行する。モデルパラメータ１６１は、音声認識に用いられる学習データであり、たとえば特開２０１０－２６６４８８号公報（特許文献１）に記載の学習方法により作成されたパラメータである。なお、具体的な音声認識処理については後述する。認識処理部１０６は、情報処理端末２０との接続状態が確定したことに応じて作動可能状態とされる。つまり、本実施の形態では、ユーザからの音声入力モードへの切り替え指示等を受付けることなく、音声認識モードに移行される。

　変換処理部１０８は、コード対応テーブル１６２に基づいて、認識処理部１０６による認識処理結果を示す単語または文字を、コード番号に変換する。コード番号は、汎用のキーボードから出力される指示コード情報である。コード対応テーブル１６２は、複数の単語または文字と、それぞれに対応するコード番号とが関連付けられたコード対応情報の一例である。なお、本実施の形態において「文字」には数字および記号も含まれる。

　通信部１１０は、設定処理部１０２および判別処理部１０４による処理の際に、上記した問合せ信号の受信および応答信号の送信を行う。また、変換処理部１０８による変換後のコード番号を、接続相手である情報処理端末２０に送信する。通信部１１０は、本実施の形態では、通信モジュール１２により実現される。

　なお、図４に示した各処理部１０２～１０８の機能は、ＣＰＵ１１が記憶部１６に格納されたソフトウェアを実行することで実現されてもよいし、これらのうちの少なくとも１つは、ハードウェアにより実現されてもよい。また、モデルパラメータ１６１およびコード対応テーブル１６２は、たとえば記憶部１６に記憶されていてよい。

　＜動作について＞
　次に、本実施の形態における音声認識システム１の動作について説明する。

　（ペアリング設定処理）
　図５は、本発明の実施の形態におけるペアリング設定処理を示すフローチャートである。

　図５を参照して、情報処理端末２０において、ユーザからの指示に基づきBluetoothの有効化を設定する（ステップＳ（以下「Ｓ」と略す）２）。そうすると、情報処理端末２０において、所定の問合せ信号を送信することで、Bluetooth端末、すなわちオプション機器の探索処理が実行される（Ｓ４）。

　音声認識デバイス１０においては、ＣＰＵ１１が接続ボタン１７１の押下を検知すると（Ｓ２２）、記憶部１６に格納されたペアリング設定プログラムが読み出されて、ペアリング設定モードに移行する。そうすると、設定処理部１０２は、オプション機器の探索を受付け可能な状態となる（Ｓ２４）。音声認識デバイス１０が情報処理端末２０の近傍に存在すると、情報処理端末２９からの問合せ信号を受信する（Ｓ２６）。なお、ペアリング設定モードに移行してから所定時間内に問合せ信号を受信しない場合には、当該設定処理は終了される。

　設定処理部１０２は、所定時間内に問合せ信号を受信すると、記憶部１６より、機器情報として、自装置のＩＤコードおよび種類情報を読出す（Ｓ２８）。種類情報は、上述のようにキーボードであることを示す情報である。設定処理部１０２は、読出した機器情報を含む応答信号を生成し、問合せ信号を送信してきた情報処理端末２０に送信する（Ｓ３０）。なお、「問合せ信号」には、情報処理端末２０を識別するための識別情報が含まれていてもよい。

　情報処理端末２０は、音声認識デバイス１０からの応答信号を受信すると（Ｓ６）、応答信号に含まれた機器情報をＣＰＵ２１の内部メモリに一時記憶する。機器情報より、オプション機器がキーボードであると判別されるため、表示部２８にパスキーが表示される（Ｓ８）。ここで表示されるパスキーは、情報処理端末２０の実装に応じて、固定の数字（たとえば「００００」）である場合と、ランダムな数字である場合とがある。

　続いて、音声認識デバイス１０の設定処理部１０２は、ユーザからのパスキーの入力を受付ける（Ｓ３２）。音声認識デバイス１０の操作部１７に、ペアリング設定専用の複数のキーとして、たとえばテンキーおよびエンターキーが含まれる場合、これらのキーが操作されることでパスキーの入力が可能である。テンキーおよびエンターキーが操作されると、当該操作に応じたコード番号が、入力されたパスキーとして情報処理端末２０に送信される（Ｓ３４）。音声認識デバイス１０においては、パスキーを送信した時点で、ペアリング設定モードが終了されてよい。

　情報処理端末２０は、パスキーを受信すると（Ｓ１０）、表示中のパスキーと受信したパスキーとが一致しているか否かを判断する（Ｓ１２）。一致していると判断された場合（Ｓ１２にてＹＥＳ）、ペアリング成立として、一時記憶しておいた機器情報を、接続可能なオプション機器の情報として、記憶部２６に記憶する（Ｓ１４）。これにより、記憶部２６には、音声認識デバイス１０のＩＤコードと種類情報（キーボード）とが対応付けて登録される。なお、問合せ信号に情報処理端末２０の種別情報が含まれる場合には、音声認識デバイス１０側においても、ペアリング設定済の情報処理端末の情報として、情報処理端末２０の種別情報を記憶部１６に登録させておくこととしてもよい。

　なお、上述のように、ペアリング設定専用の複数のキーとして、操作部１７にテンキーおよびエンターキーが含まれる場合は、Ｓ８にて情報処理端末２０に表示されるパスキーがどのような数字であってもペアリングを成立させることができる。しかしながら、操作部１７にこれら専用のキーを設けずに、予め定められた数字（たとえば「００００」）を自動的に送信することとしてもよい。この場合、Ｓ８で表示されるパスキーが「００００」に固定の端末、および、表示されたパスキーがユーザにより変更可能な端末との間でのみ、ペアリング設定が可能となる。

　あるいは、パスキーの入力を受付ける処理（Ｓ３２）に代えて、パスキーとして表示された数字についての音声入力を受付けてもよい。この場合、ユーザにより発声された数字および「エンター」との音声が、音声入力部１４に入力される。入力された音声は、認識処理部１０６による認識処理、および、変換処理部１０８による変換処理が実行され、発声された数字および「エンター」を示すコード番号が、情報処理端末２０に送信される。これにより、どの情報処理端末２０に対しても、操作部１７に専用のキーを設けることなくペアリング設定が可能となる。

　（定常通信処理）
　図６は、本発明の実施の形態における定常通信処理を示すフローチャートである。本実施の形態では、スマートフォンに搭載されたBluetooth規格のプロファイルに従った処理を例に説明する。

　図６を参照して、情報処理端末２０の電源がＯＮされた場合に、Bluetooth端末、すなわちオプション機器の探索処理を実行する（Ｓ１０２）。探索処理において、所定の問合せ信号が送信される。

　音声認識デバイス１０は、上述のペアリング設定モード時以外は、待機状態である。つまり、電源がＯＮとされ初期化処理が行なわれた後は、音声認識デバイス１０は待機状態とされる。待機状態の際に問合せ信号を受信すると（Ｓ１２２）、図４に示した判別処理部１０４は、記憶部１６より、機器情報として、自装置のＩＤコードおよび種類情報を読出す（Ｓ１２４）。種類情報は、上述のようにキーボードであることを示す情報である。判別処理部１０４は、読出した機器情報を含む応答信号を生成し、問合せ信号を送信してきた情報処理端末２０に送信する（Ｓ１２６）。なお、ここでの「問合せ信号」にも、情報処理端末２０を識別するための識別情報が含まれていてもよい。

　情報処理端末２０は、音声認識デバイス１０からの応答信号を受信すると（Ｓ１０４）、機器情報より、オプション機器としてキーボードが存在すると判別する（Ｓ１０６）。ここで、機器情報に含まれているＩＤコードが、記憶部２６においてキーボードを示す種類情報と対応付けられて登録されているＩＤコードと一致しているか否かを判断する（Ｓ１０８）。つまり、情報処理端末２０において、応答信号を送信してきた装置が、接続可能なオプション機器であるか否かが判断される。

　ＩＤコードが一致していると判断された場合（Ｓ１０８にてＹＥＳ）、現在の通信相手が接続可能なオプション機器であるため、ＩＤコード判断結果として許可信号を音声認識デバイス１０に送信する（Ｓ１１０）。これにより、音声認識デバイス１０との接続状態が確立され、動作モードはキーボード接続モードに移行される（Ｓ１１４）。キーボード接続モードは、たとえば、情報処理端末２０の電源がＯＦＦされるまで継続されてよい。

　一方、ＩＤコードが一致していないと判断された場合（Ｓ１０８にてＮＯ）、現在の通信相手は接続可能なオプション機器ではないため、ＩＤコード判断結果としてたとえば不許可信号が音声認識デバイス１０に送信される（Ｓ１１２）。Ｓ１１２の処理が終わると、情報処理端末２０でのオプション機器探索処理は終了される。

　音声認識デバイス１０の通信部１１０は、上述の応答信号を送信した後、ＩＤコード判断結果、すなわち許可信号または不許可信号を受信する（Ｓ１２７）。許可信号を受信した場合（Ｓ１２８にてＹＥＳ）、現在の通信相手が接続相手として確定される。したがって、情報処理端末２０との接続状態が確立され、動作モードは音声認識モードに移行される（Ｓ１３０）。これにより、たとえば記憶部１６に格納されている音声認識プログラムが読み出され、認識処理部１０６が作動可能状態とされる。一方、不許可信号を受信した場合（Ｓ１２８にてＮＯ）、定常通信処理は終了され、ＣＰＵ１１は問合せ信号（Ｓ１２２）の待機モードに戻る。

　音声認識デバイス１０の動作モードが音声認識モードになると、認識処理部１０６は、音声入力を受付ける（Ｓ１３２）。音声が入力されると（Ｓ１３２にてＹＥＳ）、たとえば上述の特開２０１０－２６６４８８号公報（特許文献１）に記載の方法により、音声認識処理を実行する（Ｓ１３４）。音声認識処理については、図７にサブルーチンを挙げて説明する。

　図７は、本発明の実施の形態に係る音声認識デバイス１０において実行される音声認識処理を示すフローチャートである。

　図７を参照して、認識処理部１０６は、まず、入力された音声信号の特徴量を算出する（Ｓ２０２）。具体的には、入力された音声信号のうち人の声が含まれている区間を切出し、切出した区間の音声信号をＭＦＣＣ（Mel-frequency cepstral coefficient）特徴量に変換する。

　続いて、雑音の影響を除去するために、特徴量の正規化処理を実行する（Ｓ２０４）。具体的には、たとえば、特徴量をバンドパスフィルタによりフィルタリングし、最大振幅値で除算する。認識処理部１０６は、この正規化後の特徴量より、モデルパラメータ１６１に基づいてＨＭＭを用いた尤度を推定する（Ｓ２０６）。つまり、各ＨＭＭが、正規化後の特徴量の系列を生成する尤度を求める。認識処理部１０６は、各ＨＭＭの尤度値を比較し、尤度が最大となるＨＭＭを認識結果とする（Ｓ２０８）。

　再び図６を参照して、音声認識処理が終わると、変換処理部１０８は、コード対応テーブル１６２に基づいて、認識処理部１０６による認識結果をコード番号に変換する（Ｓ１３６）。たとえば「おおさか」と音声入力され、そのように認識されたとする。その場合、当該変換処理において、汎用のキーボードにおいて「おおさか」と入力した場合と同じコード番号が選択される。変換後のコード番号は、通信部１１０より情報処理端末２０に送信される。

　情報処理端末２０において、コード番号が受信されると（Ｓ１１６にてＹＥＳ）、ＣＰＵ２１は、コード番号に対応した処理を実行する（Ｓ１１８）。Ｓ１１６およびＳ１１８の処理は、たとえば、情報処理端末２０の電源がＯＦＦされるまで継続されてよい。

　キーボード接続モードに移行した後、たとえばアドレス帳のアプリケーションソフトが起動されていた場合に、音声認識デバイス１０に対して住所や名前を音声入力することで、容易にアドレス帳の登録や変更をすることができる。また、情報処理端末２０において実装されている、キーボードから指示できる機能に応じて、様々な操作をすることができる。たとえば、「写真を撮る」という音声を音声認識デバイス１０に入力することで、情報処理端末２０に搭載されているカメラ（図示せず）のシャッターを押すといったことも可能である。

　なお、音声認識デバイス１０における音声認識モードは、電源がＯＦＦされた場合に解消される。また、接続ボタン１７１が押下された場合にも、音声認識デバイス１０における音声認識モードが解消されることとしてもよい。このようにすることで、情報処理端末２０と接続中であっても、他の情報処理端末とのペアリング設定処理を開始することができる。

　以上説明したように、本実施の形態に係る音声認識デバイス１０を用いることで、音声により情報処理端末２０を操作できるため、情報処理端末２０に別途、音声認識機能（音声認識プログラム）を組み込む必要がない。つまり、本実施の形態によれば、既存の情報処理端末２０に一切手を加えることなく、当該端末に音声認識機能を付加することができる。また、情報処理端末２０に音声認識機能が搭載されている場合でも、当該端末に高精度な音声認識機能を付加することができる。

　また、音声認識デバイス１０は音声認識専用のモジュールであるため、音声認識モードとするためのユーザによる操作を必要としない。したがって、情報処理端末２０側の電源をＯＮする操作だけで、音声による端末の操作を開始することができる。

　また、音声認識デバイス１０は音声認識専用のモジュールであるため、操作部１７には、ペアリング設定の際の接続ボタン１７１だけが含まれる構成であってよい。そのため、音声認識デバイス１０の筐体を小型化することができ、携帯に便利である。

　さらに、たとえばキーボードを接続可能な情報処理端末２０であれば、その端末の種類および機種に依らず音声認識デバイス１０を接続することができる。したがって、Bluetooth規格のプロファイルが共通の端末であれば、１台の音声認識デバイス１０を、様々な情報処理端末２０への指示入力装置として機能させることができる。

　なお、本実施の形態では、音声認識デバイス１０はキーボードとして動作することとしたが、情報処理端末２０に接続可能な他の種類のオプション機器として動作してもよい。

　また、本実施の形態では、音声認識デバイス１０と通信する端末は、情報処理端末２０であることとして説明したが、指示入力装置などのオプション機器を接続可能な装置であれば、家電製品やカーナビ等であってもよい。

　また、本実施の形態では、音声認識デバイス１０と情報処理端末２０とは無線通信されることとしたが、有線により接続されてもよい。両者がたとえばＵＳＢ（Universal Serial Bus）通信される形態を、変形例として以下に説明する。

　（変形例）
　図８は、本発明の実施の形態の変形例に係る音声認識デバイス１０Ａのハードウェアブロック図である。本変形例において、上記実施の形態と異なる点のみ詳細に説明する。

　図８を参照して、音声認識デバイス１０Ａは、図２に示した通信モジュール１２に代えて、情報処理端末２０のＵＳＢ端子２９（図３）と接続するためのＵＳＢ端子１９を備えている。また、本変形例では、図２に示した電源部１３および操作部１７は備えていなくてよい。

　音声認識デバイス１０Ａが、情報処理端末２０と有線接続される場合、他人の情報処理端末２０との意図しない接続はあり得ない。したがって、本変形例では、図４に示した機能構成のうち設定処理部１０２の機能、および、図５に示したペアリング設定処理は不要である。図４に示した通信部１１０には、ＵＳＢ端子１９が含まれる。

　また、図６に示した定常通信処理では、情報処理端末２０において実行された、ＩＤコードの判別に関するＳ１０８～Ｓ１１２の処理は不要である。また、音声認識デバイス１０により実行された、許可信号受信の判断ステップとしてのＳ１２８の処理も不要である。つまり、本変形例では、音声認識デバイス１０Ａは、機器情報を含む応答信号を、有線接続されている情報処理端末２０に送信した時点で、情報処理端末２０との接続状態が確立される。また、情報処理端末２０は、受信した応答信号に含まれる機器情報よりキーボードが接続されていることを判別すると、音声認識デバイス１０との接続状態が確立される。

　このように、本変形例では、音声認識デバイス１０Ａの構成を、上記実施の形態よりも単純な構成とすることができる。その結果、製造コストを抑えることができるとともに、装置を軽量化することができる。

　本発明の音声認識デバイスは、既存の端末に一切手を加えることなく音声認識機能を付加することができるため、有効に利用され得る。

　１　音声認識システム、１０，１０Ａ　音声認識デバイス、１１，２１　ＣＰＵ、１２，２２　通信モジュール、１３，２３　電源部、１４　音声入力部、１５　Ａ／Ｄ変換部、１６，２６　記憶部、１７，２７　操作部、１９，２９　ＵＳＢ端子、２０　情報処理端末、２８　操作部、１０２　設定処理部、１０４　判別処理部、１０６　認識処理部、１０８　変換処理部、１１０　通信部、１６１　モデルパラメータ、１６２　コード対応テーブル。

Claims

　オプション機器を無線または有線により接続可能な端末と通信する音声認識デバイスであって、
　音声を入力するための音声入力手段と、
　入力された音声の認識処理を実行するための認識処理手段とを備え、
　前記認識処理手段は、前記端末との接続状態が確立されたことに応じて作動可能とされ、
　複数の単語または文字と、それぞれに対応する前記オプション機器に特有の指示コード情報とが関連付けられたコード対応情報を予め記憶するための記憶手段と、
　前記記憶手段に記憶された前記コード対応情報に基づいて、前記認識処理手段による認識処理結果を示す単語または文字を、前記指示コード情報に変換するための変換処理手段と、
　前記変換処理手段による変換後の前記指示コード情報を、接続されている前記端末である接続相手に送信するための通信手段とをさらに備える、音声認識デバイス。
　前記オプション機器は、指示入力装置を含み、
　前記指示コード情報は、前記指示入力装置から出力されるコード番号である、請求の範囲第１項に記載の音声認識デバイス。
　前記記憶手段は、さらに、自装置の識別情報および種類情報を含む機器情報を予め記憶し、
　前記種類情報は、自装置の種類が前記指示入力装置であることを示す情報である、請求の範囲第２項に記載の音声認識デバイス。
　前記端末から、前記オプション機器の存在を問い合わせる第１の問合せ信号を受信した場合に、前記第１の問合せ信号を送信してきた前記端末を、前記接続相手として判別するための判別処理手段をさらに備え、
　前記判別処理手段は、前記第１の問合せ信号を受信した場合に、前記機器情報を含む第１の応答信号を生成し、前記第１の問合せ信号を送信してきた前記端末に、前記第１の応答信号を返信する、請求の範囲第３項に記載の音声認識デバイス。
　前記通信手段は、前記判別処理手段により前記接続相手として判別された前記端末と無線通信を実行し、
　音声認識デバイスは、事前に、前記端末との間でペアリング設定処理を実行するための設定処理手段をさらに備える、請求の範囲第４項に記載の音声認識デバイス。
　前記設定処理手段は、前記オプション機器の探索を受付け可能な状態において、前記端末から第２の問合せ信号を受信した場合に、前記機器情報を含む第２の応答信号を生成し、前記第２の問合せ信号を送信してきた前記端末に、前記第２の応答信号を返信する、請求の範囲第５項に記載の音声認識デバイス。
　複数のキーを含み、ユーザにより操作される操作手段をさらに備え、
　前記設定処理手段は、前記操作手段の操作を受付け、前記操作手段の操作に応じた前記コード番号を、ペアリングのためのパスキーとして、前記通信手段より前記端末に送信する、請求の範囲第６項に記載の音声認識デバイス。
　前記設定処理手段は、前記音声入力手段への音声入力を受付け、前記認識処理手段による音声の認識処理結果が前記変換処理手段により変換された前記コード番号を、ペアリングのためのパスキーとして、前記通信手段より前記端末に送信する、請求の範囲第６項に記載の音声認識デバイス。
　前記通信手段は、前記判別処理手段により前記接続相手として判別された前記端末と有線通信を実行する、請求の範囲第４項に記載の音声認識デバイス。