WO2014103035A1 - 音声認識デバイス - Google Patents

音声認識デバイス Download PDF

Info

Publication number
WO2014103035A1
WO2014103035A1 PCT/JP2012/084150 JP2012084150W WO2014103035A1 WO 2014103035 A1 WO2014103035 A1 WO 2014103035A1 JP 2012084150 W JP2012084150 W JP 2012084150W WO 2014103035 A1 WO2014103035 A1 WO 2014103035A1
Authority
WO
WIPO (PCT)
Prior art keywords
terminal
voice recognition
information
voice
recognition device
Prior art date
Application number
PCT/JP2012/084150
Other languages
English (en)
French (fr)
Inventor
満次 吉田
温 臼井
Original Assignee
株式会社レイトロン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社レイトロン filed Critical 株式会社レイトロン
Priority to JP2014554024A priority Critical patent/JP6059253B2/ja
Priority to CN201280077932.5A priority patent/CN104871241A/zh
Priority to PCT/JP2012/084150 priority patent/WO2014103035A1/ja
Publication of WO2014103035A1 publication Critical patent/WO2014103035A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Definitions

  • Patent Document 1 There is a desire to use high-accuracy speech recognition technology as described in the above Japanese Patent Application Laid-Open No. 2010-266488 (Patent Document 1) for operation of various types of terminals.
  • a voice recognition function to a terminal such as a smartphone that is currently distributed, it is necessary to incorporate the voice recognition function into the OS (Operation System) of the terminal, which takes time and effort.
  • OS Operating System
  • the recognition performance varies depending on the type or model of the terminal, and the voice may not be properly recognized.
  • a determination processing means for determining the terminal that has transmitted the first inquiry signal as a connection partner.
  • the discrimination processing unit When receiving the first inquiry signal, the discrimination processing unit generates a first response signal including the device information, and returns the first response signal to the terminal that has transmitted the first inquiry signal.
  • the voice recognition device further includes operation means that includes a plurality of keys and is operated by a user.
  • the setting processing unit accepts the operation of the operation unit, and transmits a code number corresponding to the operation of the operation unit as a pass key for pairing from the communication unit to the terminal.
  • processing units 102 to 108 shown in FIG. 4 may be realized by the CPU 11 executing software stored in the storage unit 16, and at least one of these functions may be implemented by hardware. May be realized.
  • the model parameter 161 and the code correspondence table 162 may be stored in the storage unit 16, for example.
  • a Bluetooth terminal that is, an option device search process is executed (S102).
  • search process a predetermined inquiry signal is transmitted.
  • the information processing terminal 20 When the information processing terminal 20 receives the response signal from the voice recognition device 10 (S104), it determines from the device information that a keyboard exists as an optional device (S106). Here, it is determined whether or not the ID code included in the device information matches the ID code registered in association with the type information indicating the keyboard in the storage unit 26 (S108). That is, in the information processing terminal 20, it is determined whether or not the device that has transmitted the response signal is a connectable optional device.
  • the recognition processing unit 106 first calculates the feature amount of the input voice signal (S202). Specifically, a section including a human voice is cut out from the input voice signal, and the voice signal in the cut section is converted into an MFCC (Mel-frequency cepstral coefficient) feature quantity.
  • MFCC Mel-frequency cepstral coefficient

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

 音声認識デバイスは、オプション機器を無線または有線により接続可能な端末との接続状態が確立されたことに応じて(S128)、音声の認識処理を実行するための認識処理部が作動可能とされる(S130)。音声認識デバイスは、音声が入力されると(S132)、音声認識処理を実行する(S134)。そして、記憶部に記憶されたコード対応情報に基づいて、認識処理結果を示す単語または文字を、オプション機器に特有の指示コード情報に変換する(S136)。変換処理部による変換後の指示コード情報を、接続されている端末である接続相手に送信する(S138)。

Description

音声認識デバイス
 本発明は、オプション機器を無線または有線により接続可能な端末と通信する音声認識デバイスに関する。
 従来より、音声認識率を向上させる技術が存在する。
 たとえば特開2010-266488号公報(特許文献1)には、音声認識に用いられる音声認識モデルパラメータが、複数の雑音が重畳された音声データの特徴量を正規化して作成されることが開示されている。複数の雑音が重畳された音声データの特徴量を正規化することで、複数の雑音が一般化されるため、音声認識の際に未知の雑音が混入した場合でも、音声認識率を高く維持することができる。
 また、端末以外の装置で音声認識を行い、その認識結果に基づいて端末の操作を行う技術も存在する。
 たとえば特開2002-108603号公報(特許文献2)には、リモートコントローラ装置の入力モード機能キーを操作して、パソコン本体を音声入力モードに切替えた後に、リモートコントローラ装置において、マイクロホンから入力された音声が文字データ信号に変換されることが記載されている。また、文字データ信号が、キー入力部から出力される制御信号とともにリモート信号として生成されて、パソコン本体に赤外線にて送信されることが記載されている。
 WO2009/122756号パンフレット(特許文献3)には、Gリモコン(グリッド型のドットパターンを読むリモコン)において、入力された音声の認識処理が行われ、処理後の文字列(たとえば「てれびでんげんおん」)がクレードルまたは携帯電話に送られることが記載されている。
 特開2003-87359号公報(特許文献4)には、運転者が着用するヘルメットに着用可能なブルートゥース通信装置が、携帯電話と通信する機能を有しており、マイクに入力される音声について音声認識を行う音声認識ユニットと、認識された音声を制御信号に変換する制御ユニットとを備えることが記載されている。
特開2010-266488号報 特開2002-108603号公報 WO2009/122756号パンフレット 特開2003-87359号公報
 上記特開2010-266488号報(特許文献1)に記載されたような高精度な音声認識技術を、様々な種類の端末の操作等に利用したいという要望がある。しかしながら、現在流通しているスマートフォンなどの端末に音声認識機能を新たに付加するには、端末のOS(Operation System)に音声認識機能を組み込む必要があるため、手間と時間がかかる。また、既に音声認識機能が搭載された端末も存在するが、その認識性能は、端末の種類あるいは機種によってまちまちであり、適切に音声が認識されない場合がある。
 ここで、上述のように、端末以外の装置で音声認識を行い、その認識結果に基づいて端末を操作する技術も存在する。しかしながら、これらの技術では、従来から存在するリモコンやヘッドセットに音声認識機能を搭載しているため、このような装置において音声認識機能を作動させるにはユーザによる特定の操作が必要となる。
 本発明は、上記のような課題を解決するためになされたものであって、その目的は、既存の端末に手を加えることなく音声認識機能を付加することのできる音声認識デバイスを提供することである。
 また、ユーザによる操作を必要とせずに、音声認識機能を作動させることのできる音声認識デバイスを提供することも、他の目的とする。
 本発明のある局面に従う音声認識デバイスは、オプション機器を無線または有線により接続可能な端末と通信する音声認識デバイスであって、音声を入力するための音声入力手段と、入力された音声の認識処理を実行するための認識処理手段とを備える。認識処理手段は、端末との接続状態が確立されたことに応じて作動可能とされる。音声認識デバイスは、複数の単語または文字と、それぞれに対応するオプション機器に特有の指示コード情報とが関連付けられたコード対応情報を予め記憶するための記憶手段と、記憶手段に記憶されたコード対応情報に基づいて、認識処理手段による認識処理結果を示す単語または文字を、指示コード情報に変換するための変換処理手段と、変換処理手段による変換後の指示コード情報を、接続されている端末である接続相手に送信するための通信手段とをさらに備える。
 好ましくは、オプション機器は、指示入力装置を含み、指示コード情報は、指示入力装置から出力されるコード番号である。
 好ましくは、記憶手段は、さらに、自装置の識別情報および種類情報を含む機器情報を予め記憶し、種類情報は、自装置の種類が指示入力装置であることを示す情報である。
 好ましくは、音声認識デバイスは、端末から、オプション機器の存在を問い合わせる第1の問合せ信号を受信した場合に、第1の問合せ信号を送信してきた端末を、接続相手として判別するための判別処理手段をさらに備える。判別処理手段は、第1の問合せ信号を受信した場合に、機器情報を含む第1の応答信号を生成し、第1の問合せ信号を送信してきた端末に、第1の応答信号を返信する。
 好ましくは、通信手段は、判別処理手段により接続相手として判別された端末と無線通信を実行し、音声認識デバイスは、事前に、端末との間でペアリング設定処理を実行するための設定処理手段をさらに備える。
 好ましくは、設定処理手段は、オプション機器の探索を受付け可能な状態において、端末から第2の問合せ信号を受信した場合に、機器情報を含む第2の応答信号を生成し、第2の問合せ信号を送信してきた端末に、第2の応答信号を返信する。
 好ましくは、音声認識デバイスは、複数のキーを含み、ユーザにより操作される操作手段をさらに備える。設定処理手段は、操作手段の操作を受付け、操作手段の操作に応じたコード番号を、ペアリングのためのパスキーとして、通信手段より端末に送信する。
 好ましくは、設定処理手段は、音声入力手段への音声入力を受付け、認識処理手段による音声の認識処理結果が変換処理手段により変換されたコード番号を、ペアリングのためのパスキーとして、通信手段より端末に送信する。
 好ましくは、通信手段は、判別処理手段により接続相手として判別された端末と有線通信を実行する。
 本発明によれば、オプション機器を接続可能な既存の端末に手を加えることなく音声認識機能を付加することができる。また、端末との接続状態が確立したことに応じて音声認識機能が作動可能とされるため、ユーザによる操作を必要とせずに、音声による端末の操作等を行うことができる。
本発明の実施の形態に係る音声認識システムの構成例を示す図である。 本発明の実施の形態に係る音声認識デバイスのハードウェアブロック図である。 本発明の実施の形態に係る情報処理端末のハードウェアブロック図である。 本発明の実施の形態に係る音声認識デバイスの機能構成を示す機能ブロック図である。 本発明の実施の形態におけるペアリング設定処理を示すフローチャートである。 本発明の実施の形態における定常通信処理を示すフローチャートである。 本発明の実施の形態に係る音声認識デバイスにおいて実行される音声認識処理を示すフローチャートである。 本発明の実施の形態の変形例に係る音声認識デバイスのハードウェアブロック図である。
 本発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当手段分には同一符号を付してその説明は繰返さない。
 <構成について>
 (システム構成)
 はじめに、本実施の形態に係る音声認識デバイスを備える音声認識システムの構成例について説明する。
 図1は、本発明の実施の形態に係る音声認識システム1の構成例を示す図である。
 図1を参照して、音声認識システム1は、音声認識デバイス10、および、音声認識デバイス10と通信可能な端末として情報処理端末20を含む。
 情報処理端末20は、オプション機器を無線または有線により接続可能であり、たとえば、ノートPC(Personal Computer)、スマートフォン、およびタブレットPCなどを含む。上記オプション機器は、既存の周辺機器であってよく、たとえば、ユーザからの指示を受付けるための指示入力装置や、音声通話を可能とするための通話装置(ヘッドセット)などが含まれる。指示入力装置には、キーボード等の文字入力デバイス、および、マウスなどのポインティングデバイスが含まれる。
 音声認識デバイス10は、マイクロフォン141を有し、音声により情報処理端末20の操作を可能とするための音声認識専用のモジュールである。ただし、音声認識デバイス10は、情報処理端末20との通信においては、上記した既存のオプション機器のうち指示入力装置として動作する。したがって、自装置での音声認識結果を、指示入力装置に特有の指示コード情報に変換して情報処理端末20に送信する。以下の説明においては、音声認識デバイス10は、指示入力装置のうち文字入力デバイス(以下「キーボード」という)として動作することとする。
 本実施の形態において、音声認識デバイス10と情報処理端末20とは、無線にて接続可能であり、両者はBluetooth(登録商標)規格によって双方向通信を行う。なお、Bluetooth規格による通信は一例であり、他の規格によって無線通信されてもよい。
 (ハードウェア構成)
 次に、音声認識デバイス10および情報処理端末20それぞれのハードウェア構成例について説明する。
 図2は、本発明の実施の形態に係る音声認識デバイス10のハードウェアブロック図である。
 図2を参照して、音声認識デバイス10は、各種演算処理を実行するCPU(Central Processing Unit)11と、情報処理端末20とのBluetooth通信を実現するための通信モジュール12と、充電池または乾電池を含む電源部13と、マイクロフォン141からの音声を入力する音声入力部14と、入力された音声データをデジタルデータに変換するためのA/D(Analog to Digital)変換部15と、プログラムや各種情報を記憶するための不揮発性の記憶部16と、ユーザによる操作される操作部17とを備える。操作部17は、図1に示した接続ボタン171を含み、後述のペアリング設定処理の際に必要となるボタンのみを含む。
 図3は、本発明の実施の形態に係る情報処理端末20のハードウェアブロック図である。
 図3を参照して、情報処理端末20は、一般的なスマートフォン等と同様の構成であってよく、たとえば、各種演算処理を実行するCPU21と、各種オプション機器とのBluetooth通信を実現するための通信モジュール22と、電源部23と、プログラムや情報を記憶するための不揮発性の記憶部26と、ユーザにより操作される操作部27と、各種情報を表示するための表示部28と、オプション機器を含む周辺機器のUSB端子を受け入れるためのUSB端子29とを備える。
 (機能構成)
 続いて、本発明の実施の形態に係る音声認識装置10の機能構成例について説明する。
 図4は、本発明の実施の形態に係る音声認識デバイス10の機能構成を示す機能ブロック図である。
 図4を参照して、音声認識デバイス10は、その機能として、設定処理部102、判別処理部104、認識処理部106、変換処理部108、および、通信部110を含む。
 設定処理部102は、事前に、情報処理端末20との間でペアリング設定処理を実行する。本実施の形態において、「ペアリング設定処理」とは、他人の情報処理端末との意図しない接続を回避するために、予め、対象の情報処理端末20に音声認識デバイス10の登録をさせておく処理をいう。設定処理部102で実行されるペアリング設定処理は、情報処理端末20の通信モジュール12に搭載されているBluetooth規格のプロファイルに対応するよう定められている。本実施の形態において、情報処理端末20においてペアリング設定されたオプション機器を「接続可能なオプション機器」という。
 設定処理部102は、操作部17の接続ボタン171が押下されたことに応じて作動する。これにより、音声認識デバイス10は、オプション機器の探索を受付け可能な状態となる。この状態において、情報処理端末20から、オプション機器の存在を問合せる問合せ信号を受信した場合に、機器情報を含む応答信号を生成して返信する。「機器情報」とは、音声認識デバイス10に関する情報であり、自装置の識別情報(以下「IDコード」という)と種類情報とを含む。種類情報は、自装置の種類が「キーボード」であることを示す情報である。機器情報は、記憶部16内に予め記憶されている。
 判別処理部104は、ペアリング設定処理(ペアリング設定モード)時以外の通信処理(以下「定常通信処理」という)において、オプション機器の存在を問合せる問合せ信号を送信してきた情報処理端末20を、接続相手として判別するための処理を実行する。判別処理部104は、設定処理部102の処理と同様に、当該問合せ信号を受信した場合に、機器情報を含む応答信号を生成して返信する。
 判別処理部104が返信した応答信号により、情報処理端末20において音声認識デバイス10が接続可能なオプション機器であるかが判断される。そうであれば、たとえば接続を許可する信号(以下「許可信号」という)が音声認識デバイス10に送信される。音声認識デバイス10において、当該許可信号を受信した時点で、情報処理端末20との接続状態が確立する。
 認識処理部106は、音声入力部14に入力された音声の認識処理を実行する。具体的には、A/D変換部15においてデジタル化された音声データと、たとえばHMM(Hidden Markov Model)に基づくモデルパラメータ161とに基づいて、音声の認識処理を実行する。モデルパラメータ161は、音声認識に用いられる学習データであり、たとえば特開2010-266488号公報(特許文献1)に記載の学習方法により作成されたパラメータである。なお、具体的な音声認識処理については後述する。認識処理部106は、情報処理端末20との接続状態が確定したことに応じて作動可能状態とされる。つまり、本実施の形態では、ユーザからの音声入力モードへの切り替え指示等を受付けることなく、音声認識モードに移行される。
 変換処理部108は、コード対応テーブル162に基づいて、認識処理部106による認識処理結果を示す単語または文字を、コード番号に変換する。コード番号は、汎用のキーボードから出力される指示コード情報である。コード対応テーブル162は、複数の単語または文字と、それぞれに対応するコード番号とが関連付けられたコード対応情報の一例である。なお、本実施の形態において「文字」には数字および記号も含まれる。
 通信部110は、設定処理部102および判別処理部104による処理の際に、上記した問合せ信号の受信および応答信号の送信を行う。また、変換処理部108による変換後のコード番号を、接続相手である情報処理端末20に送信する。通信部110は、本実施の形態では、通信モジュール12により実現される。
 なお、図4に示した各処理部102~108の機能は、CPU11が記憶部16に格納されたソフトウェアを実行することで実現されてもよいし、これらのうちの少なくとも1つは、ハードウェアにより実現されてもよい。また、モデルパラメータ161およびコード対応テーブル162は、たとえば記憶部16に記憶されていてよい。
 <動作について>
 次に、本実施の形態における音声認識システム1の動作について説明する。
 (ペアリング設定処理)
 図5は、本発明の実施の形態におけるペアリング設定処理を示すフローチャートである。
 図5を参照して、情報処理端末20において、ユーザからの指示に基づきBluetoothの有効化を設定する(ステップS(以下「S」と略す)2)。そうすると、情報処理端末20において、所定の問合せ信号を送信することで、Bluetooth端末、すなわちオプション機器の探索処理が実行される(S4)。
 音声認識デバイス10においては、CPU11が接続ボタン171の押下を検知すると(S22)、記憶部16に格納されたペアリング設定プログラムが読み出されて、ペアリング設定モードに移行する。そうすると、設定処理部102は、オプション機器の探索を受付け可能な状態となる(S24)。音声認識デバイス10が情報処理端末20の近傍に存在すると、情報処理端末29からの問合せ信号を受信する(S26)。なお、ペアリング設定モードに移行してから所定時間内に問合せ信号を受信しない場合には、当該設定処理は終了される。
 設定処理部102は、所定時間内に問合せ信号を受信すると、記憶部16より、機器情報として、自装置のIDコードおよび種類情報を読出す(S28)。種類情報は、上述のようにキーボードであることを示す情報である。設定処理部102は、読出した機器情報を含む応答信号を生成し、問合せ信号を送信してきた情報処理端末20に送信する(S30)。なお、「問合せ信号」には、情報処理端末20を識別するための識別情報が含まれていてもよい。
 情報処理端末20は、音声認識デバイス10からの応答信号を受信すると(S6)、応答信号に含まれた機器情報をCPU21の内部メモリに一時記憶する。機器情報より、オプション機器がキーボードであると判別されるため、表示部28にパスキーが表示される(S8)。ここで表示されるパスキーは、情報処理端末20の実装に応じて、固定の数字(たとえば「0000」)である場合と、ランダムな数字である場合とがある。
 続いて、音声認識デバイス10の設定処理部102は、ユーザからのパスキーの入力を受付ける(S32)。音声認識デバイス10の操作部17に、ペアリング設定専用の複数のキーとして、たとえばテンキーおよびエンターキーが含まれる場合、これらのキーが操作されることでパスキーの入力が可能である。テンキーおよびエンターキーが操作されると、当該操作に応じたコード番号が、入力されたパスキーとして情報処理端末20に送信される(S34)。音声認識デバイス10においては、パスキーを送信した時点で、ペアリング設定モードが終了されてよい。
 情報処理端末20は、パスキーを受信すると(S10)、表示中のパスキーと受信したパスキーとが一致しているか否かを判断する(S12)。一致していると判断された場合(S12にてYES)、ペアリング成立として、一時記憶しておいた機器情報を、接続可能なオプション機器の情報として、記憶部26に記憶する(S14)。これにより、記憶部26には、音声認識デバイス10のIDコードと種類情報(キーボード)とが対応付けて登録される。なお、問合せ信号に情報処理端末20の種別情報が含まれる場合には、音声認識デバイス10側においても、ペアリング設定済の情報処理端末の情報として、情報処理端末20の種別情報を記憶部16に登録させておくこととしてもよい。
 なお、上述のように、ペアリング設定専用の複数のキーとして、操作部17にテンキーおよびエンターキーが含まれる場合は、S8にて情報処理端末20に表示されるパスキーがどのような数字であってもペアリングを成立させることができる。しかしながら、操作部17にこれら専用のキーを設けずに、予め定められた数字(たとえば「0000」)を自動的に送信することとしてもよい。この場合、S8で表示されるパスキーが「0000」に固定の端末、および、表示されたパスキーがユーザにより変更可能な端末との間でのみ、ペアリング設定が可能となる。
 あるいは、パスキーの入力を受付ける処理(S32)に代えて、パスキーとして表示された数字についての音声入力を受付けてもよい。この場合、ユーザにより発声された数字および「エンター」との音声が、音声入力部14に入力される。入力された音声は、認識処理部106による認識処理、および、変換処理部108による変換処理が実行され、発声された数字および「エンター」を示すコード番号が、情報処理端末20に送信される。これにより、どの情報処理端末20に対しても、操作部17に専用のキーを設けることなくペアリング設定が可能となる。
 (定常通信処理)
 図6は、本発明の実施の形態における定常通信処理を示すフローチャートである。本実施の形態では、スマートフォンに搭載されたBluetooth規格のプロファイルに従った処理を例に説明する。
 図6を参照して、情報処理端末20の電源がONされた場合に、Bluetooth端末、すなわちオプション機器の探索処理を実行する(S102)。探索処理において、所定の問合せ信号が送信される。
 音声認識デバイス10は、上述のペアリング設定モード時以外は、待機状態である。つまり、電源がONとされ初期化処理が行なわれた後は、音声認識デバイス10は待機状態とされる。待機状態の際に問合せ信号を受信すると(S122)、図4に示した判別処理部104は、記憶部16より、機器情報として、自装置のIDコードおよび種類情報を読出す(S124)。種類情報は、上述のようにキーボードであることを示す情報である。判別処理部104は、読出した機器情報を含む応答信号を生成し、問合せ信号を送信してきた情報処理端末20に送信する(S126)。なお、ここでの「問合せ信号」にも、情報処理端末20を識別するための識別情報が含まれていてもよい。
 情報処理端末20は、音声認識デバイス10からの応答信号を受信すると(S104)、機器情報より、オプション機器としてキーボードが存在すると判別する(S106)。ここで、機器情報に含まれているIDコードが、記憶部26においてキーボードを示す種類情報と対応付けられて登録されているIDコードと一致しているか否かを判断する(S108)。つまり、情報処理端末20において、応答信号を送信してきた装置が、接続可能なオプション機器であるか否かが判断される。
 IDコードが一致していると判断された場合(S108にてYES)、現在の通信相手が接続可能なオプション機器であるため、IDコード判断結果として許可信号を音声認識デバイス10に送信する(S110)。これにより、音声認識デバイス10との接続状態が確立され、動作モードはキーボード接続モードに移行される(S114)。キーボード接続モードは、たとえば、情報処理端末20の電源がOFFされるまで継続されてよい。
 一方、IDコードが一致していないと判断された場合(S108にてNO)、現在の通信相手は接続可能なオプション機器ではないため、IDコード判断結果としてたとえば不許可信号が音声認識デバイス10に送信される(S112)。S112の処理が終わると、情報処理端末20でのオプション機器探索処理は終了される。
 音声認識デバイス10の通信部110は、上述の応答信号を送信した後、IDコード判断結果、すなわち許可信号または不許可信号を受信する(S127)。許可信号を受信した場合(S128にてYES)、現在の通信相手が接続相手として確定される。したがって、情報処理端末20との接続状態が確立され、動作モードは音声認識モードに移行される(S130)。これにより、たとえば記憶部16に格納されている音声認識プログラムが読み出され、認識処理部106が作動可能状態とされる。一方、不許可信号を受信した場合(S128にてNO)、定常通信処理は終了され、CPU11は問合せ信号(S122)の待機モードに戻る。
 音声認識デバイス10の動作モードが音声認識モードになると、認識処理部106は、音声入力を受付ける(S132)。音声が入力されると(S132にてYES)、たとえば上述の特開2010-266488号公報(特許文献1)に記載の方法により、音声認識処理を実行する(S134)。音声認識処理については、図7にサブルーチンを挙げて説明する。
 図7は、本発明の実施の形態に係る音声認識デバイス10において実行される音声認識処理を示すフローチャートである。
 図7を参照して、認識処理部106は、まず、入力された音声信号の特徴量を算出する(S202)。具体的には、入力された音声信号のうち人の声が含まれている区間を切出し、切出した区間の音声信号をMFCC(Mel-frequency cepstral coefficient)特徴量に変換する。
 続いて、雑音の影響を除去するために、特徴量の正規化処理を実行する(S204)。具体的には、たとえば、特徴量をバンドパスフィルタによりフィルタリングし、最大振幅値で除算する。認識処理部106は、この正規化後の特徴量より、モデルパラメータ161に基づいてHMMを用いた尤度を推定する(S206)。つまり、各HMMが、正規化後の特徴量の系列を生成する尤度を求める。認識処理部106は、各HMMの尤度値を比較し、尤度が最大となるHMMを認識結果とする(S208)。
 再び図6を参照して、音声認識処理が終わると、変換処理部108は、コード対応テーブル162に基づいて、認識処理部106による認識結果をコード番号に変換する(S136)。たとえば「おおさか」と音声入力され、そのように認識されたとする。その場合、当該変換処理において、汎用のキーボードにおいて「おおさか」と入力した場合と同じコード番号が選択される。変換後のコード番号は、通信部110より情報処理端末20に送信される。
 情報処理端末20において、コード番号が受信されると(S116にてYES)、CPU21は、コード番号に対応した処理を実行する(S118)。S116およびS118の処理は、たとえば、情報処理端末20の電源がOFFされるまで継続されてよい。
 キーボード接続モードに移行した後、たとえばアドレス帳のアプリケーションソフトが起動されていた場合に、音声認識デバイス10に対して住所や名前を音声入力することで、容易にアドレス帳の登録や変更をすることができる。また、情報処理端末20において実装されている、キーボードから指示できる機能に応じて、様々な操作をすることができる。たとえば、「写真を撮る」という音声を音声認識デバイス10に入力することで、情報処理端末20に搭載されているカメラ(図示せず)のシャッターを押すといったことも可能である。
 なお、音声認識デバイス10における音声認識モードは、電源がOFFされた場合に解消される。また、接続ボタン171が押下された場合にも、音声認識デバイス10における音声認識モードが解消されることとしてもよい。このようにすることで、情報処理端末20と接続中であっても、他の情報処理端末とのペアリング設定処理を開始することができる。
 以上説明したように、本実施の形態に係る音声認識デバイス10を用いることで、音声により情報処理端末20を操作できるため、情報処理端末20に別途、音声認識機能(音声認識プログラム)を組み込む必要がない。つまり、本実施の形態によれば、既存の情報処理端末20に一切手を加えることなく、当該端末に音声認識機能を付加することができる。また、情報処理端末20に音声認識機能が搭載されている場合でも、当該端末に高精度な音声認識機能を付加することができる。
 また、音声認識デバイス10は音声認識専用のモジュールであるため、音声認識モードとするためのユーザによる操作を必要としない。したがって、情報処理端末20側の電源をONする操作だけで、音声による端末の操作を開始することができる。
 また、音声認識デバイス10は音声認識専用のモジュールであるため、操作部17には、ペアリング設定の際の接続ボタン171だけが含まれる構成であってよい。そのため、音声認識デバイス10の筐体を小型化することができ、携帯に便利である。
 さらに、たとえばキーボードを接続可能な情報処理端末20であれば、その端末の種類および機種に依らず音声認識デバイス10を接続することができる。したがって、Bluetooth規格のプロファイルが共通の端末であれば、1台の音声認識デバイス10を、様々な情報処理端末20への指示入力装置として機能させることができる。
 なお、本実施の形態では、音声認識デバイス10はキーボードとして動作することとしたが、情報処理端末20に接続可能な他の種類のオプション機器として動作してもよい。
 また、本実施の形態では、音声認識デバイス10と通信する端末は、情報処理端末20であることとして説明したが、指示入力装置などのオプション機器を接続可能な装置であれば、家電製品やカーナビ等であってもよい。
 また、本実施の形態では、音声認識デバイス10と情報処理端末20とは無線通信されることとしたが、有線により接続されてもよい。両者がたとえばUSB(Universal Serial Bus)通信される形態を、変形例として以下に説明する。
 (変形例)
 図8は、本発明の実施の形態の変形例に係る音声認識デバイス10Aのハードウェアブロック図である。本変形例において、上記実施の形態と異なる点のみ詳細に説明する。
 図8を参照して、音声認識デバイス10Aは、図2に示した通信モジュール12に代えて、情報処理端末20のUSB端子29(図3)と接続するためのUSB端子19を備えている。また、本変形例では、図2に示した電源部13および操作部17は備えていなくてよい。
 音声認識デバイス10Aが、情報処理端末20と有線接続される場合、他人の情報処理端末20との意図しない接続はあり得ない。したがって、本変形例では、図4に示した機能構成のうち設定処理部102の機能、および、図5に示したペアリング設定処理は不要である。図4に示した通信部110には、USB端子19が含まれる。
 また、図6に示した定常通信処理では、情報処理端末20において実行された、IDコードの判別に関するS108~S112の処理は不要である。また、音声認識デバイス10により実行された、許可信号受信の判断ステップとしてのS128の処理も不要である。つまり、本変形例では、音声認識デバイス10Aは、機器情報を含む応答信号を、有線接続されている情報処理端末20に送信した時点で、情報処理端末20との接続状態が確立される。また、情報処理端末20は、受信した応答信号に含まれる機器情報よりキーボードが接続されていることを判別すると、音声認識デバイス10との接続状態が確立される。
 このように、本変形例では、音声認識デバイス10Aの構成を、上記実施の形態よりも単純な構成とすることができる。その結果、製造コストを抑えることができるとともに、装置を軽量化することができる。
 本発明の音声認識デバイスは、既存の端末に一切手を加えることなく音声認識機能を付加することができるため、有効に利用され得る。
 1 音声認識システム、10,10A 音声認識デバイス、11,21 CPU、12,22 通信モジュール、13,23 電源部、14 音声入力部、15 A/D変換部、16,26 記憶部、17,27 操作部、19,29 USB端子、20 情報処理端末、28 操作部、102 設定処理部、104 判別処理部、106 認識処理部、108 変換処理部、110 通信部、161 モデルパラメータ、162 コード対応テーブル。

Claims (9)

  1.  オプション機器を無線または有線により接続可能な端末と通信する音声認識デバイスであって、
     音声を入力するための音声入力手段と、
     入力された音声の認識処理を実行するための認識処理手段とを備え、
     前記認識処理手段は、前記端末との接続状態が確立されたことに応じて作動可能とされ、
     複数の単語または文字と、それぞれに対応する前記オプション機器に特有の指示コード情報とが関連付けられたコード対応情報を予め記憶するための記憶手段と、
     前記記憶手段に記憶された前記コード対応情報に基づいて、前記認識処理手段による認識処理結果を示す単語または文字を、前記指示コード情報に変換するための変換処理手段と、
     前記変換処理手段による変換後の前記指示コード情報を、接続されている前記端末である接続相手に送信するための通信手段とをさらに備える、音声認識デバイス。
  2.  前記オプション機器は、指示入力装置を含み、
     前記指示コード情報は、前記指示入力装置から出力されるコード番号である、請求の範囲第1項に記載の音声認識デバイス。
  3.  前記記憶手段は、さらに、自装置の識別情報および種類情報を含む機器情報を予め記憶し、
     前記種類情報は、自装置の種類が前記指示入力装置であることを示す情報である、請求の範囲第2項に記載の音声認識デバイス。
  4.  前記端末から、前記オプション機器の存在を問い合わせる第1の問合せ信号を受信した場合に、前記第1の問合せ信号を送信してきた前記端末を、前記接続相手として判別するための判別処理手段をさらに備え、
     前記判別処理手段は、前記第1の問合せ信号を受信した場合に、前記機器情報を含む第1の応答信号を生成し、前記第1の問合せ信号を送信してきた前記端末に、前記第1の応答信号を返信する、請求の範囲第3項に記載の音声認識デバイス。
  5.  前記通信手段は、前記判別処理手段により前記接続相手として判別された前記端末と無線通信を実行し、
     音声認識デバイスは、事前に、前記端末との間でペアリング設定処理を実行するための設定処理手段をさらに備える、請求の範囲第4項に記載の音声認識デバイス。
  6.  前記設定処理手段は、前記オプション機器の探索を受付け可能な状態において、前記端末から第2の問合せ信号を受信した場合に、前記機器情報を含む第2の応答信号を生成し、前記第2の問合せ信号を送信してきた前記端末に、前記第2の応答信号を返信する、請求の範囲第5項に記載の音声認識デバイス。
  7.  複数のキーを含み、ユーザにより操作される操作手段をさらに備え、
     前記設定処理手段は、前記操作手段の操作を受付け、前記操作手段の操作に応じた前記コード番号を、ペアリングのためのパスキーとして、前記通信手段より前記端末に送信する、請求の範囲第6項に記載の音声認識デバイス。
  8.  前記設定処理手段は、前記音声入力手段への音声入力を受付け、前記認識処理手段による音声の認識処理結果が前記変換処理手段により変換された前記コード番号を、ペアリングのためのパスキーとして、前記通信手段より前記端末に送信する、請求の範囲第6項に記載の音声認識デバイス。
  9.  前記通信手段は、前記判別処理手段により前記接続相手として判別された前記端末と有線通信を実行する、請求の範囲第4項に記載の音声認識デバイス。
PCT/JP2012/084150 2012-12-28 2012-12-28 音声認識デバイス WO2014103035A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2014554024A JP6059253B2 (ja) 2012-12-28 2012-12-28 音声認識デバイス
CN201280077932.5A CN104871241A (zh) 2012-12-28 2012-12-28 语音识别设备
PCT/JP2012/084150 WO2014103035A1 (ja) 2012-12-28 2012-12-28 音声認識デバイス

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/084150 WO2014103035A1 (ja) 2012-12-28 2012-12-28 音声認識デバイス

Publications (1)

Publication Number Publication Date
WO2014103035A1 true WO2014103035A1 (ja) 2014-07-03

Family

ID=51020185

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/084150 WO2014103035A1 (ja) 2012-12-28 2012-12-28 音声認識デバイス

Country Status (3)

Country Link
JP (1) JP6059253B2 (ja)
CN (1) CN104871241A (ja)
WO (1) WO2014103035A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020065140A (ja) * 2018-10-16 2020-04-23 カシオ計算機株式会社 音声処理装置、方法、プログラム、携帯端末

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105916069A (zh) * 2016-04-19 2016-08-31 安徽理工大学 一种可将语音实时转换成文字的智能话筒
CN107071603A (zh) * 2017-06-30 2017-08-18 广州音书科技有限公司 一种用于实时语音识别的话筒及系统
JP2019066702A (ja) 2017-10-02 2019-04-25 東芝映像ソリューション株式会社 対話型電子装置制御システム、対話型電子装置、対話型電子装置制御方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001268646A (ja) * 2000-03-22 2001-09-28 Animo:Kk 携帯無線通信機、ツール・サーバ、音声認証サーバ、及び無線通信システム
JP2002108603A (ja) * 2000-09-27 2002-04-12 Mitsumi Electric Co Ltd リモートコントローラ装置
JP2003087359A (ja) * 2001-09-14 2003-03-20 Honda Access Corp ブルートゥース通信システム
JP2004104757A (ja) * 2002-07-16 2004-04-02 Advanced Media Inc 音声入力装置
WO2009122756A1 (ja) * 2008-04-04 2009-10-08 Yoshida Kenji 携帯電話用クレードル、tv電話システム、カラオケシステム、カーナビゲーションシステム、および緊急情報通知システム
JP2012037783A (ja) * 2010-08-10 2012-02-23 Yahoo Japan Corp 情報家電システム、情報取得方法及びプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3286339B2 (ja) * 1992-03-25 2002-05-27 株式会社リコー ウインドウ画面制御装置
JP2000236585A (ja) * 1999-02-15 2000-08-29 Nippon Telegr & Teleph Corp <Ntt> 機器制御方法及び装置並びに制御サーバ
AU2003272871A1 (en) * 2002-10-18 2004-05-04 Beijing Kexin Technology Co., Ltd. Portable digital mobile communication apparatus, method for controlling speech and system
JP2005072764A (ja) * 2003-08-21 2005-03-17 Hitachi Ltd 機器制御システムとそのための装置及び機器制御方法
JP2009300537A (ja) * 2008-06-10 2009-12-24 Fujitsu Ten Ltd 音声作動システム、音声作動方法および車載装置
CN102118186A (zh) * 2009-12-31 2011-07-06 鼎亿数码科技(上海)有限公司 蓝牙设备连接方法
CN201781565U (zh) * 2010-08-30 2011-03-30 康佳集团股份有限公司 一种遥控器、电视机及电视系统
CN201846445U (zh) * 2010-11-10 2011-05-25 江苏惠通集团有限责任公司 基于rf4ce协议的多功能数字电视控制系统
CN102111314B (zh) * 2010-12-30 2014-03-26 广州市聚晖电子科技有限公司 一种基于蓝牙传输的智能家居语音控制系统及方法
CN102760433A (zh) * 2012-07-06 2012-10-31 广东美的制冷设备有限公司 联网家电用声控遥控器及其控制方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001268646A (ja) * 2000-03-22 2001-09-28 Animo:Kk 携帯無線通信機、ツール・サーバ、音声認証サーバ、及び無線通信システム
JP2002108603A (ja) * 2000-09-27 2002-04-12 Mitsumi Electric Co Ltd リモートコントローラ装置
JP2003087359A (ja) * 2001-09-14 2003-03-20 Honda Access Corp ブルートゥース通信システム
JP2004104757A (ja) * 2002-07-16 2004-04-02 Advanced Media Inc 音声入力装置
WO2009122756A1 (ja) * 2008-04-04 2009-10-08 Yoshida Kenji 携帯電話用クレードル、tv電話システム、カラオケシステム、カーナビゲーションシステム、および緊急情報通知システム
JP2012037783A (ja) * 2010-08-10 2012-02-23 Yahoo Japan Corp 情報家電システム、情報取得方法及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020065140A (ja) * 2018-10-16 2020-04-23 カシオ計算機株式会社 音声処理装置、方法、プログラム、携帯端末

Also Published As

Publication number Publication date
JP6059253B2 (ja) 2017-01-11
CN104871241A (zh) 2015-08-26
JPWO2014103035A1 (ja) 2017-01-12

Similar Documents

Publication Publication Date Title
KR102490376B1 (ko) 전자 장치 및 전자 장치 간 음성으로 기능을 실행하는 방법
CN107277754B (zh) 一种蓝牙连接的方法及蓝牙外围设备
US9093070B2 (en) Method and mobile device for executing a preset control command based on a recognized sound and its input direction
WO2016009646A1 (en) Apparatus, method, non-transitory computer-readable medium and system
KR20200109954A (ko) IoT 기기의 위치 추론 방법, 이를 지원하는 서버 및 전자 장치
EP3777115B1 (en) Electronic device supporting personalized device connection and method thereof
JP6059253B2 (ja) 音声認識デバイス
EP3246790B1 (en) Information processing of combined voice and gesture input operations
US11392346B2 (en) Electronic device for providing voice-based service using external device, external device and operation method thereof
US20160057564A1 (en) Bluetooth pairing method using a wired connection
JP2016151608A (ja) 電子装置、情報端末システム、音声認識機能の起動プログラムおよび音声認識機能の起動方法
US9037459B2 (en) Selection of text prediction results by an accessory
US20210383806A1 (en) User input processing method and electronic device supporting same
US20230032366A1 (en) Method and apparatus for wireless connection between electronic devices
US20210151052A1 (en) System for processing user utterance and control method thereof
JP2010130223A (ja) 音声操作システムおよび音声操作方法
KR102629796B1 (ko) 음성 인식의 향상을 지원하는 전자 장치
KR20210045280A (ko) IoT 기기를 제어하는 방법 및 이를 위한 전자 장치
CN118784769A (zh) 响应用户语音执行包括呼叫的任务的电子装置及操作方法
KR20210116897A (ko) 외부 장치의 음성 기반 제어를 위한 방법 및 그 전자 장치
JP2012039282A (ja) 電子機器、その情報表示プログラム及びその情報表示方法
US20230034018A1 (en) Electronic device comprising wireless communication circuit for bluetooth communication, and method for operating same
JP6261311B2 (ja) 通信システム、電子装置、通信方法及び通信プログラム
KR20130124049A (ko) 음성 인식을 통한 근거리 무선 통신 기기 연결 가능한 차량용 통신 단말 및 그 방법
KR102529790B1 (ko) 전자장치 및 그 제어방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12890691

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2014554024

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12890691

Country of ref document: EP

Kind code of ref document: A1