JPWO2015098109A1

JPWO2015098109A1 - 音声認識処理装置、音声認識処理方法、および表示装置

Info

Publication number: JPWO2015098109A1
Application number: JP2015554574A
Authority: JP
Inventors: 小沼　知浩; 知浩小沼; 智弘小金井
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2013-12-26
Filing date: 2014-12-25
Publication date: 2017-03-23
Also published as: EP3089158B1; EP3089158A1; CN105556594B; EP3089158A4; WO2015098109A1; US9767795B2; CN105556594A; US20160217783A1

Abstract

音声操作の操作性を向上する。そのために、音声認識処理装置（１００）において、音声取得部（１０１）は、ユーザが発する音声を取得して音声情報を出力するように構成されている。音声認識部（１０２）は、音声情報を第１情報に変換するように構成されている。記憶部（１７０）は、排他語彙が登録された辞書をあらかじめ記憶している。認識結果判定部（１０４）は、第１情報と排他語彙とを比較し、排他語彙に一致する言葉が第１情報に含まれているときは、第１情報を棄却すべき情報と判定し、排他語彙に一致する言葉が第１情報に含まれていないときは、第１情報を実行すべき情報と判定する。

Description

本開示は、ユーザが発した音声を認識して動作する音声認識処理装置、音声認識処理方法、および表示装置に関する。

特許文献１は、音声認識機能を有する音声入力装置を開示する。この音声入力装置は、ユーザが発した音声を受信し、受信した音声を解析することによりユーザの音声が示す命令を認識（音声認識）し、音声認識した命令に応じて機器を制御するように構成されている。すなわち、特許文献１の音声入力装置は、ユーザが任意に発した音声を音声認識し、その音声認識した結果である命令（コマンド）に応じて機器を制御することができる。

例えば、この音声入力装置を使用するユーザは、テレビジョン受像機（以下、「テレビ」と記す）やＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）などでブラウザを操作しているときに、ブラウザ上に表示されているハイパーテキストの選択を、この音声入力装置の音声認識機能を利用して行うことができる。また、ユーザは、検索サービスを提供するウェブサイト（検索サイト）上での検索を、この音声認識機能を利用して行うこともできる。

また、この音声入力装置においては、ユーザの利便性を高めるために、「トリガーレス認識」が行われることがある。「トリガーレス認識」とは、音声入力装置において、音声認識のための音声入力を受け付ける期間に制限を設けず、音声の集音と集音された音声に対する音声認識とが常に行われる状態のことである。しかしながら、この音声入力装置でトリガーレス認識を行うと、集音された音声が、音声認識を目的としてユーザが発声したものなのか、ユーザ同士の会話やユーザの独り言等の音声認識を目的としない音声なのか、を区別することが困難なため、音声認識を目的としない音声を誤って音声認識（誤認識）することがある。

日本国特許第４８１２９４１号公報

本開示は、誤認識を低減し、ユーザの操作性を向上する音声認識処理装置および音声認識処理方法を提供する。

本開示における音声認識処理装置は、音声取得部と、第１音声認識部と、記憶部と、認識結果判定部と、を備えている。音声取得部は、ユーザが発する音声を取得して音声情報を出力するように構成されている。第１音声認識部は、音声情報を第１情報に変換するように構成されている。記憶部は、排他語彙が登録された辞書をあらかじめ記憶している。認識結果判定部は、第１情報と排他語彙とを比較し、第１情報に排他語彙と一致する言葉が含まれているか否かを判定する。そして、認識結果判定部は、第１情報に、排他語彙に一致する言葉が含まれているときは、第１情報を棄却すべき情報と判定し、第１情報に、排他語彙に一致する言葉が含まれていないときは、第１情報を実行すべき情報と判定する。

本開示における音声認識処理方法は、ユーザが発する音声を取得して音声情報に変換するステップと、音声情報を第１情報に変換するステップと、音声情報を第２情報に変換するステップと、第１情報と第２情報のいずれか一方を選択するステップと、選択された情報と、辞書に登録された排他語彙とを比較し、選択された情報に排他語彙と一致する言葉が含まれているか否かを判定するステップと、選択された情報に、排他語彙に一致する言葉が含まれているときは、選択された情報を棄却すべき情報と判定するステップと、選択された情報に、排他語彙に一致する言葉が含まれていないときは、選択された情報を実行すべき情報と判定するステップと、を備える。

本開示における表示装置は、音声取得部と、第１音声認識部と、記憶部と、認識結果判定部と、処理部と、表示部と、を備えている。音声取得部は、ユーザが発する音声を取得して音声情報を出力するように構成されている。第１音声認識部は、音声情報を第１情報に変換するように構成されている。記憶部は、排他語彙が登録された辞書をあらかじめ記憶している。認識結果判定部は、第１情報と排他語彙とを比較し、第１情報に排他語彙と一致する言葉が含まれているか否かを判定し、その判定にもとづき、第１情報を棄却すべきか実行すべきかを判定するように構成されている。処理部は、認識結果判定部において実行すべきと判定された第１情報にもとづく処理を実行するように構成されている。そして、認識結果判定部は、第１情報に、排他語彙に一致する言葉が含まれているときは、第１情報を棄却すべき情報と判定し、第１情報に、排他語彙に一致する言葉が含まれていないときは、第１情報を実行すべき情報と判定する。

本開示における音声認識処理装置は、ユーザが音声操作するときの操作性を向上することができる。

図１は、実施の形態１における音声認識処理システムを概略的に示す図である。図２は、実施の形態１における音声認識処理システムの一構成例を示すブロック図である。図３は、実施の形態１における音声認識処理装置の認識結果判定部の一構成例を示すブロック図である。図４は、実施の形態１における音声認識処理装置の一動作例を示すフローチャートである。図５は、実施の形態２における音声認識処理システムの一構成例を示すブロック図である。図６は、実施の形態２における音声認識処理装置の認識結果判定部の一構成例を示すブロック図である。図７は、実施の形態２における認識結果判定部の一動作例を示すフローチャートである。図８Ａは、他の実施の形態における認識結果判定部の一構成例を示すブロック図である。図８Ｂは、他の実施の形態における認識結果判定部の一構成例を示すブロック図である。

以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。

なお、添付図面および以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。

（実施の形態１）
以下、図１〜図４を用いて、実施の形態１を説明する。なお、本実施の形態では、音声認識処理装置を備えた表示装置の一例としてテレビジョン受像機（テレビ）１０を挙げているが、表示装置は何らテレビ１０に限定されるものではない。例えば、ＰＣやタブレット端末、携帯端末等であってもよい。

また、本実施の形態に示す音声認識処理システム１１は、トリガーレス認識を行うものとするが、本開示は何らトリガーレス認識に限定されるものではなく、ユーザ７００による音声認識の開始操作によって音声認識が開始されるシステムにも適用可能である。

［１−１．構成］
図１は、実施の形態１における音声認識処理システム１１を概略的に示す図である。本実施の形態では、表示装置の一例であるテレビ１０に音声認識処理装置が内蔵されている。

本実施の形態における音声認識処理システム１１は、表示装置の一例であるテレビ１０と、音声認識サーバ５０と、を備える。

テレビ１０で音声認識処理装置が起動すると、テレビ１０の表示部１４０には、入力映像信号や受信された放送信号等にもとづく映像とともに、音声認識アイコン２０３と、集音されている音声の音量を示すインジケータ２０２と、が表示される。これは、ユーザ７００の音声にもとづくテレビ１０の操作（以下、「音声操作」と記す）が可能な状態になったことをユーザ７００に示すとともに、ユーザ７００に発話を促すためである。

テレビ１０が備える内蔵マイク１３０に向かってユーザ７００が音声を発すると、その音声は、内蔵マイク１３０で集音され、集音された音声はテレビ１０に内蔵された音声認識処理装置で音声認識される。テレビ１０では、その音声認識の結果に応じてテレビ１０の制御が行われる。

テレビ１０は、ユーザ７００が発話した音声が内蔵されたマイクで集音されてテレビ１０に無線送信されるように構成されたリモートコントローラまたは携帯端末、を備えた構成にすることも可能である。

また、テレビ１０は、ネットワーク４０を介して音声認識サーバ５０に接続されている。そして、テレビ１０と音声認識サーバ５０との間で通信することができる。

図２は、実施の形態１における音声認識処理システム１１の一構成例を示すブロック図である。

テレビ１０は、音声認識処理装置１００と、表示部１４０と、送受信部１５０と、チューナ１６０と、記憶部１７１と、内蔵マイク１３０と、を有する。

音声認識処理装置１００は、ユーザ７００が発する音声を取得し、取得した音声を解析するように構成されている。そして、その音声が示す指示を認識し、認識した結果に応じてテレビ１０の制御を行うように構成されている。音声認識処理装置１００の具体的な構成については後述する。

内蔵マイク１３０は、主に表示部１４０の表示面に対向する方向から来る音声を集音するように構成されたマイクである。すなわち、内蔵マイク１３０は、テレビ１０の表示部１４０に対面しているユーザ７００が発する音声を集音できるように集音方向が設定されており、ユーザ７００が発した音声を集音することが可能である。内蔵マイク１３０は、テレビ１０の筐体内に設けられていてもよく、図１に一例を示したようにテレビ１０の筐体外に設置されていてもよい。

表示部１４０は、例えば液晶ディスプレイであるが、プラズマディスプレイ、または有機ＥＬ（ＥｌｅｃｔｒｏＬｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ等であってもよい。表示部１４０は、表示制御部（図示せず）によって制御され、外部からの入力映像信号やチューナ１６０で受信された放送信号等にもとづく画像が表示される。

送受信部１５０は、ネットワーク４０に接続されており、ネットワーク４０に接続された外部機器（例えば、音声認識サーバ５０）と、ネットワーク４０を通して通信を行うように構成されている。

チューナ１６０は、地上放送や衛星放送のテレビジョン放送信号をアンテナ（図示せず）を介して受信するように構成されている。チューナ１６０は、専用ケーブルを介して送信されるテレビジョン放送信号を受信するように構成されていてもよい。

記憶部１７１は、例えば不揮発性の半導体メモリであるが、揮発性の半導体メモリ、またはハードディスク、等であってもよい。記憶部１７１は、テレビ１０の各部の制御に用いられる情報（データ）やプログラム等を記憶している。

ネットワーク４０は、例えばインターネットであるが、他のネットワークであってもよい。

音声認識サーバ５０は、「第２音声認識部」の一例である。音声認識サーバ５０は、ネットワーク４０を介してテレビ１０と接続されるサーバ（クラウド上の辞書サーバ）である。音声認識サーバ５０は、認識辞書５５を備えており、テレビ１０からネットワーク４０を介して送信されてくる音声情報を受信するように構成されている。認識辞書５５は、音声情報と音声認識モデルとを対応付けるためのデータベースである。そして、音声認識サーバ５０は、受信した音声情報と認識辞書５５の音声認識モデルとを照合し、受信した音声情報に、認識辞書５５に登録された音声認識モデルに対応する音声情報が含まれているか否かを確認する。そして、受信した音声情報に、認識辞書５５に登録された音声認識モデルに対応する音声情報が含まれていれば、その音声認識モデルが示す文字列を選択する。こうして、受信した音声情報を文字列に変換する。なお、この文字列は、複数の文字であってもよく、１文字であってもよい。そして、音声認識サーバ５０は、変換後の文字列を示す文字列情報を、音声認識の結果として、ネットワーク４０を介してテレビ１０に送信する。この文字列情報は、「第２情報」の一例である。

音声認識処理装置１００は、音声取得部１０１と、音声認識部１０２と、認識結果取得部１０３と、認識結果判定部１０４と、コマンド処理部１０６と、記憶部１７０と、を有する。

記憶部１７０は、例えば不揮発性の半導体メモリであり、任意にデータの書き込みと読み出しが可能である。記憶部１７０は、揮発性の半導体メモリ、またはハードディスク、等であってもよい。記憶部１７０は、音声認識部１０２や認識結果判定部１０４により参照される情報（例えば、認識辞書１７５）等も記憶している。認識辞書１７５は、「辞書」の一例である。認識辞書１７５は、音声情報と音声認識モデルとを対応付けるためのデータベースである。また、認識辞書１７５には排他対象リストも登録されている。排他対象リストの詳細は後述する。なお、記憶部１７０と記憶部１７１とは、一体に構成されていてもよい。

音声取得部１０１は、ユーザ７００が発した音声による音声信号を取得して音声情報に変換し、音声認識部１０２に出力する。

音声認識部１０２は、「第１音声認識部」の一例である。音声認識部１０２は、音声情報を文字列情報に変換し、その文字列情報を音声認識の結果として認識結果取得部１０３に出力する。この文字列情報は、「第１情報」の一例である。また、音声認識部１０２は、音声取得部１０１から取得した音声情報を、送受信部１５０からネットワーク４０を介して音声認識サーバ５０に送信する。

音声認識サーバ５０は、テレビ１０から受信した音声情報を、認識辞書５５を参照して音声認識し、その音声認識の結果をテレビ１０に返信する。

認識結果取得部１０３は、「選択部」の一例である。認識結果取得部１０３は、音声認識部１０２から出力される音声認識の結果（第１情報）と、音声認識サーバ５０から返信される音声認識の結果（第２情報）と、を受け取ると、それらを比較していずれか一方を選択する。そして、認識結果取得部１０３は、選択した方を認識結果判定部１０４へ出力する。

認識結果判定部１０４は、認識結果取得部１０３から出力される音声認識の結果に対して、棄却すべきか実行（受理）すべきかの判定を行う。この詳細は後述する。そして、その判定にもとづき、音声認識の結果をコマンド処理部１０６または音声取得部２０１に出力する。

コマンド処理部１０６は、認識結果判定部１０４からの出力（実行すべきと判定された音声認識の結果）にもとづき、コマンド処理（例えば、テレビ１０の制御、等）を行う。コマンド処理部１０６は、「処理部」の一例であり、このコマンド処理は、「処理」の一例である。

図３は、実施の形態１における音声認識処理装置１００の認識結果判定部１０４の一構成例を示すブロック図である。

認識結果判定部１０４は、排他語彙棄却部１０４２と、受理棄却送信部１０４５と、を備えている。これらの動作の詳細は後述する。

［１−２．動作］
次に、本実施の形態におけるテレビ１０の音声認識処理装置１００の動作について説明する。

図３は、実施の形態１における音声認識処理装置１００の一動作例を示すフローチャートである。

音声取得部１０１は、ユーザ７００が発した音声による音声信号を、テレビ１０の内蔵マイク１３０から取得する（ステップＳ１０１）。

音声取得部１０１は、リモートコントローラ（図示せず）に内蔵されたマイク、または携帯端末（図示せず）に内蔵されたマイクから、無線通信部（図示せず）を介して音声信号を取得してもよい。

そして、音声取得部１０１は、その音声信号を、後段での各種処理に用いることができる音声情報に変換し、音声認識部１０２に出力する。なお、音声取得部１０１は、音声信号がデジタル信号であれば、その音声信号をそのまま音声情報として用いてもよい。

音声認識部１０２は、音声取得部１０１から取得した音声情報を文字列情報に変換する。そして、音声認識の結果としてその文字列情報を認識結果取得部１０３に出力する。また、音声認識サーバ５０は、テレビ１０からネットワーク４０を介して取得した音声情報を文字列情報に変換し、その文字列情報を音声認識の結果としてテレビ１０に返信する（ステップＳ１０２）。

具体的には、音声認識部１０２は、音声取得部１０１から取得した音声情報にもとづき、予め記憶部１７０に記憶されている認識辞書１７５内の受理対象リストを参照する。そして、その音声情報と、受理対象リストに登録された音声認識モデルとを比較する。

音声認識モデルとは、音声情報と文字列情報とを対応付けるための情報である。音声認識を行う際には、複数の音声認識モデルのそれぞれと音声情報とが比較され、音声情報に合致または類似する１つの音声認識モデルが選択される。そして、その音声認識モデルに対応付けられた文字列情報が、その音声情報に対する音声認識の結果となる。受理対象リストには、例えば、テレビ１０に対する指示（例えば、チャンネル変更や音量変更、等）、テレビ１０の機能（例えば、ネットワーク接続機能、等）、テレビ１０の各部の名称（例えば、電源、チャンネル、等）、テレビ１０の画面に表示されるコンテンツに対する指示（例えば、拡大、縮小、スクロール、等）、等のテレビ１０の操作に関連する音声認識モデルが登録されている。

なお、記憶部１７０に記憶されている認識辞書１７５には、受理対象リストに加え、後述する排他対象リスト（図２には示さず）も登録されている。

音声認識部１０２は、音声情報と受理対象リストに登録された音声認識モデルとを照合する。そして、音声取得部１０１から取得した音声情報に、受理対象リストに登録された音声認識モデルに対応するものが含まれていれば、その音声認識モデルに対応付けられた文字列情報を、音声認識の結果として認識結果取得部１０３に出力する。

音声認識部１０２は、音声情報と音声認識モデルとの照合時に、認識スコアを算出する。認識スコアとは、尤度（ゆうど）を示す数値であり、音声情報がその音声認識モデルにどの程度合致または類似しているかを示す指標であって、数値が大きいほど類似度が高い。音声認識部１０２は、音声情報と音声認識モデルとを照合し、複数の音声認識モデルを候補として選択する。このとき、音声認識部１０２は、それぞれの音声認識モデルに対して、認識スコアを算出する。なお、この認識スコアの算出手法は、一般的に知られた手法でかまわない。そして、あらかじめ設定された閾値以上で、かつ最も高い認識スコアの音声認識モデルを選択し、その音声認識モデルに対応する文字列情報を、音声認識の結果として出力する。なお、音声認識部１０２は、その文字列情報とともに、その文字列情報に関連する認識スコアを認識結果取得部１０３に出力してもよい。

こうして、音声認識部１０２は、音声情報を文字列情報に変換する。なお、音声認識部１０２は、音声情報を文字列情報以外の情報に変換して出力してもよい。また、音声認識部１０２は、閾値以上の認識スコアの音声認識モデルがなければ、音声認識不能を示す情報を出力してもよい。

また、音声認識部１０２は、音声取得部１０１から取得した音声情報を、送受信部１５０からネットワーク４０を介して音声認識サーバ５０に送信する。

音声認識サーバ５０は、テレビ１０から受信した音声情報にもとづき、認識辞書５５を参照する。そして、その音声情報を、認識辞書５５内の音声認識モデルと照合して、文字列情報に変換する。

音声認識サーバ５０は、受信した音声情報を認識辞書５５内の音声認識モデルと比較するときに、認識スコアを算出する。この認識スコアは、音声認識部１０２で算出される認識スコアと同様の尤度を示す数値であり、音声認識部１０２で認識スコアを算出するときと同様の手法で算出される。音声認識サーバ５０は、音声認識部１０２と同様に、受信した音声情報にもとづき複数の音声認識モデルを候補として選択し、その候補の中から認識スコアにもとづき１つの音声認識モデルを選択する。そして、音声認識サーバ５０は、その音声認識モデルに対応付けられた文字列情報を、音声認識の結果としてテレビ１０に返信する。音声認識サーバ５０は、その文字列情報とともに、その文字列情報に関連する認識スコアをテレビ１０に送信してもよい。

音声認識サーバ５０は、ネットワーク４０を通していろいろな用語を収集し、それらの用語を認識辞書５５に登録することができるように構成されている。そのため、音声認識サーバ５０は、テレビ１０が備える認識辞書１７５と比較して、より多くの音声認識モデルを備えることができる。したがって、音声認識サーバ５０では、テレビ１０の機能やテレビ１０への指示とは関係ない言葉（例えば、ユーザ同士の会話や独り言、等）をユーザ７００が発話したときに、その音声に対する音声認識の認識スコアが、テレビ１０の音声認識部１０２が同様の音声認識を行ったときと比較して、高くなる可能性が高い。

音声認識サーバ５０からネットワーク４０を介して音声認識の結果を受け取った送受信部１５０は、その音声認識の結果を認識結果取得部１０３に出力する。

認識結果取得部１０３は、音声認識部１０２と音声認識サーバ５０とのそれぞれから音声認識の結果を受け取ると、判別ルールに従ってどちらか一方の音声認識結果を選択する（ステップＳ１０３）。

この判別ルールは、例えば、音声認識部１０２から受け取った音声認識の結果に付随する認識スコアと、音声認識サーバ５０から受け取った音声認識の結果に付随する認識スコアとを互いに比較し、認識スコアが高い方の音声認識結果を選択する、といったものでも良い。認識結果取得部１０３は、選択した音声認識結果を認識結果判定部１０４へ出力する。

なお、認識結果取得部１０３は、音声認識部１０２と音声認識サーバ５０とのいずれか一方からしか音声認識の結果を受け取ることができないときは、ステップＳ１０３の処理をスキップし、受け取った音声認識の結果をそのまま出力してもよい。

図３に示す認識結果判定部１０４の排他語彙棄却部１０４２は、認識結果取得部１０３から出力される音声認識の結果に、排他対象リストに登録された語彙（排他語彙）に一致しているものがあるか否かを判定する（ステップＳ１０４）。

排他対象リストとは、テレビ１０の音声操作には用いられないと判断された言葉（語彙）を排他語彙として登録したリストである。排他語彙は、例えば、記憶部１７０の認識辞書１７５に受理対象リストとして登録された語彙を除く語彙である。この排他対象リストは、記憶部１７０の認識辞書１７５にあらかじめ登録されているが、新規の排他語彙を任意に追加できるように構成されていてもよい。なお、テレビ１０を音声操作する際にユーザ７００が発話する言葉に発音が似ていて、かつ、テレビ１０の音声操作とは関係がない語彙を排他語彙として排他対象リストに登録しておけば、音声認識の精度を向上させることができる。

ステップＳ１０４では、排他語彙棄却部１０４２は、記憶部１７０に記憶されている認識辞書１７５内の排他対象リストと、認識結果取得部１０３から出力される音声認識の結果である文字列情報と、を照合し、排他対象リストに含まれた排他語彙に一致する文字列情報の有無を調べる。そして、排他語彙棄却部１０４２は、排他語彙に一致する文字列情報は、棄却すべき情報であると判定し、フラグを付与して受理棄却送信部１０４５に出力する（Ｙｅｓ）。

受理棄却送信部１０４５は、排他語彙棄却部１０４２から入力される文字列情報にフラグが付与されていれば、その文字列情報を、棄却情報として音声取得部１０１へ出力する。棄却情報を受け取った音声取得部１０１は、次の音声認識に備えて音声取得の準備をする（ステップＳ１０６）。したがって、コマンド処理部１０６は、フラグが付与された文字列情報（棄却情報）に関しては、何ら処理を行わない。

ステップＳ１０４において、排他語彙棄却部１０４２は、排他語彙に一致しない文字列情報は、受理（実行）すべき情報であると判定し、フラグを付与せずに受理棄却送信部１０４５に出力する（Ｎｏ）。

受理棄却送信部１０４５は、排他語彙棄却部１０４２から入力される文字列情報にフラグが付与されていなければ、その文字列情報をコマンド処理部１０６へ出力する。コマンド処理部１０６は、受理棄却送信部１０４５から受け取った文字列情報が表す指示にもとづきコマンド処理を実行する（ステップＳ１０５）。

例えば、文字列情報に、チャンネル変更や音量変更等のテレビ１０の制御に関するコマンド情報が含まれていれば、コマンド処理部１０６は、そのコマンド情報に対応した動作がテレビ１０で実行されるように、テレビ１０の制御部（図示せず）に指示を出す。

ステップＳ１０５の終了後、コマンド処理部１０６は、音声取得部１０１に、コマンド処理が終了したことを示す信号を送信する。その信号を受け取った音声取得部１０１は、次の音声認識に備えて音声取得の準備をする（ステップＳ１０６）。

［１−３．効果等］
以上のように本実施の形態において、音声認識処理装置１００は、音声取得部１０１と、第１音声認識部の一例である音声認識部１０２と、記憶部１７０と、認識結果判定部１０４と、を備えている。音声取得部１０１は、ユーザ７００が発する音声を取得して音声情報を出力するように構成されている。音声認識部１０２は、音声情報を、第１情報の一例である文字列情報に変換するように構成されている。記憶部１７０は、排他語彙が登録された認識辞書１７５をあらかじめ記憶している。認識辞書１７５は辞書の一例である。認識結果判定部１０４は、文字列情報と排他語彙とを比較し、文字列情報に排他語彙と一致する言葉が含まれているか否かを判定する。そして、認識結果判定部１０４は、文字列情報に、排他語彙に一致する言葉が含まれているときは、文字列情報を棄却すべき情報と判定し、文字列情報に、排他語彙に一致する言葉が含まれていないときは、文字列情報を実行すべき情報と判定する。

また、音声認識処理装置１００は、第２音声認識部の一例である音声認識サーバ５０と、選択部の一例である認識結果取得部１０３と、をさらに備えていてもよい。この場合、音声認識サーバ５０は、音声情報を、第２情報の一例である文字列情報に変換するように構成されている。認識結果取得部１０３は、音声認識部１０２が出力する文字列情報と、音声認識サーバ５０が出力する文字列情報との、いずれか一方を選択して出力するように構成されている。そして、認識結果判定部１０４は、認識結果取得部１０３において選択された方の文字列情報に対して、棄却すべきか実行すべきかの判定を行う。

第２音声認識部の一例である音声認識サーバ５０はネットワーク４０上に設置されていてもよい。音声認識処理装置１００は、ネットワーク４０を介して音声認識サーバ５０と通信を行うように構成された送受信部１５０を備えていてもよい。

このように構成された音声認識処理装置１００では、ユーザ７００が音声操作のために発する音声と、ユーザ７００同士での会話や独り言による音声と、を精度よく判別し、誤認識を低減して、音声認識の精度を向上することができる。

例えば、テレビ１０を音声操作する際に発話される言葉に発音が似ていて、かつ、テレビ１０の音声操作とは関係がない言葉を、ユーザ７００が発話したとする。このとき、音声認識部１０２は、その音声にもとづく音声認識の結果として、受理対象リストに登録された文字列情報を出力する（すなわち、誤認識をする）可能性が高い。

一方、ネットワーク４０を通して登録内容が更新され認識辞書１７５よりも多くの音声認識モデル（語彙）が登録されていると考えられる認識辞書５５を有する音声認識サーバ５０では、そのような音声に対して、より正しい音声認識が行われる可能性が高い。

したがって、誤認識されやすい音声を音声認識部１０２が誤認識して出力する文字列情報に付随する認識スコアよりも、その音声を音声認識サーバ５０が音声認識して出力する文字列情報に付随する認識スコアの方が数値が大きく、音声認識サーバ５０から出力される文字列情報が認識結果取得部１０３で選択される可能性は高いと考えられる。

そして、この文字列情報に対応する語彙が排他語彙として認識辞書１７５内の排他対象リストに登録されていれば、排他語彙棄却部１０４２では、その文字列情報は棄却すべき情報と判断される。

このように、本実施の形態によれば、音声認識部１０２で誤って音声認識されるような音声に対する音声認識の精度を高め、誤認識による誤ったコマンド処理がコマンド処理部１０６でなされることを防止することができる。

また、ユーザ７００が発話する音声が十分な大きさでなかったり、雑音が多いとき等も、音声認識部１０２で誤認識が生じる可能性が高いが、そのような場合も音声認識の精度を高めることができる。

なお、音声認識部１０２が有する認識辞書１７５が、音声認識サーバ５０の認識辞書５５と同様に、ネットワーク４０等を通して登録内容を更新できるように構成されていれば、テレビ１０だけで音声認識を実施するように音声認識処理システム１１を構成してもよい。このような構成であっても、認識結果判定部１０４の働きにより、誤認識を低減して音声認識の精度を高めることができる。

（実施の形態２）
次に、図５〜図７を用いて、実施の形態２を説明する。実施の形態２では、ユーザ７００が発話する可能性の高い言葉（例えば、テレビ１０の動作や機能等に関する言葉）に対する音声認識の精度を高める手法について説明する。

［２−１．構成］
図５は、実施の形態２における音声認識処理システム２１の一構成例を示すブロック図である。

本実施の形態における音声認識処理システム２１は、表示装置の一例であるテレビ２０と、音声認識サーバ５０と、を備える。この音声認識サーバ５０は、実施の形態１で説明した音声認識サーバ５０と実質的に同じものであるので、説明を省略する。

テレビ２０は、音声認識処理装置２００と、表示部１４０と、送受信部１５０と、チューナ１６０と、記憶部１７１と、内蔵マイク１３０と、を有する。音声認識処理装置２００は、音声取得部２０１と、音声認識部１０２と、認識結果取得部１０３と、認識結果判定部２０４と、コマンド処理部１０６と、記憶部２７０と、を有する。

なお、実施の形態１で説明したテレビ１０が備える構成要素と実質的に同じ動作をする構成要素に関しては、実施の形態１と同じ符号を付与し、説明を省略する。

また、記憶部２７０内の認識辞書１７５には、実施の形態１で説明した受理対象リストおよび排他対象リストと同様の受理対象リストおよび排他対象リストが登録されているものとする。

実施の形態２における音声認識処理装置２００は、実施の形態１で説明した音声認識処理装置１００とは、音声取得部２０１および認識結果判定部２０４における動作に差異がある。

音声取得部２０１は、実施の形態１で説明した音声取得部１０１と同様に、ユーザ７００が発した音声による音声信号を、内蔵マイク１３０から取得する。ただし、音声取得部２０１は、実施の形態１に示した音声取得部１０１とは異なり、取得した音声信号にもとづき、発話時間長情報と発話様式情報とを作成する。

発話時間長情報とは、ユーザ７００が発話した時間の長さを示す情報のことである。音声取得部２０１は、例えば、あらかじめ設定したしきい値以上の音量の音声が連続して生じる時間の長さを測定することで、発話時間長情報を作成することができる。音声取得部２０１は、他の手法により発話時間長情報を作成してもよい。

発話様式情報とは、ユーザ７００の発話の前後に生じる無音声または実質的に無音声と見なせる時間の長さを示す情報のことである。音声取得部２０１は、例えば、音量があらかじめ設定したしきい値未満になる状態を無音声とし、発話の前後に生じる無音声期間の長さを測定することで、発話様式情報を作成することができる。音声取得部２０１は、他の手法により発話様式情報を作成してもよい。

音声取得部２０１は、音声情報に発話時間長情報と発話様式情報とをそれぞれ付加し、音声認識部１０２に出力する。

複数のユーザ７００同士の会話やユーザ７００の独り言等に、受理対象リストに登録された語彙（受理対象語彙）が含まれることがある。そして、その音声が内蔵マイク１３０に集音されてその音声にもとづく音声情報が音声認識部１０２に入力されることがある。そのような場合、その音声情報にもとづく誤った音声認識が音声認識部１０２で行われ、ユーザ７００にテレビ２０を音声操作する意図がないにも関わらず、誤認識にもとづく誤ったコマンド処理がコマンド処理部１０６で行われてしまう可能性がある。本実施の形態では、そのような誤認識の発生を低減するために、実施の形態１で説明した排他対象リストに加え、「発話時間長情報」と「発話様式情報」とを用いた音声認識を行う。

発話時間長情報と発話様式情報との詳細は後述する。また、音声認識部１０２は、発話時間長情報と発話様式情報とを付加した音声情報を、送受信部１５０およびネットワーク４０を介して音声認識サーバ５０に送信する。

［２−２．動作］
次に、本実施の形態におけるテレビ２０の音声認識処理装置２００が有する認識結果判定部２０４の構成および動作を図６と図７を用いて説明する。

図６は、実施の形態２における音声認識処理装置２００の認識結果判定部２０４の一構成例を示すブロック図である。

認識結果判定部２０４は、排他語彙棄却部１０４２と、発話時間長判定部２０４３と、発話様式判定部２０４４と、受理棄却送信部１０４５と、を備えている。

図７は、実施の形態２における認識結果判定部２０４の一動作例を示すフローチャートである。

認識結果取得部１０３は、実施の形態１で説明したステップＳ１０３と同様に、音声認識部１０２と音声認識サーバ５０とのそれぞれから音声認識の結果を受け取ると、判別ルールに従ってどちらか一方の音声認識結果を選択する（ステップＳ１０３）。この判別ルールは実施の形態１で説明した判別ルールと実質的に同じものである。

認識結果判定部２０４の排他語彙棄却部１０４２は、実施の形態１で説明したステップＳ１０４と同様に、認識結果取得部１０３から出力される音声認識の結果に、排他対象リストに登録された語彙（排他語彙）と一致しているものがあるか否かを判定する（ステップＳ１０４）。

ステップＳ１０４では、排他語彙棄却部１０４２は、実施の形態１で説明した排他語彙棄却部１０４２と同様に、記憶部２７０に記憶されている認識辞書１７５内の排他対象リストと、認識結果取得部１０３から出力される音声認識の結果である文字列情報と、を照合し、排他対象リストに含まれた排他語彙に一致する文字列情報の有無を調べる。そして、排他語彙棄却部１０４２は、排他語彙に一致する文字列情報は、棄却すべき情報であると判定し、フラグを付与して受理棄却送信部１０４５へ出力する（Ｙｅｓ）。

受理棄却送信部１０４５は、実施の形態１で説明した受理棄却送信部１０４５と同様に、フラグが付与された文字列情報を、棄却情報として音声取得部２０１へ出力する。棄却情報を受け取った音声取得部２０１は、次の音声認識に備えて音声取得の準備をする（ステップＳ１０６）。

一方、ステップＳ１０４において、排他語彙棄却部１０４２は、排他語彙に一致しない文字列情報は、フラグを付与せずにそのまま発話時間長判定部２０４３へ出力する（Ｎｏ）。

発話時間長判定部２０４３は、排他語彙棄却部１０４２から入力されたフラグが付与されていない文字列情報に関して、棄却すべきか受理（実行）すべきかの判定を、発話時間長にもとづき、再度行う（ステップＳ２００）。

ここで、発話時間長判定部２０４３で使用する「発話時間長」について説明する。発話時間長とは、発話の時間の長さのことである。ここでは、ユーザ７００がテレビ２０を音声操作するために行う発話を「制御用発話」と記し、テレビ２０の音声操作を目的としない発話（ユーザ７００同士の会話やユーザ７００の独り言等）を「会話用発話」と記す。

本実施の形態では、認識辞書１７５に登録された受理対象リストに含まれる受理対象語彙のそれぞれに対応する発話時間長データ（発話に要する時間の長さを示すデータ）が、あらかじめ記憶部２７０に記憶されている。これにより、発話時間長判定部２０４３は、音声認識の結果として選択された受理対象語彙の発話時間長を算出することができる。なお、この発話時間長データには、発話速度の個人差等を加味して、幅（レンジ）を持たせておくことが望ましい。

「制御用発話」は、１単語もしくは２単語程度で構成されることが多いことが確認されている。また、それらの単語（語彙）の全てが、受理対象リストに登録された受理対象語彙である可能性は高い。したがって、「制御用発話」を音声認識すると、音声認識の結果として選択された受理対象語彙の発話時間長データにもとづく発話時間長は、音声取得部２０１で作成された発話時間長情報が示す「制御用発話」の発話時間長に近似する可能性が高い。なお、音声認識の結果として複数の受理対象語彙が選択されたときは、それら複数の受理対象語彙に対応する発話時間長データにもとづき発話時間長が算出されるものとする。

一方、「会話用発話」は、複数の単語で構成されることが多く、また、それらの単語（語彙）に、受理対象リストに登録された受理対象語彙に対応するものが含まれる可能性は低い。したがって、「会話用発話」を音声認識すると、音声認識の結果として選択された受理対象語彙の発話時間長データにもとづく発話時間長は、音声取得部２０１で作成された発話時間長情報が示す「会話用発話」の発話時間長よりも短くなる可能性が高い。

これらのことから、音声認識処理装置２００では、音声認識部１０２で音声認識の結果として選択された受理対象語彙の発話時間長データにもとづく発話時間長と、音声取得部２０１で作成された発話時間長情報にもとづく発話時間長とを比較することで、音声認識の対象となる音声が、「制御用発話」によるものなのか、それとも「会話用発話」によるものなのか、を判定することができる。そして、本実施の形態２では、その判定を発話時間長判定部２０４３が行う。

ステップＳ２００では、発話時間長判定部２０４３は、音声認識の結果として認識結果取得部１０３から出力される受理対象語彙にもとづき、その受理対象語彙に関連付けられた発話時間長データを記憶部２７０から読み出す。発話時間長判定部２０４３は、受け取る受理対象語彙が複数であれば、それら全てに関する発話時間長データを記憶部２７０から読み出す。そして、読み出された発話時間長データにもとづき発話時間長を算出する。そして、その算出結果と、音声取得部２０１で作成された発話時間長情報が示す発話時間長とを比較する。なお、発話時間長判定部２０４３は、算出された発話時間長と、発話時間長情報が示す発話時間長とをそのまま比較してもよいが、算出された発話時間長にもとづき判定のための範囲を設定してもよい。ここでは、範囲を設定して比較を行う例を説明する。

ステップＳ２００では、音声取得部２０１で作成された発話時間長情報が示す発話時間長が、算出された発話時間長にもとづき設定される範囲外であれば（Ｎｏ）、発話時間長判定部２０４３は、排他語彙棄却部１０４２から出力されるフラグが付与されていない文字列情報は「会話用発話」にもとづくものであり、棄却すべき情報であると判定し、この文字列情報にフラグを付与して受理棄却送信部１０４５へ出力する。

受理棄却送信部１０４５は、発話時間長判定部２０４３から入力される文字列情報にフラグが付与されていれば、その文字列情報を棄却情報として音声取得部２０１へ出力する。棄却情報を受け取った音声取得部２０１は、次の音声認識に備えて音声取得の準備をする（ステップＳ１０６）。

一方、ステップＳ２００では、音声取得部２０１で作成された発話時間長情報が示す発話時間長が、算出された発話時間長にもとづき設定される範囲内であれば（Ｙｅｓ）、発話時間長判定部２０４３は、排他語彙棄却部１０４２から出力されるフラグが付与されていない文字列情報は「制御用発話」にもとづくものであると判定し、この文字列情報にフラグを付与せず、そのまま発話様式判定部２０４４へ出力する。

なお、発話時間長判定部２０４３は、例えば、算出された発話時間長を所定倍（例えば、１．５倍）して、判定のための範囲を設定してもよい。この数値は単なる一例に過ぎず、他の数値であってもよい。あるいは、発話時間長判定部２０４３は、あらかじめ設定された数値を、算出された発話時間長に加算する等して、判定のための範囲を設定してもよく、その他の手法で範囲を設定してもよい。

発話様式判定部２０４４は、発話時間長判定部２０４３から入力されたフラグが付与されていない文字列情報に関して、棄却すべきか受理（実行）すべきかの判定を、発話様式にもとづき、再度行う（ステップＳ２０１）。

ここで、発話様式判定部２０４４で使用する「発話様式」について説明する。この「発話様式」とは、ユーザ７００が発話する直前に発生する無音声または実質的に無音声とみなせる期間（以下、「ポーズ期間」と記す）、および、ユーザ７００が発話し終えた直後に発生するポーズ期間、のことである。

「制御用発話」と「会話用発話」とを比較した結果、発話様式に関して差異があることが確認された。

「制御用発話」の場合は、ユーザ７００が発話する前後に、「会話用発話」と比較して長いポーズ期間が存在する。ユーザ７００が発話する直前に生じるポーズ期間は、発話の準備のための期間である。ユーザ７００が発話し終えた直後に生じるポーズ期間は、発話した内容に対応する動作（音声操作にもとづく動作）が開始されるのを待つ期間である。

一方、「会話用発話」の場合は、ユーザ７００の発話の前後に、このようなポーズ期間は、相対的に少ない。

したがって、発話の前後におけるポーズ期間の長さを検出することで、音声認識の対象となる音声が、「制御用発話」によるものなのか、それとも「会話用発話」によるものなのか、を判定することができる。そして、本実施の形態２では、音声取得部２０１が作成した発話様式情報にもとづき、発話様式判定部２０４４がその判定を行う。

ステップＳ２０１では、発話様式判定部２０４４は、発話時間長判定部２０４３から出力される受理対象語彙にもとづき、その受理対象語彙に関連付けられた発話様式データを記憶部２７０から読み出す。この発話様式データとは、その受理対象語彙の発話の前後に生じる各ポーズ期間の長さを示すデータのことである。本実施の形態では、受理対象語彙に関連付けられた発話様式データが、あらかじめ記憶部２７０に記憶されている。そして、発話様式判定部２０４４は、記憶部２７０から読み出された発話様式データと、発話時間長判定部２０４３から入力される文字列情報に付加されている発話様式情報（音声取得部２０１で作成された発話様式情報）とを比較する。

具体的には、発話様式判定部２０４４は、音声取得部２０１で作成された発話様式情報が示す発話前後のポーズ期間の長さと、記憶部２７０から読み出された発話様式データが示す発話前後のポーズ期間の長さとをそれぞれ比較する。なお、発話様式判定部２０４４は、音声取得部２０１で作成された発話様式情報と、記憶部２７０から読み出された発話様式データとをそのまま比較してもよいが、記憶部２７０から読み出された発話様式データにもとづき、判定のための範囲を設定してもよい。なお、発話様式判定部２０４４は、受け取る受理対象語彙が複数であれば、それら全てに関する発話様式データを記憶部２７０から読み出し、いずれか数値の大きいものを選択してもよい。あるいは、いずれか数値の小さいものを選択してもよく、または平均値や中間値を算出してもよい。

ステップＳ２０１では、音声取得部２０１で作成された発話様式情報が示す発話前後のポーズ期間の長さの少なくとも一方が、記憶部２７０から読み出された発話様式データが示す発話前後のポーズ期間の長さ未満であれば（Ｎｏ）、発話様式判定部２０４４は、発話時間長判定部２０４３から出力されるフラグが付与されていない文字列情報は「会話用発話」にもとづくものであると判定し、この文字列情報にフラグを付与して受理棄却送信部１０４５へ出力する。

受理棄却送信部１０４５は、発話様式判定部２０４４から入力される文字列情報にフラグが付与されていれば、その文字列情報を棄却情報として音声取得部２０１へ出力する。棄却情報を受け取った音声取得部２０１は、次の音声認識に備えて音声取得の準備をする（ステップＳ１０６）。

一方、ステップＳ２０１では、音声取得部２０１で作成された発話様式情報が示す発話前後のポーズ期間の長さが、ともに記憶部２７０から読み出された発話様式データが示す発話前後のポーズ期間の長さ以上であれば（Ｙｅｓ）、発話様式判定部２０４４は、発話時間長判定部２０４３から出力されるフラグが付与されていない文字列情報は「制御用発話」にもとづくものであると判定し、この文字列情報にフラグを付与せず、そのまま受理棄却送信部１０４５へ出力する。

これにより、受理棄却送信部１０４５が受け取るフラグが付与されていない文字列情報は、排他語彙棄却部１０４２、発話時間長判定部２０４３および発話様式判定部２０４４のいずれにおいてもフラグが付与されなかった文字列情報となる。言い換えると、受理棄却送信部１０４５に入力される文字列情報にフラグが付与されていなければ、その文字列情報は、排他語彙棄却部１０４２、発話時間長判定部２０４３および発話様式判定部２０４４のいずれにおいても受理すべき（コマンド処理を実行すべき）と判断された文字列情報である。一方、受理棄却送信部１０４５に入力される文字列情報にフラグが付与されていれば、それは、排他語彙棄却部１０４２、発話時間長判定部２０４３および発話様式判定部２０４４のいずれかにおいて棄却情報と判断された文字列情報である。

受理棄却送信部１０４５は、フラグが付与されていない文字列情報を、受理（実行）すべき文字列情報として、そのままコマンド処理部１０６へ出力する。

コマンド処理部１０６は、受理棄却送信部１０４５から受け取った文字列情報が示す指示にもとづきコマンド処理を実行する（ステップＳ１０５）。

ステップＳ１０５の終了後、コマンド処理部１０６は、音声取得部２０１に、コマンド処理が終了したことを示す信号を送信する。その信号を受け取った音声取得部２０１は、次の音声認識に備えて音声取得の準備をする（ステップＳ１０６）。

ステップＳ１０６では、フラグが付与された文字列情報は、棄却情報として受理棄却送信部１０４５から音声取得部２０１へ出力される。棄却情報を受け取った音声取得部２０１は、次の音声認識に備えて音声取得の準備をする。

なお、ステップＳ２００とステップＳ２０１とはどちらが先に実行されてもかまわない。

［２−３．効果等］
以上のように本実施の形態において、音声認識処理装置２００は、音声取得部２０１と、認識結果判定部２０４と、記憶部２７０と、を備える。音声取得部２０１は、取得した音声にもとづき、ユーザ７００が発話した時間の長さを測定して発話時間長情報を作成する。また、音声取得部２０１は、取得した音声にもとづき、ユーザ７００の発話の前後に生じる無音声期間の長さを測定して発話様式情報を作成する。記憶部２７０には、発話に要する時間を表す発話時間長データと、発話の前後に生じる無音声期間の長さを表す発話様式データと、があらかじめ記憶されている。認識結果判定部２０４は、排他語彙に一致する言葉が含まれておらず実行すべきと判定された文字列情報に関して、発話時間長データを記憶部２７０から読み出し、読み出した発話時間長データと、音声取得部２０１で作成された発話時間長情報とを比較し、その比較にもとづき棄却すべきか実行すべきかの判定を再度行う。そして、実行すべきと判定された文字列情報に関して、発話様式データを記憶部２７０から読み出し、読み出した発話様式データと、音声取得部２０１で作成された発話様式情報とを比較し、その比較にもとづき棄却すべきか実行すべきかの判定を再度行う。この文字列情報は第１情報の一例である。

このように構成された音声認識処理装置２００では、受理棄却送信部１０４５に入力される文字列情報にフラグが付与されていなければ、それは、排他語彙棄却部１０４２、発話時間長判定部２０４３および発話様式判定部２０４４のいずれにおいても、受理すべき（コマンド処理すべき）と判断された文字列情報である。一方、受理棄却送信部１０４５に入力される文字列情報にフラグが付与されていれば、それは、排他語彙棄却部１０４２、発話時間長判定部２０４３および発話様式判定部２０４４のいずれかにおいて棄却情報と判断された文字列情報である。このように、本実施の形態では、音声認識の結果として認識結果取得部１０３が受け取った文字列情報を、排他語彙棄却部１０４２、発話時間長判定部２０４３および発話様式判定部２０４４のそれぞれで、受理（コマンド処理）すべきか棄却すべきかを判定する。そして、いずれか１つでも棄却すべきと判定されたものは棄却され、全てにおいて受理すべきと判定された文字列情報だけがコマンド処理される。

これにより、音声認識処理装置２００では、音声認識される音声が、「制御用発話」にもとづくものなのか、それとも「会話用発話」にもとづくものなのか、を精度よく判定することができるので、誤認識を低減し、音声認識の精度をより向上することができる。

（他の実施の形態）
以上のように、本出願において開示する技術の例示として、実施の形態１、２を説明した。しかしながら、本開示における技術は、これに限定されず、変更、置き換え、付加、省略等を行った実施の形態にも適用できる。また、上記実施の形態１、２で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。

そこで、以下、他の実施の形態を例示する。

実施の形態２では、認識結果判定部２０４に、排他語彙棄却部１０４２に加えて、発話時間長判定部２０４３と発話様式判定部２０４４を備え、音声認識の精度を高める構成を説明した。しかし、認識結果判定部は、排他語彙棄却部１０４２に、発話時間長判定部２０４３と発話様式判定部２０４４のいずれか一方を組み合わせて備える構成であっても音声認識の精度を高めることができる。

図８Ａは、他の実施の形態における認識結果判定部３０４の一構成例を示すブロック図である。図８Ｂは、他の実施の形態における認識結果判定部４０４の一構成例を示すブロック図である。

なお、実施の形態１、２で説明したテレビ１０、２０が備える構成要素と実質的に同じ動作をする構成要素に関しては、実施の形態１、２と同じ符号を付与し、説明を省略する。

図８Ａに示す認識結果判定部３０４は、排他語彙棄却部１０４２と、発話時間長判定部２０４３と、受理棄却送信部１０４５と、を備え、発話様式判定部２０４４は備えない構成である。

図８Ａに示す認識結果判定部３０４を備えた音声認識装置は、次のように動作する。

音声取得部（図示せず）は、取得した音声にもとづき、ユーザ７００が発話した時間の長さを測定して発話時間長情報を作成する。記憶部３７０には、発話に要する時間を表す発話時間長データがあらかじめ記憶されている。この発話時間長情報および発話時間長データは、実施の形態２で説明した発話時間長情報および発話時間長データと実質的に同じものである。

認識結果判定部３０４は、排他語彙に一致する言葉が含まれておらず実行すべきと排他語彙棄却部１０４２で判定された文字列情報に関して、発話時間長データを記憶部３７０から読み出し、読み出した発話時間長データと、音声取得部で作成された発話時間長情報とを比較し、その比較にもとづき棄却すべきか実行すべきかの判定を再度行う。この文字列情報は第１情報の一例である。

認識結果判定部３０４は、具体的には次のように動作する。

発話時間長判定部２０４３は、排他語彙棄却部１０４２から入力されたフラグが付与されていない文字列情報に関して、棄却すべきか受理（実行）すべきかの判定を、発話時間長にもとづき、再度行う。

発話時間長判定部２０４３の動作は、実施の形態２で説明した発話時間長判定部２０４３と実質的に同じであるので、説明を省略する。

発話時間長判定部２０４３は、「制御用発話」にもとづくものであると判定した文字列情報にはフラグを付与せず、そのまま受理棄却送信部１０４５へ出力する。受理棄却送信部１０４５は、フラグが付与されていない文字列情報を、受理（実行）すべき文字列情報として、そのままコマンド処理部１０６へ出力する。

図８Ｂに示す認識結果判定部４０４は、排他語彙棄却部１０４２と、発話様式判定部２０４４と、受理棄却送信部１０４５と、を備え、発話時間長判定部２０４３は備えない構成である。

図８Ｂに示す認識結果判定部４０４を備えた音声認識装置は、次のように動作する。

音声取得部（図示せず）は、取得した音声にもとづき、ユーザ７００の発話の前後に生じる無音声期間の長さを測定して発話様式情報を作成する。記憶部４７０には、発話の前後に生じる無音声期間の長さを表す発話様式データがあらかじめ記憶されている。この発話様式情報および発話様式データは、実施の形態２で説明した発話様式情報および発話様式データと実質的に同じものである。

認識結果判定部４０４は、排他語彙に一致する言葉が含まれておらず実行すべきと排他語彙棄却部１０４２で判定された文字列情報に関して、発話様式データを記憶部４７０から読み出し、読み出した発話様式データと、音声取得部で作成された発話様式情報とを比較し、その比較にもとづき棄却すべきか実行すべきかの判定を再度行う。この文字列情報は第１情報の一例である。

認識結果判定部４０４は、具体的には次のように動作する。

発話様式判定部２０４４は、排他語彙棄却部１０４２から入力されたフラグが付与されていない文字列情報に関して、棄却すべきか受理（実行）すべきかの判定を、発話様式にもとづき、再度行う。

発話様式判定部２０４４の動作は、実施の形態２で説明した発話様式判定部２０４４と実質的に同じであるので、説明を省略する。

発話様式判定部２０４４は、「制御用発話」にもとづくものであると判定した文字列情報にはフラグを付与せず、そのまま受理棄却送信部１０４５へ出力する。受理棄却送信部１０４５は、フラグが付与されていない文字列情報を、受理（実行）すべき文字列情報として、そのままコマンド処理部１０６へ出力する。

認識結果判定部は、例えば図８Ａ、図８Ｂに示すような、発話時間長判定部２０４３と発話様式判定部２０４４のいずれか一方のみを備える構成であっても、音声認識の精度を向上することが可能である。

なお、本実施の形態では、音声認識サーバ５０がネットワーク４０上に配置された例を説明したが、音声認識サーバ５０は音声認識処理装置１００に備えられていてもよい。あるいは、音声認識サーバ５０を備えず、音声認識部１０２だけで音声認識を行う構成とすることも可能である。

なお、図２、図３、図５、図６、図８Ａ、図８Ｂに示した各ブロックは、それぞれが独立した回路ブロックとして構成されてもよく、各ブロックの動作を実現するようにプログラムされたソフトウエアをプロセッサで実行する構成であってもよい。

本開示は、ユーザが音声で指示する処理動作を実行する機器に適用可能である。具体的には、携帯端末機器、テレビジョン受像機、パーソナルコンピュータ、セットトップボックス、ビデオレコーダ、ゲーム機、スマートフォン、タブレット端末、等に本開示は適用可能である。

１０，２０テレビジョン受像機
１１，２１音声認識処理システム
４０ネットワーク
５０音声認識サーバ
５５，１７５認識辞書
１００，２００音声認識処理装置
１０１，２０１音声取得部
１０２音声認識部
１０３認識結果取得部
１０４，２０４，３０４，４０４認識結果判定部
１０６コマンド処理部
１３０内蔵マイク
１４０表示部
１５０送受信部
１６０チューナ
１７０，１７１，２７０，３７０，４７０記憶部
２０２インジケータ
２０３音声認識アイコン
７００ユーザ
１０４２排他語彙棄却部
１０４５受理棄却送信部
２０４３発話時間長判定部
２０４４発話様式判定部

Claims

ユーザが発する音声を取得して音声情報を出力するように構成された音声取得部と、
前記音声情報を第１情報に変換するように構成された第１音声認識部と、
排他語彙が登録された辞書をあらかじめ記憶させた記憶部と、
前記第１情報と前記排他語彙とを比較し、前記第１情報に前記排他語彙と一致する言葉が含まれているか否かを判定する認識結果判定部と、
を備え、
前記認識結果判定部は、
前記第１情報に、前記排他語彙に一致する言葉が含まれているときは、前記第１情報を棄却すべき情報と判定し、
前記第１情報に、前記排他語彙に一致する言葉が含まれていないときは、前記第１情報を実行すべき情報と判定する、
音声認識処理装置。
前記音声取得部は、取得した前記音声にもとづき、前記ユーザが発話した時間の長さを測定して発話時間長情報を作成し、
前記記憶部には、発話に要する時間を表す発話時間長データがあらかじめ記憶され、
前記認識結果判定部は、
前記排他語彙に一致する言葉が含まれておらず実行すべきと判定された前記第１情報に関して、
前記発話時間長データを前記記憶部から読み出し、
読み出した前記発話時間長データと、前記音声取得部で作成された前記発話時間長情報とを比較し、前記比較にもとづき棄却すべきか実行すべきかの判定を再度行う、
請求項１に記載の音声認識処理装置。
前記音声取得部は、取得した前記音声にもとづき、前記ユーザの発話の前後に生じる無音声期間の長さを測定して発話様式情報を作成し、
前記記憶部には、発話の前後に生じる無音声期間の長さを表す発話様式データがあらかじめ記憶され、
前記認識結果判定部は、
前記排他語彙に一致する言葉が含まれておらず実行すべきと判定された前記第１情報に関して、
前記発話様式データを前記記憶部から読み出し、
読み出した前記発話様式データと、前記音声取得部で作成された前記発話様式情報とを比較し、前記比較にもとづき棄却すべきか実行すべきかの判定を再度行う、
請求項１に記載の音声認識処理装置。
前記音声取得部は、取得した前記音声にもとづき、前記ユーザが発話した時間の長さを測定して発話時間長情報を作成するとともに、前記ユーザの発話の前後に生じる無音声期間の長さを測定して発話様式情報を作成し、
前記記憶部には、発話に要する時間を表す発話時間長データと、発話の前後に生じる無音声期間の長さを表す発話様式データとがあらかじめ記憶され、
前記認識結果判定部は、
前記排他語彙に一致する言葉が含まれておらず実行すべきと判定された前記第１情報に関して、
前記発話時間長データを前記記憶部から読み出し、
読み出した前記発話時間長データと、前記音声取得部で作成された前記発話時間長情報とを比較し、前記比較にもとづき棄却すべきか実行すべきかの判定を再度行い、実行すべきと判定された前記第１情報に関して、
前記発話様式データを前記記憶部から読み出し、
読み出した前記発話様式データと、前記音声取得部で作成された前記発話様式情報とを比較し、前記比較にもとづき棄却すべきか実行すべきかの判定を再度行う、
請求項１に記載の音声認識処理装置。
前記音声情報を第２情報に変換するように構成された第２音声認識部と、
前記第１情報と前記第２情報とのいずれか一方を選択して出力するように構成された選択部と、をさらに備え、
前記認識結果判定部は、
前記選択部において選択された方の情報に対して、棄却すべきか実行すべきかの判定を行う、
請求項１に記載の音声認識処理装置。
前記第２音声認識部はネットワーク上に設置され、
前記ネットワークを介して、前記第２音声認識部と通信を行うように構成された送受信部を備えた、
請求項５に記載の音声認識処理装置。
ユーザが発する音声を取得して音声情報に変換するステップと、
前記音声情報を第１情報に変換するステップと、
前記音声情報を第２情報に変換するステップと、
前記第１情報と前記第２情報のいずれか一方を選択するステップと、
前記選択された情報と、辞書に登録された排他語彙とを比較し、前記選択された情報に前記排他語彙と一致する言葉が含まれているか否かを判定するステップと、
前記選択された情報に、前記排他語彙に一致する言葉が含まれているときは、前記選択された情報を棄却すべき情報と判定するステップと、
前記選択された情報に、前記排他語彙に一致する言葉が含まれていないときは、前記選択された情報を実行すべき情報と判定するステップと、
を備えた音声認識処理方法。
ユーザが発する音声を取得して音声情報を出力するように構成された音声取得部と、
前記音声情報を第１情報に変換するように構成された第１音声認識部と、
排他語彙が登録された辞書をあらかじめ記憶させた記憶部と、
前記第１情報と前記排他語彙とを比較し、前記第１情報に前記排他語彙と一致する言葉が含まれているか否かを判定し、前記判定にもとづき、前記第１情報を棄却すべきか実行すべきかを判定するように構成された認識結果判定部と、
前記認識結果判定部において実行すべきと判定された前記第１情報にもとづく処理を実行するように構成された処理部と、
表示部と、
を備え、
前記認識結果判定部は、
前記第１情報に、前記排他語彙に一致する言葉が含まれているときは、前記第１情報を棄却すべき情報と判定し、
前記第１情報に、前記排他語彙に一致する言葉が含まれていないときは、前記第１情報を実行すべき情報と判定する、
表示装置。