JPWO2015098109A1 - 音声認識処理装置、音声認識処理方法、および表示装置 - Google Patents

音声認識処理装置、音声認識処理方法、および表示装置 Download PDF

Info

Publication number
JPWO2015098109A1
JPWO2015098109A1 JP2015554574A JP2015554574A JPWO2015098109A1 JP WO2015098109 A1 JPWO2015098109 A1 JP WO2015098109A1 JP 2015554574 A JP2015554574 A JP 2015554574A JP 2015554574 A JP2015554574 A JP 2015554574A JP WO2015098109 A1 JPWO2015098109 A1 JP WO2015098109A1
Authority
JP
Japan
Prior art keywords
information
voice
utterance
unit
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015554574A
Other languages
English (en)
Inventor
小沼 知浩
知浩 小沼
智弘 小金井
智弘 小金井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Publication of JPWO2015098109A1 publication Critical patent/JPWO2015098109A1/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

音声操作の操作性を向上する。そのために、音声認識処理装置(100)において、音声取得部(101)は、ユーザが発する音声を取得して音声情報を出力するように構成されている。音声認識部(102)は、音声情報を第1情報に変換するように構成されている。記憶部(170)は、排他語彙が登録された辞書をあらかじめ記憶している。認識結果判定部(104)は、第1情報と排他語彙とを比較し、排他語彙に一致する言葉が第1情報に含まれているときは、第1情報を棄却すべき情報と判定し、排他語彙に一致する言葉が第1情報に含まれていないときは、第1情報を実行すべき情報と判定する。

Description

本開示は、ユーザが発した音声を認識して動作する音声認識処理装置、音声認識処理方法、および表示装置に関する。
特許文献1は、音声認識機能を有する音声入力装置を開示する。この音声入力装置は、ユーザが発した音声を受信し、受信した音声を解析することによりユーザの音声が示す命令を認識(音声認識)し、音声認識した命令に応じて機器を制御するように構成されている。すなわち、特許文献1の音声入力装置は、ユーザが任意に発した音声を音声認識し、その音声認識した結果である命令(コマンド)に応じて機器を制御することができる。
例えば、この音声入力装置を使用するユーザは、テレビジョン受像機(以下、「テレビ」と記す)やPC(Personal Computer)などでブラウザを操作しているときに、ブラウザ上に表示されているハイパーテキストの選択を、この音声入力装置の音声認識機能を利用して行うことができる。また、ユーザは、検索サービスを提供するウェブサイト(検索サイト)上での検索を、この音声認識機能を利用して行うこともできる。
また、この音声入力装置においては、ユーザの利便性を高めるために、「トリガーレス認識」が行われることがある。「トリガーレス認識」とは、音声入力装置において、音声認識のための音声入力を受け付ける期間に制限を設けず、音声の集音と集音された音声に対する音声認識とが常に行われる状態のことである。しかしながら、この音声入力装置でトリガーレス認識を行うと、集音された音声が、音声認識を目的としてユーザが発声したものなのか、ユーザ同士の会話やユーザの独り言等の音声認識を目的としない音声なのか、を区別することが困難なため、音声認識を目的としない音声を誤って音声認識(誤認識)することがある。
日本国特許第4812941号公報
本開示は、誤認識を低減し、ユーザの操作性を向上する音声認識処理装置および音声認識処理方法を提供する。
本開示における音声認識処理装置は、音声取得部と、第1音声認識部と、記憶部と、認識結果判定部と、を備えている。音声取得部は、ユーザが発する音声を取得して音声情報を出力するように構成されている。第1音声認識部は、音声情報を第1情報に変換するように構成されている。記憶部は、排他語彙が登録された辞書をあらかじめ記憶している。認識結果判定部は、第1情報と排他語彙とを比較し、第1情報に排他語彙と一致する言葉が含まれているか否かを判定する。そして、認識結果判定部は、第1情報に、排他語彙に一致する言葉が含まれているときは、第1情報を棄却すべき情報と判定し、第1情報に、排他語彙に一致する言葉が含まれていないときは、第1情報を実行すべき情報と判定する。
本開示における音声認識処理方法は、ユーザが発する音声を取得して音声情報に変換するステップと、音声情報を第1情報に変換するステップと、音声情報を第2情報に変換するステップと、第1情報と第2情報のいずれか一方を選択するステップと、選択された情報と、辞書に登録された排他語彙とを比較し、選択された情報に排他語彙と一致する言葉が含まれているか否かを判定するステップと、選択された情報に、排他語彙に一致する言葉が含まれているときは、選択された情報を棄却すべき情報と判定するステップと、選択された情報に、排他語彙に一致する言葉が含まれていないときは、選択された情報を実行すべき情報と判定するステップと、を備える。
本開示における表示装置は、音声取得部と、第1音声認識部と、記憶部と、認識結果判定部と、処理部と、表示部と、を備えている。音声取得部は、ユーザが発する音声を取得して音声情報を出力するように構成されている。第1音声認識部は、音声情報を第1情報に変換するように構成されている。記憶部は、排他語彙が登録された辞書をあらかじめ記憶している。認識結果判定部は、第1情報と排他語彙とを比較し、第1情報に排他語彙と一致する言葉が含まれているか否かを判定し、その判定にもとづき、第1情報を棄却すべきか実行すべきかを判定するように構成されている。処理部は、認識結果判定部において実行すべきと判定された第1情報にもとづく処理を実行するように構成されている。そして、認識結果判定部は、第1情報に、排他語彙に一致する言葉が含まれているときは、第1情報を棄却すべき情報と判定し、第1情報に、排他語彙に一致する言葉が含まれていないときは、第1情報を実行すべき情報と判定する。
本開示における音声認識処理装置は、ユーザが音声操作するときの操作性を向上することができる。
図1は、実施の形態1における音声認識処理システムを概略的に示す図である。 図2は、実施の形態1における音声認識処理システムの一構成例を示すブロック図である。 図3は、実施の形態1における音声認識処理装置の認識結果判定部の一構成例を示すブロック図である。 図4は、実施の形態1における音声認識処理装置の一動作例を示すフローチャートである。 図5は、実施の形態2における音声認識処理システムの一構成例を示すブロック図である。 図6は、実施の形態2における音声認識処理装置の認識結果判定部の一構成例を示すブロック図である。 図7は、実施の形態2における認識結果判定部の一動作例を示すフローチャートである。 図8Aは、他の実施の形態における認識結果判定部の一構成例を示すブロック図である。 図8Bは、他の実施の形態における認識結果判定部の一構成例を示すブロック図である。
以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。
なお、添付図面および以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。
(実施の形態1)
以下、図1〜図4を用いて、実施の形態1を説明する。なお、本実施の形態では、音声認識処理装置を備えた表示装置の一例としてテレビジョン受像機(テレビ)10を挙げているが、表示装置は何らテレビ10に限定されるものではない。例えば、PCやタブレット端末、携帯端末等であってもよい。
また、本実施の形態に示す音声認識処理システム11は、トリガーレス認識を行うものとするが、本開示は何らトリガーレス認識に限定されるものではなく、ユーザ700による音声認識の開始操作によって音声認識が開始されるシステムにも適用可能である。
[1−1.構成]
図1は、実施の形態1における音声認識処理システム11を概略的に示す図である。本実施の形態では、表示装置の一例であるテレビ10に音声認識処理装置が内蔵されている。
本実施の形態における音声認識処理システム11は、表示装置の一例であるテレビ10と、音声認識サーバ50と、を備える。
テレビ10で音声認識処理装置が起動すると、テレビ10の表示部140には、入力映像信号や受信された放送信号等にもとづく映像とともに、音声認識アイコン203と、集音されている音声の音量を示すインジケータ202と、が表示される。これは、ユーザ700の音声にもとづくテレビ10の操作(以下、「音声操作」と記す)が可能な状態になったことをユーザ700に示すとともに、ユーザ700に発話を促すためである。
テレビ10が備える内蔵マイク130に向かってユーザ700が音声を発すると、その音声は、内蔵マイク130で集音され、集音された音声はテレビ10に内蔵された音声認識処理装置で音声認識される。テレビ10では、その音声認識の結果に応じてテレビ10の制御が行われる。
テレビ10は、ユーザ700が発話した音声が内蔵されたマイクで集音されてテレビ10に無線送信されるように構成されたリモートコントローラまたは携帯端末、を備えた構成にすることも可能である。
また、テレビ10は、ネットワーク40を介して音声認識サーバ50に接続されている。そして、テレビ10と音声認識サーバ50との間で通信することができる。
図2は、実施の形態1における音声認識処理システム11の一構成例を示すブロック図である。
テレビ10は、音声認識処理装置100と、表示部140と、送受信部150と、チューナ160と、記憶部171と、内蔵マイク130と、を有する。
音声認識処理装置100は、ユーザ700が発する音声を取得し、取得した音声を解析するように構成されている。そして、その音声が示す指示を認識し、認識した結果に応じてテレビ10の制御を行うように構成されている。音声認識処理装置100の具体的な構成については後述する。
内蔵マイク130は、主に表示部140の表示面に対向する方向から来る音声を集音するように構成されたマイクである。すなわち、内蔵マイク130は、テレビ10の表示部140に対面しているユーザ700が発する音声を集音できるように集音方向が設定されており、ユーザ700が発した音声を集音することが可能である。内蔵マイク130は、テレビ10の筐体内に設けられていてもよく、図1に一例を示したようにテレビ10の筐体外に設置されていてもよい。
表示部140は、例えば液晶ディスプレイであるが、プラズマディスプレイ、または有機EL(ElectroLuminescence)ディスプレイ等であってもよい。表示部140は、表示制御部(図示せず)によって制御され、外部からの入力映像信号やチューナ160で受信された放送信号等にもとづく画像が表示される。
送受信部150は、ネットワーク40に接続されており、ネットワーク40に接続された外部機器(例えば、音声認識サーバ50)と、ネットワーク40を通して通信を行うように構成されている。
チューナ160は、地上放送や衛星放送のテレビジョン放送信号をアンテナ(図示せず)を介して受信するように構成されている。チューナ160は、専用ケーブルを介して送信されるテレビジョン放送信号を受信するように構成されていてもよい。
記憶部171は、例えば不揮発性の半導体メモリであるが、揮発性の半導体メモリ、またはハードディスク、等であってもよい。記憶部171は、テレビ10の各部の制御に用いられる情報(データ)やプログラム等を記憶している。
ネットワーク40は、例えばインターネットであるが、他のネットワークであってもよい。
音声認識サーバ50は、「第2音声認識部」の一例である。音声認識サーバ50は、ネットワーク40を介してテレビ10と接続されるサーバ(クラウド上の辞書サーバ)である。音声認識サーバ50は、認識辞書55を備えており、テレビ10からネットワーク40を介して送信されてくる音声情報を受信するように構成されている。認識辞書55は、音声情報と音声認識モデルとを対応付けるためのデータベースである。そして、音声認識サーバ50は、受信した音声情報と認識辞書55の音声認識モデルとを照合し、受信した音声情報に、認識辞書55に登録された音声認識モデルに対応する音声情報が含まれているか否かを確認する。そして、受信した音声情報に、認識辞書55に登録された音声認識モデルに対応する音声情報が含まれていれば、その音声認識モデルが示す文字列を選択する。こうして、受信した音声情報を文字列に変換する。なお、この文字列は、複数の文字であってもよく、1文字であってもよい。そして、音声認識サーバ50は、変換後の文字列を示す文字列情報を、音声認識の結果として、ネットワーク40を介してテレビ10に送信する。この文字列情報は、「第2情報」の一例である。
音声認識処理装置100は、音声取得部101と、音声認識部102と、認識結果取得部103と、認識結果判定部104と、コマンド処理部106と、記憶部170と、を有する。
記憶部170は、例えば不揮発性の半導体メモリであり、任意にデータの書き込みと読み出しが可能である。記憶部170は、揮発性の半導体メモリ、またはハードディスク、等であってもよい。記憶部170は、音声認識部102や認識結果判定部104により参照される情報(例えば、認識辞書175)等も記憶している。認識辞書175は、「辞書」の一例である。認識辞書175は、音声情報と音声認識モデルとを対応付けるためのデータベースである。また、認識辞書175には排他対象リストも登録されている。排他対象リストの詳細は後述する。なお、記憶部170と記憶部171とは、一体に構成されていてもよい。
音声取得部101は、ユーザ700が発した音声による音声信号を取得して音声情報に変換し、音声認識部102に出力する。
音声認識部102は、「第1音声認識部」の一例である。音声認識部102は、音声情報を文字列情報に変換し、その文字列情報を音声認識の結果として認識結果取得部103に出力する。この文字列情報は、「第1情報」の一例である。また、音声認識部102は、音声取得部101から取得した音声情報を、送受信部150からネットワーク40を介して音声認識サーバ50に送信する。
音声認識サーバ50は、テレビ10から受信した音声情報を、認識辞書55を参照して音声認識し、その音声認識の結果をテレビ10に返信する。
認識結果取得部103は、「選択部」の一例である。認識結果取得部103は、音声認識部102から出力される音声認識の結果(第1情報)と、音声認識サーバ50から返信される音声認識の結果(第2情報)と、を受け取ると、それらを比較していずれか一方を選択する。そして、認識結果取得部103は、選択した方を認識結果判定部104へ出力する。
認識結果判定部104は、認識結果取得部103から出力される音声認識の結果に対して、棄却すべきか実行(受理)すべきかの判定を行う。この詳細は後述する。そして、その判定にもとづき、音声認識の結果をコマンド処理部106または音声取得部201に出力する。
コマンド処理部106は、認識結果判定部104からの出力(実行すべきと判定された音声認識の結果)にもとづき、コマンド処理(例えば、テレビ10の制御、等)を行う。コマンド処理部106は、「処理部」の一例であり、このコマンド処理は、「処理」の一例である。
図3は、実施の形態1における音声認識処理装置100の認識結果判定部104の一構成例を示すブロック図である。
認識結果判定部104は、排他語彙棄却部1042と、受理棄却送信部1045と、を備えている。これらの動作の詳細は後述する。
[1−2.動作]
次に、本実施の形態におけるテレビ10の音声認識処理装置100の動作について説明する。
図3は、実施の形態1における音声認識処理装置100の一動作例を示すフローチャートである。
音声取得部101は、ユーザ700が発した音声による音声信号を、テレビ10の内蔵マイク130から取得する(ステップS101)。
音声取得部101は、リモートコントローラ(図示せず)に内蔵されたマイク、または携帯端末(図示せず)に内蔵されたマイクから、無線通信部(図示せず)を介して音声信号を取得してもよい。
そして、音声取得部101は、その音声信号を、後段での各種処理に用いることができる音声情報に変換し、音声認識部102に出力する。なお、音声取得部101は、音声信号がデジタル信号であれば、その音声信号をそのまま音声情報として用いてもよい。
音声認識部102は、音声取得部101から取得した音声情報を文字列情報に変換する。そして、音声認識の結果としてその文字列情報を認識結果取得部103に出力する。また、音声認識サーバ50は、テレビ10からネットワーク40を介して取得した音声情報を文字列情報に変換し、その文字列情報を音声認識の結果としてテレビ10に返信する(ステップS102)。
具体的には、音声認識部102は、音声取得部101から取得した音声情報にもとづき、予め記憶部170に記憶されている認識辞書175内の受理対象リストを参照する。そして、その音声情報と、受理対象リストに登録された音声認識モデルとを比較する。
音声認識モデルとは、音声情報と文字列情報とを対応付けるための情報である。音声認識を行う際には、複数の音声認識モデルのそれぞれと音声情報とが比較され、音声情報に合致または類似する1つの音声認識モデルが選択される。そして、その音声認識モデルに対応付けられた文字列情報が、その音声情報に対する音声認識の結果となる。受理対象リストには、例えば、テレビ10に対する指示(例えば、チャンネル変更や音量変更、等)、テレビ10の機能(例えば、ネットワーク接続機能、等)、テレビ10の各部の名称(例えば、電源、チャンネル、等)、テレビ10の画面に表示されるコンテンツに対する指示(例えば、拡大、縮小、スクロール、等)、等のテレビ10の操作に関連する音声認識モデルが登録されている。
なお、記憶部170に記憶されている認識辞書175には、受理対象リストに加え、後述する排他対象リスト(図2には示さず)も登録されている。
音声認識部102は、音声情報と受理対象リストに登録された音声認識モデルとを照合する。そして、音声取得部101から取得した音声情報に、受理対象リストに登録された音声認識モデルに対応するものが含まれていれば、その音声認識モデルに対応付けられた文字列情報を、音声認識の結果として認識結果取得部103に出力する。
音声認識部102は、音声情報と音声認識モデルとの照合時に、認識スコアを算出する。認識スコアとは、尤度(ゆうど)を示す数値であり、音声情報がその音声認識モデルにどの程度合致または類似しているかを示す指標であって、数値が大きいほど類似度が高い。音声認識部102は、音声情報と音声認識モデルとを照合し、複数の音声認識モデルを候補として選択する。このとき、音声認識部102は、それぞれの音声認識モデルに対して、認識スコアを算出する。なお、この認識スコアの算出手法は、一般的に知られた手法でかまわない。そして、あらかじめ設定された閾値以上で、かつ最も高い認識スコアの音声認識モデルを選択し、その音声認識モデルに対応する文字列情報を、音声認識の結果として出力する。なお、音声認識部102は、その文字列情報とともに、その文字列情報に関連する認識スコアを認識結果取得部103に出力してもよい。
こうして、音声認識部102は、音声情報を文字列情報に変換する。なお、音声認識部102は、音声情報を文字列情報以外の情報に変換して出力してもよい。また、音声認識部102は、閾値以上の認識スコアの音声認識モデルがなければ、音声認識不能を示す情報を出力してもよい。
また、音声認識部102は、音声取得部101から取得した音声情報を、送受信部150からネットワーク40を介して音声認識サーバ50に送信する。
音声認識サーバ50は、テレビ10から受信した音声情報にもとづき、認識辞書55を参照する。そして、その音声情報を、認識辞書55内の音声認識モデルと照合して、文字列情報に変換する。
音声認識サーバ50は、受信した音声情報を認識辞書55内の音声認識モデルと比較するときに、認識スコアを算出する。この認識スコアは、音声認識部102で算出される認識スコアと同様の尤度を示す数値であり、音声認識部102で認識スコアを算出するときと同様の手法で算出される。音声認識サーバ50は、音声認識部102と同様に、受信した音声情報にもとづき複数の音声認識モデルを候補として選択し、その候補の中から認識スコアにもとづき1つの音声認識モデルを選択する。そして、音声認識サーバ50は、その音声認識モデルに対応付けられた文字列情報を、音声認識の結果としてテレビ10に返信する。音声認識サーバ50は、その文字列情報とともに、その文字列情報に関連する認識スコアをテレビ10に送信してもよい。
音声認識サーバ50は、ネットワーク40を通していろいろな用語を収集し、それらの用語を認識辞書55に登録することができるように構成されている。そのため、音声認識サーバ50は、テレビ10が備える認識辞書175と比較して、より多くの音声認識モデルを備えることができる。したがって、音声認識サーバ50では、テレビ10の機能やテレビ10への指示とは関係ない言葉(例えば、ユーザ同士の会話や独り言、等)をユーザ700が発話したときに、その音声に対する音声認識の認識スコアが、テレビ10の音声認識部102が同様の音声認識を行ったときと比較して、高くなる可能性が高い。
音声認識サーバ50からネットワーク40を介して音声認識の結果を受け取った送受信部150は、その音声認識の結果を認識結果取得部103に出力する。
認識結果取得部103は、音声認識部102と音声認識サーバ50とのそれぞれから音声認識の結果を受け取ると、判別ルールに従ってどちらか一方の音声認識結果を選択する(ステップS103)。
この判別ルールは、例えば、音声認識部102から受け取った音声認識の結果に付随する認識スコアと、音声認識サーバ50から受け取った音声認識の結果に付随する認識スコアとを互いに比較し、認識スコアが高い方の音声認識結果を選択する、といったものでも良い。認識結果取得部103は、選択した音声認識結果を認識結果判定部104へ出力する。
なお、認識結果取得部103は、音声認識部102と音声認識サーバ50とのいずれか一方からしか音声認識の結果を受け取ることができないときは、ステップS103の処理をスキップし、受け取った音声認識の結果をそのまま出力してもよい。
図3に示す認識結果判定部104の排他語彙棄却部1042は、認識結果取得部103から出力される音声認識の結果に、排他対象リストに登録された語彙(排他語彙)に一致しているものがあるか否かを判定する(ステップS104)。
排他対象リストとは、テレビ10の音声操作には用いられないと判断された言葉(語彙)を排他語彙として登録したリストである。排他語彙は、例えば、記憶部170の認識辞書175に受理対象リストとして登録された語彙を除く語彙である。この排他対象リストは、記憶部170の認識辞書175にあらかじめ登録されているが、新規の排他語彙を任意に追加できるように構成されていてもよい。なお、テレビ10を音声操作する際にユーザ700が発話する言葉に発音が似ていて、かつ、テレビ10の音声操作とは関係がない語彙を排他語彙として排他対象リストに登録しておけば、音声認識の精度を向上させることができる。
ステップS104では、排他語彙棄却部1042は、記憶部170に記憶されている認識辞書175内の排他対象リストと、認識結果取得部103から出力される音声認識の結果である文字列情報と、を照合し、排他対象リストに含まれた排他語彙に一致する文字列情報の有無を調べる。そして、排他語彙棄却部1042は、排他語彙に一致する文字列情報は、棄却すべき情報であると判定し、フラグを付与して受理棄却送信部1045に出力する(Yes)。
受理棄却送信部1045は、排他語彙棄却部1042から入力される文字列情報にフラグが付与されていれば、その文字列情報を、棄却情報として音声取得部101へ出力する。棄却情報を受け取った音声取得部101は、次の音声認識に備えて音声取得の準備をする(ステップS106)。したがって、コマンド処理部106は、フラグが付与された文字列情報(棄却情報)に関しては、何ら処理を行わない。
ステップS104において、排他語彙棄却部1042は、排他語彙に一致しない文字列情報は、受理(実行)すべき情報であると判定し、フラグを付与せずに受理棄却送信部1045に出力する(No)。
受理棄却送信部1045は、排他語彙棄却部1042から入力される文字列情報にフラグが付与されていなければ、その文字列情報をコマンド処理部106へ出力する。コマンド処理部106は、受理棄却送信部1045から受け取った文字列情報が表す指示にもとづきコマンド処理を実行する(ステップS105)。
例えば、文字列情報に、チャンネル変更や音量変更等のテレビ10の制御に関するコマンド情報が含まれていれば、コマンド処理部106は、そのコマンド情報に対応した動作がテレビ10で実行されるように、テレビ10の制御部(図示せず)に指示を出す。
ステップS105の終了後、コマンド処理部106は、音声取得部101に、コマンド処理が終了したことを示す信号を送信する。その信号を受け取った音声取得部101は、次の音声認識に備えて音声取得の準備をする(ステップS106)。
[1−3.効果等]
以上のように本実施の形態において、音声認識処理装置100は、音声取得部101と、第1音声認識部の一例である音声認識部102と、記憶部170と、認識結果判定部104と、を備えている。音声取得部101は、ユーザ700が発する音声を取得して音声情報を出力するように構成されている。音声認識部102は、音声情報を、第1情報の一例である文字列情報に変換するように構成されている。記憶部170は、排他語彙が登録された認識辞書175をあらかじめ記憶している。認識辞書175は辞書の一例である。認識結果判定部104は、文字列情報と排他語彙とを比較し、文字列情報に排他語彙と一致する言葉が含まれているか否かを判定する。そして、認識結果判定部104は、文字列情報に、排他語彙に一致する言葉が含まれているときは、文字列情報を棄却すべき情報と判定し、文字列情報に、排他語彙に一致する言葉が含まれていないときは、文字列情報を実行すべき情報と判定する。
また、音声認識処理装置100は、第2音声認識部の一例である音声認識サーバ50と、選択部の一例である認識結果取得部103と、をさらに備えていてもよい。この場合、音声認識サーバ50は、音声情報を、第2情報の一例である文字列情報に変換するように構成されている。認識結果取得部103は、音声認識部102が出力する文字列情報と、音声認識サーバ50が出力する文字列情報との、いずれか一方を選択して出力するように構成されている。そして、認識結果判定部104は、認識結果取得部103において選択された方の文字列情報に対して、棄却すべきか実行すべきかの判定を行う。
第2音声認識部の一例である音声認識サーバ50はネットワーク40上に設置されていてもよい。音声認識処理装置100は、ネットワーク40を介して音声認識サーバ50と通信を行うように構成された送受信部150を備えていてもよい。
このように構成された音声認識処理装置100では、ユーザ700が音声操作のために発する音声と、ユーザ700同士での会話や独り言による音声と、を精度よく判別し、誤認識を低減して、音声認識の精度を向上することができる。
例えば、テレビ10を音声操作する際に発話される言葉に発音が似ていて、かつ、テレビ10の音声操作とは関係がない言葉を、ユーザ700が発話したとする。このとき、音声認識部102は、その音声にもとづく音声認識の結果として、受理対象リストに登録された文字列情報を出力する(すなわち、誤認識をする)可能性が高い。
一方、ネットワーク40を通して登録内容が更新され認識辞書175よりも多くの音声認識モデル(語彙)が登録されていると考えられる認識辞書55を有する音声認識サーバ50では、そのような音声に対して、より正しい音声認識が行われる可能性が高い。
したがって、誤認識されやすい音声を音声認識部102が誤認識して出力する文字列情報に付随する認識スコアよりも、その音声を音声認識サーバ50が音声認識して出力する文字列情報に付随する認識スコアの方が数値が大きく、音声認識サーバ50から出力される文字列情報が認識結果取得部103で選択される可能性は高いと考えられる。
そして、この文字列情報に対応する語彙が排他語彙として認識辞書175内の排他対象リストに登録されていれば、排他語彙棄却部1042では、その文字列情報は棄却すべき情報と判断される。
このように、本実施の形態によれば、音声認識部102で誤って音声認識されるような音声に対する音声認識の精度を高め、誤認識による誤ったコマンド処理がコマンド処理部106でなされることを防止することができる。
また、ユーザ700が発話する音声が十分な大きさでなかったり、雑音が多いとき等も、音声認識部102で誤認識が生じる可能性が高いが、そのような場合も音声認識の精度を高めることができる。
なお、音声認識部102が有する認識辞書175が、音声認識サーバ50の認識辞書55と同様に、ネットワーク40等を通して登録内容を更新できるように構成されていれば、テレビ10だけで音声認識を実施するように音声認識処理システム11を構成してもよい。このような構成であっても、認識結果判定部104の働きにより、誤認識を低減して音声認識の精度を高めることができる。
(実施の形態2)
次に、図5〜図7を用いて、実施の形態2を説明する。実施の形態2では、ユーザ700が発話する可能性の高い言葉(例えば、テレビ10の動作や機能等に関する言葉)に対する音声認識の精度を高める手法について説明する。
[2−1.構成]
図5は、実施の形態2における音声認識処理システム21の一構成例を示すブロック図である。
本実施の形態における音声認識処理システム21は、表示装置の一例であるテレビ20と、音声認識サーバ50と、を備える。この音声認識サーバ50は、実施の形態1で説明した音声認識サーバ50と実質的に同じものであるので、説明を省略する。
テレビ20は、音声認識処理装置200と、表示部140と、送受信部150と、チューナ160と、記憶部171と、内蔵マイク130と、を有する。音声認識処理装置200は、音声取得部201と、音声認識部102と、認識結果取得部103と、認識結果判定部204と、コマンド処理部106と、記憶部270と、を有する。
なお、実施の形態1で説明したテレビ10が備える構成要素と実質的に同じ動作をする構成要素に関しては、実施の形態1と同じ符号を付与し、説明を省略する。
また、記憶部270内の認識辞書175には、実施の形態1で説明した受理対象リストおよび排他対象リストと同様の受理対象リストおよび排他対象リストが登録されているものとする。
実施の形態2における音声認識処理装置200は、実施の形態1で説明した音声認識処理装置100とは、音声取得部201および認識結果判定部204における動作に差異がある。
音声取得部201は、実施の形態1で説明した音声取得部101と同様に、ユーザ700が発した音声による音声信号を、内蔵マイク130から取得する。ただし、音声取得部201は、実施の形態1に示した音声取得部101とは異なり、取得した音声信号にもとづき、発話時間長情報と発話様式情報とを作成する。
発話時間長情報とは、ユーザ700が発話した時間の長さを示す情報のことである。音声取得部201は、例えば、あらかじめ設定したしきい値以上の音量の音声が連続して生じる時間の長さを測定することで、発話時間長情報を作成することができる。音声取得部201は、他の手法により発話時間長情報を作成してもよい。
発話様式情報とは、ユーザ700の発話の前後に生じる無音声または実質的に無音声と見なせる時間の長さを示す情報のことである。音声取得部201は、例えば、音量があらかじめ設定したしきい値未満になる状態を無音声とし、発話の前後に生じる無音声期間の長さを測定することで、発話様式情報を作成することができる。音声取得部201は、他の手法により発話様式情報を作成してもよい。
音声取得部201は、音声情報に発話時間長情報と発話様式情報とをそれぞれ付加し、音声認識部102に出力する。
複数のユーザ700同士の会話やユーザ700の独り言等に、受理対象リストに登録された語彙(受理対象語彙)が含まれることがある。そして、その音声が内蔵マイク130に集音されてその音声にもとづく音声情報が音声認識部102に入力されることがある。そのような場合、その音声情報にもとづく誤った音声認識が音声認識部102で行われ、ユーザ700にテレビ20を音声操作する意図がないにも関わらず、誤認識にもとづく誤ったコマンド処理がコマンド処理部106で行われてしまう可能性がある。本実施の形態では、そのような誤認識の発生を低減するために、実施の形態1で説明した排他対象リストに加え、「発話時間長情報」と「発話様式情報」とを用いた音声認識を行う。
発話時間長情報と発話様式情報との詳細は後述する。また、音声認識部102は、発話時間長情報と発話様式情報とを付加した音声情報を、送受信部150およびネットワーク40を介して音声認識サーバ50に送信する。
[2−2.動作]
次に、本実施の形態におけるテレビ20の音声認識処理装置200が有する認識結果判定部204の構成および動作を図6と図7を用いて説明する。
図6は、実施の形態2における音声認識処理装置200の認識結果判定部204の一構成例を示すブロック図である。
認識結果判定部204は、排他語彙棄却部1042と、発話時間長判定部2043と、発話様式判定部2044と、受理棄却送信部1045と、を備えている。
図7は、実施の形態2における認識結果判定部204の一動作例を示すフローチャートである。
認識結果取得部103は、実施の形態1で説明したステップS103と同様に、音声認識部102と音声認識サーバ50とのそれぞれから音声認識の結果を受け取ると、判別ルールに従ってどちらか一方の音声認識結果を選択する(ステップS103)。この判別ルールは実施の形態1で説明した判別ルールと実質的に同じものである。
認識結果判定部204の排他語彙棄却部1042は、実施の形態1で説明したステップS104と同様に、認識結果取得部103から出力される音声認識の結果に、排他対象リストに登録された語彙(排他語彙)と一致しているものがあるか否かを判定する(ステップS104)。
ステップS104では、排他語彙棄却部1042は、実施の形態1で説明した排他語彙棄却部1042と同様に、記憶部270に記憶されている認識辞書175内の排他対象リストと、認識結果取得部103から出力される音声認識の結果である文字列情報と、を照合し、排他対象リストに含まれた排他語彙に一致する文字列情報の有無を調べる。そして、排他語彙棄却部1042は、排他語彙に一致する文字列情報は、棄却すべき情報であると判定し、フラグを付与して受理棄却送信部1045へ出力する(Yes)。
受理棄却送信部1045は、実施の形態1で説明した受理棄却送信部1045と同様に、フラグが付与された文字列情報を、棄却情報として音声取得部201へ出力する。棄却情報を受け取った音声取得部201は、次の音声認識に備えて音声取得の準備をする(ステップS106)。
一方、ステップS104において、排他語彙棄却部1042は、排他語彙に一致しない文字列情報は、フラグを付与せずにそのまま発話時間長判定部2043へ出力する(No)。
発話時間長判定部2043は、排他語彙棄却部1042から入力されたフラグが付与されていない文字列情報に関して、棄却すべきか受理(実行)すべきかの判定を、発話時間長にもとづき、再度行う(ステップS200)。
ここで、発話時間長判定部2043で使用する「発話時間長」について説明する。発話時間長とは、発話の時間の長さのことである。ここでは、ユーザ700がテレビ20を音声操作するために行う発話を「制御用発話」と記し、テレビ20の音声操作を目的としない発話(ユーザ700同士の会話やユーザ700の独り言等)を「会話用発話」と記す。
本実施の形態では、認識辞書175に登録された受理対象リストに含まれる受理対象語彙のそれぞれに対応する発話時間長データ(発話に要する時間の長さを示すデータ)が、あらかじめ記憶部270に記憶されている。これにより、発話時間長判定部2043は、音声認識の結果として選択された受理対象語彙の発話時間長を算出することができる。なお、この発話時間長データには、発話速度の個人差等を加味して、幅(レンジ)を持たせておくことが望ましい。
「制御用発話」は、1単語もしくは2単語程度で構成されることが多いことが確認されている。また、それらの単語(語彙)の全てが、受理対象リストに登録された受理対象語彙である可能性は高い。したがって、「制御用発話」を音声認識すると、音声認識の結果として選択された受理対象語彙の発話時間長データにもとづく発話時間長は、音声取得部201で作成された発話時間長情報が示す「制御用発話」の発話時間長に近似する可能性が高い。なお、音声認識の結果として複数の受理対象語彙が選択されたときは、それら複数の受理対象語彙に対応する発話時間長データにもとづき発話時間長が算出されるものとする。
一方、「会話用発話」は、複数の単語で構成されることが多く、また、それらの単語(語彙)に、受理対象リストに登録された受理対象語彙に対応するものが含まれる可能性は低い。したがって、「会話用発話」を音声認識すると、音声認識の結果として選択された受理対象語彙の発話時間長データにもとづく発話時間長は、音声取得部201で作成された発話時間長情報が示す「会話用発話」の発話時間長よりも短くなる可能性が高い。
これらのことから、音声認識処理装置200では、音声認識部102で音声認識の結果として選択された受理対象語彙の発話時間長データにもとづく発話時間長と、音声取得部201で作成された発話時間長情報にもとづく発話時間長とを比較することで、音声認識の対象となる音声が、「制御用発話」によるものなのか、それとも「会話用発話」によるものなのか、を判定することができる。そして、本実施の形態2では、その判定を発話時間長判定部2043が行う。
ステップS200では、発話時間長判定部2043は、音声認識の結果として認識結果取得部103から出力される受理対象語彙にもとづき、その受理対象語彙に関連付けられた発話時間長データを記憶部270から読み出す。発話時間長判定部2043は、受け取る受理対象語彙が複数であれば、それら全てに関する発話時間長データを記憶部270から読み出す。そして、読み出された発話時間長データにもとづき発話時間長を算出する。そして、その算出結果と、音声取得部201で作成された発話時間長情報が示す発話時間長とを比較する。なお、発話時間長判定部2043は、算出された発話時間長と、発話時間長情報が示す発話時間長とをそのまま比較してもよいが、算出された発話時間長にもとづき判定のための範囲を設定してもよい。ここでは、範囲を設定して比較を行う例を説明する。
ステップS200では、音声取得部201で作成された発話時間長情報が示す発話時間長が、算出された発話時間長にもとづき設定される範囲外であれば(No)、発話時間長判定部2043は、排他語彙棄却部1042から出力されるフラグが付与されていない文字列情報は「会話用発話」にもとづくものであり、棄却すべき情報であると判定し、この文字列情報にフラグを付与して受理棄却送信部1045へ出力する。
受理棄却送信部1045は、発話時間長判定部2043から入力される文字列情報にフラグが付与されていれば、その文字列情報を棄却情報として音声取得部201へ出力する。棄却情報を受け取った音声取得部201は、次の音声認識に備えて音声取得の準備をする(ステップS106)。
一方、ステップS200では、音声取得部201で作成された発話時間長情報が示す発話時間長が、算出された発話時間長にもとづき設定される範囲内であれば(Yes)、発話時間長判定部2043は、排他語彙棄却部1042から出力されるフラグが付与されていない文字列情報は「制御用発話」にもとづくものであると判定し、この文字列情報にフラグを付与せず、そのまま発話様式判定部2044へ出力する。
なお、発話時間長判定部2043は、例えば、算出された発話時間長を所定倍(例えば、1.5倍)して、判定のための範囲を設定してもよい。この数値は単なる一例に過ぎず、他の数値であってもよい。あるいは、発話時間長判定部2043は、あらかじめ設定された数値を、算出された発話時間長に加算する等して、判定のための範囲を設定してもよく、その他の手法で範囲を設定してもよい。
発話様式判定部2044は、発話時間長判定部2043から入力されたフラグが付与されていない文字列情報に関して、棄却すべきか受理(実行)すべきかの判定を、発話様式にもとづき、再度行う(ステップS201)。
ここで、発話様式判定部2044で使用する「発話様式」について説明する。この「発話様式」とは、ユーザ700が発話する直前に発生する無音声または実質的に無音声とみなせる期間(以下、「ポーズ期間」と記す)、および、ユーザ700が発話し終えた直後に発生するポーズ期間、のことである。
「制御用発話」と「会話用発話」とを比較した結果、発話様式に関して差異があることが確認された。
「制御用発話」の場合は、ユーザ700が発話する前後に、「会話用発話」と比較して長いポーズ期間が存在する。ユーザ700が発話する直前に生じるポーズ期間は、発話の準備のための期間である。ユーザ700が発話し終えた直後に生じるポーズ期間は、発話した内容に対応する動作(音声操作にもとづく動作)が開始されるのを待つ期間である。
一方、「会話用発話」の場合は、ユーザ700の発話の前後に、このようなポーズ期間は、相対的に少ない。
したがって、発話の前後におけるポーズ期間の長さを検出することで、音声認識の対象となる音声が、「制御用発話」によるものなのか、それとも「会話用発話」によるものなのか、を判定することができる。そして、本実施の形態2では、音声取得部201が作成した発話様式情報にもとづき、発話様式判定部2044がその判定を行う。
ステップS201では、発話様式判定部2044は、発話時間長判定部2043から出力される受理対象語彙にもとづき、その受理対象語彙に関連付けられた発話様式データを記憶部270から読み出す。この発話様式データとは、その受理対象語彙の発話の前後に生じる各ポーズ期間の長さを示すデータのことである。本実施の形態では、受理対象語彙に関連付けられた発話様式データが、あらかじめ記憶部270に記憶されている。そして、発話様式判定部2044は、記憶部270から読み出された発話様式データと、発話時間長判定部2043から入力される文字列情報に付加されている発話様式情報(音声取得部201で作成された発話様式情報)とを比較する。
具体的には、発話様式判定部2044は、音声取得部201で作成された発話様式情報が示す発話前後のポーズ期間の長さと、記憶部270から読み出された発話様式データが示す発話前後のポーズ期間の長さとをそれぞれ比較する。なお、発話様式判定部2044は、音声取得部201で作成された発話様式情報と、記憶部270から読み出された発話様式データとをそのまま比較してもよいが、記憶部270から読み出された発話様式データにもとづき、判定のための範囲を設定してもよい。なお、発話様式判定部2044は、受け取る受理対象語彙が複数であれば、それら全てに関する発話様式データを記憶部270から読み出し、いずれか数値の大きいものを選択してもよい。あるいは、いずれか数値の小さいものを選択してもよく、または平均値や中間値を算出してもよい。
ステップS201では、音声取得部201で作成された発話様式情報が示す発話前後のポーズ期間の長さの少なくとも一方が、記憶部270から読み出された発話様式データが示す発話前後のポーズ期間の長さ未満であれば(No)、発話様式判定部2044は、発話時間長判定部2043から出力されるフラグが付与されていない文字列情報は「会話用発話」にもとづくものであると判定し、この文字列情報にフラグを付与して受理棄却送信部1045へ出力する。
受理棄却送信部1045は、発話様式判定部2044から入力される文字列情報にフラグが付与されていれば、その文字列情報を棄却情報として音声取得部201へ出力する。棄却情報を受け取った音声取得部201は、次の音声認識に備えて音声取得の準備をする(ステップS106)。
一方、ステップS201では、音声取得部201で作成された発話様式情報が示す発話前後のポーズ期間の長さが、ともに記憶部270から読み出された発話様式データが示す発話前後のポーズ期間の長さ以上であれば(Yes)、発話様式判定部2044は、発話時間長判定部2043から出力されるフラグが付与されていない文字列情報は「制御用発話」にもとづくものであると判定し、この文字列情報にフラグを付与せず、そのまま受理棄却送信部1045へ出力する。
これにより、受理棄却送信部1045が受け取るフラグが付与されていない文字列情報は、排他語彙棄却部1042、発話時間長判定部2043および発話様式判定部2044のいずれにおいてもフラグが付与されなかった文字列情報となる。言い換えると、受理棄却送信部1045に入力される文字列情報にフラグが付与されていなければ、その文字列情報は、排他語彙棄却部1042、発話時間長判定部2043および発話様式判定部2044のいずれにおいても受理すべき(コマンド処理を実行すべき)と判断された文字列情報である。一方、受理棄却送信部1045に入力される文字列情報にフラグが付与されていれば、それは、排他語彙棄却部1042、発話時間長判定部2043および発話様式判定部2044のいずれかにおいて棄却情報と判断された文字列情報である。
受理棄却送信部1045は、フラグが付与されていない文字列情報を、受理(実行)すべき文字列情報として、そのままコマンド処理部106へ出力する。
コマンド処理部106は、受理棄却送信部1045から受け取った文字列情報が示す指示にもとづきコマンド処理を実行する(ステップS105)。
ステップS105の終了後、コマンド処理部106は、音声取得部201に、コマンド処理が終了したことを示す信号を送信する。その信号を受け取った音声取得部201は、次の音声認識に備えて音声取得の準備をする(ステップS106)。
ステップS106では、フラグが付与された文字列情報は、棄却情報として受理棄却送信部1045から音声取得部201へ出力される。棄却情報を受け取った音声取得部201は、次の音声認識に備えて音声取得の準備をする。
なお、ステップS200とステップS201とはどちらが先に実行されてもかまわない。
[2−3.効果等]
以上のように本実施の形態において、音声認識処理装置200は、音声取得部201と、認識結果判定部204と、記憶部270と、を備える。音声取得部201は、取得した音声にもとづき、ユーザ700が発話した時間の長さを測定して発話時間長情報を作成する。また、音声取得部201は、取得した音声にもとづき、ユーザ700の発話の前後に生じる無音声期間の長さを測定して発話様式情報を作成する。記憶部270には、発話に要する時間を表す発話時間長データと、発話の前後に生じる無音声期間の長さを表す発話様式データと、があらかじめ記憶されている。認識結果判定部204は、排他語彙に一致する言葉が含まれておらず実行すべきと判定された文字列情報に関して、発話時間長データを記憶部270から読み出し、読み出した発話時間長データと、音声取得部201で作成された発話時間長情報とを比較し、その比較にもとづき棄却すべきか実行すべきかの判定を再度行う。そして、実行すべきと判定された文字列情報に関して、発話様式データを記憶部270から読み出し、読み出した発話様式データと、音声取得部201で作成された発話様式情報とを比較し、その比較にもとづき棄却すべきか実行すべきかの判定を再度行う。この文字列情報は第1情報の一例である。
このように構成された音声認識処理装置200では、受理棄却送信部1045に入力される文字列情報にフラグが付与されていなければ、それは、排他語彙棄却部1042、発話時間長判定部2043および発話様式判定部2044のいずれにおいても、受理すべき(コマンド処理すべき)と判断された文字列情報である。一方、受理棄却送信部1045に入力される文字列情報にフラグが付与されていれば、それは、排他語彙棄却部1042、発話時間長判定部2043および発話様式判定部2044のいずれかにおいて棄却情報と判断された文字列情報である。このように、本実施の形態では、音声認識の結果として認識結果取得部103が受け取った文字列情報を、排他語彙棄却部1042、発話時間長判定部2043および発話様式判定部2044のそれぞれで、受理(コマンド処理)すべきか棄却すべきかを判定する。そして、いずれか1つでも棄却すべきと判定されたものは棄却され、全てにおいて受理すべきと判定された文字列情報だけがコマンド処理される。
これにより、音声認識処理装置200では、音声認識される音声が、「制御用発話」にもとづくものなのか、それとも「会話用発話」にもとづくものなのか、を精度よく判定することができるので、誤認識を低減し、音声認識の精度をより向上することができる。
(他の実施の形態)
以上のように、本出願において開示する技術の例示として、実施の形態1、2を説明した。しかしながら、本開示における技術は、これに限定されず、変更、置き換え、付加、省略等を行った実施の形態にも適用できる。また、上記実施の形態1、2で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。
そこで、以下、他の実施の形態を例示する。
実施の形態2では、認識結果判定部204に、排他語彙棄却部1042に加えて、発話時間長判定部2043と発話様式判定部2044を備え、音声認識の精度を高める構成を説明した。しかし、認識結果判定部は、排他語彙棄却部1042に、発話時間長判定部2043と発話様式判定部2044のいずれか一方を組み合わせて備える構成であっても音声認識の精度を高めることができる。
図8Aは、他の実施の形態における認識結果判定部304の一構成例を示すブロック図である。図8Bは、他の実施の形態における認識結果判定部404の一構成例を示すブロック図である。
なお、実施の形態1、2で説明したテレビ10、20が備える構成要素と実質的に同じ動作をする構成要素に関しては、実施の形態1、2と同じ符号を付与し、説明を省略する。
図8Aに示す認識結果判定部304は、排他語彙棄却部1042と、発話時間長判定部2043と、受理棄却送信部1045と、を備え、発話様式判定部2044は備えない構成である。
図8Aに示す認識結果判定部304を備えた音声認識装置は、次のように動作する。
音声取得部(図示せず)は、取得した音声にもとづき、ユーザ700が発話した時間の長さを測定して発話時間長情報を作成する。記憶部370には、発話に要する時間を表す発話時間長データがあらかじめ記憶されている。この発話時間長情報および発話時間長データは、実施の形態2で説明した発話時間長情報および発話時間長データと実質的に同じものである。
認識結果判定部304は、排他語彙に一致する言葉が含まれておらず実行すべきと排他語彙棄却部1042で判定された文字列情報に関して、発話時間長データを記憶部370から読み出し、読み出した発話時間長データと、音声取得部で作成された発話時間長情報とを比較し、その比較にもとづき棄却すべきか実行すべきかの判定を再度行う。この文字列情報は第1情報の一例である。
認識結果判定部304は、具体的には次のように動作する。
発話時間長判定部2043は、排他語彙棄却部1042から入力されたフラグが付与されていない文字列情報に関して、棄却すべきか受理(実行)すべきかの判定を、発話時間長にもとづき、再度行う。
発話時間長判定部2043の動作は、実施の形態2で説明した発話時間長判定部2043と実質的に同じであるので、説明を省略する。
発話時間長判定部2043は、「制御用発話」にもとづくものであると判定した文字列情報にはフラグを付与せず、そのまま受理棄却送信部1045へ出力する。受理棄却送信部1045は、フラグが付与されていない文字列情報を、受理(実行)すべき文字列情報として、そのままコマンド処理部106へ出力する。
図8Bに示す認識結果判定部404は、排他語彙棄却部1042と、発話様式判定部2044と、受理棄却送信部1045と、を備え、発話時間長判定部2043は備えない構成である。
図8Bに示す認識結果判定部404を備えた音声認識装置は、次のように動作する。
音声取得部(図示せず)は、取得した音声にもとづき、ユーザ700の発話の前後に生じる無音声期間の長さを測定して発話様式情報を作成する。記憶部470には、発話の前後に生じる無音声期間の長さを表す発話様式データがあらかじめ記憶されている。この発話様式情報および発話様式データは、実施の形態2で説明した発話様式情報および発話様式データと実質的に同じものである。
認識結果判定部404は、排他語彙に一致する言葉が含まれておらず実行すべきと排他語彙棄却部1042で判定された文字列情報に関して、発話様式データを記憶部470から読み出し、読み出した発話様式データと、音声取得部で作成された発話様式情報とを比較し、その比較にもとづき棄却すべきか実行すべきかの判定を再度行う。この文字列情報は第1情報の一例である。
認識結果判定部404は、具体的には次のように動作する。
発話様式判定部2044は、排他語彙棄却部1042から入力されたフラグが付与されていない文字列情報に関して、棄却すべきか受理(実行)すべきかの判定を、発話様式にもとづき、再度行う。
発話様式判定部2044の動作は、実施の形態2で説明した発話様式判定部2044と実質的に同じであるので、説明を省略する。
発話様式判定部2044は、「制御用発話」にもとづくものであると判定した文字列情報にはフラグを付与せず、そのまま受理棄却送信部1045へ出力する。受理棄却送信部1045は、フラグが付与されていない文字列情報を、受理(実行)すべき文字列情報として、そのままコマンド処理部106へ出力する。
認識結果判定部は、例えば図8A、図8Bに示すような、発話時間長判定部2043と発話様式判定部2044のいずれか一方のみを備える構成であっても、音声認識の精度を向上することが可能である。
なお、本実施の形態では、音声認識サーバ50がネットワーク40上に配置された例を説明したが、音声認識サーバ50は音声認識処理装置100に備えられていてもよい。あるいは、音声認識サーバ50を備えず、音声認識部102だけで音声認識を行う構成とすることも可能である。
なお、図2、図3、図5、図6、図8A、図8Bに示した各ブロックは、それぞれが独立した回路ブロックとして構成されてもよく、各ブロックの動作を実現するようにプログラムされたソフトウエアをプロセッサで実行する構成であってもよい。
本開示は、ユーザが音声で指示する処理動作を実行する機器に適用可能である。具体的には、携帯端末機器、テレビジョン受像機、パーソナルコンピュータ、セットトップボックス、ビデオレコーダ、ゲーム機、スマートフォン、タブレット端末、等に本開示は適用可能である。
10,20 テレビジョン受像機
11,21 音声認識処理システム
40 ネットワーク
50 音声認識サーバ
55,175 認識辞書
100,200 音声認識処理装置
101,201 音声取得部
102 音声認識部
103 認識結果取得部
104,204,304,404 認識結果判定部
106 コマンド処理部
130 内蔵マイク
140 表示部
150 送受信部
160 チューナ
170,171,270,370,470 記憶部
202 インジケータ
203 音声認識アイコン
700 ユーザ
1042 排他語彙棄却部
1045 受理棄却送信部
2043 発話時間長判定部
2044 発話様式判定部

Claims (8)

  1. ユーザが発する音声を取得して音声情報を出力するように構成された音声取得部と、
    前記音声情報を第1情報に変換するように構成された第1音声認識部と、
    排他語彙が登録された辞書をあらかじめ記憶させた記憶部と、
    前記第1情報と前記排他語彙とを比較し、前記第1情報に前記排他語彙と一致する言葉が含まれているか否かを判定する認識結果判定部と、
    を備え、
    前記認識結果判定部は、
    前記第1情報に、前記排他語彙に一致する言葉が含まれているときは、前記第1情報を棄却すべき情報と判定し、
    前記第1情報に、前記排他語彙に一致する言葉が含まれていないときは、前記第1情報を実行すべき情報と判定する、
    音声認識処理装置。
  2. 前記音声取得部は、取得した前記音声にもとづき、前記ユーザが発話した時間の長さを測定して発話時間長情報を作成し、
    前記記憶部には、発話に要する時間を表す発話時間長データがあらかじめ記憶され、
    前記認識結果判定部は、
    前記排他語彙に一致する言葉が含まれておらず実行すべきと判定された前記第1情報に関して、
    前記発話時間長データを前記記憶部から読み出し、
    読み出した前記発話時間長データと、前記音声取得部で作成された前記発話時間長情報とを比較し、前記比較にもとづき棄却すべきか実行すべきかの判定を再度行う、
    請求項1に記載の音声認識処理装置。
  3. 前記音声取得部は、取得した前記音声にもとづき、前記ユーザの発話の前後に生じる無音声期間の長さを測定して発話様式情報を作成し、
    前記記憶部には、発話の前後に生じる無音声期間の長さを表す発話様式データがあらかじめ記憶され、
    前記認識結果判定部は、
    前記排他語彙に一致する言葉が含まれておらず実行すべきと判定された前記第1情報に関して、
    前記発話様式データを前記記憶部から読み出し、
    読み出した前記発話様式データと、前記音声取得部で作成された前記発話様式情報とを比較し、前記比較にもとづき棄却すべきか実行すべきかの判定を再度行う、
    請求項1に記載の音声認識処理装置。
  4. 前記音声取得部は、取得した前記音声にもとづき、前記ユーザが発話した時間の長さを測定して発話時間長情報を作成するとともに、前記ユーザの発話の前後に生じる無音声期間の長さを測定して発話様式情報を作成し、
    前記記憶部には、発話に要する時間を表す発話時間長データと、発話の前後に生じる無音声期間の長さを表す発話様式データとがあらかじめ記憶され、
    前記認識結果判定部は、
    前記排他語彙に一致する言葉が含まれておらず実行すべきと判定された前記第1情報に関して、
    前記発話時間長データを前記記憶部から読み出し、
    読み出した前記発話時間長データと、前記音声取得部で作成された前記発話時間長情報とを比較し、前記比較にもとづき棄却すべきか実行すべきかの判定を再度行い、実行すべきと判定された前記第1情報に関して、
    前記発話様式データを前記記憶部から読み出し、
    読み出した前記発話様式データと、前記音声取得部で作成された前記発話様式情報とを比較し、前記比較にもとづき棄却すべきか実行すべきかの判定を再度行う、
    請求項1に記載の音声認識処理装置。
  5. 前記音声情報を第2情報に変換するように構成された第2音声認識部と、
    前記第1情報と前記第2情報とのいずれか一方を選択して出力するように構成された選択部と、をさらに備え、
    前記認識結果判定部は、
    前記選択部において選択された方の情報に対して、棄却すべきか実行すべきかの判定を行う、
    請求項1に記載の音声認識処理装置。
  6. 前記第2音声認識部はネットワーク上に設置され、
    前記ネットワークを介して、前記第2音声認識部と通信を行うように構成された送受信部を備えた、
    請求項5に記載の音声認識処理装置。
  7. ユーザが発する音声を取得して音声情報に変換するステップと、
    前記音声情報を第1情報に変換するステップと、
    前記音声情報を第2情報に変換するステップと、
    前記第1情報と前記第2情報のいずれか一方を選択するステップと、
    前記選択された情報と、辞書に登録された排他語彙とを比較し、前記選択された情報に前記排他語彙と一致する言葉が含まれているか否かを判定するステップと、
    前記選択された情報に、前記排他語彙に一致する言葉が含まれているときは、前記選択された情報を棄却すべき情報と判定するステップと、
    前記選択された情報に、前記排他語彙に一致する言葉が含まれていないときは、前記選択された情報を実行すべき情報と判定するステップと、
    を備えた音声認識処理方法。
  8. ユーザが発する音声を取得して音声情報を出力するように構成された音声取得部と、
    前記音声情報を第1情報に変換するように構成された第1音声認識部と、
    排他語彙が登録された辞書をあらかじめ記憶させた記憶部と、
    前記第1情報と前記排他語彙とを比較し、前記第1情報に前記排他語彙と一致する言葉が含まれているか否かを判定し、前記判定にもとづき、前記第1情報を棄却すべきか実行すべきかを判定するように構成された認識結果判定部と、
    前記認識結果判定部において実行すべきと判定された前記第1情報にもとづく処理を実行するように構成された処理部と、
    表示部と、
    を備え、
    前記認識結果判定部は、
    前記第1情報に、前記排他語彙に一致する言葉が含まれているときは、前記第1情報を棄却すべき情報と判定し、
    前記第1情報に、前記排他語彙に一致する言葉が含まれていないときは、前記第1情報を実行すべき情報と判定する、
    表示装置。
JP2015554574A 2013-12-26 2014-12-25 音声認識処理装置、音声認識処理方法、および表示装置 Pending JPWO2015098109A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013268670 2013-12-26
JP2013268670 2013-12-26
PCT/JP2014/006449 WO2015098109A1 (ja) 2013-12-26 2014-12-25 音声認識処理装置、音声認識処理方法、および表示装置

Publications (1)

Publication Number Publication Date
JPWO2015098109A1 true JPWO2015098109A1 (ja) 2017-03-23

Family

ID=53478005

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015554574A Pending JPWO2015098109A1 (ja) 2013-12-26 2014-12-25 音声認識処理装置、音声認識処理方法、および表示装置

Country Status (5)

Country Link
US (1) US9767795B2 (ja)
EP (1) EP3089158B1 (ja)
JP (1) JPWO2015098109A1 (ja)
CN (1) CN105556594B (ja)
WO (1) WO2015098109A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014103099A1 (ja) * 2012-12-28 2014-07-03 パナソニック株式会社 音声認識付き機器及び音声認識方法
JP6731581B2 (ja) * 2015-03-27 2020-07-29 パナソニックIpマネジメント株式会社 音声認識システム、音声認識装置、音声認識方法、および制御プログラム
US9691413B2 (en) * 2015-10-06 2017-06-27 Microsoft Technology Licensing, Llc Identifying sound from a source of interest based on multiple audio feeds
CN107665708B (zh) * 2016-07-29 2021-06-08 科大讯飞股份有限公司 智能语音交互方法及系统
CN109643543A (zh) * 2016-09-02 2019-04-16 夏普株式会社 响应装置及其控制方法以及控制程序
US10409552B1 (en) * 2016-09-19 2019-09-10 Amazon Technologies, Inc. Speech-based audio indicators
CN107038361B (zh) 2016-10-13 2020-05-12 创新先进技术有限公司 基于虚拟现实场景的业务实现方法及装置
US10467509B2 (en) 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
US11010601B2 (en) 2017-02-14 2021-05-18 Microsoft Technology Licensing, Llc Intelligent assistant device communicating non-verbal cues
US11100384B2 (en) 2017-02-14 2021-08-24 Microsoft Technology Licensing, Llc Intelligent device user interactions
JP2019200394A (ja) * 2018-05-18 2019-11-21 シャープ株式会社 判定装置、電子機器、応答システム、判定装置の制御方法、および制御プログラム
CN112135564B (zh) * 2018-05-23 2024-04-02 松下知识产权经营株式会社 摄食吞咽功能评价方法、记录介质、评价装置以及评价系统
JP7096707B2 (ja) * 2018-05-29 2022-07-06 シャープ株式会社 電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法
JP7231342B2 (ja) * 2018-07-09 2023-03-01 シャープ株式会社 コンテンツ表示システム及び表示装置
CN109147780B (zh) * 2018-08-15 2023-03-03 重庆柚瓣家科技有限公司 自由聊天场景下的语音识别方法及系统
JP2020064197A (ja) * 2018-10-18 2020-04-23 コニカミノルタ株式会社 画像形成装置、音声認識装置、及びプログラム
US11176939B1 (en) 2019-07-30 2021-11-16 Suki AI, Inc. Systems, methods, and storage media for performing actions based on utterance of a command
CN112447177B (zh) * 2019-09-04 2022-08-23 思必驰科技股份有限公司 全双工语音对话方法及系统
JP7248564B2 (ja) * 2019-12-05 2023-03-29 Tvs Regza株式会社 情報処理装置及びプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11311994A (ja) * 1998-04-30 1999-11-09 Sony Corp 情報処理装置および方法、並びに提供媒体
JP2000020089A (ja) * 1998-07-07 2000-01-21 Matsushita Electric Ind Co Ltd 音声認識方法及びその装置、並びに音声制御システム
JP2005227686A (ja) * 2004-02-16 2005-08-25 Sharp Corp 音声認識装置、音声認識プログラムおよび記録媒体。
JP2010085536A (ja) * 2008-09-30 2010-04-15 Fyuutorekku:Kk 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム
JP2010103751A (ja) * 2008-10-23 2010-05-06 Yahoo Japan Corp 禁止語発信防止方法、禁止語発信防止電話、禁止語発信防止サーバ
JP2011170274A (ja) * 2010-02-22 2011-09-01 Chugoku Electric Power Co Inc:The 事故復旧訓練装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3477751B2 (ja) 1993-09-07 2003-12-10 株式会社デンソー 連続単語音声認識装置
WO2000041065A1 (en) 1999-01-06 2000-07-13 Koninklijke Philips Electronics N.V. Speech input device with attention span
US7899671B2 (en) * 2004-02-05 2011-03-01 Avaya, Inc. Recognition results postprocessor for use in voice recognition systems
US7813482B2 (en) * 2005-12-12 2010-10-12 International Business Machines Corporation Internet telephone voice mail management
US7949536B2 (en) * 2006-08-31 2011-05-24 Microsoft Corporation Intelligent speech recognition of incomplete phrases
JP4845118B2 (ja) * 2006-11-20 2011-12-28 富士通株式会社 音声認識装置、音声認識方法、および、音声認識プログラム
US20130018895A1 (en) * 2011-07-12 2013-01-17 Harless William G Systems and methods for extracting meaning from speech-to-text data
JP5326066B1 (ja) * 2011-10-25 2013-10-30 オリンパスメディカルシステムズ株式会社 内視鏡手術システム
CN103247291B (zh) * 2013-05-07 2016-01-13 华为终端有限公司 一种语音识别设备的更新方法、装置及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11311994A (ja) * 1998-04-30 1999-11-09 Sony Corp 情報処理装置および方法、並びに提供媒体
JP2000020089A (ja) * 1998-07-07 2000-01-21 Matsushita Electric Ind Co Ltd 音声認識方法及びその装置、並びに音声制御システム
JP2005227686A (ja) * 2004-02-16 2005-08-25 Sharp Corp 音声認識装置、音声認識プログラムおよび記録媒体。
JP2010085536A (ja) * 2008-09-30 2010-04-15 Fyuutorekku:Kk 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム
JP2010103751A (ja) * 2008-10-23 2010-05-06 Yahoo Japan Corp 禁止語発信防止方法、禁止語発信防止電話、禁止語発信防止サーバ
JP2011170274A (ja) * 2010-02-22 2011-09-01 Chugoku Electric Power Co Inc:The 事故復旧訓練装置

Also Published As

Publication number Publication date
EP3089158B1 (en) 2018-08-08
EP3089158A1 (en) 2016-11-02
CN105556594B (zh) 2019-05-17
EP3089158A4 (en) 2016-11-02
WO2015098109A1 (ja) 2015-07-02
US9767795B2 (en) 2017-09-19
CN105556594A (zh) 2016-05-04
US20160217783A1 (en) 2016-07-28

Similar Documents

Publication Publication Date Title
WO2015098109A1 (ja) 音声認識処理装置、音声認識処理方法、および表示装置
CN112216281B (zh) 用于登记用户命令的显示装置和方法
CN109343819B (zh) 在语音识别系统中控制显示装置的显示装置和方法
US9547716B2 (en) Displaying additional data about outputted media data by a display device for a speech search command
JP4705023B2 (ja) 音声認識装置、音声認識方法、及びプログラム
EP3039531B1 (en) Display apparatus and controlling method thereof
JP6244560B2 (ja) 音声認識処理装置、音声認識処理方法、および表示装置
JP5706384B2 (ja) 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
CN109791761B (zh) 使用校正的术语的声学模型训练
US10553206B2 (en) Voice keyword detection apparatus and voice keyword detection method
EP2747077A1 (en) Voice recognition system, recognition dictionary logging system, and audio model identifier series generation device
KR20140089836A (ko) 대화형 서버, 디스플레이 장치 및 그 제어 방법
US8126715B2 (en) Facilitating multimodal interaction with grammar-based speech applications
US20190189124A1 (en) Speech processing apparatus, information processing apparatus, speech processing method, and information processing method
US9691389B2 (en) Spoken word generation method and system for speech recognition and computer readable medium thereof
US11532301B1 (en) Natural language processing
CN112489691A (zh) 电子装置及其操作方法
US11626107B1 (en) Natural language processing
US11948567B2 (en) Electronic device and control method therefor
JP2009116277A (ja) 音声認識装置
KR20120083025A (ko) 서로 다른 적어도 2개 이상의 데이터베이스를 이용하여 음성 인식 서비스를 제공하는 멀티미디어 디바이스 및 그 제어 방법
CN113077793B (zh) 一种语音识别方法、装置、设备及存储介质
KR20210098250A (ko) 전자 장치 및 이의 제어 방법
KR102449181B1 (ko) 전자장치 및 그 제어방법
JP2015143866A (ja) 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170207

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170801