JPWO2014103099A1 - 音声認識付き機器及び音声認識方法 - Google Patents

音声認識付き機器及び音声認識方法 Download PDF

Info

Publication number
JPWO2014103099A1
JPWO2014103099A1 JP2014554069A JP2014554069A JPWO2014103099A1 JP WO2014103099 A1 JPWO2014103099 A1 JP WO2014103099A1 JP 2014554069 A JP2014554069 A JP 2014554069A JP 2014554069 A JP2014554069 A JP 2014554069A JP WO2014103099 A1 JPWO2014103099 A1 JP WO2014103099A1
Authority
JP
Japan
Prior art keywords
voice
sound
voice recognition
command
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014554069A
Other languages
English (en)
Other versions
JP6225920B2 (ja
Inventor
宮阪 修二
修二 宮阪
一任 阿部
一任 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Socionext Inc
Original Assignee
Socionext Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Socionext Inc filed Critical Socionext Inc
Publication of JPWO2014103099A1 publication Critical patent/JPWO2014103099A1/ja
Application granted granted Critical
Publication of JP6225920B2 publication Critical patent/JP6225920B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L15/222Barge in, i.e. overridable guidance for interrupting prompts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

ユーザーの音声を認識する音声認識付き機器(1)であって、空間に音声を出音するスピーカ(101)と、当該空間の音声を収音するマイクロホン(102)と、前記マイクロホン(102)で収音された音声を認識する第1の音声認識部(103)と、前記第1の音声認識部(103)で認識された音声に基づいて、前記音声認識付き機器(1)を制御するコマンドを発行するコマンド制御部(105)と、前記スピーカ(101)から出音される音声を用いて、前記コマンド制御部(105)による前記コマンドの発行を禁止する制御部とを備える。

Description

本発明は、音声認識付き機器及び音声認識方法に関する。
近年、音声認識機能を搭載した電子機器が開発されている。例えば、2012年初頭に、Samsung電子が、音声認識操作可能なテレビを発表した。
これは、テレビ(以下、TV(Television)と記載する場合あり)に対してユーザーが音声で、例えば、ボリュームの上げ下げや、チャンネルの選択を指示するキーワードを発音し、それに対し、テレビに搭載された音声認識機能が当該キーワードを認識した場合、当該キーワードに紐付けられているコマンドをテレビに対して発行することでテレビの操作を音声で行うものである。
この場合、当該キーワードを、たまたまTV自身が出音してしまった場合、例えば、「10チャンネル」という音声が、テレビのチャンネルを10チャンネルに設定変更することを命じるキーワードである場合に、偶然テレビ番組の出演者が「10チャンネル」と発音した場合、テレビのスピーカから「10チャンネル」という音声が出音され、それがマイクロホンで収音され、音声認識されてしまい、テレビが10チャンネルに切り替わってしまう、ということが起こりえる。
このような、機器自身が発する音声による誤作動を阻止する技術として、例えば、特許文献1及び特許文献2に記載の技術が知られている。
また、ユーザーが発音したキーワードにより、機器が当該キーワードに紐付けられたコマンドを発行する場合、ユーザーの発声した音声を正確に認識することが必要であり、例えば、特許文献3に記載の技術が知られている。
特開2003−44069号公報 特開2006−171077号公報 特許第4554044号公報
しかしながら、機器自身が発する音声による誤作動を、より確実に抑止することが望まれている。
本願発明は上記の課題に鑑みてなされたものであり、機器自身が発する音声による誤作動を抑止することができる音声認識付き機器等を提供することを目的とする。
本発明の一態様に係る音声認識付き機器は、ユーザーの音声を認識する音声認識付き機器であって、空間に音声を出音するスピーカと、当該空間の音声を収音するマイクロホンと、前記マイクロホンで収音された音声を認識する第1の音声認識部と、前記第1の音声認識部で認識された音声に基づいて、前記音声認識付き機器を制御するコマンドを発行するコマンド発行部と、前記スピーカから出音される音声を用いて、前記コマンド発行部による前記コマンドの発行を禁止する制御部とを備える。
これにより、機器自身がユーザーの意図によらず偶然発した音声を認識することによる誤動作を抑止することができる。つまり、機器自身が発する音声による誤作動を抑止することができる。
なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD−ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
本発明は、機器自身が発する音声による誤作動を抑止することができる音声認識付き機器等を提供できる。
図1は、実施の形態1に係る音声認識付き機器の構成を示すブロック図である。 図2は、音声認識付き機器の動作を示すフローチャートである。 図3は、実施の形態2に係る音声認識付き機器の構成を示すブロック図である。 図4は、音声認識付き機器の動作を示すフローチャートである。 図5は、実施の形態2の変形例に係る音声認識付き機器の構成を示すブロック図である。 図6は、マイクロホンの出力をダウンサンプルするダウンサンプラを備える音声認識付き機器の構成を示すブロック図である。 図7は、実施の形態1に係る音声認識付き機器の構成の他の一例を示すブロック図である。 図8は、図7に示す音声認識付き機器の動作の一例を示すフローチャートである。 図9は、実施の形態2に係る音声認識付き機器の構成の他の一例を示すブロック図である。 図10は、図9に示す音声認識付き機器の動作の一例を示すフローチャートである。 図11Aは、比較例1に係る音声認識付き機器の構成を示すブロック図である。 図11Bは、比較例1の変形例に係る音声認識付き機器の構成を示すブロック図である。 図12Aは、比較例2に係る音声認識付き機器の構成の一例を示すブロック図である。 図12Bは、比較例2に係る音声認識付き機器の構成の他の一例を示すブロック図である。
上述したような機器自身が発する音声による誤作動を抑止するために、本発明の一態様に係る音声認識付き機器は、ユーザーの音声を認識する音声認識付き機器であって、空間に音声を出音するスピーカと、当該空間の音声を収音するマイクロホンと、前記マイクロホンで収音された音声を認識する第1の音声認識部と、前記第1の音声認識部で認識された音声に基づいて、前記音声認識付き機器を制御するコマンドを発行するコマンド発行部と、前記スピーカから出音される音声を用いて、前記コマンド発行部による前記コマンドの発行を禁止する制御部とを備える。
これにより、機器自身が発する音声による誤作動を抑止することができる。
また、前記制御部は、前記スピーカから出音される音声を認識する第2の音声認識部を備え、前記第2の音声認識部で認識された音声が予め定められたキーワードと同じであるか否かを判断し、同じである場合は、前記コマンド発行部による前記コマンドの発行を禁止してもよい。
これにより、スピーカから出音される音声が予め定められてキーワードである場合に、機器自身を制御するコマンドは発行されない。したがって、コマンドに対応付けられた言葉をキーワードとすることにより、機器自身がユーザーの意図によらず偶然発した音声を認識することによる誤動作をより確実に抑止することができる。
また、本発明の他の一態様に係る音声認識付き機器は、ユーザーの音声を認識する音声認識付き機器であって、空間に音声を出音する少なくとも1つのスピーカと、当該空間の音声を収音するマイクロホンと、前記マイクロホンで収音された音声のうち前記ユーザーの音声を認識する音声認識部と、前記スピーカから出音される音声の電気信号である音声信号を狭帯域にダウンサンプリングするダウンサンプラと、ダウンサンプリングされた前記音声信号を用いて、前記スピーカから出音された音声のうち前記マイクロホンで収音された音声であるエコー成分を推定し、推定したエコー成分を前記マイクロホンで収音された音声から除去するエコーキャンセラとを備え、前記音声認識部は、前記エコーキャンセラによって前記エコー成分が除去された音声を認識することにより、前記ユーザーの音声を認識する。
これにより、ユーザーの発声した音声を、機器自身が出音した音声に邪魔されることなく、正確に音声認識できる。さらに、ダウンサンプラをエコーキャンセラの前段に設けることにより、エコーキャンセラにおける演算量を削減することができる。つまり、正確な音声認識を少ない演算量で実現できる。
また、前記ダウンサンプラは、前記スピーカの数がN(Nは2以上の整数)の場合、入力された前記音声信号を(1/N)^0.5以下にダウンサンプリングしてもよい。
これにより、機器のスピーカがマルチチャネル対応のスピーカの場合であっても、スピーカがモノラルチャネル対応の場合の演算量以下の演算量で、ユーザーの発声した音声を、機器自身が出音した音声信号に邪魔されることなく、正確に音声認識できる。
また、さらに、前記音声認識部で認識された音声に基づいて、前記音声認識付き機器を制御するコマンドを発行するコマンド発行部を備え、前記音声認識部は、前記エコーキャンセラによって前記エコー成分が除去された音声を認識することにより、前記コマンド発行部による、前記エコー成分に基づく前記コマンドの発行を禁止してもよい。
なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD−ROMなどの記録媒体記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。
まず、各実施の形態に係る音声認識付き機器について説明する前に、本発明の比較例1及び比較例2に係る音声認識付き機器について説明する。
上述したような機器自身が発する音声による誤作動を抑止するために、特許文献1に記載の技術のように、スピーカから出音される音声の電気信号である音声信号にWater Mark信号を挿入する構成が考えられる。
図11Aは、本発明の比較例1に係る音声認識付き機器の構成を示すブロック図である。
同図に示すように、比較例1に係る音声認識付き機器では、TV受信表示部800で受信された音声に対して、スピーカ801から出音される前にWater Mark信号が挿入される。一方、マイクロホン802で収音された音声の音声信号は、Water Mark検出機能にかけられ、Water Mark信号が検出された音声成分は音声認識の対象としないように制御した上で、第1音声認識部803で音声認識する。そして、当該認識結果の情報をTV受信表示部800に対するコマンドに変換する。
また、このような比較例1に係る音声認識付き機器に、特許文献2に記載の技術を応用することも考えられる。
図11Bは、上述の比較例1に特許文献2に記載の技術を応用した、比較例1の変形例に係る音声認識付き機器の構成を示すブロック図である。
同図に示すように、比較例1の変形例に係る音声認識付き機器では、スピーカ801から出音される前の音声を第2音声認識部804で認識する。一方、マイクロホン802で収音された音声を第1音声認識部803で認識し、当該2つの認識部(第1音声認識部803及び第2音声認識部804)の認識結果を除去部805において比較し、第1音声認識部803の認識結果から第2音声認識部804での認識結果を除去した上で、除去後の認識結果をTV受信表示部800に対するコマンドに変換する。
また、音声認識率を向上させる技術として、特許文献3に記載のエコーキャンセルの技術が考案されている。
図12A及び図12Bは、このようなエコーキャンセルの機能を有する、本発明の比較例2に係る音声認識付き機器の構成を示すブロック図である。
同図に示すように、エコーキャンセルの基本的なアイデアは、スピーカ901から出音されマイクロホン902で収音される音声を「エコー」ととらえ、音声認識付き機器に搭載されたエコーキャンセラ904で当該エコーを除去した上で音声認識するものである。これにより、音声認識付き機器自身が発した音声に邪魔されずにユーザーの音声を認識することができ、当該認識結果をTV受信表示部900に対するコマンドに変換することができる。
但し、TV受信表示部900から出音される音声信号がステレオ信号の場合、モノラルのエコーキャンセラでエコーを除去することが困難なため、図12Aに示すように、音声認識するモードの場合はスピーカから出音する信号をモノラル化する、又は、図12Bに示したようにエコーキャンセラをステレオ化する、という対策が必要である。
しかしながら、上記比較例1の構成では、スピーカ801で出音される前に多重化されたWater Mark信号が、スピーカ801で出音された後、空間で各種のノイズによってかき消されるおそれが多分に存在する。よって、音声認識付き機器(例えばテレビ)が出音した音声をマイクロホン側で除外することが実質的に困難である。
また、上記比較例1の変形例の構成では、2つの音声認識結果を分析して比較した上で、音声認識結果自体を変更させる(除去する)という煩雑な処理が必要となる。
また、上記比較例2の構成では、スピーカ901から出音する信号をモノラル化する場合(図12Aの場合)、音声認識するモードでは本来の音質が損なわれる。一方、スピーカ901から出音する音声をステレオ化のままとし、エコーキャンセラ904をステレオ化した場合(図12Bの場合)、エコーキャンセラ904の演算量が膨大となる。これは、エコーキャンセラ904の演算量は、マイクロホン902から入力された入力音声信号の周波数帯域の二乗に比例して増加するためである。具体的には、テレビの音声信号は24kHz帯域であり、音声認識の対象となる音声信号の周波数帯域が高々8kHz帯域であることを考えれば、エコーキャンセラ904に必要な演算量は、本来必要な(妥当な)演算量に対して、9倍(つまり、(24/8)^2倍)の演算量になり、ステレオ化でさらに2倍の演算量となるからである。
以下、実施の形態について、図面を参照しながら具体的に説明する。
なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
(実施の形態1)
本実施の形態に係る音声認識付き機器は、スピーカから出音される音声を認識し、認識した音声が予め定められたキーワードと同じである場合は、当該音声認識付き機器を制御するコマンドの発行を禁止する。これにより、音声認識付き機器自身が発する音声による誤作動を抑止することができる。
以下、実施の形態1に係る音声認識付き機器について図面を参照しながら説明する。
図1は、実施の形態1に係る音声認識付き機器の構成を示すブロック図である。本実施の形態に係る音声認識付き機器1では、テレビに音声認識機能を搭載する例について述べる。つまり、本実施の形態に係る音声認識付き機器1は、音声認識機能が搭載されたテレビである。
同図に示す音声認識付き機器1は、テレビ信号を受信し音声信号を生成するTV受信部100、空間に対して音声信号を音声として出音するスピーカ101、当該空間の音声を音声信号として収音するマイクロホン102、マイクロホン102で収音された音声を認識する第1の音声認識部103、スピーカ101から出音する音声を認識する第2の音声認識部104、第1の音声認識部103の出力情報をTV受信部100へのコマンドに変換するコマンド制御部105、及び、スイッチ106を備える。以下、音声認識付き機器1の構成について、具体的に説明する。
TV受信部100は、音声認識付き機器1の外部から送信された映像信号及び音声信号を含むテレビ信号を受信する、例えばチューナーである。このTV受信部100は、受信したテレビ信号のうち、音声信号をスピーカ101へ出力し、映像信号を、例えば液晶パネルといった画像表示部(図示せず)へ出力する。また、TV受信部100は、コマンド制御部105から出力されるコマンドに応じて、例えば受信チャンネルを切り替える、といった動作をする。
スピーカ101は、TV受信部100から出力された電気信号である音声信号を物理振動に変換することにより、空気の振動である音声を生成する。つまり、音声信号に対応する音声を、空間に出音する。
マイクロホン102は、音声を物理信号に変換することにより、電気信号である音声信号を生成する。つまり、音声を収音する。
第1の音声認識部103は、マイクロホン102で収音された音声を認識する。具体的には、マイクロホン102から出力された音声信号を解析することにより、マイクロホン102で収音された音声を認識する。そして、認識した音声を示す情報をコマンド制御部105に出力する。
第2の音声認識部104は、スピーカ101から出音される前の音声信号を解析することにより、スピーカ101から出音される音声を認識する。そして、認識した音声が予め定められたキーワードと一致する場合に、スイッチ106をオフする。つまり、コマンド制御部105からTV受信部100へのコマンドの発行を禁止する。例えば、第2の音声認識部104は、ユーザーによって登録されたキーワードを保持する記憶部を有し、認識した音声が当該記憶部に保持されている場合、認識した音声が予め定められたキーワードと一致していると判断し、スイッチ106をオフする。
コマンド制御部105は、第1の音声認識部103で認識された音声に応じたコマンドを生成する。つまり、第1の音声認識部103で認識された音声をコマンドに変換する。具体的には、コマンド制御部105は、第1の音声認識部103で認識された音声が予め定められたキーワードである場合、当該キーワードに対応付けられたコマンドを生成し、生成したコマンドをスイッチ106を介してTV受信部100へ発行する。例えば、コマンド制御部105は、コマンドと、コマンドに対応付けられた予め定められたキーワードを示す情報とを保持する記憶部を有し、第1の音声認識部103で認識された音声が記憶部に保持されたいずれかのキーワードと一致する場合に、一致したキーワードに対応付けられたコマンドを発行する。
スイッチ106は、第2の音声認識部104の指示に応じて、オン又はオフすることにより、コマンド制御部105で変換されたコマンドをTV受信部100へ発行する又は発行しない、を切り替える。具体的には、スイッチ106は、第2の音声認識部104で認識された音声が予め定められたキーワードと一致する場合にオフし、一致しない場合にオンする。つまり、第2の音声認識部104及びスイッチ106は、スピーカ101から出音される音声を用いて、コマンド制御部105によるコマンドの発行を禁止する。
次に、以上のように構成された音声認識付き機器1の動作について説明する。
図2は、本実施の形態に係る音声認識付き機器1の動作を示すフローチャートである。
まず、TV受信部100は、テレビ信号を受信し、受信したテレビ信号から音声信号を生成する(S101)。
そのように生成された音声信号は、スピーカ101により空間に出音される(S102)。具体的には、スピーカ101は、TV受信部100で生成された音声信号を空気振動である音声に変換して空間に出音する。
スピーカ101から空間に出音された音声信号を含む当該空間の音声信号はマイクロホン102によって収音される(S103)。具体的には、マイクロホン102は、空間の空気振動である音声を電気信号である音声信号に変換する。つまり、収音する。
マイクロホン102で収音された音声信号は、第1の音声認識部103によって音声認識される(S104)。具体的には、第1の音声認識部103は、マイクロホンから出力された音声信号を解析することにより、マイクロホン102で収音された音声を認識する。そして、認識結果を示す情報をコマンド制御部105へ出力する。
一方で、スピーカ101から出音される前の音声信号は、第2の音声認識部104で音声認識される(S105)。
ここで、上述したように、コマンド制御部105は、第1の音声認識部103の出力情報に基づいて、予め定められたコマンドをTV受信部100に発行するように構成されているが、第2の音声認識部104の出力情報が特定のキーワードに合致した場合、第2の音声認識部104及びスイッチ106を含む制御部は、コマンド制御部105からTV受信部100に対して、コマンドが発行されないように制御する。
具体的には、第2の音声認識部104は、スピーカ101から出力される音声の音声認識処理の後(S105の後)、スピーカ101から出音される音声が予め定められたキーワードと一致するか否かを判断する(S106)。そして、一致した場合(S106でYes)、スイッチ106をオフすることにより、コマンド制御部105によるTV受信部100へのコマンドの発行を禁止する(S107)。一方、一致しなかった場合(S106でNo)、スイッチ106を引き続きオンすることにより、コマンド制御部105からTV受信部100へのコマンドを発行させる(S108)。つまり、コマンド制御部105からTV受信部100へのコマンド発行を許可する。
このように、音声認識付き機器1自身が発する音声が予め定められたキーワードと一致する場合、コマンド制御部105からTV受信部100に対して、当該キーワードで指示されるコマンドは発行されない。これにより、音声認識付き機器1自身が発する音声による誤作動を低減できる。
例えば、第1の音声認識部103により「10チャンネル」という言葉が音声認識された場合、コマンド制御部105がTV受信部100に対し、受信チャンネルを10チャンネルに切り替えるようなコマンドを発行するように設定されているとする。つまり、「10チャンネル」という言葉は、受信チャンネルを10チャンネルに切り替えるコマンドを発行するためのキーワードであるとする。
ここで、仮に、受信しているテレビ番組の出演者がたまたま「10チャンネル」と発声した場合、スピーカ101から、「10チャンネル」という音声信号が出音され、マイクロホン102によって当該キーワードが収音され、第1の音声認識部103によって当該キーワードが認識される。このとき、第2の音声認識部104は、スピーカ101に出音する音声信号を音声認識しているので、第2の音声認識部104でも、「10チャンネル」というキーワードが音声認識される。この場合、第1の音声認識部103で認識した「10チャンネル」というキーワードは、スピーカ101から出音された音声を認識したものであり、ユーザーからの音声指示ではないと判断できる。よって、音声認識付き機器1は10チャンネルへのチャンネルの切り替えを実施しない。
言い換えると、第2の音声認識部104により「10チャンネル」というキーワードが音声認識されている場合、つまり第2の音声認識部104の認識結果と第1の音声認識部103の認識結果とが同じ場合、第2の音声認識部104は次のように動作する。具体的には、第2の音声認識部104はスイッチ106をオフすることにより、コマンド制御部105によるTV受信部100へのコマンドの発行を禁止する。したがって、10チャンネルへのチャンネルの切り替えをTV受信部100に命じるコマンドは、TV受信部100に対して発行されない。
これに対して、第2の音声認識部104により「10チャンネル」というキーワードが音声認識されていない場合、つまり第2の音声認識部104の認識結果が第1の音声認識部103の認識結果と同じでない場合、第2の音声認識部104は次のように動作する。具体的には、第2の音声認識部104はスイッチ106をオンのままにすることにより、コマンド制御部105によるTV受信部100へのコマンドの発行を許可する。したがって、10チャンネルへのチャンネルの切り替えをTV受信部100に命じるコマンドが、コマンド制御部105からTV受信部100へと発行される。よって、音声認識付き機器1は10チャンネルへのチャンネルの切り替えを実施する。
このように、音声認識付き機器1は、第1の音声認識部103がコマンドに対応づけられたキーワードを認識している場合であっても、第2の音声認識部104により同一のキーワードが認識されている場合には、第1の音声認識部103によって認識されたキーワードはユーザーの音声指示ではないと判断し、当該キーワードに対応するコマンドに応じた動作をしない。一方、第1の音声認識部103により認識されたキーワードが第2の音声認識部104では認識されていない場合には、第1の音声認識部103によって認識されたキーワードは、ユーザーからの音声指示であると判断できるので、当該キーワードに対応するコマンドに応じた動作をする。
つまり、第2の音声認識部104は、認識結果が予め定められたキーワードと同じである場合は、スイッチ106をオフすることにより、コマンド制御部105によるTV受信部100へのコマンドの発行を禁止する。これにより、音声認識付き機器1は、第2の音声認識部104で音声認識されたキーワードが予め定められたキーワードと一致する場合に、当該キーワードにより指示されるコマンドによる動作をしない。
なお、上述の「10チャンネル」というキーワードは一例に過ぎず、どのようなキーワードであってもよいし、発行されるコマンドは、TV受信部100に向けられるコマンドでなくてもよい。例えば、TV受信部100が受信したテレビ信号の画像信号に応じた画像を表示する画像表示部へ向けられるコマンドであってもよい。すなわち、「明るく」、「暗く」などをキーワードとし、コマンド制御部105は、そのようなキーワードに応じて画像表示部を制御するコマンドを発行してもよい。また、「音量大」、「音量小」などをキーワードとし、そのようなキーワードに応じてスピーカ101を制御するコマンドを発行してもよい。
なお、第2の音声認識部104へ入力される音声信号は、スピーカ101から出音される直前の信号である必要はなく、TV受信部100で受信されて再生された音声信号がスピーカ101によって出音されるまでのいずれの段階の音声信号であってもよい。その音声信号がアナログ信号である場合は、第2の音声認識部104に入力されるまでのいずれかの段階でAD(Analog to Digital)変換器によってデジタル信号に変換されることは言うまでもない。
以上のように、本実施の形態に係る音声認識付き機器1は、空間に音声を出音するスピーカ101と、当該空間の音声を収音するマイクロホン102と、前記マイクロホン102で収音した音声を認識する第1の音声認識部103と、スピーカ101から出音する音声を認識する第2の音声認識部104と、前記第1の音声認識部で認識された音声に基づいて、当該音声認識付き機器1を制御するコマンドを発行するコマンド制御部105と、スピーカ101から出音される音声を用いて、コマンド制御部105によるコマンドの発行を禁止する第2の音声認識部104及びスイッチ106を備える。なお、コマンド制御部105はコマンド発行部に相当し、第2の音声認識部104及びスイッチ106は制御部に相当する。
これにより、音声認識付き機器1自身が発する音声による誤作動を抑止することができる。
具体的には、第2の音声認識部104における音声認識結果である出力情報が特定のキーワードに合致していない場合は、TV受信部100に当該キーワードに関連したコマンドを発行し、第2の音声認識部104が特定のキーワードに合致した場合は、第1の音声認識部103における音声認識結果である出力情報に関連したコマンドを発行しないようにする。言い換えると、第2の音声認識部104は、スピーカ101から出音される音声を認識し、認識した音声が予め定められたキーワードと同じであるか否かを判断し、同じである場合は、スイッチ106をオフすることにより、コマンド制御部105によるTV受信部100へのコマンドの発行を禁止する。
これにより、スピーカ101から出音される音声が予め定められてキーワードである場合に、音声認識付き機器1自身を制御するコマンドは発行されない。したがって、コマンドに対応付けられた音声をキーワードとすることにより、音声認識付き機器1自身がユーザーの意図によらず偶然発した音声を音声認識してしまって意図しない動作になることを抑制できる。つまり、誤動作をより確実に抑止することができる。
なお、本実施の形態では、第2の音声認識部104での音声認識結果が予め定められたキーワードと一致する場合に、第2の音声認識部104がスイッチ106をオフすることにより、コマンド制御部105で発行されたコマンドのTV受信部100への発行を禁止していたが、TV受信部100へのコマンドの発行を禁止する方法はこれに限らない。例えば、音声認識付き機器1は、スイッチ106を備えず、第2の音声認識部104での音声認識結果が予め定められたキーワードと一致する場合に、コマンド制御部105におけるコマンドの生成を停止させることにより、TV受信部100へのコマンドの発行を禁止してもよい。
(実施の形態2)
本実施の形態に係る音声認識付き機器は、スピーカから出音される音声の電気信号である音声信号を狭帯域にダウンサンプルし、ダウンサンプルされた音声信号を用いて、スピーカから出音された音声のうちマイクロホンで収音された音声であるエコー成分を、マイクロホンで収音された音声から除去する。これにより、少ない演算量で、音声認識付き機器自身が出音した音声信号に邪魔されずに音声認識できる。
以下、実施の形態2に係る音声認識付き機器について図面を参照しながら説明する。
図3は、本実施の形態2に係る音声認識付き機器の構成を示すブロック図である。本実施の形態に係る音声認識付き機器2では、テレビに音声認識機能を搭載する例について述べる。
同図に示す音声認識付き機器2は、テレビ信号を受信し音声信号を生成するTV受信部200、空間に広帯域の音声信号を出音するスピーカ201、当該空間の音声信号を収音するマイクロホン202、マイクロホン202で収音された音声信号を認識する音声認識部203、スピーカ201から出音されマイクロホン202で収音された音声であるエコー成分を、マイクロホン202で収音された音声から除去するエコーキャンセラ204、スピーカ201から出音される音声信号を狭帯域の信号にダウンサンプリングするダウンサンプラ205、及び、音声認識部203の出力情報に基づいて機器を制御するコマンドを発行するコマンド制御部206を備える。
なお、同図において、TV受信部200、スピーカ201、マイクロホン202、音声認識部203、コマンド制御部206は、図1におけるTV受信部100、スピーカ101、マイクロホン102、第1の音声認識部103、コマンド制御部105と同じものである。
このように、本実施の形態に係る音声認識付き機器2は、実施の形態1に係る音声認識付き機器1と比較して、制御部に代わり、スピーカ201から出音される音声の電気信号である音声信号を狭帯域にダウンサンプリングするダウンサンプラ205と、ダウンサンプリングされた音声信号を用いて、スピーカ201から出音された音声のうちマイクロホン202で収音された音声であるエコー成分を推定し、推定したエコー成分をマイクロホン202で収音された音声から除去するエコーキャンセラ204とを備える。また、音声認識部203は、エコーキャンセラによってエコー成分が除去された音声を認識することにより、ユーザーの音声を認識する。
次に、以上のように構成された音声認識付き機器2の動作について説明する。
図4は、本実施の形態に係る音声認識付き機器2の動作を示すフローチャートである。
まず、TV受信部200は、テレビ信号を受信し、受信したテレビ信号から音声信号を生成する(S201)。近年ではテレビ信号の音声の再生帯域は24kHz程度の広帯域信号である。そのように生成された音声信号は、スピーカ201により空間に出音される(S202)。つまり、空間に出音された音声の周波数帯域は24kHz程度である。
スピーカ201から空間に出音された音声を含む当該空間の音声はマイクロホン202によって収音される(S203)。具体的には、マイクロホン202は、空間の音声を、例えばサンプリング周波数8kHzでサンプリングして収音する。つまり、マイクロホン202からエコーキャンセラ204へ出力される音声信号の周波数帯域は8kHzである。言い換えると、マイクロホン202で収音された音声信号は周波数帯域が8kHzにダウンサンプリングされている。
ところで、スピーカ201で出音される広帯域の音声信号は、さらに、ダウンサンプラ205に入力され、狭帯域信号に変換される。つまり、ダウンサンプラ205は、スピーカ201で出音される音声信号をダウンサンプルする(S204)。具体的には、ダウンサンプラ205は、スピーカ201で出音される音声信号のうち、音声認識において不要な周波数帯域の信号を除去することで、スピーカ201で出音される音声信号を狭帯域化する。より具体的には、音声認識に必要な周波数帯域は高々8kHz帯域であるので、例えば、スピーカ201から出音される音声信号の周波数帯域が24kHzの場合、ダウンサンプラ205は、入力された音声信号の周波数帯域を1/3の周波数帯域である8kHzにダウンサンプルしてエコーキャンセラ204へ出力する。
ここで、ダウンサンプラ205に入力される音声信号は、スピーカ201から出音される直前の信号である必要はなく、TV受信部200で受信されて再生された音声信号がスピーカ201によって出音されるまでのいずれの段階の音声信号であればよい。それがアナログ信号である場合は、ダウンサンプラ205に入力されるまでのいずれかの段階でAD変換器によってデジタル信号に変換されることは言うまでもない。
次に、マイクロホン202で収音された音声信号と、ダウンサンプラ205の出力信号とが、エコーキャンセラ204に入力される。エコーキャンセラ204では、スピーカ201から出音されマイクロホン202で収音されるエコー成分を、マイクロホン202で収音された音声信号から除去する。つまり、エコーキャンセルする(S205)。具体的には、エコーキャンセラ204は、ダウンサンプラ205によってダウンサンプリングされた音声信号を用いて、スピーカ201から出音された音声のうちマイクロホン202で収音された音声であるエコー成分を推定し、推定したエコー成分をマイクロホン202で収音された音声から除去する。つまり、マイクロホン202から出力された音声信号からエコー成分の音声信号を除去し、除去後の音声信号を音声認識部203へ出力する。
なお、エコーキャンセラ204で用いられるエコーキャンセラの方式は従来から知られているどのような方式のエコーキャンセラでもよい。
最後に、エコーキャンセラ204の出力信号は、音声認識部203に入力され音声認識される。コマンド制御部206では、音声認識部203の出力情報に応じて、機器を制御するコマンドを発行する。つまり、音声認識部203は、エコーキャンセルされた音声信号を音声認識し(S206)、コマンド制御部206は、音声認識部203での音声認識結果である出力情報に応じて、TV受信部200へコマンドを発行する(S207)。
このように、本実施の形態に係る音声認識付き機器2において、ダウンサンプラ205は、スピーカ201から出音される音声の電気信号である音声信号を狭帯域にダウンサンプルする。そして、エコーキャンセラ204は、ダウンサンプラ205でダウンサンプルされた音声信号を用いて、スピーカ201から出音された音声のうちマイクロホン202で収音された音声であるエコー成分を、マイクロホン202で収音された音声から除去する。
このように、本実施の形態に係る音声認識付き機器2はエコーキャンセラ204を用いることで、下記のような効果が期待できる。
例えば、「10チャンネル」という言葉が、テレビの受信チャンネルを10チャンネルに切り替えるコマンドを発行するためのキーワードであるとする。このとき、ユーザーが「10チャンネル」と発音してチャンネルの切り替えを音声で指示したと同時に、テレビ自身が大きな音でテレビ番組の音声を出音していた場合、ユーザーが発した「10チャンネル」という言葉と、テレビ番組の音声とが混合されてマイクロホン202で収音される。
もし、ここでエコーキャンセラ204がなかった場合、音声認識部203には、当該混合された音声信号が入力される。その結果、音声認識部203が正しく「10チャンネル」というキーワードを認識することが阻害される。
これに対して、本実施の形態に係る音声認識付き機器2は、エコーキャンセラ204を備えることにより、スピーカ201から出音されマイクロホン202で収音されるエコー成分を、マイクロホン202で収音した音声信号から除去することができる。その結果、本実施の形態に係る音声認識付き機器2は、ユーザーが発した音声の音声認識を正確に実施できる。
また、上述したように、エコーキャンセラ204に入力される音声信号は、いずれも、スピーカ201から空間に出音される信号より狭帯域の信号である。つまり、エコーキャンセラ204に対して、スピーカ201側から入力される音声信号、及び、マイクロホン202側から入力される音声信号は、スピーカ201から出音される音声信号より狭帯域化されている。これにより、下記のような効果が期待できる。
エコーキャンセラ204に入力される音声信号が狭帯域化されていない場合、当該入力される音声信号は24kHz帯域となるが、音声認識の対象となる音声信号の周波数帯域は高々8kHz帯域である。よって、エコーキャンセラ204に入力される音声信号が狭帯域化されていない場合、エコーキャンセラ204における演算量は、音声認識のために要求される本来の演算量に対して、9倍(つまり、(24/8)^2倍)の演算量になってしまう。
これに対して、本実施の形態に係る音声認識付き機器2は、ダウンサンプラ205及びダウンサンプリングするマイクロホン202を備えることにより、エコーキャンセラ204に入力されるいずれの音声信号の周波数帯域も狭帯域化する。これにより、エコーキャンセラ204における演算量を低減することができる。
なお、マイクロホン202側からエコーキャンセラ204に入力される音声信号を狭帯域化する方法は、本実施の形態のように処理できる周波数帯域が狭いマイクロホン202を用いてもよいし、一旦、広帯域のマイクロホンにより収音された音声信号を狭帯域の信号にダウンサンプリングすることにより実現してもよい。
また、ダウンサンプラ205は、スピーカ201から出音される音声の電気信号である音声信号を、音声認識部203での音声認識の対象となる周波数帯域にダウンサンプリングする。これにより、音声認識部203における音声認識率の低下を抑制する。
以上のように、本実施の形態に係る音声認識付き機器2は、ユーザーの音声を認識する音声認識付き機器であって、空間に広帯域の音声を出音するスピーカ201と、当該空間の音声を収音するマイクロホン202と、マイクロホン202で収音された音声のうちユーザーの音声を認識する音声認識部203と、スピーカ201から出音される音声の電気信号である音声信号を狭帯域にダウンサンプリングするダウンサンプラ205と、ダウンサンプリングされた音声信号を用いて、スピーカ201から出音された音声のうちマイクロホン202で収音された音声であるエコー成分を推定し、推定したエコー成分をマイクロホン202で収音された音声から除去するエコーキャンセラ204とを備え、音声認識部203は、エコーキャンセラ204によってエコー成分が除去された音声を認識することにより、ユーザーの音声を認識する。
このように、エコーキャンセラ204において、ダウンサンプラ205の出力信号に基づいてエコー成分を推定し除去するようにすることで、音声認識付き機器2自身が発する音声信号に邪魔されずに、ユーザーの意図した音声を正確に音声認識できる。
また、ダウンサンプラ205をエコーキャンセラ204の前段に設けて、音声認識において不要な周波数帯域の信号を除去することで、音声認識部203におけるユーザーの音声の認識率の低下なく、かつ、エコーキャンセラ204における演算量を大幅に削減することができる。なぜなら、上述したように、エコーキャンセラ204の演算量は、入力信号の再生帯域の二乗に比例するからである。
つまり、本実施の形態に係る音声認識付き機器2は、正確な音声認識を少ない演算量で実現できる。
また、本実施の形態に係る音声認識付き機器2は、音声認識部203で認識された音声に基づいて、音声認識付き機器2を制御するコマンドを発行するコマンド制御部206を備え、音声認識部203は、エコーキャンセラ204によってエコー成分が除去された音声を認識することにより、コマンド制御部206による、エコー成分に基づくコマンドの発行を禁止する。
これにより、本実施の形態に係る音声認識付き機器2は、実施の形態1に係る音声認識付き機器1と同様に、音声認識付き機器2自身がユーザーの意図によらず偶然発した音声を音声認識してしまって意図しない動作になることを抑制できる。
(実施の形態2の変形例)
上記実施の形態2では、音声認識付き機器2であるテレビから生成される音声信号をモノラル信号としたが、近年では、音声信号がステレオ信号であることが普通となった。さらに、5.1chのマルチチャネル放送なども始まっている。このように、テレビから生成される信号がマルチチャネルとなった場合の音声認識つき機器について、例えばチャネル数が2chの場合を例に、実施の形態2の変形例として説明する。
図5は、本変形例に係る音声認識付き機器の構成を示すブロック図である。同図に示す音声認識付き機器3は、実施の形態2に係る音声認識付き機器2と比較して、スピーカから出音される音声信号がマルチチャネルとなっている点が異なる。なお、図5において、TV受信部300、マイクロホン302、音声認識部303、及び、コマンド制御部306は、図3における、TV受信部200、マイクロホン202、音声認識部203、及び、コマンド制御部206と同じものである。
このように、本変形例に係る音声認識付き機器3は、実施の形態2に係る音声認識付き機器2と比較して、モノラルの音声信号のために設けられたスピーカ201、ダウンサンプラ205及びエコーキャンセラ204に代わり、ステレオの音声信号のために設けられたステレオスピーカ301、ステレオダウンサンプラ305及びステレオエコーキャンセラ304を備える。
具体的には、ステレオスピーカ301はテレビ信号のステレオ音声信号のそれぞれに対応するスピーカを有し、ステレオ音声信号のそれぞれを音声に変換して空間に出音する。ステレオエコーキャンセラ304は、ステレオ音声信号のそれぞれに対応する2つのエコーキャンセラを有し、ステレオダウンサンプラ305によりダウンサンプルされたステレオ音声信号のそれぞれを入力とし、マイクロホン302で収音された信号からステレオスピーカ301で出音されるエコー成分を除去する。その方法は従来から知られているどのような方法であってもよい。ステレオダウンサンプラ305は、ステレオスピーカ301から出音されるそれぞれのチャンネルの広帯域な音声信号をダウンサンプリングし狭帯域な音声信号に変換する。
ここで、ステレオダウンサンプラ305でダウンサンプルする比率は、チャネル数をN(本変形例ではN=2)とした場合、入力された音声信号を(1/N)^0.5以下にダウンサンプリングすることが望ましい。つまり、ステレオダウンサンプラ305は、スピーカの数がN(Nは2以上の整数)の場合、入力された前記音声信号を(1/N)^0.5以下にダウンサンプリングすることが望ましい。これにより、本変形例に係る音声認識付き機器3は下記のような効果が期待できる。
ステレオエコーキャンセラ304が有する各エコーキャンセラの演算量は、入力された音声信号の再生帯域の二乗に比例する。よって、ステレオダウンサンプラ305において音声信号を(1/N)^0.5にダウンサンプリングすることで、ステレオエコーキャンセラ304の演算量は、チャネルあたり((1/N)^0.5)^2=1/Nとなり、全体で1/N*N=1となる。言い換えると、ステレオエコーキャンセラ304の各エコーキャンセラの演算量は1/Nとなり、ステレオエコーキャンセラ304の演算量は1/N*N=1となる。つまり、チャネル数が増えても、ステレオエコーキャンセラ304に割り当てる演算量を一定以下に押さえることができる。
すなわち、本変形例に係る音声認識付き機器3は、ステレオダウンサンプラ305において音声信号を(1/N)^0.5にダウンサンプリングすることにより、音声信号がマルチチャネルの場合であっても、モノラルチャネルの場合の演算量以下の演算量で、ユーザーの発声した音声を、音声認識付き機器3自身が出音した音声信号に邪魔されることなく、正確に音声認識できる。具体的には、ステレオ音声信号を出音するステレオスピーカ301を備える本変形例に係る音声認識付き機器3は、モノラル音声信号を出音するスピーカ201を備える実施の形態2に係る音声認識付き機器2と比較して、演算量を増やすことなく、ユーザーの発声した音声を正確に音声認識できる。
なお、本変形例では音声認識付き機器3を音声信号がステレオ(2.0ch)信号の場合を例に挙げて説明したが、音声信号のチャネルはこれに限らず、ステレオ(2.0ch)信号よりも多くのチャンネルを有する、例えば5.1chであってもよい。
以上、一つまたは複数の態様に係る音声認識付き機器について、実施の形態及び変形例に基づいて説明したが、本発明は、この実施の形態及び変形例に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態及び変形例に施したものや、異なる実施の形態及び変形例における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。
例えば、上記各実施の形態及び変形例では、音声認識付き機器としてテレビを例にあげて説明したが、音声認識付き機器はこれに限らず、テレビ放送を録画した録画再生機器であってもよいし、あらかじめ映画コンテンツや音楽コンテンツが記録されたメディアを再生する、DVD(Digital Versatile Disc)プレーヤ、BD(Blu−Ray(登録商標) Disk)プレーヤ、CD(Compact Disc)プレーヤなど、音声を発する機器であればよい。
また、図3に示した実施の形態2に係る音声認識付き機器2において、エコーキャンセラ204に入力される2系統の音声信号のうち、スピーカ201へ向かう経路から分岐してエコーキャンセラ204に入力される音声信号はダウンサンプリングされているのに対し、マイクロホン202からエコーキャンセラ204に入力される音声信号はダウンサンプリングされていないように見えるが、上記実施の形態2で述べたように、マイクロホン202のサンプリング周波数は、ダウンサンプラ205の出力信号のサンプリング周波数と同じ周波数である。つまり、実施の形態2では、マイクロホン202からエコーキャンセラ204へ入力される音声信号は、マイクロホン202によってダウンサンプリングされている。
なお、マイクロホン202及びダウンサンプラ205でダウンサンプラされた後の音声信号の周波数帯域は、上記の8kHzに限らない。例えば、スピーカ201から出音される音声信号のサンプリング周波数が48kHz、マイクロホン202のサンプリング周波数が16kHz、ダウンサンプラ205は入力された音声信号の周波数帯域を1/3にダウンサンプルするものであり、ダウンサンプラ205の出力信号の周波数帯域は16kHzであってもよい。この場合も、マイクロホン202のサンプリング周波数は16kHzとなり、ダウンサンプラ205の出力信号の周波数帯域と同一である。
また、上記実施の形態2に係る音声認識付き機器2では、マイクロホン202のサンプリング周波数はダウンサンプラ205のサンプリング周波数と一致したが、マイクロホン202のサンプリング周波数がダウンサンプラ205のサンプリング周波数より高くてもよい。例えば、マイクロホン202のサンプリング周波数が24kHz、ダウンサンプラ205のサンプリング周波数が16kHzであってもよい。この場合は、音声認識付き機器は、図6に示すように、さらに、マイクロホン202の出力信号をダウンサンプルするダウンサンプラ207を備え、ダウンサンプラ207によりマイクロホン202で収音された音声信号を、24kHzから16kHzにダウンサンプリングすることにより、ダウンサンプラ205の出力信号の周波数帯域と、マイクロホン202のサンプリング周波数(すなわち、マイクロホン202で収音された音声信号の周波数帯域)とを一致させてもよい。
また、例えば、上記の各装置を構成する構成要素の一部または全部は典型的には集積回路であるLSIとして実現されてもよい。これらは個別に1チップ化されても良いし、一部又は全てを含むように1チップ化されてもよい。
ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適応等が可能性としてありえる。
また、上記実施の形態1に係る音声認識付き機器の構成は図1に示す構成に限らず、少なくとも図7に示す構成であればよい。すなわち、音声認識付き機器4は、ユーザーの音声を認識する音声認識付き機器であって、空間に音声を出音するスピーカ401と、当該空間の音声を収音するマイクロホン402と、前記マイクロホン402で収音された音声を認識する第1の音声認識部403と、前記第1の音声認識部403で認識された音声に基づいて、前記音声認識付き機器を制御するコマンドを発行するコマンド発行部405と、前記スピーカ401から出音される音声を用いて、前記コマンド発行部405による前記コマンドの発行を禁止する制御部404とを備える構成であればよい。
このような構成であっても、音声認識付き機器4は、図1に示す音声認識付き機器1と同様に、音声認識付き機器4自身が発する音声による誤作動を抑止することができる。
この音声認識付き機器4は、図8に示すように、ユーザーの音声を認識する音声認識方法であって、空間に音声を出音する出音ステップ(S401)と、前記出音ステップ(S401)の後、当該空間の音声を収音する収音ステップ(S402)と、前記収音ステップ(S402)で収音された音声を認識する音声認識ステップ(S403)と、コマンド発行部405が、前記音声認識ステップ(S403)で認識された音声に基づいて、音声認識付き機器を制御するコマンドを発行するコマンド発行ステップ(S404)と、前記出音ステップ(S401)で出音される音声を用いて、前記コマンド発行部405による前記コマンドの発行を禁止する禁止ステップ(S405)とを含む音声認識方法を実行する。
また、上記実施の形態2に係る音声認識付き機器の構成は図3に示す構成に限らず、少なくとも図9に示す構成であればよい。すなわち、音声認識付き機器5は、ユーザーの音声を認識する音声認識付き機器であって、空間に音声を出音する少なくとも1つのスピーカ501と、当該空間の音声を収音するマイクロホン502と、前記マイクロホン502で収音された音声のうち前記ユーザーの音声を認識する音声認識部503と、前記スピーカ501から出音される音声の電気信号である音声信号を狭帯域にダウンサンプリングするダウンサンプラ505と、ダウンサンプリングされた前記音声信号を用いて、前記スピーカ501から出音された音声のうち前記マイクロホン502で収音された音声であるエコー成分を推定し、推定したエコー成分を前記マイクロホン502で収音された音声から除去するエコーキャンセラ504とを備え、前記音声認識部503は、前記エコーキャンセラ504によって前記エコー成分が除去された音声を認識することにより、前記ユーザーの音声を認識する構成であればよい。
このような構成であっても、音声認識付き機器5は、図3に示す音声認識付き機器2と同様に、ユーザーの発声した音声を、音声認識付き機器5自身が出音した音声に邪魔されることなく、正確に音声認識できる。また、音声認識付き機器2と同様に、正確な音声認識を少ない演算量で実現できる。
この音声認識付き機器5は、図10に示すように、ユーザーの音声を認識する音声認識方法であって、空間に音声を出音する出音ステップ(S501)と、前記出音ステップ(S501)の後、当該空間の音声を収音する収音ステップ(S502)と、前記収音ステップ(S502)で収音された音声のうち前記ユーザーの音声を認識する音声認識ステップ(S505)と、前記出音ステップ(S501)で出音される音声の電気信号である音声信号を狭帯域にダウンサンプリングするダウンサンプルステップ(S503)と、ダウンサンプリングされた前記音声信号を用いて、前記出音ステップ(S501)で出音された音声のうち前記収音ステップ(S502)で収音された音声であるエコー成分を推定し、推定したエコー成分を前記収音ステップ(S502)で収音された音声から除去するエコーキャンセルステップ(S504)とを含み、前記音声認識ステップ(S505)では、前記エコーキャンセルステップ(S504)によって前記エコー成分が除去された音声を認識することにより、前記ユーザーの音声を認識する音声認識方法を実行する。
また、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記各実施の形態の音声認識付き機器などを実現するソフトウェアは、次のようなプログラムである。
すなわち、上記実施の形態1に係る音声認識付き機器などを実現するプログラムは、コンピュータに、図8に示すような音声認識方法を実行させる。
また、上記実施の形態2に係る音声認識付き機器などを実現するプログラムは、コンピュータに、図10に示すような音声認識方法を実行させる。
本発明に係る音声認識付き機器は、当該機器自身が発する音声に邪魔されずに音声認識を正確に行うことができるので、テレビや録画再生機器、DVD/BD/CDプレーヤなど、音声を発する機器に幅広く応用できる。
1、2、3、4、5 音声認識付き機器
100、200、300 TV受信部
101、201、401、501、801、901 スピーカ
102、202、302、402、502、802、902 マイクロホン
103、403 第1の音声認識部
104 第2の音声認識部
105、206、306 コマンド制御部
203、303、503 音声認識部
204、504、904 エコーキャンセラ
205、505、207 ダウンサンプラ
301 ステレオスピーカ
304 ステレオエコーキャンセラ
305 ステレオダウンサンプラ
800、900 TV受信表示部
803 第1音声認識部
804 第2音声認識部

Claims (7)

  1. ユーザーの音声を認識する音声認識付き機器であって、
    空間に音声を出音するスピーカと、
    当該空間の音声を収音するマイクロホンと、
    前記マイクロホンで収音された音声を認識する第1の音声認識部と、
    前記第1の音声認識部で認識された音声に基づいて、前記音声認識付き機器を制御するコマンドを発行するコマンド発行部と、
    前記スピーカから出音される音声を用いて、前記コマンド発行部による前記コマンドの発行を禁止する制御部とを備える
    音声認識付き機器。
  2. 前記制御部は、
    前記スピーカから出音される音声を認識する第2の音声認識部を備え、
    前記第2の音声認識部で認識された音声が予め定められたキーワードと同じであるか否かを判断し、同じである場合は、前記コマンド発行部による前記コマンドの発行を禁止する
    請求項1記載の音声認識付き機器。
  3. ユーザーの音声を認識する音声認識付き機器であって、
    空間に音声を出音する少なくとも1つのスピーカと、
    当該空間の音声を収音するマイクロホンと、
    前記マイクロホンで収音された音声のうち前記ユーザーの音声を認識する音声認識部と、
    前記スピーカから出音される音声の電気信号である音声信号を狭帯域にダウンサンプリングするダウンサンプラと、
    ダウンサンプリングされた前記音声信号を用いて、前記スピーカから出音された音声のうち前記マイクロホンで収音された音声であるエコー成分を推定し、推定したエコー成分を前記マイクロホンで収音された音声から除去するエコーキャンセラとを備え、
    前記音声認識部は、前記エコーキャンセラによって前記エコー成分が除去された音声を認識することにより、前記ユーザーの音声を認識する
    音声認識付き機器。
  4. 前記ダウンサンプラは、前記スピーカの数がN(Nは2以上の整数)の場合、入力された前記音声信号を(1/N)^0.5以下にダウンサンプリングする
    請求項3記載の音声認識付き機器。
  5. さらに、前記音声認識部で認識された音声に基づいて、前記音声認識付き機器を制御するコマンドを発行するコマンド発行部を備え、
    前記音声認識部は、前記エコーキャンセラによって前記エコー成分が除去された音声を認識することにより、前記コマンド発行部による、前記エコー成分に基づく前記コマンドの発行を禁止する
    請求項3又は4記載の音声認識付き機器。
  6. ユーザーの音声を認識する音声認識方法であって、
    空間に音声を出音する出音ステップと、
    前記出音ステップの後、当該空間の音声を収音する収音ステップと、
    前記収音ステップで収音された音声を認識する音声認識ステップと、
    コマンド発行部が、前記音声認識ステップで認識された音声に基づいて、音声認識付き機器を制御するコマンドを発行するコマンド発行ステップと、
    前記出音ステップで出音される音声を用いて、前記コマンド発行部による前記コマンドの発行を禁止する禁止ステップとを含む
    音声認識方法。
  7. ユーザーの音声を認識する音声認識方法であって、
    空間に音声を出音する出音ステップと、
    前記出音ステップの後、当該空間の音声を収音する収音ステップと、
    前記収音ステップで収音された音声のうち前記ユーザーの音声を認識する音声認識ステップと、
    前記出音ステップで出音される音声の電気信号である音声信号を狭帯域にダウンサンプリングするダウンサンプルステップと、
    ダウンサンプリングされた前記音声信号を用いて、前記出音ステップで出音された音声のうち前記収音ステップで収音された音声であるエコー成分を推定し、推定したエコー成分を前記収音ステップで収音された音声から除去するエコーキャンセルステップとを含み、
    前記音声認識ステップでは、前記エコーキャンセルステップによって前記エコー成分が除去された音声を認識することにより、前記ユーザーの音声を認識する
    音声認識方法。
JP2014554069A 2012-12-28 2013-08-09 音声認識付き機器及び音声認識方法 Active JP6225920B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012287724 2012-12-28
JP2012287724 2012-12-28
PCT/JP2013/004813 WO2014103099A1 (ja) 2012-12-28 2013-08-09 音声認識付き機器及び音声認識方法

Publications (2)

Publication Number Publication Date
JPWO2014103099A1 true JPWO2014103099A1 (ja) 2017-01-12
JP6225920B2 JP6225920B2 (ja) 2017-11-08

Family

ID=51020242

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014554069A Active JP6225920B2 (ja) 2012-12-28 2013-08-09 音声認識付き機器及び音声認識方法

Country Status (4)

Country Link
US (2) US9792902B2 (ja)
JP (1) JP6225920B2 (ja)
CN (1) CN104956436B (ja)
WO (1) WO2014103099A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11348575B2 (en) * 2019-12-11 2022-05-31 Samsung Electronics Co., Ltd. Speaker recognition method and apparatus

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102332729B1 (ko) * 2014-07-28 2021-11-30 삼성전자주식회사 발음 유사도를 기반으로 한 음성 인식 방법 및 장치, 음성 인식 엔진 생성 방법 및 장치
DE102015222105A1 (de) * 2015-11-10 2017-05-11 Volkswagen Aktiengesellschaft Audiosignalverarbeitung in einem Fahrzeug
JP6810527B2 (ja) * 2016-03-11 2021-01-06 パイオニア株式会社 再生制御装置、再生制御システム、並びに再生制御方法、プログラム及び記録媒体
US10091545B1 (en) * 2016-06-27 2018-10-02 Amazon Technologies, Inc. Methods and systems for detecting audio output of associated device
US10079015B1 (en) * 2016-12-06 2018-09-18 Amazon Technologies, Inc. Multi-layer keyword detection
US10134396B2 (en) 2016-12-07 2018-11-20 Google Llc Preventing of audio attacks
US10242673B2 (en) 2016-12-07 2019-03-26 Google Llc Preventing of audio attacks using an input and an output hotword detection model
US10395650B2 (en) * 2017-06-05 2019-08-27 Google Llc Recorded media hotword trigger suppression
JP6824554B2 (ja) * 2017-08-22 2021-02-03 アルパイン株式会社 音声認識システム
JP6817915B2 (ja) * 2017-08-29 2021-01-20 アルパイン株式会社 音声認識装置、車載システム及びコンピュータプログラム
JP6912985B2 (ja) * 2017-09-13 2021-08-04 アルパイン株式会社 音声認識システム及びコンピュータプログラム
CA3075249A1 (en) * 2017-09-15 2019-03-21 Sony Corporation Information processing apparatus and information processing method
US10276175B1 (en) * 2017-11-28 2019-04-30 Google Llc Key phrase detection with audio watermarking
JP6962158B2 (ja) * 2017-12-01 2021-11-05 ヤマハ株式会社 機器制御システム、機器制御方法、及びプログラム
FR3075442B1 (fr) 2017-12-19 2019-11-22 Sagemcom Broadband Sas Dispositif et procede d'assistance vocale
CN110312093A (zh) * 2018-03-27 2019-10-08 晨星半导体股份有限公司 电子装置及相关的信号处理方法
JP2019184679A (ja) * 2018-04-03 2019-10-24 シャープ株式会社 ネットワークシステム、サーバ、および情報処理方法
JP7197992B2 (ja) * 2018-04-10 2022-12-28 シャープ株式会社 音声認識装置、音声認識方法
US10692496B2 (en) * 2018-05-22 2020-06-23 Google Llc Hotword suppression
CN113168834A (zh) * 2018-12-18 2021-07-23 日产自动车株式会社 声音识别装置、声音识别装置的控制方法、内容播放装置以及内容发送接收系统
CN110718223B (zh) 2019-10-28 2021-02-12 百度在线网络技术(北京)有限公司 用于语音交互控制的方法、装置、设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03160499A (ja) * 1989-11-20 1991-07-10 Sanyo Electric Co Ltd 音声認識装置
JP2000200099A (ja) * 1998-10-26 2000-07-18 Sony Corp エコ―消去装置及び方法、並びに音声再生装置
JP2006171077A (ja) * 2004-12-13 2006-06-29 Nissan Motor Co Ltd 音声認識装置および音声認識方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2874176B2 (ja) 1989-03-16 1999-03-24 アイシン精機株式会社 音声信号処理装置
US6665645B1 (en) 1999-07-28 2003-12-16 Matsushita Electric Industrial Co., Ltd. Speech recognition apparatus for AV equipment
JP4554044B2 (ja) * 1999-07-28 2010-09-29 パナソニック株式会社 Av機器用音声認識装置
JP2001154694A (ja) * 1999-09-13 2001-06-08 Matsushita Electric Ind Co Ltd 音声認識装置及び方法
US6526382B1 (en) * 1999-12-07 2003-02-25 Comverse, Inc. Language-oriented user interfaces for voice activated services
KR20020033813A (ko) * 2000-07-21 2002-05-07 요트.게.아. 롤페즈 복수의 디바이스를 통한 음성 제어
KR100368289B1 (ko) * 2001-02-20 2003-01-24 (주)성우테크노 음성인식장치를 위한 음성명령식별기
KR100552468B1 (ko) 2001-07-19 2006-02-15 삼성전자주식회사 음성인식에 따른 오동작을 방지 및 음성인식율을 향상 할수 있는 전자기기 및 방법
WO2005024780A2 (en) * 2003-09-05 2005-03-17 Grody Stephen D Methods and apparatus for providing services using speech recognition
EP1936939B1 (en) 2006-12-18 2011-08-24 Harman Becker Automotive Systems GmbH Low complexity echo compensation
KR101567603B1 (ko) * 2009-05-07 2015-11-20 엘지전자 주식회사 멀티 음성 시스템의 동작 제어 장치 및 방법
US20100308999A1 (en) * 2009-06-05 2010-12-09 Chornenky Todd E Security and monitoring apparatus
US9953643B2 (en) * 2010-12-23 2018-04-24 Lenovo (Singapore) Pte. Ltd. Selective transmission of voice data
US8971917B2 (en) * 2011-04-04 2015-03-03 Soundlink, Inc. Location-based network radio production and distribution system
US9767795B2 (en) * 2013-12-26 2017-09-19 Panasonic Intellectual Property Management Co., Ltd. Speech recognition processing device, speech recognition processing method and display device

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03160499A (ja) * 1989-11-20 1991-07-10 Sanyo Electric Co Ltd 音声認識装置
JP2000200099A (ja) * 1998-10-26 2000-07-18 Sony Corp エコ―消去装置及び方法、並びに音声再生装置
JP2006171077A (ja) * 2004-12-13 2006-06-29 Nissan Motor Co Ltd 音声認識装置および音声認識方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11348575B2 (en) * 2019-12-11 2022-05-31 Samsung Electronics Co., Ltd. Speaker recognition method and apparatus

Also Published As

Publication number Publication date
WO2014103099A1 (ja) 2014-07-03
CN104956436A (zh) 2015-09-30
US10262653B2 (en) 2019-04-16
JP6225920B2 (ja) 2017-11-08
US9792902B2 (en) 2017-10-17
CN104956436B (zh) 2018-05-29
US20150294666A1 (en) 2015-10-15
US20180005627A1 (en) 2018-01-04

Similar Documents

Publication Publication Date Title
JP6225920B2 (ja) 音声認識付き機器及び音声認識方法
US9336793B2 (en) Controller for audio device and associated operation method
TWI672693B (zh) 用於聲學迴聲消除的組合參考信號
JP5562309B2 (ja) エコーキャンセラ
US10049653B2 (en) Active noise cancelation with controllable levels
US9854358B2 (en) System and method for mitigating audio feedback
US10339951B2 (en) Audio signal processing in a vehicle
US20160267925A1 (en) Audio processing apparatus that outputs, among sounds surrounding user, sound to be provided to user
JP2010154389A (ja) 帯域分割装置
JP6887139B2 (ja) 音響処理装置、音響処理方法、およびプログラム
JP6355049B2 (ja) 音響信号処理方法、及び音響信号処理装置
JP2019049599A (ja) カラオケユニット
US10360922B2 (en) Noise reduction device and method for reducing noise
WO2023149015A1 (ja) 音声処理装置、音声処理方法、音声処理プログラム、および音声処理システム
US11894013B2 (en) Sound collection loudspeaker apparatus, method and program for the same
JP5333786B2 (ja) カラオケ装置及びカラオケ装置用プログラム
CN112243191B (zh) 音响处理装置及音响处理方法
JP4985562B2 (ja) 録音装置、方法及びプログラム
JP2007288408A (ja) 2ヶ国語音声識別システム
JP2023070705A (ja) 音声出力装置、テレビ受信装置、制御方法及びプログラム
TW202131308A (zh) 用於聲學回聲消除的時間延遲校準方法及電視裝置
JP2006053435A (ja) 音響制御装置及び音響制御方法
JP2012151608A (ja) 音声処理装置
CN110570875A (zh) 检测环境噪音以改变播放语音频率的方法及声音播放装置
JP2012203275A (ja) 車載用音響装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170711

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170822

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170912

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170925

R150 Certificate of patent or registration of utility model

Ref document number: 6225920

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150