JPWO2020128552A1

JPWO2020128552A1 - 音声認識装置、音声認識装置の制御方法、コンテンツ再生装置、及びコンテンツ送受信システム

Info

Publication number: JPWO2020128552A1
Application number: JP2020560616A
Authority: JP
Inventors: 英雄大村
Original assignee: Renault SAS
Current assignee: Renault SAS
Priority date: 2018-12-18
Filing date: 2018-12-18
Publication date: 2021-11-18
Anticipated expiration: 2038-12-18
Also published as: EP3901946A4; JP7105320B2; CN113168834A; US20220044691A1; US11922953B2; WO2020128552A1; EP3901946B1; EP3901946A1

Abstract

音声解析部（２２Ｉ）は、音声入力部（２１）に入力された音声信号に特定の特徴成分が含まれているか否かを解析する。音声認識部（２２２）は、音声入力部（２１）に入力された音声信号が示す音声を認識する。応答指示部（２２３）は、音声認識部（２２２）が認識した音声に応答して動作する応答動作部（２３，２４）に対して応答を指示する。制御部（２２４）は、音声解析部（２２１）によって音声信号に特定の特徴成分が含まれていると解析されたとき、音声認識部（２２２）による音声認識処理を実行させないよう音声認識部（２２２）を制御するか、あるいは、音声認識部（２２２）が認識した音声による指示内容を応答動作部（２３，２４）に指示しないよう応答指示部（２２３）を制御する。

Description

本開示は、音声認識装置、音声認識装置の制御方法、コンテンツ再生装置、及びコンテンツ送受信システムに関する。

近年、人が発した所定の指示を実行させるための音声を認識し、認識した指示内容に応答する音声認識装置が普及し始めている。この種の音声認識装置は、スマートスピーカと称されている。

特開平８−１０７３７５号公報

音声認識装置が、人が発した音声ではなく、テレビジョン放送またはラジオ放送等の音声に誤って応答するという事例が報告されている。そこで、音声認識装置が、人が発した音声以外の音声に誤って応答することを防止することが求められる。なお、特許文献１には、マイクロホンが音声を収音するときに、スピーカから発せられた音声をエコーキャンセラによって打ち消すことが記載されている。

実施形態は、人が発した音声以外の音声に誤って応答することを防止することができる音声認識装置、音声認識装置の制御方法、コンテンツ再生装置、及びコンテンツ送受信システムを提供することを目的とする。

実施形態の一態様によれば、音声信号に特定の特徴成分が重畳されているとき、音声認識装置の制御部は、音声認識部による音声認識処理を実行させないよう音声認識部を制御するか、あるいは、音声認識部が認識した音声による指示内容を応答動作部に指示しないよう応答指示部を制御する。

実施形態の音声認識装置、音声認識装置の制御方法、コンテンツ再生装置、及びコンテンツ送受信システムによれば、人が発した音声以外の音声に誤って応答することを防止することができる。

図１は、第１実施形態を示すブロック図である。図２は、図１に示すコンテンツ信号補正部１２０の具体的な構成例を示すブロック図である。図３は、コンテンツ信号の音声波形を離散フーリエ変換した第１の変換信号を概念的に示す波形図である。図４は、第１の変換信号を対数変換してさらに離散フーリエ変換した第２の変換信号を概念的に示す波形図である。図５は、第２の変換信号の各時刻における波形の例を概念的に示す波形図である。図６は、図２に示す畳み込み演算部１２４による１つの周波数の波形に対する畳み込み演算処理を概念的に示す波形図である。図７は、図２に示す畳み込み演算部１２４による全体的な周波数に対する畳み込み演算処理を概念的に示す波形図である。図８は、音声認識装置において特定の単語を含む指示内容に対して応答を不許可とする音声認識装置の構成例を示すブロック図である。図９は、コンテンツ再生装置で実行される処理を示すフローチャートである。図１０は、音声認識装置で実行される処理であり、音声認識装置の制御方法を示すフローチャートである。図１１は、第２実施形態を示すブロック図である。図１２は、第３実施形態を示すブロック図である。図１３は、第４実施形態を示すブロック図である。

以下、各実施形態の音声認識装置、音声認識装置の制御方法、コンテンツ再生装置、及びコンテンツ送受信システムについて、添付図面を参照して説明する。

＜第１実施形態＞
図１において、車両１００は、乗員３０が聴く音楽等のコンテンツを再生するインフォテインメントシステム１０を備える。インフォテインメントシステム１０は、コンテンツ再生装置またはコンテンツ出力装置の一例である。車両１００内には、スマートスピーカと称される音声認識装置２０が配置されている。

インフォテインメントシステム１０は、コンテンツ入力部１１、デジタル・シグナル・プロセッサ（以下、ＤＳＰ）１２、コンテンツ再生部１３、音声出力部１４、近距離通信部１５を備える。コンテンツ入力部１１は、例えば、テレビジョン放送を受信するテレビジョン受信機、ラジオ放送を受信するラジオ受信機、インターネット放送を受信するインターネット受信機のうちのいずれかである。コンテンツ入力部１１は、光ディスクに記録されたコンテンツを再生する光ディスク再生装置、半導体メモリに記憶されたコンテンツを再生するメモリ再生装置であってもよい。近距離通信部１５は、音声認識装置２０の存在を検知する音声認識装置検知部の一例である。近距離通信部１５は、例えば無線通信部であり、ブルートゥース（登録商標）等の通信接続相手機器が特定できる仕組みを有する通信規格に準拠した通信であってもよい。

コンテンツ入力部１１より入力されたコンテンツ信号は、ＤＳＰ１２に入力される。コンテンツ信号がアナログ信号であれば、図示されていないＡ／Ｄコンバータによってデジタル信号に変換されてＤＳＰ１２に入力される。ＤＳＰ１２は、ソフトウェア（コンピュータプログラム）を実行することによって、コンテンツ信号補正部１２０として動作する。

コンテンツ信号補正部１２０は、近距離通信部１５が音声認識装置２０と通信して音声認識装置２０の存在を認識しているときに、コンテンツ信号を補正する。補正対象のコンテンツ信号は音声信号であり、コンテンツ信号は少なくとも音声信号を含む。ここでは、コンテンツ信号は音声信号であるとする。

コンテンツ信号補正部１２０は、コンテンツ信号に特定の特徴成分を重畳するようコンテンツ信号を補正する。コンテンツ信号補正部１２０がコンテンツ信号を具体的にどのように補正するかについては後に詳述する。なお、インフォテインメントシステム１０は、近距離通信部１５を備えない構成であってもよい。

コンテンツ再生部１３は音声信号処理回路及び増幅器を備え、ＤＳＰ１２から供給されたコンテンツ信号を再生する。音声出力部１４はスピーカであり、コンテンツ信号の音声Ｖ１４を出力する。

音声認識装置２０は、音声入力部２１、中央処理装置（以下、ＣＰＵ）２２、音声発生部２３、通信部２４、近距離通信部２５を備える。ＣＰＵ２２は、機能的な構成として、音声解析部２２１、音声認識部２２２、応答指示部２２３、制御部２２４を備える。

音声入力部２１はマイクロホンであり、音声認識装置２０に所定の指示を実行させるために乗員３０が音声Ｖ３０を発すると、音声入力部２１が音声Ｖ３０を収音する。音声入力部２１より出力された音声信号は、図示されていないＡ／Ｄコンバータによってデジタル信号に変換されてＣＰＵ２２に入力される。

音声入力部２１に、インフォテインメントシステム１０によって再生されたコンテンツ信号の音声Ｖ１４が入力されることがある。音声解析部２２１は、音声入力部２１より出力された音声信号に特徴成分が重畳されているか否かを解析する。音声信号に特徴成分が重畳されていなければ、音声入力部２１に入力された音声は、乗員３０が発した音声Ｖ３０である。音声信号に特徴成分が重畳されていれば、音声入力部２１に入力された音声は、インフォテインメントシステム１０より出力された音声Ｖ１４である。

音声解析部２２１による解析結果は、制御部２２４に供給される。制御部２２４は、音声信号に特徴成分が重畳されていないと解析されたとき、音声認識処理を実行させるよう音声認識部２２２を制御する。応答指示部２２３は、音声認識部２２２が認識した乗員３０による指示内容に応じた応答を音声発生部２３または通信部２４に指示する。制御部２２４は、近距離通信部２５がインフォテインメントシステム１０の存在を認識していないとき、音声解析部２２１による解析結果にかかわらず、音声認識処理を実行させるよう音声認識部２２２を制御してもよい。

制御部２２４は、近距離通信部２５がインフォテインメントシステム１０と通信してインフォテインメントシステム１０の存在を認識していて、音声信号に特徴成分が重畳されていると解析されたとき、音声認識処理を実行させないよう音声認識部２２２を制御する。

音声解析部２２１によって音声信号に特徴成分が重畳されていると解析されたとき、音声入力部２１に入力された音声信号は乗員３０が発した音声Ｖ３０ではなく、コンテンツ信号の音声Ｖ１４である。音声認識部２２２は声認識処理を実行しないので、仮に音声Ｖ１４に、音声認識装置２０が応答するような言葉が含まれていたとしても、その言葉を認識しない。よって、応答指示部２２３が誤って音声発生部２３または通信部２４に応答を指示することはない。

制御部２２４は、音声信号に特徴成分が重畳されていると解析されたときに、音声認識処理を実行させないよう音声認識部２２２を制御する代わりに、音声認識部２２２から供給された指示内容に応答しないように応答指示部２２３を制御してもよい。

近距離通信部２５はインフォテインメントシステム１０（コンテンツ再生装置）の存在を検知する再生装置検知部の一例である。音声解析部２２１は、近距離通信部２５によってインフォテインメントシステム１０の存在を検知したとき、音声入力部２１に入力された音声信号に特定の特徴成分が含まれているか否かを解析してもよい。

音声認識装置２０は、インフォテインメントシステム１０（コンテンツ再生装置）がコンテンツを再生していることを検知する再生装置検知部を備えてもよい。この場合、近距離通信部１５がコンテンツ再生部１３によって再生されたコンテンツを送信するように構成し、近距離通信部２５がコンテンツを受信すれば、インフォテインメントシステム１０がコンテンツを再生していることを検知することができる。音声解析部２２１は、再生装置検知部によりインフォテインメントシステム１０がコンテンツを再生していることを検知したとき、音声入力部２１に入力された音声信号に特定の特徴成分が含まれているか否かを解析してもよい。

音声認識装置２０は、近距離通信部２５を備えない構成であってもよい。この場合、制御部２２４は、音声解析部２２１による解析結果のみに基づいて、音声認識部２２２または応答指示部２２３を制御すればよい。

音声発生部２３及び通信部２４は、音声認識部２２２が認識した音声に応答して動作する応答動作部の例である。音声発生部２３は、応答指示部２２３による指示内容に応じて所定の音声を発生する。音声発生部２３は、音声合成器とスピーカとを含む。通信部２４は、応答指示部２２３による指示内容に応じて、図示していない外部のサーバ等と通信する。

図２に示すように、コンテンツ信号補正部１２０は、離散フーリエ変換部１２１、対数変換部１２２、離散フーリエ変換部１２３、畳み込み演算部１２４を備える。典型的には、離散フーリエ変換部１２１及び１２３は、離散フーリエ変換（ＤＦＴ）を高速で計算することができるアルゴリズムである高速フーリエ変換（ＦＦＴ）を用いて、入力信号をフーリエ変換する。

コンテンツ信号補正部１２０の動作を図３〜図７を参照しながら説明する。図３に示すように、コンテンツ信号補正部１２０に入力されるコンテンツ信号が、時刻の進行に伴って信号強度が変化する音声波形Ｖ０であったとする。離散フーリエ変換部１２１が音声波形Ｖ０を離散フーリエ変換すると、図３に示すような周波数と信号強度とで表される波形Ｖｆ１及びＶｆ２等の第１の変換信号が得られる。図３においては簡略化のため、２つの時刻における波形Ｖｆ１及びＶｆ２のみを示している。

対数変換部１２２は、離散フーリエ変換部１２１より出力された第１の変換信号を自然対数に変換し、離散フーリエ変換部１２３は、対数に変換された第１の変換信号をさらに離散フーリエ変換する。すると、各時刻における第１の変換信号は、図４に示すような、信号強度の成分が除去されて、スペクトル包絡のみの第２の変換信号に変換される。図４は、波形Ｖｆ１に対応したスペクトル包絡である波形Ｖｆ１０を示している。

離散フーリエ変換部１２１、対数変換部１２２、及び離散フーリエ変換部１２３によってスペクトル包絡を求める処理は、ケプストラム分析と称されている。離散フーリエ変換部１２１、対数変換部１２２、及び離散フーリエ変換部１２３は、音声信号のスペクトル包絡を求めるケプストラム分析部である。

図５は、離散フーリエ変換部１２３より出力された第２の変換信号の各時刻における波形の例を示している。図５に示す波形Ｖｆｔは、ある１つの周波数における第２の変換信号の変化を示している。畳み込み演算部１２４における畳み込み演算処理の説明を簡略化するため、１つの周波数における波形Ｖｆｔを用いて畳み込み演算処理を説明する。

図６に示すように、畳み込み演算部１２４は、波形Ｖｆｔに所定の畳み込み波形ｆｃを重畳するよう畳み込み演算を実行する。例えば、畳み込み演算部１２４は、音素に影響を与えないように、所定値よりも短い例えば４ｍｓの畳み込み波形ｆｃを波形Ｖｆｔに畳み込む。図６に示す例では、畳み込み演算部１２４は、所定値よりも十分に長い１６ｍｓ経過するごとに、４ｍｓの畳み込み波形ｆｃを畳み込む。ここで、１６ｍｓはあくまで例示であり、他の値であってもよい。

畳み込み演算部１２４が実行する畳み込み演算とは、波形Ｖｆｔに対する畳み込み波形ｆｃの乗算、加算、減算のいずれであってもよい。図６に示す波形Ｖｆｔに畳み込み波形ｆｃを畳み込んだ波形Ｖｆｔｃは、波形Ｖｆｔに畳み込み波形ｆｃを畳み込んだ状態を概念的に示している。

このように波形Ｖｆｔに畳み込み波形ｆｃを畳み込むと、波形Ｖｆｔは部分的に自然界ではあり得ない状態の人工的な波形となる。コンテンツ信号に重畳される特徴成分は、自然界ではあり得ない人工的に組み込まれた波形成分とするのが好適である。

図７は、離散フーリエ変換部１２３より出力された第２の変換信号の全体的な周波数に畳み込み波形ｆｃを畳み込む状態を概念的に示している。図７に示すように、畳み込み演算部１２４は、第２の変換信号が１６ｍｓ経過するごとに、４ｍｓの畳み込み波形ｆｃを畳み込む。畳み込み演算部１２４は、選択された周波数帯域に畳み込み波形ｆｃを畳み込んでもよいし、全周波数帯域に畳み込み波形ｆｃを畳み込んでもよい。

このように、コンテンツ信号補正部１２０は、音声信号の一部または全ての周波数帯域に、所定の時間間隔で特定の特徴成分を重畳する。特徴成分を重畳する時間は、人が音素を認識する時間よりも十分に短い時間とするのがよく、特徴成分を重畳する間隔は、人が音素を認識する時間よりも十分に長い時間とするのがよい。時間間隔は等間隔でなくてもよいが、等間隔とする方がよい。特徴成分が所定の時間間隔で重畳されていれば人が音声信号を聴いたときに不自然に感じにくく、音声解析部２２１による解析も容易となる。

図１において、音声出力部１４より出力される音声Ｖ１４は、図６及び図７に示すように、所定の時間間隔で畳み込み波形ｆｃが畳み込まれて、人工的な波形成分が特徴成分として重畳された音声となる。

音声解析部２２１は、音声入力部２１より出力された音声信号を解析して、音声信号に自然界ではあり得ない人工的な波形成分が重畳されていなければ、インフォテインメントシステム１０より出力された音声Ｖ１４であると解析する。

ところで、音声認識部２２２は、隠れマルコフモデルと称される最尤推定の処理を用いて音声入力部２１に入力された音声を認識する。上記のように、乗員３０は上述した特徴成分が重畳された音声Ｖ１４を聞いても不自然に感じることはほとんどない。しかしながら、音声認識部２２２が仮に音声Ｖ１４を認識したとすると、音声Ｖ１４を正しく認識するとは限らず、音声Ｖ１４を正しく認識しないことがある。

よって、音声解析部２２１が音声信号に特徴成分が重畳されていると解析されたときに、制御部２２４が、音声認識処理を実行させないよう音声認識部２２２を制御するのがよい。但し、上記のように、音声認識部２２２が音声認識処理を実行し、制御部２２４が、認識した音声が示す指示内容に応答しないように応答指示部２２３を制御してもよい。制御部２２４は、音声認識部２２２から供給された指示内容に応答しないように応答指示部２２３を制御する場合には、一部の言葉のみに応答しないように応答指示部２２３を制御してもよい。

なお、図１において、音声解析部２２１、音声認識部２２２、応答指示部２２３、制御部２２４を別構成として記載したが、少なくとも音声解析機能、音声認識機能、応答指示機能を有していればよく、これら複数の機能を１つのハードウェアに持たせてもよいし、複数のハードウェアに持たせてもよい。また、音声解析機能、音声認識機能、応答指示機能はソフトウェアプログラムにより実現され得る。

制御部２２４が、一部の言葉のみに応答しないように応答指示部２２３を制御する場合には、図８に示すように構成すればよい。図８に示すように、ＣＰＵ２２には、応答不可単語が記憶されている記憶部２６が接続されている。記憶部２６は不揮発性メモリで構成することができる。

記憶部２６には、例えば、「購入」、「注文」、「発注」、及びその他の通信部２４が外部のサーバ等と通信して、第三者に指示する単語が応答不可単語として記憶されている。制御部２２４が、費用の発生しない指示内容については応答を許可し、費用が発生する指示内容については応答を不許可とするために、費用が発生する可能性の高い指示内容に関連する単語（「購入」、「注文」、「発注」）のみを応答不可単語としてもよい。

制御部２２４は、単に音声発生部２３に音声を発生させる指示内容については応答を許可してもよい。音声認識装置２０がインフォテインメントシステム１０に対して再生するコンテンツを指示できるように構成されている場合、制御部２２４は、インフォテインメントシステム１０にコンテンツを再生するよう指示する指示内容については応答を許可してもよい。

図９に示すフローチャートを用いて、インフォテインメントシステム１０で実行される処理を説明する。車両１００のパワーがオンされると、インフォテインメントシステム１０に電力が供給されて、インフォテインメントシステム１０が動作を開始する。ＤＳＰ１２は、ステップＳ１にて、再生対象のコンテンツが選択されたか否かを判定する。コンテンツが選択されなければ（ＮＯ）、ＤＳＰ１２はステップＳ１の処理を繰り返す。

ステップＳ１にてコンテンツが選択されれば、ＤＳＰ１２は、ステップＳ２にて、選択されたコンテンツは人が発した声を含むコンテンツであるか否かを判定する。ＤＳＰ１２は、テレビジョン放送、ラジオ放送、光ディスクまたは半導体メモリに記録または記憶された楽曲を人の声を含むコンテンツとしてもよい。ＤＳＰ１２は、映像のみによって構成されたコンテンツを人間の声を含むコンテンツから除外してもよい。また、ＤＳＰ１２は、コンテンツの音声データを所定のアルゴリズムにより分析することで、人の音声が含まれるか否かを判定してもよい。

ここで、人の声を含むコンテンツとは、実際に人の声を含んでいるか否かを判定してもよいし、人の声を含む可能性があるコンテンツであるか否かを、例えば、光ディスク、テレビジョン放送、ラジオ放送等の人の声を含み得るメディアであることを、メディアの種別から判定してもよい。

ステップＳ２にて選択されたコンテンツが人の声を含むコンテンツであれば（ＹＥＳ）、ＤＳＰ１２は処理をステップＳ３に移行させる。選択されたコンテンツが人の声を含むコンテンツでなければ（ＮＯ）、ＤＳＰ１２は処理をステップＳ５に移行させる。ＤＳＰ１２は、ステップＳ３にて、周囲に音声認識装置２０があるか否かを判定する。周囲に音声認識装置２０があれば（ＹＥＳ）、ＤＳＰ１２は処理をステップＳ４に移行させる。周囲に音声認識装置２０がなければ（ＮＯ）、ＤＳＰ１２は処理をステップＳ５に移行させる。ステップＳ３の処理は省略可能である。

ＤＳＰ１２は、ステップＳ４にて、コンテンツ信号に特徴成分を重畳して、コンテンツ信号を補正する。コンテンツ再生部１３は、ステップＳ４からステップＳ５へと移行した場合には、ステップＳ５にて、特徴成分が重畳されたコンテンツ信号を再生する。コンテンツ再生部１３は、ステップＳ２またはＳ３からステップＳ５へと移行した場合には、ステップＳ５にて、特徴成分が重畳されていないコンテンツ信号を再生する。

ＤＳＰ１２は、ステップＳ６にて、車両１００のパワーオフにより、インフォテインメントシステム１０への電力の供給が停止されたか否かを判定する。インフォテインメントシステム１０への電力の供給が停止されなければ（ＮＯ）、ＤＳＰ１２はステップＳ１〜Ｓ６の処理を繰り返し、電力の供給が停止されれば（ＹＥＳ）、ＤＳＰ１２は処理を終了させる。

図１０に示すフローチャートを用いて、音声認識装置２０で実行される処理を説明する。車両１００のパワーがオンされると、音声認識装置２０に電力が供給されて、音声認識装置２０が動作を開始する。音声認識装置２０にパワースイッチが設けられていて、音声認識装置２０のパワースイッチの押下により音声認識装置２０が動作を開始してもよい。

図１０において、ＣＰＵ２２は、ステップＳ２１にて、音声を検出したか否かを判定する。ＣＰＵ２２は、ステップＳ２２にて、周囲にコンテンツ再生装置（インフォテインメントシステム１０）があるか否かを判定する。周囲にインフォテインメントシステム１０があれば（ＹＥＳ）、ＣＰＵ２２は処理をステップＳ２３に移行させる。周囲にインフォテインメントシステム１０がなければ（ＮＯ）、ＣＰＵ２２は処理をステップＳ２５に移行させる。ステップＳ２２の処理は省略可能である。

また、ステップＳ２２にて、周囲にコンテンツ再生装置があると判定された場合、さらにコンテンツ再生装置が音声信号を含むコンテンツを再生しているか否かを判定し、コンテンツ再生装置が音声信号を含むコンテンツを再生している場合にのみ、ＣＰＵ２２は処理をステップＳ２３に移行させるようにしてもよい。この場合、コンテンツ再生装置は近距離通信部１５から音声信号を含むコンテンツを再生している旨を示すデータを送信し、音声認識装置２０は、近距離通信部２５によりこれを受信することにより、コンテンツ再生装置が音声信号を含むコンテンツを再生していることを判定することが可能である。

ＣＰＵ２２は、ステップＳ２３にて、検出された音声信号に特徴成分が含まれているか否かを判定する。音声信号に特徴成分が含まれていれば（ＹＥＳ）、ＣＰＵ２２は、ステップＳ２４にて、音声認識処理を実行させないよう音声認識部２２２を制御して、処理をステップＳ２６に移行させる。音声信号に特徴成分が含まれていなければ（ＮＯ）、ＣＰＵ２２は処理をステップＳ２５に移行させる。ＣＰＵ２２は、ステップＳ２５にて、音声認識処理を実行させるよう音声認識部２２２を制御して、処理をステップＳ２６に移行させる。

なお、ステップＳ２３とステップＳ２４の順番を入れ替えた処理も可能である。つまり、全ての音声信号に対する音声認識処理を実行させた後、音声信号に特徴成分が含まれているか否かを判定し、特徴成分が含まれている音声信号に対する音声認識処理により検出された指示内容は実行しないようにすることも可能である。

なお、図１０においては、認識した音声に基づく指示内容に応じて応答動作部が動作する処理については図示を省略している。

ＣＰＵ２２は、ステップＳ２６にて、車両１００のパワーオフまたは音声認識装置２０のパワースイッチの押下により、音声認識装置２０への電力の供給が停止されたか否かを判定する。音声認識装置２０への電力の供給が停止されなければ（ＮＯ）、ＣＰＵ２２は、ステップＳ２１〜Ｓ２６の処理を繰り返し、電力の供給が停止されれば（ＹＥＳ）、ＣＰＵ２２は処理を終了させる。

図１に示す第１実施形態においては、インフォテインメントシステム１０及び音声認識装置２０が車両１００内に配置されているが、インフォテインメントシステム１０及び音声認識装置２０が車両１００以外の例えば家屋内に配置されていてもよい。また、音声認識装置２０はインフォテインメントシステム１０の中に含まれるよう構成することも可能である。

第１実施形態によれば、インフォテインメントシステム１０は、再生するコンテンツ信号に人が発した音声と区別するための特徴成分を重畳することができる。第１実施形態によれば、音声認識装置２０は、人が発した音声以外の音声に誤って応答することを防止することができる。

＜第２実施形態＞
図１１において、図１と同一部分には同一符号を付し、その説明を省略する。図１１において、家屋１０２内には、コンテンツ再生装置１０Ｂと、音声認識装置２０とが配置されている。コンテンツ配信者４０は、テレビジョン放送局、ラジオ放送局、または、ストリーミングサーバである。コンテンツ配信者４０はコンテンツ信号を送信する送信部である。コンテンツ配信者４０は、図１に示すコンテンツ信号補正部１２０と同様のコンテンツ信号補正部４００を備える。

コンテンツ再生装置１０Ｂは、コンテンツ入力部１１、コンテンツ再生部１３、音声出力部１４を備える。コンテンツ再生装置１０Ｂは、コンテンツ配信者４０によって配信されたコンテンツ信号を受信する受信部である。音声認識装置２０は、図１における音声認識装置２０と同じ構成である。

コンテンツ信号補正部４００は、第１実施形態と同様に、コンテンツ信号に自然界ではあり得ない人工的な波形成分よりなる特徴成分を重畳する。コンテンツ再生装置１０Ｂのコンテンツ入力部１１は、特徴成分が重畳されたコンテンツ信号を受信する。コンテンツ再生装置１０Ｂの音声出力部１４は、特徴成分が重畳された音声Ｖ１４を出力する。

音声認識装置２０は、音声入力部２１にユーザ３１が発した音声Ｖ３１が入力された場合には、音声認識処理を実行し、認識した指示内容に応答する。音声認識装置２０は、音声入力部２１にコンテンツ再生装置１０Ｂより出力された音声Ｖ１４が入力された場合には、音声認識処理を実行しないか、音声認識処理を実行しても指示内容に応答しない。

図１１において、コンテンツ配信者４０及びコンテンツ再生装置１０Ｂは、音声信号に特定の特徴成分を重畳するよう補正したコンテンツ信号を送信する送信部と、コンテンツ信号を受信する受信部とを備えるコンテンツ送受信システムを構成している。

図１１に示す第２実施形態においては、コンテンツ再生装置１０Ｂ及び音声認識装置２０が家屋１０２内に配置されているが、コンテンツ再生装置１０Ｂ及び音声認識装置２０が車両内に配置されていてもよい。

第２実施形態によれば、コンテンツ配信者４０が特徴成分を重畳したコンテンツ信号を送信するので、コンテンツ再生装置１０Ｂがコンテンツ信号補正部１２０を備える必要がない。第２実施形態によれば、音声認識装置２０は、人が発した音声以外の音声に誤って応答することを防止することができる。

＜第３実施形態＞
図１２において、図１または図１１と同一部分には同一符号を付し、その説明を省略する。コンテンツ再生装置１０Ｃは、光ディスク再生部１１ｃ、コンテンツ再生部１３、音声出力部１４を備える。光ディスク再生部１１ｃはコンテンツ入力部に相当する。コンテンツ再生装置１０Ｃは、図１と同様に車両１００内に配置されているか、図１１と同様に家屋１０２内に配置されている。図１２においては、音声認識装置２０の図示を省略している。

なお、図１２において、コンテンツ再生装置１０Ｃは、光ディスク媒体の再生を例示したが、これに限られず、半導体メモリ記憶媒体、磁気テープ記憶媒体等、光ディスク媒体以外の記憶媒体に記憶されたコンテンツを再生するコンテンツ再生装置であってもよく、受信部を備え、有線または無線ネットワーク経由で送信された、音声信号を含むコンテンツを再生するコンテンツ再生装置であってもよい。

ブルーレイディスク（ＢＤ）、ＤＶＤ、またはコンパクトディスク（ＣＤ）等の光ディスク５０には、特徴成分が重畳されたコンテンツ信号が記録されている。光ディスク再生部１１ｃは、光ディスク５０を再生する。

第３実施形態においては、音声認識装置２０は、音声入力部２１に乗員３０が発した音声Ｖ３０またはユーザ３１が発した音声Ｖ３１が入力された場合には、音声認識処理を実行し、認識した指示内容に応答する。音声認識装置２０は、音声入力部２１にコンテンツ再生装置１０Ｃがより出力された光ディスク５０の再生音である音声Ｖ１４が入力された場合には、音声認識処理を実行しないか、音声認識処理を実行しても指示内容に応答しない。

第３実施形態によれば、光ディスク５０に予め特徴成分が重畳されたコンテンツ信号が記録されているから、コンテンツ再生装置１０Ｃがコンテンツ信号補正部１２０を備える必要がない。第３実施形態においても、音声認識装置２０は、人が発した音声以外の音声に誤って応答することを防止することができる。

＜第４実施形態＞
図１に示す第１実施形態において、乗員３０が発した音声Ｖ３０とインフォテインメントシステム１０より出力された音声Ｖ１４とが混在して音声入力部２１に入力されることがある。図１３に示す第４実施形態においては、音声認識部２２２に、コンテンツ入力部１１より入力されたコンテンツ信号が供給されている。音声認識部２２２は、音声入力部２１が音声Ｖ３０を収音した音声信号よりコンテンツ信号を除外して音声を認識する。

第４実施形態によれば、音声Ｖ３０と音声Ｖ１４とが混在して音声入力部２１に入力された場合であっても音声Ｖ３０を正しく認識することができる。音声認識部２２２にコンテンツ信号を供給する代わりに、インフォテインメントシステム１０によって再生されるコンテンツ信号（または音声Ｖ１４）が存在していることを示すフラグを音声認識部２２２に供給してもよい。

図１１に示す第２実施形態、図１２に示す第３実施形態においても、音声認識部２２２にコンテンツ信号またはフラグを音声認識部２２２に供給してもよい。

第４実施形態において、特許文献１に記載されているエコーキャンセラの技術を採用し、音声入力部２１に音声Ｖ３０が入力されるときに、音声Ｖ１４をエコーキャンセラによって打ち消すように構成してもよい。

本発明は以上説明した第１〜第４実施形態に限定されず、本発明の要旨を逸脱しない範囲において種々変更可能である。コンテンツ信号補正部１２０は、ＤＳＰ１２以外のＣＰＵ等のプロセッサで構成されていてもよいし、ハードウェアによる回路で構成されていてもよい。ハードウェとソフトウェアとの使い分けは任意である。プロセッサが、非一時的な記憶媒体に記憶されているコンピュータプログラムを実行することによって、コンテンツ信号補正部１２０として動作してもよい。

第１〜第４実施形態においては、音声解析部２２１、音声認識部２２２、応答指示部２２３、制御部２２４をＣＰＵ２２による機能的な構成として実現しているが、少なくとも一部がハードウェアによる回路で構成されていてもよく、ハードウェとソフトウェアとの使い分けは任意である。プロセッサが、非一時的な記憶媒体に記憶されているコンピュータプログラムを実行することによって、音声解析部２２１、音声認識部２２２、応答指示部２２３、制御部２２４として動作してもよい。

音声Ｖ１４と音声Ｖ３０（またはＶ３１）とを特徴成分の有無で区別することに加えて、他の区別方法で区別してもよい。他の区別方法として、音声入力部２１に音声Ｖ１４が入来する方向と音声Ｖ３０（またはＶ３１）が入来する方向との差に基づいて、両者を区別してもよい。音声入力部２１をステレオマイクロホンまたは２つ以上のモノラルマイクロホンとすれば、音が入来する方向を識別することが可能である。他の区別方法として、連続的な波形部分と不連続な波形部分との差を識別してもよい。

第１〜第４実施形態においては、コンテンツ信号補正部１２０は、インフォテインメントシステム１０が有することとしたが、車両１００と通信を行い、車両１００に対してコンテンツを配信するコンテンツ配信サーバにコンテンツ信号補正部１２０を設けてもよい。この場合、例えば、コンテンツ配信サーバにおいて、人の声を含むコンテンツに対して、コンテンツ信号補正部１２０により、コンテンツの音声信号に特定の特徴成分が重畳され、車両に対してコンテンツが配信される。コンテンツ配信サーバは、テレビジョン放送サーバ、ラジオ放送サーバ等であってもよい。

１０インフォテインメントシステム
１０Ｂ，１０Ｃコンテンツ再生装置
１１コンテンツ入力部
１１ｃ光ディスク再生部
１２デジタル・シグナル・プロセッサ
１３コンテンツ再生部
１４音声出力部
１５，２５近距離通信部
２０音声認識装置
２１音声入力部
２２中央処理装置
２３音声発生部
２４通信部
２６記憶部
３０乗員
３１ユーザ
４０コンテンツ配信者
５０光ディスク
１２０，４００コンテンツ信号補正部
１２１，１２３離散フーリエ変換部
１２２対数変換部
１２４畳み込み演算部
２２１音声解析部
２２２音声認識部
２２３応答指示部
２２４制御部
Ｖ１４，Ｖ３０，Ｖ３１音声

音声解析部２２１によって音声信号に特徴成分が重畳されていると解析されたとき、音声入力部２１に入力された音声信号は乗員３０が発した音声Ｖ３０ではなく、コンテンツ信号の音声Ｖ１４である。音声認識部２２２は音声認識処理を実行しないので、仮に音声Ｖ１４に、音声認識装置２０が応答するような言葉が含まれていたとしても、その言葉を認識しない。よって、応答指示部２２３が誤って音声発生部２３または通信部２４に応答を指示することはない。

Claims

音声信号が入力される音声入力部と、
前記音声入力部に入力された音声信号に特定の特徴成分が含まれているか否かを解析する音声解析部と、
前記音声入力部に入力された音声信号が示す音声を認識する音声認識部と、
前記音声認識部が認識した音声に応答して動作する応答動作部に対して応答を指示する応答指示部と、
前記音声解析部によって前記音声信号に特定の特徴成分が含まれていると解析されたとき、前記音声認識部による音声認識処理を実行させないよう前記音声認識部を制御するか、あるいは、前記音声認識部が認識した音声による指示内容を前記応答動作部に指示しないよう前記応答指示部を制御する制御部と、
を備える音声認識装置。
前記特定の特徴成分は、前記音声信号に重畳された、所定の時間間隔で人工的な波形成分である請求項１に記載の音声認識装置。
音声出力部を含むコンテンツ再生装置の存在を検知する再生装置検知部をさらに有し、
前記音声解析部は、前記再生装置検知部により前記コンテンツ再生装置の存在を検知したとき、前記音声入力部に入力された音声信号に特定の特徴成分が含まれているか否かを解析する
請求項１に記載の音声認識装置。
音声出力部を含むコンテンツ再生装置がコンテンツを再生していることを検知する再生装置検知部をさらに有し、
前記音声解析部は、前記再生装置検知部により前記コンテンツ再生装置がコンテンツを再生していることを検知したとき、前記音声入力部に入力された音声信号に特定の特徴成分が含まれているか否かを解析する
請求項１に記載の音声認識装置。
前記音声信号は、テレビジョン放送、ラジオ放送、またはインターネット放送のコンテンツに含まれる音声信号である請求項１に記載の音声認識装置。
プロセッサが、
音声入力部に入力された音声信号に特定の特徴成分が含まれているか否かを解析し、
前記音声信号に特定の特徴成分が含まれていないと解析されたとき、前記音声入力部に入力された音声信号が示す音声の音声認識処理を実行して音声を認識し、
認識した音声に応答して動作する応答動作部に対して応答を指示し、
前記音声信号に前記特定の特徴成分が含まれていると解析されたとき、前記音声入力部に入力された音声信号が示す音声の音声認識処理を実行しないよう制御するか、あるいは、音声認識処理を実行して認識した音声による指示内容を前記応答動作部に指示しないように制御する
音声認識装置の制御方法。
前記特定の特徴成分は、前記音声信号に重畳された、所定の時間間隔で人工的な波形成分である請求項６に記載の音声認識装置の制御方法。
少なくとも音声信号を含むコンテンツ信号を入力するコンテンツ入力部と、
前記コンテンツ信号を再生するコンテンツ再生部と、
前記コンテンツ信号の音声を出力する音声出力部と、
音声認識装置が、前記音声出力部より出力される音声を人が発した音声と区別するために、前記音声信号に特定の特徴成分を含ませるよう前記音声信号を補正するコンテンツ信号補正部と、
を備えるコンテンツ再生装置。
音声認識装置の存在を検知する音声認識装置検知部をさらに有し、
前記コンテンツ信号補正部は、前記音声認識装置検知部により前記音声認識装置が存在することを検知した場合に、前記音声信号に特定の特徴成分を含ませるよう前記音声信号を補正する
請求項８に記載のコンテンツ再生装置。
前記コンテンツ信号補正部は、前記音声信号の周波数のスペクトル包絡を求めて、前記スペクトル包絡に所定の時間間隔で前記特定の特徴成分として人工的な波形成分を畳み込むプロセッサである請求項８に記載のコンテンツ再生装置。
少なくとも人が発した音声信号を含むコンテンツ信号における前記音声信号に、特定の特徴成分を含ませるよう補正したコンテンツ信号を出力するコンテンツ出力装置と、
少なくとも前記補正したコンテンツ信号が入力され、前記コンテンツ信号に特定の特徴成分が含まれている場合に、音声認識部による音声認識処理を実行させないよう制御するか、あるいは、音声認識した音声による指示内容に応答しないよう制御する音声認識装置と、
を備えるコンテンツ送受信システム。