WO2023149015A1

WO2023149015A1 - 音声処理装置、音声処理方法、音声処理プログラム、および音声処理システム

Info

Publication number: WO2023149015A1
Application number: PCT/JP2022/037014
Authority: WO
Inventors: 智史山梨; 南生也持木; 裕番場
Original assignee: パナソニックＩｐマネジメント株式会社
Priority date: 2022-02-03
Filing date: 2022-10-03
Publication date: 2023-08-10
Also published as: US20240282325A1; JP2023113171A

Abstract

音声処理装置（１０）は、音声取得部（２０）と、判定部（２２）と、音声処理部（２４）と、切替部（２６）と、を備える。音声取得部（２０）は、空間の音声を収音するマイク（ＭＣ）から音声信号を取得する。判定部（２２）は、空間に出音するスピーカ（ＳＰ）から再生される再生信号である参照信号のレベルが閾値以上であるか否かを判定する。音声処理部（２４）は、音声信号から参照信号の音声成分を除去した除去信号を出力信号として音声認識部（４０）へ出力する。切替部（２６）は、参照信号のレベルが閾値以上と判定された場合、除去信号に換えて、コンフォートノイズおよびミュート信号の少なくとも一方である置換信号を出力信号として音声認識部（４０）へ出力する。

Description

音声処理装置、音声処理方法、音声処理プログラム、および音声処理システム

　本開示は、音声処理装置、音声処理方法、音声処理プログラム、および音声処理システムに関する。

　発話者により発話された音声に基づいて、音声認識コマンドを処理する音声処理システムが知られている。例えば、マイクロホンで収音された音声を第１の音声認識部で認識し、スピーカから出音される音声を第２の音声認識部で認識する。そして、第２の音声認識部で認識された音声に音声認識コマンドが含まれる場合、第１の音声認識部による認識を停止させる構成が開示されている（例えば、特許文献１参照）。

特許第６２２５９２０号公報

　しかしながら、従来技術では、マイクロホンで収音された音声にエコーキャンセラでは除去しきれない残エコー成分等のノイズ成分が含まれる場合には、音声認識の誤検出が発生する場合があった。すなわち、従来技術では、音声認識の誤検出を抑制することが困難となる場合があった。

　本開示は、音声認識の誤検出を抑制することができる、音声処理装置、音声処理方法、音声処理プログラム、および音声処理システムを提供することを目的とする。

　本開示の一態様に係る音声処理装置は、音声取得部と、判定部と、音声処理部と、切替部と、を備える。音声取得部は、空間の音声を収音するマイクから音声信号を取得する。判定部は、前記空間に出音するスピーカから再生される再生信号である参照信号のレベルが閾値以上であるか否かを判定する。音声処理部は、前記音声信号から前記参照信号の音声成分を除去した除去信号を出力信号として音声認識部へ出力する。切替部は、前記参照信号のレベルが前記閾値以上と判定された場合、前記除去信号に換えて、コンフォートノイズおよびミュート信号の少なくとも一方である置換信号を前記出力信号として前記音声認識部へ出力する。

　本開示によれば、音声認識の誤検出を抑制することができる。

図１は、本実施形態の音声処理システムの概略構成の一例を示す図である。図２は、音声処理装置の一例のハードウェア構成図である。図３は、音声処理装置の構成の一例を示すブロック図である。図４は、本実施形態の音声処理装置で実行される情報処理の流れの一例を表すフローチャートである。

　以下、適宜図面を参照しながら、本開示の実施形態を詳細に説明する。ただし、必要以上に詳細な説明は省略する場合がある。なお、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより請求の範囲に記載の主題を限定することは意図されていない。

　図１は、本実施形態の音声処理システム１の概略構成の一例を示す図である。

　音声処理システム１は、空間内の音声を認識するためのシステムである。本実施形態では、空間が車両２の車室内の空間である場合を一例として説明する。また、本実施形態では、音声処理システム１が車両２に搭載された形態を一例として説明する。なお、空間は、車両２の車室内に限定されない。

　音声処理システム１は、マイクＭＣ、スピーカＳＰ、音声処理装置１０、音源装置３０、音声認識部４０、電子機器５０、およびディスプレイ６０を備える。マイクＭＣ、スピーカＳＰ、音声認識部４０、およびディスプレイ６０と、音声処理装置１０とは、通信可能に接続されている。音声処理システム１は、マイクＭＣ、スピーカＳＰ、音声処理装置１０、および音声認識部４０を少なくとも備える構成であればよい。

　マイクＭＣは、空間の音声を収音する。本実施形態では、マイクＭＣは、少なくとも車両２の車室内の空間の音声を収音する。本実施形態では、マイクＭＣが車両２の運転者ｈｍ１の座席である運転席の近傍に設けられた形態を一例として説明する。このため、本実施形態では、マイクＭＣは、運転者ｈｍ１によって発話された音声成分を少なくとも含む音声を収音する。

　車両２には、複数のマイクＭＣが設けられた構成であってもよい。この場合、これらの複数のマイクＭＣは、車両２の車室内における互いに異なる位置に配置されていることが好ましい。詳細には、例えば、車両２の運転者ｈｍ１、乗員ｈｍ２、乗員ｈｍ３、および乗員ｈｍ３の各々の座席の近傍に、それぞれマイクＭＣが配置されていてもよい。本実施形態では、車両２には、１つのマイクＭＣが設けられた形態を一例として説明する。

　マイクＭＣは、指向性マイク、無指向性マイク、の何れであってもよい。マイクＭＣは、小型のＭＥＭＳ（Ｍｉｃｒｏ　Ｅｌｅｃｔｒｏ　Ｍｅｃｈａｎｉｃａｌ　Ｓｙｓｔｅｍｓ）マイク、ＥＣＭ（Ｅｌｅｃｔｒｅｔ　Ｃｏｎｄｅｎｓｅｒ　Ｍｉｃｒｏｐｈｏｎｅ）の何れであってもよい。マイクＭＣは、ビームフォーミング可能なマイクであってもよい。例えば、マイクＭＣは、特定の方向に指向性を有し、指向方向の音声を収音可能なマイクアレイでもよい。

　マイクＭＣは、収音した音声の音声信号を音声処理装置１０へ出力する。音声処理装置１０は、マイクＭＣに対応付けて設けられている。このため、音声処理システム１が複数のマイクＭＣを備えた構成である場合、音声処理システム１は、複数のマイクＭＣの各々に対応する複数の音声処理装置１０を備えた構成であればよい。本実施形態では、音声処理システム１が、１つのマイクＭＣと、該マイクＭＣに通信可能に接続された１つの音声処理装置１０と、を備える形態を一例として説明する。

　スピーカＳＰは、マイクＭＣによる収音対象の空間と同じ空間に出音する。本実施形態では、スピーカＳＰは、少なくとも車両２の車室内の空間に出音する。

　本実施形態では、車両２の車室内にスピーカＳＰ１～スピーカＳＰ４の４つのスピーカＳＰが配置された形態を一例として説明する。なお、音声処理システム１は、少なくとも１つのスピーカＳＰを備えた構成であればよく、スピーカＳＰの数および配置位置は限定されない。本実施形態では、車両２の車室内の運転者ｈｍ１、乗員ｈｍ２、乗員ｈｍ３、および乗員ｈｍ３の各々の座席の近傍に、それぞれ、スピーカＳＰ１、スピーカＳＰ２、スピーカＳＰ３、およびスピーカＳＰ４が配置された形態を一例として説明する。なお、これらのスピーカＳＰ１～スピーカＳＰ４を総称して説明する場合には、単にスピーカＳＰと称して説明する。

　スピーカＳＰは、音源装置３０に電気的に接続されている。スピーカＳＰは、音源装置３０から受付けた再生信号によって表される音を出音する。再生信号とは、音源装置３０からスピーカＳＰに出力される信号である。スピーカＳＰは、音源装置３０から受付けた再生信号に応じた音を出音する。詳細には、スピーカＳＰは、音源装置３０から受付けた再生信号のレベルに応じた音量の音を出音する。すなわち、本実施形態では、レベルとは、信号のレベルを意味し、具体的には、信号によって表される音の大きさを意味する。

　音源装置３０は、例えば、ラジオ受信装置、テレビ放送装置、オーディオ機器、などである。ラジオ受信装置は、ラジオ放送信号を受信し、受信したラジオ放送信号から再生信号を生成してスピーカＳＰに出力する。この場合、再生信号は、例えば、ラジオ音声のラジオ音声信号である。テレビ放送装置は、テレビ放送信号を受信し、受信したテレビ放送信号から再生信号を生成してスピーカＳＰに出力する。この場合、再生信号は、例えば、テレビ音声のテレビ音声信号である。オーディオ機器は、メモリ等に記録されたオーディオ信号などの再生信号をスピーカＳＰに出力する。この場合、再生信号は、例えば、オーディオ信号、などである。

　本実施形態では、音源装置３０は、４つのスピーカＳＰ（スピーカＳＰ１～スピーカＳＰ４）を利用するために４チャンネルの再生信号を生成し、参照信号として４つのスピーカＳＰの各々に出力する。詳細には、音源装置３０は、スピーカＳＰ１に再生信号である参照信号１を出力し、スピーカＳＰ２に再生信号である参照信号２を出力し、スピーカＳＰ３に再生信号である参照信号３を出力し、スピーカＳＰ４に再生信号である参照信号４を出力する。これらの参照信号１～参照信号４は、複数のスピーカＳＰの各々に出力される再生信号である。参照信号１～参照信号４を総称して説明する場合には、単に参照信号と称して説明する。

　音声処理装置１０は、マイクＭＣから受付けた音声信号およびスピーカＳＰから再生される再生信号である参照信号に基づいた出力信号を、音声認識部４０へ出力する。音声処理装置１０の詳細は後述する。

　音声認識部４０は、音声処理装置１０から受付けた出力信号によって表される音声を認識し、音声認識結果を表す信号を電子機器５０へ出力する。例えば、音声認識部４０は、出力信号によって表される音声コマンドを認識し、電子機器５０へ出力する。音声コマンドは、電子機器５０に各種の処理を実行させるための信号である。音声コマンドは、音声認識コマンド、キーワード、ウェイクアップワード、等と称される場合がある。

　電子機器５０は、音声認識部４０から受付けた音声認識結果を表す信号である音声コマンドに応じた処理を実行する。例えば、電子機器５０は、音声コマンドに基づいて、窓を開閉する処理、車両２の運転に関する処理、エアコンの温度を変更する処理、オーディオ機器のボリュームを変更する処理、等を実行する。電子機器５０は、例えば、カーナビゲーション装置、エアコンディショナ、パネルメータ、テレビ、携帯端末、車両２の各部を駆動する駆動装置、等である。

　ディスプレイ６０は、各種の情報を表示する表示装置である。ディスプレイ６０は、例えば、車両２に設けられた各種のディスプレイ、ヘッドアップディスプレイ、カーナビゲーションシステムのディスプレイ、車両２のメータ内に設けられたマルチインフォメーションディスプレイ、オーディオ操作等を受付け可能なセンターディスプレイ、等である。本実施形態では、ディスプレイ６０には後述する音声処理装置１０によって情報が表示される。なお、ディスプレイ６０は、電子機器５０の一例として機能してもよい。

　音声処理装置１０について詳細に説明する。まず、音声処理装置１０のハードウェア構成の一例を説明する。

　図２は、音声処理装置１０の一例のハードウェア構成図である。

　音声処理装置１０は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）１１Ａ、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）１１Ｂ、ＲＡＭ１１Ｃ、およびＩ／Ｆ１１Ｄ等がバス１１Ｅにより相互に接続されており、通常のコンピュータを利用したハードウェア構成となっている。

　ＣＰＵ１１Ａは、本実施形態の音声処理装置１０を制御する演算装置である。ＲＯＭ１１Ｂは、ＣＰＵ１１Ａによる各種の処理を実現するプログラム等を記憶する。ＲＡＭ１１Ｃは、ＣＰＵ１１Ａによる各種の処理に必要なデータを記憶する。Ｉ／Ｆ１１Ｄは、データを送受信するためのインタフェースである。

　本実施形態の音声処理装置１０で実行される情報処理を実行するためのプログラムは、ＲＯＭ１１Ｂ等に予め組み込んで提供される。なお、本実施形態の音声処理装置１０で実行されるプログラムは、音声処理装置１０にインストール可能な形式又は実行可能な形式のファイルでＣＤ－ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ－Ｒ、ＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｋ）等のコンピュータで読み取り可能な記録媒体に記録されて提供するように構成してもよい。

　次に、音声処理装置１０の構成について詳細に説明する。

　図３は、音声処理装置１０の構成の一例を示すブロック図である。図３には説明のために、音声処理装置１０に加えて、マイクＭＣ、音源装置３０、音声認識部４０、電子機器５０、およびディスプレイ６０を示す。

　音声処理装置１０は、音声取得部２０と、判定部２２と、音声処理部２４と、切替部２６と、生成部２８と、出力制御部２９と、を備える。

　音声取得部２０、判定部２２、音声処理部２４、切替部２６、生成部２８、および出力制御部２９の一部または全ては、例えば、ＣＰＵ１１Ａなどの処理装置にプログラムを実行させること、すなわち、ソフトウェアにより実現してもよいし、ＩＣ（Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）などのハードウェアにより実現してもよいし、ソフトウェアおよびハードウェアを併用して実現してもよい。また、音声取得部２０、判定部２２、音声処理部２４、切替部２６、生成部２８、および出力制御部２９の少なくとも１つを、ネットワークなどを介して音声処理装置１０と通信可能に接続された外部の情報処理装置に搭載した構成としてもよい。

　音声取得部２０は、マイクＭＣから音声信号を取得する。音声取得部２０は、取得した音声信号を音声処理部２４へ出力する。

　判定部２２は、スピーカＳＰから再生される再生信号である参照信号のレベルが閾値以上であるか否かを判定する。参照信号のレベルとは、参照信号である再生信号によって表される音の大きさを表す。上述したように、スピーカＳＰは、音源装置３０から受付けた再生信号のレベルに応じた音量の音を出音する。このため、再生信号である参照信号のレベルが大きいほど、スピーカＳＰから出音される音の音量は大きくなる。

　閾値は、再生信号のレベルを徐々に大きくし、該再生信号に応じてスピーカＳＰから出音される音に歪みが発生し始めたときの該再生信号のレベル以下であり、且つ該レベルに近い値を予め定めればよい。また、閾値は、再生信号のレベルを徐々に大きくし、再生信号に応じてスピーカＳＰから出音される音に歪みが発生し始めたときの該再生信号のレベルと一致する値であってもよい。スピーカＳＰから出音される音の歪みは、音割れと称される場合もある。

　例えば、判定部２２は、複数のスピーカＳＰ１～スピーカＳＰ４の各々ごとに、上記条件を満たす閾値を定める。

　そして、判定部２２は、複数のスピーカＳＰ１～スピーカＳＰ４の各々から受付けた参照信号１～参照信号４の各々のレベルの内の少なくとも１つが、それぞれのスピーカＳＰ１～スピーカＳＰ４に対応する閾値以上であるか否かを判定する。

　また、判定部２２は、複数のスピーカＳＰ１～スピーカＳＰ４の各々の、上記条件を満たす閾値の最低値、平均値、または最大値を、複数のスピーカＳＰ１～スピーカＳＰ４に共通する閾値として設定してもよい。そして、判定部２２は、複数のスピーカＳＰ１～スピーカＳＰ４の各々から受付けた参照信号１～参照信号４の各々のレベルの内の少なくとも１つが、共通する閾値として設定した該閾値以上であるか否かを判定してもよい。

　本実施形態では、判定部２２は、複数のスピーカＳＰ１～スピーカＳＰ４の各々から受付けた参照信号１～参照信号４の各々のレベルの内の少なくとも１つが、それぞれのスピーカＳＰ１～スピーカＳＰ４に対応する閾値以上であるか否かを判定する形態を一例として説明する。

　なお、複数のスピーカＳＰ１～スピーカＳＰ４の各々に対応する閾値は、判定部２２のメモリ等に予め記憶しておけばよい。また、複数のスピーカＳＰ１～スピーカＳＰ４の各々に対応する閾値は、音声処理システム１に設けられるスピーカＳＰの種類や設置位置等に応じて、ユーザによる操作指示等によって上記条件を満たす範囲で適宜変更可能としてもよい。

　音声処理部２４は、音声取得部２０から受付けた音声信号から参照信号の音声成分を除去した除去信号を生成する。

　音声処理部２４は、音声取得部２０から受付けた音声信号に含まれる、再生信号である参照信号の音声成分を除去する。音声処理部２４は、公知のエコーキャンセラ、および、クロストークキャンセラの少なくとも一方の方式を用いて、音声信号に含まれる参照信号の音声成分を除去すればよい。

　例えば、音声処理部２４は、適応フィルタＦと、適応フィルタ制御部２４Ａと、減算部２４Ｂと、を有する。

　適応フィルタＦは、参照信号の特性を変化させる機能を備えたフィルタである。本実施形態では、適応フィルタＦは、適応フィルタＦ１～適応フィルタＦ４を含む。適応フィルタＦの数は、入力される参照信号の数等に基づいて適宜設定される。

　適応フィルタ制御部２４Ａは、減算部２４Ｂから出力される除去信号に応じて、公知の方法で適応フィルタＦ１～適応フィルタＦ４の各々のフィルタ係数を設定する。適応フィルタＦ１～適応フィルタＦ４は、それぞれで受け付けた参照信号１～参照信号４の各々および設定されたフィルタ係数に基づいた通過信号を、減算信号として減算部２４Ｂへ出力する。このため、減算部２４Ｂには、適応フィルタＦ１～適応フィルタＦ４の各々から出力された、参照信号１～参照信号４の各々および設定されたフィルタ係数に基づいた通過信号を足し合わせた信号である減算信号が出力される。

　減算部２４Ｂは、音声取得部２０から受付けた音声信号から上記減算信号を減算することで、音声信号から参照信号の音声成分を除去する除去処理を実行する。減算部２４Ｂは、除去処理によって得られた除去信号、すなわち音声信号から参照信号の音声成分を除去した除去信号を、適応フィルタ制御部２４Ａおよび切替部２６へ出力する。

　切替部２６は、参照信号のレベルが閾値以上と判定された場合、音声処理部２４から受付けた除去信号に換えて、コンフォートノイズおよびミュート信号の少なくとも一方である置換信号を出力信号として音声認識部４０へ出力する。

　詳細には、切替部２６は、判定部２２によって参照信号のレベルが閾値以上と判定された場合、音声処理部２４から受付けた除去信号に変えて、生成部２８から受付けた置換信号を音声認識部４０へ出力するように切り替える。

　生成部２８は、コンフォートノイズおよびミュート信号の少なくとも一方である置換信号を生成し、切替部２６へ出力する。ミュート信号は、音のレベルが”０”である信号である。ミュート信号は、言い換えると、無音状態、消音状態、または無信号（ＭＵＴＥ）を表す信号である。

　生成部２８は、コンフォートノイズを置換信号として生成する場合には、判定部２２によって閾値以上と判定される直前のタイミングの音声信号に含まれるノイズレベルに応じたレベルのコンフォートノイズを生成することが好ましい。例えば、音声取得部２０は、マイクＭＣから取得した音声信号を、音声処理部２４および生成部２８に出力する。生成部２８は、音声取得部２０から受付けた音声信号における、判定部２２によって閾値以上と判定される直前のタイミングの音声信号に含まれるノイズレベルを公知の方法で特定する。そして、生成部２８は、特定したノイズレベルに応じたレベルのコンフォートノイズを生成する。例えば、生成部２８は、特定したノイズレベルと同じレベル、すなわち同じレベルの音量を表すコンフォートノイズを生成する。

　生成部２８が、閾値以上と判定される直前のタイミングの音声信号に含まれるノイズレベルに応じたレベルのコンフォートノイズを置換信号として生成することで、音声認識部４０に出力される出力信号のレベルが急激に変動することが抑制される。例えば、車両２の走行環境の変化等に応じて空間の音環境が変動する場合、空間の音環境の変動に応じたレベルのコンフォートノイズが置換信号として音声認識部４０に出力される。このため、音声認識部４０に出力される出力信号が置換信号から除去信号へ又は除去信号から置換信号に切り替わるときに、出力信号のレベルが急激に変動することが抑制される。このため、出力信号のレベルの急激な変動による、音声認識部４０の音声認識性能の低下を抑制することができる。

　また、生成部２８は、コンフォートノイズおよびミュート信号の双方を含む置換信号を生成し、切替部２６へ出力してもよい。例えば、生成部２８は、コンフォートノイズとミュート信号とを交互に配列した置換信号を生成する。この場合、生成部２８は、コンフォートノイズとミュート信号とが切り替わるときのレベルが徐々に変化するようにレベルを調整した出力信号を生成することが好ましい。

　なお、生成部２８は、置換信号を常時生成してもよいが、判定部２２によって参照信号のレベルが閾値以上と判定された場合に、置換信号を生成し切替部２６へ出力することが好ましい。そして、生成部２８は、判定部２２によって参照信号のレベルが閾値未満と判定された場合には、置換信号の生成処理を停止してもよい。

　判定部２２によって参照信号のレベルが閾値未満と判定された場合、生成部２８が置換信号の生成処理を停止することで、音声処理装置１０の処理演算量の削減を図ることができる。

　切替部２６は、判定部２２によって参照信号のレベルが閾値以上と判定された場合、音声処理部２４から受付けた除去信号に変えて、生成部２８から受付けた置換信号を出力信号として音声認識部４０へ出力する。このため、判定部２２によって参照信号のレベルが閾値以上と判定された場合、音声認識部４０には除去信号に変えて置換信号が出力される。

　なお、切替部２６は、判定部２２によって参照信号のレベルが閾値以上と判定されている期間、除去信号に換えて置換信号を出力信号として音声認識部４０へ出力してよい。そして、切替部２６は、判定部２２によって参照信号のレベルが閾値未満と判定されている期間には、音声処理部２４から受付けた除去信号を出力信号として音声認識部４０へ出力してよい。

　この場合、参照信号のレベルが閾値以上である期間は、音声認識部４０には置換信号が出力信号として出力される。また、参照信号のレベルが閾値未満である期間は、音声認識部４０には除去信号が出力信号として出力される。

　また、切替部２６は、参照信号のレベルが閾値以上と判定された場合、除去信号に換えて置換信号を出力信号として、予め定めた第１の時間継続して音声認識部４０へ出力してもよい。

　第１の時間は、予め定めればよい。例えば、第１の時間には、音声認識部４０へ出力される出力信号が除去信号と置換信号とに短時間で繰り返し切り替わることで音声認識部４０の性能低下が発生するときの、音声認識部４０への置換信号の継続出力時間より長い時間を定めればよい。また、例えば、第１の時間には、１つの音声コマンドの発話に要する平均発話期間以上であり、且つ、２つの音声コマンドが連続して発話されたときの平均発話期間未満の値などを定めてもよい。また、第１の時間は、ユーザによる操作指示等に応じて適宜変更可能としてもよい。

　この場合、参照信号のレベルが閾値以上となったタイミングから少なくとも第１の時間継続して、置換信号が出力信号として音声認識部４０へ出力される。そして、該第１の時間経過後に、除去信号が出力信号として音声認識部４０へ出力される。

　また、切替部２６は、判定部２２によって参照信号のレベルが予め定めた第２の時間以上継続して閾値以上と判定された場合、除去信号に換えて置換信号を出力信号として音声認識部４０へ出力してもよい。

　第２の時間は、予め定めればよい。例えば、第２の時間には、音声認識部４０へ出力される出力信号が除去信号と置換信号とに短時間で繰り返し切り替わることで音声認識部４０の性能低下が発生するときの、音声認識部４０への除去信号または置換信号の継続出力時間より長い時間を定めればよい。また、例えば、第２の時間には、１つの音声コマンドの発話に要する平均発話期間以上であり、且つ、２つの音声コマンドが連続して発話されたときの平均発話期間未満の値などを定めてもよい。また、第２の時間は、ユーザによる操作指示等に応じて適宜変更可能としてもよい。

　この場合、参照信号のレベルが閾値以上である状態が第２の時間継続した場合に、置換信号が出力信号として音声認識部４０へ出力される。そして、参照信号のレベルが閾値未満または該レベルが閾値以上である状態の継続時間が第２の時間未満である場合、除去信号が出力信号として音声認識部４０へ出力される。

　なお、音声処理部２４は、音声信号から参照信号の音声成分を除去する除去処理を常時行ってもよいが、判定部２２によって参照信号のレベルが閾値以上と判定された場合、除去処理を停止してもよい。例えば、判定部２２は、参照信号のレベルが閾値以上と判定した場合、除去処理を停止するように音声処理部２４を制御する。

　参照信号のレベルが閾値以上と判定された場合、音声処理部２４が除去処理を停止することで、音声処理装置１０の処理演算量の削減を図ることができる。

　出力制御部２９は、参照信号のレベルが閾値以上と判定された場合、音声認識停止中であることを表す情報を出力する。出力制御部２９は、例えば、音声認識停止中であることを表す情報をディスプレイ６０に出力する。

　上述したように、参照信号のレベルが閾値以上である場合、音声認識部４０には置換信号が出力信号として出力される。置換信号は、コンフォートノイズおよびミュート信号の少なくとも一方であるため、置換信号を受付けている期間、音声認識部４０は音声認識を行わない。このため、例えば、車両２の車室内の空間にスピーカＳＰによって閾値以上のレベルの再生信号に応じた音量の音が出音されている状況では、運転者ｈｍ１などが音声コマンドなどを発話した場合であっても、音声認識部４０による音声認識が行われない状態となる。そこで、再生信号である参照信号のレベルが閾値以上と判定された場合、出力制御部２９が音声認識停止中であることを表す情報を出力することで、ユーザに対して音声認識部４０の音声認識の状況を容易に提示することができる。

　なお、出力制御部２９による情報の出力対象は、ディスプレイ６０に限定されない。例えば、出力制御部２９は、音声認識停止中であることを表す情報を、予め登録された運転者ｈｍ１によって管理される携帯端末などの情報処理装置へ送信してもよい。また、出力制御部２９は、音声認識停止中であることを表す情報を、スピーカＳＰから出力してもよい。この場合、音声認識停止中であることを表す情報の再生信号のレベルは、上記閾値未満のレベルとすればよい。

　次に、本実施形態の音声処理装置１０で実行される情報処理の流れの一例を説明する。

　図４は、本実施形態の音声処理装置１０で実行される情報処理の流れの一例を表すフローチャートである。

　音声取得部２０が、マイクＭＣから音声信号を取得する（ステップＳ１００）。

　判定部２２は、スピーカＳＰから再生される再生信号である参照信号のレベルが閾値以上であるか否かを判定する（ステップＳ１０２）。参照信号のレベルが閾値以上であると判定された場合（ステップＳ１０２：Ｙｅｓ）、処理がステップＳ１０４へ進む。

　ステップＳ１０４では、判定部２２は、除去処理を停止するように音声処理部２４を制御する。ステップＳ１０４の処理によって、音声処理部２４は除去処理を停止する。

　生成部２８は、コンフォートノイズおよびミュート信号の少なくとも一方である置換信号を生成し、切替部２６へ出力する（ステップＳ１０６）。

　切替部２６は、生成部２８で生成された置換信号を出力信号として音声認識部４０へ出力する（ステップＳ１０８）。置換信号はコンフォートノイズおよびミュート信号の少なくとも一方であるため、置換信号には音声コマンドが含まれない。このため、置換信号を受付けつけている期間、音声認識部４０は、音声コマンドの認識を行わない状態となる。

　出力制御部２９は、音声認識停止中であることを表す情報をディスプレイ６０に出力する（ステップＳ１１０）。

　次に、音声処理装置１０は、処理を終了するか否かを判断する（ステップＳ１１２）。例えば、音声処理装置１０は、ユーザによる操作指示等によって音声処理装置１０への電力供給の遮断が指示されたか否かを判別することで、ステップＳ１１２の判断を行う。ステップＳ１１２で肯定判断すると（ステップＳ１１２：Ｙｅｓ）、音声処理装置１０は本ルーチンを終了する。音声処理装置１０がステップＳ１１２で否定判断すると（ステップＳ１１２：Ｎｏ）、処理が上記ステップＳ１００へ戻る。

　一方、上記ステップＳ１０２において、スピーカＳＰから再生される再生信号である参照信号のレベルが閾値未満であると判定されると（ステップＳ１０２：Ｎｏ）、処理がステップＳ１１４へ進む。

　ステップＳ１１４では、音声処理部２４が除去処理を実行し、音声取得部２０から受付けた音声信号から参照信号の音声成分を除去した除去信号を生成する。なお、上記ステップＳ１０４の処理によって音声処理部２４による除去処理が停止されている場合には、判定部２２が除去処理の停止を解除するように音声処理部２４を制御した後に、音声処理部２４がステップＳ１１４の除去処理を実行すればよい。

　切替部２６は、音声処理部２４で生成された除去信号を出力信号として音声認識部４０へ出力する（ステップＳ１１６）。除去信号は、音声信号から参照信号である再生信号を除去した信号であるため、除去信号には音声コマンドが含まれる場合がある。このため、除去信号を出力信号として受付けつけている期間、音声認識部４０は、音声コマンドの認識を行うことが可能な状態となる。そして、処理が上記ステップＳ１１２へ進む。

　以上説明したように、本実施形態の音声処理装置１０は、音声取得部２０と、判定部２２と、音声処理部２４と、切替部２６と、を備える。音声取得部２０は、空間の音声を収音するマイクＭＣから音声信号を取得する。判定部２２は、空間に出音するスピーカＳＰから再生される再生信号である参照信号のレベルが閾値以上であるか否かを判定する。音声処理部２４は、音声信号から参照信号の音声成分を除去した除去信号を出力信号として音声認識部４０へ出力する。切替部２６は、参照信号のレベルが閾値以上と判定された場合、除去信号に換えて、コンフォートノイズおよびミュート信号の少なくとも一方である置換信号を出力信号として音声認識部４０へ出力する。

　ここで、従来技術には、マイクロホンで収音された音声を第１の音声認識部で認識し、スピーカから出音される音声を第２の音声認識部で認識し、第２の音声認識部で認識された音声に音声認識コマンドが含まれる場合、第１の音声認識部による認識を停止させる構成が開示されている。しかし、従来技術では、マイクロホンで収音された音声にエコーキャンセラ等では除去しきれない残エコー成分等のノイズ成分が含まれる場合には、音声認識の誤検出が発生する場合があった。すなわち、従来技術では、音声認識の誤検出を抑制することが困難となる場合があった。また、従来技術では、第２の音声認識部の性能等によって、第１の音声認識部による音声認識に誤検出が発生する場合があった。

　一方、本実施形態の音声処理装置１０では、再生信号である参照信号のレベルが閾値以上と判定された場合、マイクＭＣから取得した音声信号から参照信号の音声成分を除去した除去信号に換えて、コンフォートノイズおよびミュート信号の少なくとも一方である置換信号を出力信号として音声認識部４０へ出力する。置換信号はコンフォートノイズおよびミュート信号の少なくとも一方であるため、置換信号には音声コマンドが含まれない。このため、置換信号を受付けつけている期間、音声認識部４０は、音声コマンドの認識を行わない状態となる。

　このため、本実施形態の音声処理装置１０では、例えばスピーカＳＰから再生される再生信号のレベルが大きく、マイクＭＣで収音された音声信号に除去処理によってキャンセルしきれない成分が残存する音環境であっても、再生信号に起因する音声認識の誤検出を抑制することができる。

　従って、本実施形態の音声処理装置１０は、音声認識の誤検出を抑制することができる。

　また、本実施形態の音声処理装置１０では、判定部２２は、マイクＭＣから取得した音声信号のレベルではなく、スピーカＳＰから再生される再生信号のレベルが閾値以上であるか否かを判断する。このため、本実施形態の音声処理装置１０では、ユーザによって発話された音声のレベルの大小に拘わらず、再生信号のレベルが閾値未満である場合、マイクＭＣによって収音された該ユーザの音声成分を含む除去信号を音声認識対象として音声認識部４０へ出力することができる。よって、本実施形態の音声処理装置１０は、上記効果に加えて、ユーザによって発話された音声コマンド等を含む音声信号を、効率よく音声認識可能とすることができる。

　また、本実施形態の音声処理システム１では、スピーカＳＰの再生信号に対しては音声認識部４０による音声認識が行われないことから、上記効果に加えて、音声処理システム１の処理演算量の削減を図ることができる。また、本実施形態では、再生信号に対しては音声認識が行われないため、音声認識部４０の音声認識精度に拘わらず、音声認識の誤検出を抑制することができる。

　なお、本実施形態では、音声処理システム１は、車両２に搭載された形態を一例として説明した。しかし、音声処理システム１は、音声処理対象の任意の空間に配置された構成であればよく、車両２に搭載された形態に限定されない。

　なお、上記には実施形態を説明したが、上記実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。上記新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。上記実施形態は、発明の範囲または要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。

１　音声処理システム
１０　音声処理装置
２０　音声取得部
２２　判定部
２４　音声処理部
２６　切替部
２８　生成部
４０　音声認識部
５０　電子機器
６０　ディスプレイ
ＭＣ　マイク
ＳＰ　スピーカ

Claims

　空間の音声を収音するマイクから音声信号を取得する音声取得部と、
　前記空間に出音するスピーカから再生される再生信号である参照信号のレベルが閾値以上であるか否かを判定する判定部と、
　前記音声信号から前記参照信号の音声成分を除去した除去信号を出力信号として音声認識部へ出力する音声処理部と、
　前記参照信号のレベルが前記閾値以上と判定された場合、前記除去信号に換えて、コンフォートノイズおよびミュート信号の少なくとも一方である置換信号を前記出力信号として前記音声認識部へ出力する切替部と、
　を備える音声処理装置。
　前記判定部は、
　前記参照信号のレベルが前記閾値以上と判定した場合、前記音声信号から前記参照信号の音声成分を除去する除去処理を停止するように、前記音声処理部を制御する、
　請求項１に記載の音声処理装置。
　前記置換信号を生成する生成部を更に備え、
　前記生成部は、
　前記閾値以上と判定される直前の前記音声信号に含まれるノイズレベルに応じた前記コンフォートノイズである前記置換信号を生成する、
　請求項１または請求項２に記載の音声処理装置。
　前記切替部は、
　前記参照信号のレベルが前記閾値以上と判定されている期間、前記除去信号に換えて前記置換信号を前記出力信号として前記音声認識部へ出力する、
　請求項１～請求項３の何れか１項に記載の音声処理装置。
　前記切替部は、
　前記参照信号のレベルが前記閾値以上と判定された場合、前記除去信号に換えて前記置換信号を前記出力信号として、予め定めた第１の時間継続して前記音声認識部へ出力する、
　請求項１～請求項３の何れか１項に記載の音声処理装置。
　前記切替部は、
　前記参照信号のレベルが予め定めた第２の時間以上継続して前記閾値以上と判定された場合、前記除去信号に換えて前記置換信号を前記出力信号として前記音声認識部へ出力する、請求項１～請求項３の何れか１項に記載の音声処理装置。
　前記参照信号のレベルが前記閾値以上と判定された場合、音声認識停止中であることを表す情報を出力する出力制御部、
　を更に備える請求項１～請求項６の何れか１項に記載の音声処理装置。
　音声処理装置で実行される音声処理方法であって、
　空間の音声を収音するマイクから音声信号を取得するステップと、
　前記空間に出音するスピーカから再生される再生信号である参照信号のレベルが閾値以上であるか否かを判定するステップと、
　前記音声信号から前記参照信号の音声成分を除去した除去信号を出力信号として音声認識部へ出力するステップと、
　前記参照信号のレベルが前記閾値以上と判定された場合、前記除去信号に換えて、コンフォートノイズおよびミュート信号の少なくとも一方である置換信号を前記出力信号として前記音声認識部へ出力するステップと、
　を含む音声処理方法。
　空間の音声を収音するマイクから音声信号を取得するステップと、
　前記空間に出音するスピーカから再生される再生信号である参照信号のレベルが閾値以上であるか否かを判定するステップと、
　前記音声信号から前記参照信号の音声成分を除去した除去信号を出力信号として音声認識部へ出力するステップと、
　前記参照信号のレベルが前記閾値以上と判定された場合、前記除去信号に換えて、コンフォートノイズおよびミュート信号の少なくとも一方である置換信号を前記出力信号として前記音声認識部へ出力するステップと、
　をコンピュータに実行させるための音声処理プログラム。
　音声処理装置と、空間の音声を収音するマイクと、前記空間に出音するスピーカと、音声を認識する音声認識部と、を備えた音声処理システムであって、
　前記音声処理装置は、
　前記マイクから音声信号を取得する音声取得部と、
　前記スピーカから再生される再生信号である参照信号のレベルが閾値以上であるか否かを判定する判定部と、
　前記音声信号から前記参照信号の音声成分を除去した除去信号を出力信号として前記音声認識部へ出力する音声処理部と、
　前記参照信号のレベルが前記閾値以上と判定された場合、前記除去信号に換えて、コンフォートノイズおよびミュート信号の少なくとも一方である置換信号を前記出力信号として前記音声認識部へ出力する切替部と、
　を備える音声処理システム。