WO2012096074A1

WO2012096074A1 - 音声処理装置及びその制御方法とその制御プログラムを格納した記憶媒体、該音声処理装置を備えた車両、情報処理装置及び情報処理システム

Info

Publication number: WO2012096074A1
Application number: PCT/JP2011/077997
Authority: WO
Inventors: 隆行荒川; 昭彦杉山
Original assignee: 日本電気株式会社
Priority date: 2011-01-13
Filing date: 2011-12-03
Publication date: 2012-07-19
Also published as: US9299360B2; US20130297303A1; JP5939161B2; JPWO2012096074A1

Abstract

　本発明の装置は、所望音声と雑音とが混在する混在音から擬似音声を取得する音声処理装置である。この音声処理装置は、所望音声と雑音とが混在した第１混在音を入力して第１混在信号を出力する第１マイクと、第１マイクと同じ音空間に開放され、音空間の境界の一部を成す二次曲面状あるいは二次曲面を近似する擬似曲面状の境界面の焦点位置に配置されて、境界面で反射された所望音声及び境界面で反射された雑音を含み所望音声と雑音とが前記第１混在音とは異なる割合で混在した第２混在音を入力して、第２混在信号を出力する第２マイクと、第１混在信号と前記第２混在信号とに基づいて推定雑音信号を抑圧し、擬似音声信号を出力する雑音抑圧回路と、を備えることを特徴とする。

Description

音声処理装置及びその制御方法とその制御プログラムを格納した記憶媒体、該音声処理装置を備えた車両、情報処理装置及び情報処理システム

　本発明は、所望音声と雑音とが混在する混在音から擬似音声を取得する技術に関する。

　　上記技術分野において、特許文献１には、車両において車内音声に対する車外からの雑音を抑圧する技術が開示されている。特許文献１では、車内音声を拾うマイクの出力信号と車外雑音を拾うマイクの出力信号とに基づいて、適応フィルタを使って車外雑音を抑圧する。また、特許文献２では、パラボラリフレクタを使った収音と超指向性マイクによる収音とを組み合わせて、遠方の音声を明瞭に収音する技術が開示されている。

特開平２－２４６５９９号公報特開平１０－２２４８８２号公報

　　しかしながら、上記特許文献１の技術は、所望音声が存在する音空間とは異なる音空間（ここでは車外）の雑音の抑圧を目的としている。そのため、所望音声が存在する音空間において複数の雑音源から発生した雑音の抑圧を行なうことができなかった。同じ音空間内に複数の雑音源がある場合に所望音声に近い擬似音声を得るためには、雑音入力用のマイクはできるだけ音空間内の広い範囲から雑音を入力する必要があるが、特許文献１には、広範囲の雑音を集めるための工夫は無い。また、特許文献２は、パラボラリフレクタを使って焦点位置の音を収音するが、収音するのは超指向性マイクとの協働により遠方から明瞭に収音するための所望音声であって、雑音を収音することを目的とするものではない。

　本発明の目的は、上述の課題を解決する技術を提供することにある。

　上記目的を達成するため、本発明に係る装置は、
　所望音声と雑音とが混在した第１混在音を入力して第１混在信号を出力する第１マイクと、
　前記第１マイクと同じ音空間に開放され、前記音空間の境界の一部を成す二次曲面状あるいは二次曲面を近似する擬似曲面状の境界面の焦点位置に配置されて、前記境界面で反射された所望音声及び前記境界面で反射された雑音を含み前記所望音声と前記雑音とが前記第１混在音とは異なる割合で混在した第２混在音を入力して、第２混在信号を出力する第２マイクと、
　前記第１混在信号と前記第２混在信号とに基づいて推定雑音信号を抑圧し、擬似音声信号を出力する雑音抑圧回路と、
　を備えることを特徴とする。

　上記目的を達成するため、本発明に係る装置は、
　上記音声処理装置を備えた車両であって、
　前記第１マイクは、前記音空間である車内の乗員が発声する音声を含む第１混在音が入力される位置に配置され、
　前記第２マイクは、前記車内の雑音源から発生する雑音が前記車両の前記境界面によって反射され前記第２マイクに集音される位置に配置されていることを特徴とする。

　上記目的を達成するため、本発明に係る装置は、
　上記音声処理装置を備えた情報処理装置であって、
　前記第１マイクは、前記情報処理装置の、操作者が発声する所望音声を含む第１混在音が入力される位置に配置され、
　前記第２マイクは、前記情報処理装置を使用する室内の雑音源から発生する雑音が壁によって反射され前記第２マイクに集音される位置に配置されていることを特徴とする。

　上記目的を達成するため、本発明に係るシステムは、
　請求項１乃至７のいずれか１項に記載の音声処理装置を備えた情報処理システムであって、
　前記音声処理装置の出力する前記擬似音声信号から所望音声を認識する音声認識装置と、
　前記音声認識装置が認識した所望音声にしたがって情報を処理する情報処理装置と、
　を備えることを特徴とする。

　上記目的を達成するため、本発明に係る方法は、
　所望音声と雑音とが混在した第１混在音を入力して第１混在信号を出力する第１マイクと、
　前記第１マイクと同じ音空間に開放され、前記所望音声と前記雑音とが前記第１混在音とは異なる割合で混在した第２混在音を入力して第２混在信号を出力する第２マイクと、
　前記第１混在信号と前記第２混在信号とに基づいて推定雑音信号を抑圧し、擬似音声信号を出力する雑音抑圧回路と、
　を備える音声処理装置の制御方法であって、
　前記雑音抑圧回路のパラメータを取得するステップと、
　前記雑音抑圧回路のパラメータにしたがって、前記第２マイクの位置が、前記音空間の境界の一部を成す二次曲面状あるいは二次曲面を近似する擬似曲面状の境界面の焦点位置であって、前記音空間の内部で発生する雑音を集音する位置であるか否かを報知するステップと、
　を含むことを特徴とする。

　上記目的を達成するため、本発明に係る記憶媒体は、
　所望音声と雑音とが混在した第１混在音を入力して第１混在信号を出力する第１マイクと、
　前記第１マイクと同じ音空間に開放され、前記所望音声と前記雑音とが前記第１混在音とは異なる割合で混在した第２混在音を入力して第２混在信号を出力する第２マイクと、
　前記第１混在信号と前記第２混在信号とに基づいて推定雑音信号を抑圧し、擬似音声信号を出力する雑音抑圧回路と、
　を備える音声処理装置の制御プログラムを記憶する記憶媒体であって、
　前記雑音抑圧回路のパラメータを取得するステップと、
　前記雑音抑圧回路のパラメータにしたがって、前記第２マイクの位置が、前記音空間の境界の一部を成す二次曲面状あるいは二次曲面を近似する擬似曲面状の境界面の焦点位置であって、前記音空間の内部で発生する雑音を集音する位置であるか否かを報知するステップと、
　をコンピュータに実行させる制御プログラムを格納したことを特徴とする。

　本発明によれば、所望音声と複数の雑音源からの雑音とが混在する同じ音空間において、話者の発声した所望音声のエコーを含む複数の雑音源からの雑音を集音することにより、雑音を正確に推定して所望音声に近い擬似音声を復元することができる。

本発明の第１実施形態に係る音声処理装置の構成を示すブロック図である。本発明の第２実施形態に係る音声処理装置を備えた音声処理システムの構成を示すブロック図である。本発明の第２実施形態に係る二次曲面による雑音の集音を説明する図である。本発明の第２実施形態に係る擬似曲面による雑音の集音を説明する図である。本発明の第２実施形態に係る雑音抑圧回路の構成を示す図である。本発明の第３実施形態に係る音声処理装置を備えた音声処理システムの構成を示すブロック図である。本発明の第４実施形態に係る音声処理装置を備えた音声処理システムの構成を示すブロック図である。本発明の第４実施形態に係る音声処理装置のハードウエア構成を示すブロック図である。本発明の第４実施形態に係る信号／パラメータ蓄積部の構成を示す図である。本発明の第４実施形態に係るマイク位置評価の処理手順を示すフローチャートである。本発明の第５実施形態に係る音声処理装置を備えた音声処理システムの構成を示すブロック図である。

　以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。

　［第１実施形態］
　本発明の第１実施形態としての音声処理装置１００について、図１を用いて説明する。　図１に示すように、音声処理装置１００は、第１マイク１０１と、第２マイク１０３と、雑音抑圧回路１０６と、を含む。第１マイク１０１は、所望音声と雑音とが混在した第１混在音１０８を入力して第１混在信号１０２を出力する。第２マイク１０３は、第１マイク１０１と同じ音空間１１０に開放され、音空間１１０の境界の一部を成す二次曲面状１１１あるいは二次曲面を近似する擬似曲面状１１２の境界面の焦点位置に配置されている。そして、境界面で反射された所望音声１２１及び境界面で反射された雑音１２２を含み所望音声と雑音とが第１混在音１０８とは異なる割合で混在した第２混在音１０９を入力して、第２混在信号１０４を出力する。雑音抑圧回路１０６は、第１混在信号１０２と第２混在信号１０４とに基づいて推定雑音信号を抑圧し、擬似音声信号１０７を出力する。

　本実施形態によれば、所望音声と複数の雑音源からの雑音とが混在する同じ音空間において、話者の発声した所望音声のエコーを含む複数の雑音源からの雑音を集音することにより、雑音を正確に推定して所望音声に近い擬似音声を復元することができる。

　［第２実施形態］
　第２実施形態は、本発明の音声処理装置を情報処理システムとしての車両に適用し、車両内部の音空間において雑音を正確に推定して所望音声に近い擬似音声を復元する例である。第２実施形態では、第１マイク及び第２マイクは一体の音声入力ユニットとしてダッシュボードに配置されている。本実施形態によれば、車両内部に複数の雑音源があっても、それら雑音を第２マイクで広範囲に集音できるので、雑音を正確に推定して所望音声に近い擬似音声を復元することができる。さらに、話者の発声した所望音声のエコーも抑圧することが可能となる。

　《本実施形態に係る音声処理装置を備えた音声処理システムの構成》
　図２は、本実施形態に係る音声処理装置を備えた音声処理システム２００の構成を示すブロック図である。なお、図２において、音声処理装置は、第１マイク２０１と、第２マイク２０３と、マイク支持部材２０５と、雑音抑圧回路２０６とを含む。また、音声処理システム２００は、音声処理装置と、さらに、音声認識装置２０８と、カーナビゲーション装置２０９とを含む。なお、マイク支持部材２０５は遮音体であることが望ましく、第１マイク２０１と、第２マイク２０３と、マイク支持部材２０５とは、一体の音声入力ユニットとして提供されてよい。

　遮音体としては、質量が大きく、密度が高い物質が望ましい。このような物質は、振動するのにより多くのエネルギーを必要とするため、音の貫通を防ぐことができる。また、遮音体の表面は硬い材質が望ましいが、遮音体の内部は柔らかい材質が望ましい。硬い材質は音を反射しやすいため、硬い材質を遮音体の表面に使うことで直接マイクに入る音に加えて遮音体で反射した音も集音できる。柔らかい材質は音を吸収しやすいため、柔らかい材質を遮音体の内面に使うことで不要な音の貫通を防ぐことができる。また、第１マイク側の表面の素材と第２マイク側の表面の素材とは、構造が連続せずに分かれていた方が良い。構造が連続していると表面の素材を伝わって音が伝搬して遮音体を貫通してしまうため、三層構造になっていて、両表面の硬い材質の素材間に柔らかい材質の素材が挟まれていることが望ましい。

　図２において、音空間２１０は車両内の空間である。図２の音空間２１０は、その一部をフロントガラス２３０と天井２４０とにより画定されている。以下、空調機などの複数の雑音源からの雑音が混在する音空間２１０内で、乗員２２０がカーナビゲーション装置２０９を音声により操作する場合を例に、第２実施形態の構成と動作を説明する。なお、空調機はダッシュボード２１６内にあるものとする。雑音源は空調機のみに限らず、他の位置に配置された他の機器や他の乗員も雑音源となる。また、乗員２２０の音声はカーナビゲーション装置２０９の操作に限定されるものではない。

　本実施形態の音声処理装置において、第１マイク２０１、第２マイク２０３及びマイク支持部材２０５は、車内前方のダッシュボード２１６に配置されている。マイク支持部材２０５のダッシュボード２１６に取り付けられた部分に第１マイク２０１が配置され、ダッシュボード２１６から鋭角を成して車内に突起した部分に第２マイクが配置されている。マイク支持部材２０５の突起部の角度は、車内の構造や、フロントガラスの形状や位置、ダッシュボードの構造や位置、座席位置、乗員の身長、また、雑音源の位置などによって適切な角度が選択され、鋭角に限らない。なお、マイク支持部材２０５は、乗員２２０の発声する音声を集音できる位置が望ましく、たとえばハンドル２１５の後方部に設置してもよい。なお、第１マイク２０１の位置は本例に限らない。

　図２では、第２マイク２０３は、ダッシュボード２１６の空調機や車内の他の雑音源からの雑音のフロントガラス２３０による反射雑音２１３を入力する位置に取り付けられている。すなわち、第２マイク２０３は、フロントガラス２３０が形成する二次曲面あるいは二次曲面に近似する擬似曲面の焦点位置に配置されるように取り付けられる。ここで、反射雑音２１３には、乗員２２０が発声した音声の反射音声も含む。一般に対象音源から発せられた音声が壁若しくはガラスなどで反射した反射音声のうち、直接音と較べて一定時間以上（たとえば２０ミリ秒以上）遅延したものは、音声認識に悪影響を与えるため、雑音とみなして抑圧する必要がある。本実施形態では、壁若しくはガラスなどで反射した音声をも雑音として一律に抑圧の対象とするため、雑音源だけでなく、このような乗員の発声した音声のエコーも抑圧することができる。

　マイク支持部材２０５が遮音体である場合は、マイク支持部材２０５が第１マイク２０１への空調機などからの空気伝播雑音の入力を遮っている。同時に、マイク支持部材２０５は、第２マイク２０３への乗員２２０が発声した空気伝播音声２１１の入力を遮っている。このため、第１マイク２０１には、乗員２２０が発声した音声が主に入力され、第２マイク２０３には、乗員の発声した音声のエコーを含む、複数の雑音源が発生した雑音の反射雑音２１３が主に入力されことになる。しかしながら、マイク支持部材２０５は閉空間を形成してないため、第１マイク２０１へはマイク支持部材２０５を回り込んだ空気伝播雑音２１４が混入する。また、第２マイク２０３へはマイク支持部材２０５を回り込んだ空気伝播音声２１２が混入する。

　第１マイク２０１は、入力される空気伝播音声２１１と回り込み空気伝播雑音２１４とが混在した第１混在音を、音声信号と雑音信号とが混在した第１混在信号２０２に変換し、雑音抑圧回路２０６に伝達する。一方、第２マイク２０３には、反射雑音２１３と回り込み空気伝播音声２１２とが第１混在音と異なる割合で混在した第２混在音が入力される。第２マイク２０３は、かかる第２混在音を、音声信号と雑音信号とが第１混在信号と異なる割合で混在した第２混在信号２０４に変換し、雑音抑圧回路２０６に伝達する。

　雑音抑圧回路２０６は、伝達された第１混在信号２０２と第２混在信号２０４とに基づいて、擬似音声信号２０７を出力する。擬似音声信号２０７は、音声認識装置２０８で認識されて、カーナビゲーション装置２０９においては乗員２２０による音声での操作として処理される。

　このように、所望音声と車内雑音とが混在した車両内の音空間２１０において、乗員２２０が発声したカーナビゲーション装置２０９への操作を示す音声が、第１マイク２０１と第２マイク２０３とで異なる混在割合の混在音として入力される。そして、第１マイク２０１からの第１混在信号と、第２マイク２０３からの第２混在信号とに基づいて、雑音抑圧回路２０６で擬似音声信号が復元され、復元された擬似音声信号が音声認識装置２０８において認識される。認識された音声によりカーナビゲーション装置２０９が操作される。

　なお、第１及び第２混在信号２０２、２０４を伝達する信号線が、接地電源などのリターン信号やマイクを動作させる電源を伝達してもよい。また、雑音抑圧回路２０６は、マイク支持部材２０５に取り付けられてもよい。その場合には、擬似音声信号が信号線で雑音抑圧回路２０６から音声認識装置２０８に送信されることになる。また、本実施形態では、音声認識とカーナビゲーションを説明するが、これに限定されず乗員２２０の発声する音声の正確な復元は、他の処理においても有用である。たとえば、自動車電話への適用や、運転に直接つながらない車両操作への適用も可能である。

　《本実施形態に係る雑音の集音の説明》
　以下、二次曲面あるいは二次曲面を近似した擬似曲面が、その焦点位置に集音することを、二次曲面については図３を使って、二次曲面を近似した擬似曲面については図４を使って説明する。なお、図３及び図４は理想的な二次曲面や擬似曲面を説明するが、車両の音空間では、図２のフロントガラスのような二次曲面や擬似曲面に類似する曲面が使用される。

　（二次曲面による雑音の集音）
　図３は、本実施形態に係る二次曲面のあるフロントガラス２３０による第２マイク２０３への雑音の集音を説明する図である。

　図３において、３０６及び３０８で示す線分は、二次曲面３０５の接線である。線分３０６及び３０８に対し、それぞれ二次曲面３０５のとの接点で垂直に交わる法線３０７及び３０９に対して、複数の雑音源からの雑音３２１は同じ角度θ１及びθ２で反射する。また、音源からの所望音声３１１も同様に反射する。そして、複数の雑音３２１及び所望音声３１１は、二次曲面３０５の焦点に位置する第２マイク２０３に集音される。

　（擬似曲面の集音部による集音）
　図４は、本実施形態に係る擬似曲面４０５を有する場合の第２マイク２０３への雑音の集音を説明する図である。擬似曲面４０５とは、二次曲面３０５の接線方向に延びる平面の集合体である。

　図４において、４０６及び４０８で示す線分は、擬似曲面４０５の表面である。線分４０６及び４０８に対して垂直に交わる法線４０７及び４０９に対して、複数の雑音源からの雑音４２１は同じ角度θ１及びθ２で反射する。また、音源からの所望音声４１１も同様に反射する。そして、複数の雑音４２１及び所望音声４１１は、二次曲面３０５の擬似曲面４０５の焦点に位置する第２マイク２０３に集音される。

　《雑音抑圧回路の構成》
　図５は、本実施形態に係る雑音抑圧回路２０６の構成を示す図である。

　雑音抑圧回路２０６は、第１混在信号２０２に混在すると推定される推定雑音信号Ｙ１を、第１混在信号２０２から減算する減算器５０１を有する。また、第２混在信号２０４に混在すると推定される推定音声信号Ｙ２を、第２混在信号２０４から減算する減算器５０３を有する。また、推定雑音信号Ｙ１を減算器５０３の出力信号である擬似雑音信号Ｅ２から生成する推定雑音信号生成部である適応フィルタＮＦ５０２を有する。また、推定音声信号Ｙ２を減算器５０３の出力信号である擬似音声信号Ｅ１（２０７）から生成する推定音声信号生成部である適応フィルタＸＦ５０４を有する。適応フィルタＸＦ５０４の具体例は国際公開第２００５／０２４７８７号公報に記載されている。対象とする音声が回り込んで第２マイク２０３に入力され、第２混在信号２０４に音声信号が混在する場合でも、適応フィルタＸＦ５０４は回り込んだ音声の音声信号を減算器５０１において第１混在信号２０２から誤って除去するのを防ぐことができる。

　かかる構成により、減算器５０１は、第１マイク２０１から伝達された第１混在信号２０２から推定雑音信号Ｙ１を減算して、擬似音声信号Ｅ１（２０７）を出力する。

　ここで、推定雑音信号Ｙ１は、擬似雑音信号Ｅ２を擬似音声信号Ｅ１（２０７）に基づき変化するパラメータを使って適応フィルタＮＦ５０２によって生成される。擬似雑音信号Ｅ２は、信号線により第２マイク２０３から伝達された第２混在信号２０４から、減算器５０３で推定音声信号Ｙ２を減算した信号である。

　この推定音声信号Ｙ２は、擬似音声信号Ｅ１（２０７）を推定音声信号Ｙ２に基づき変化するパラメータを使って適応フィルタＸＦ５０４によって生成される。

　なお、雑音抑圧回路２０６は、アナログ回路であっても、デジタル回路であっても、その混在回路であってもよい。雑音抑圧回路２０６がアナログ回路であれば、擬似音声信号Ｅ１（２０７）はデジタル制御に使用される場合にはＡ／Ｄ変換器でデジタル信号に変換される。一方、雑音抑圧回路２０６がデジタル回路であれば、マイクからの信号は雑音抑圧回路２０６に入る前にＡ／Ｄ変換器でデジタル信号に変換される。また、アナログ回路とデジタル回路とが混在する場合には、たとえば、減算器５０１や５０３をアナログ回路で構成し、適応フィルタＮＦ５０２や適応フィルタＸＦ５０４をデジタル回路により制御されるアナログ回路で構成することが考えられる。また、図５の雑音抑圧回路２０６は本実施形態に好適な回路例の１つであり、第１混在信号から推定雑音信号を減算して擬似音声信号を出力する既存の回路が使用可能であり、本実施形態の雑音を集める第２マイクの配置により雑音抑圧が可能になる。たとえば、図５の適応フィルタＸＦ５０４は、拡散した音声をフィルタするために一定レベルを出力する回路への代替も可能である。また、減算器５０１及び／又は５０３は、推定雑音信号Ｙ１や推定音声信号Ｙ２を第１混在信号２０２や第２混在信号２０４にそれぞれ積算する係数で表わすことで積算器に代替することも可能である。

　［第３実施形態］
　第２実施形態においては、第１マイク及び第２マイクが一体となった音声入力ユニットとしてダッシュボードに配置されていた。しかしながら、フロントガラスによる反射雑音が常に車内雑音を集音できるとは限らない。たとえば、車内後方で発生する雑音が大きい構造の場合には、ダッシュボードに配置された第２マイクでは雑音を集音できない場合がある。本実施形態では、第２マイクを第１マイクから分離して、リアトレイパネルの配置した例を説明する。本実施形態によれば、車内後方で発生する雑音が大きい構造の場合においても、雑音を第２マイクで広範囲に集音できるので、雑音を正確に推定して所望音声に近い擬似音声を復元することができる。さらに、話者の発声した所望音声のエコーも抑圧することが可能である。

　なお、以下の説明では、第２実施形態と同様の処理については説明を省略し、その相違点のみを説明する。

　《本実施形態に係る音声処理装置を備えた音声処理システムの構成》
　図６は、本実施形態に係る音声処理装置を備えた音声処理システム６００の構成を示すブロック図である。なお、図６において、音声処理装置は、第１マイク２０１（図示せず）と、第１マイク支持部材（図示せず）と、第２マイク６０３と、第２マイク支持部材６０５と、雑音抑圧回路２０６（図２と同様）とを含む。また、音声処理システム２００は、音声処理装置と、さらに、図２と同様に、音声認識装置２０８と、カーナビゲーション装置２０９とを含む。なお、第２マイク支持部材６０５は遮音体であることが望ましい。

　図６において、音空間２１０は車両内の空間である。図６の音空間２１０は、その一部を天井２４０とリアガラス６５０とにより画定されている。以下、複数の雑音源からの雑音が混在する音空間２１０内で、乗員２２０がカーナビゲーション装置２０９を音声により操作する場合を例に、第３実施形態の構成と動作を説明する。なお、リアトレイパネル６１６に雑音源の１つがあるものとする。また、乗員２２０の音声はカーナビゲーション装置２０９の操作に限定されるものではない。

　本実施形態の音声処理装置において、第２マイク６０３及び第２マイク支持部材６０５は、車内後方のリアトレイパネル６１６に配置されている。第２マイク支持部材６０５のリアトレイパネル６１６に取り付けられた部分に第２マイク６０３が配置されている。第２マイク支持部材６０５の突起部の角度は、車内の構造や、リアガラスの形状や位置、リアトレイパネルの構造や位置、座席位置、乗員の身長、また、雑音源の位置などによって適切な角度が選択される。なお、本実施形態では、第１マイク及び第１マイク支持部材の配置は、乗員２２０の発声する音声を集音できる位置であればよく、限定はしない。

　図６では、第２マイク６０３は、リアトレイパネル６１６の雑音源や車内の他の雑音源からの雑音のリアガラス６５０による反射雑音６１３を入力する位置に取り付けられている。すなわち、第２マイク６０３は、リアガラス６５０が形成する二次曲面あるいは二次曲面に近似する擬似曲面の焦点位置に配置されるように取り付けられる。ここで、反射雑音６１３には、乗員２２０が発声した音声の反射生も含む。一般に対象音源から発せられた音声が壁若しくはガラスなどで反射した反射音声のうち、直接音と較べて一定時間以上（たとえば２０ミリ秒以上）遅延したものは、音声認識に悪影響を与えるため、雑音とみなして抑圧する必要がある。本実施形態では、壁若しくはガラスなどで反射した音声をも雑音として一律に抑圧の対象とするため、雑音源だけでなく、このような乗員の発声した音声のエコーも抑圧することができる。

　第２マイク支持部材６０５が遮音体である場合は、第２マイク支持部材６０５が、第２マイク６０３への車内雑音や乗員２２０が発声した空気伝播音声６１１の直接の入力を遮っている。このため、第２マイク６０３には、乗員の発声した音声のエコーを含む、複数の雑音源が発生した雑音の反射雑音２１３が主に入力されことになる。しかしながら、第２マイク支持部材６０５は閉空間を形成してないため、第２マイク６０３へは第２マイク支持部材６０５を回り込んだ空気伝播音声６１２が混入する。

　図示しない第１マイク２０１は、図２と同様に、入力される空気伝播音声２１１と回り込み空気伝播雑音２１４とが混在した第１混在音を、音声信号と雑音信号とが混在した第１混在信号２０２に変換し、雑音抑圧回路２０６に伝達する。一方、第２マイク６０３には、反射雑音６１３と回り込み空気伝播音声６１２とが第１混在音と異なる割合で混在した第２混在音が入力される。第２マイク６０３は、かかる第２混在音を、音声信号と雑音信号とが第１混在信号と異なる割合で混在した第２混在信号６０４に変換し、雑音抑圧回路２０６に伝達する。

　図２と同様に、雑音抑圧回路２０６は、伝達された第１混在信号２０２と、第２混在信号２０４と同等の第２混在信号６０４とに基づいて、擬似音声信号２０７を出力する。擬似音声信号２０７は、音声認識装置２０８で認識されて、カーナビゲーション装置２０９においては乗員２２０による音声での操作として処理される。

　このように、所望音声と車内雑音とが混在した車両内の音空間２１０において、乗員２２０が発声したカーナビゲーション装置２０９への操作を示す音声が、第１マイク２０１と第２マイク６０３とで異なる混在割合の混在音として入力される。そして、第１マイク２０１からの第１混在信号２０２と、第２マイク６０３からの第２混在信号６０４とに基づいて、雑音抑圧回路２０６で擬似音声信号が復元され、復元された擬似音声信号が音声認識装置２０８において認識される。認識された音声によりカーナビゲーション装置２０９が操作される。

　なお、第２混在信号６０４を伝達する信号線が、接地電源などのリターン信号やマイクを動作させる電源を伝達してもよい。また、本実施形態では、音声認識とカーナビゲーションを説明するが、これに限定されず乗員２２０の発声する音声の正確な復元は、他の処理においても有用である。たとえば、自動車電話への適用や、運転に直接つながらない車両操作への適用も可能である。

　［第４実施形態］
　第２及び第３実施形態では、既に第１マイク及び第２マイクの配置が完了した車両について、その構成と動作を説明した。第４実施形態では、多種多様な構造を有する車両において、適切な第１マイク及び第２マイク、特に第２マイクの配置を決定するための音声処理装置を説明する。本実施形態によれば、雑音を正確に推定して所望音声に近い擬似音声を復元できる位置に、音声処理装置を配置することができる。

　《本実施形態に係る音声処理装置を備えた音声処理システムの構成》
　図７は、本実施形態に係る音声処理装置を備えた音声処理システムの構成を示すブロック図である。なお、図７は、図２と図６とを組み合わせて、第２マイクの位置をダッシュボード（図２参照）あるいはリアトレイパレル（図６参照）にそれぞれ配置して、本実施形態の第２マイクの配置位置決定の様子を示す図である。したがって、図２及び図６との相違点は、位置判別部７１０の追加のみであるので、他の詳細な説明は省略する。

　位置判別部７１０は、雑音抑圧回路２０６から擬似音声信号２０７及びパラメータ７０７を取得する。そして、現在の第１マイク及び第２マイクの配置が、雑音を正確に推定して所望音声に近い擬似音声を復元できる位置か否かを示す情報を、音声認識装置２０８あるいはカーナビゲーション装置２０９に出力する。音声認識装置２０８あるいはカーナビゲーション装置２０９により、雑音を正確に推定して所望音声に近い擬似音声を復元できる位置か否かが報知される。図７にはマイクの配置例として、図２のような第１マイク２０１及び第２マイク２０３が一体となった音声入力ユニットをダッシュボード２１６へ配置した状態と、第２マイク６０３を分離してリアトレイパネル６１６に配置した状態とが例示されている。

　《本実施形態に係る音声処理装置のハードウエア構成》
　図８は、本実施形態に係る音声処理装置８００のハードウエア構成を示すブロック図である。なお、図８には、音声処理装置８００に接続する音声認識装置２０８とカーナビゲーション装置２０９とを図示する。

　図８において、ＣＰＵ８１０は演算制御用のプロセッサであり、プログラムを実行することで音声処理装置８００の制御部を実現する。ＲＯＭ８２０は、初期データ及びプログラムなどの固定データ及びプログラムを記憶する。通信制御部８３０は、音声処理装置８００と、音声認識装置２０８及びカーナビゲーション装置２０９間の情報交換を行なう。かかる通信は有線であっても無線であっても良い。なお、図８では、雑音抑圧回路２０６を独自の機能構成部として図示したが、雑音抑圧回路２０６の処理の一部あるいは全部をＣＰＵ８１０による処理で実現してもよい。

　ＲＡＭ８４０は、ＣＰＵ８１０が一時記憶のワークエリアとして使用するランダムアクセスメモリである。ＲＡＭ８４０には、本実施形態の実現に必要なデータを記憶する領域が確保されている。各領域には、雑音抑圧回路２０６からの出力である擬似音声信号２０７のデジタルデータ８４１と、雑音抑圧回路２０６内で使用されるパラメータ８４２とが記憶される。また、第２マイクの配置位置８４３と、音声信号の強さや音声と雑音との比やパラメータなどから第２マイクへの雑音入力を評価したマイク位置評価結果８４４とが記憶される。

　ストレージ８５０は、データベースや各種のパラメータ、ＣＰＵ８１０が実行するプログラムを、不揮発に記憶する大容量記憶装置である。ストレージ８５０には、本実施形態の実現に必要な以下のデータ又はプログラムが記憶されている。データの記憶部としては、第２マイク位置と、音声信号の強さや音声と雑音との比やパラメータ及びマイク位置評価結果とを対応付けて蓄積する信号／パラメータ蓄積部８５１が格納される（図９参照）。また、本実施形態では、プログラムとして、様々な位置に配置された第２マイクへの雑音入力を評価するためのマイク位置評価プログラム８５２を格納する。

　入力インタフェース８６０は、ＣＰＵ８１０による制御に必要な制御信号及びデータを入力するインタフェースである。本実施形態では、雑音抑圧回路２０６からの出力である擬似音声信号２０７と、適応フィルタＮＦ５０２や適応フィルタＸＦ５０４のパラメータ、あるいは推定雑音信号Ｙ１などのパラメータ７０７とを入力する。パラメータ７０７は、第２マイクの位置評価に使用される。

　なお、図８には、本実施形態に必須なデータやプログラムのみが示されており、ＯＳなどの汎用のデータやプログラムは図示されていない。また、図８のＣＰＵ８１０が、音声認識装置２０８やカーナビゲーション装置２０９の制御を兼用しても構わない。

　（信号／パラメータ蓄積部の構成）
　図９は、本実施形態に係る信号／パラメータ蓄積部８５１の構成を示す図である。

　信号／パラメータ蓄積部８５１は、第２マイク位置９０１に対応付けて以下の情報を記憶する。雑音抑圧回路２０６から取得した擬似音声信号９０２、推定雑音信号９０３、擬似雑音信号９０４、推定音声信号９０５、適応フィルタＮＦのパラメータ９０６、適応フィルタＸＦのパラメータ９０７を記憶する。かかる条件に対応付けて、マイク位置評価９０８が記憶されている。ここで、"良"は雑音抑圧に適切な位置、"可"は良好とは言えないが可能な位置を表わしているが、これに限定されない。

　《本実施形態に係るマイク位置評価の処理手順》
　図１０は、本実施形態に係るマイク位置評価の処理手順を示すフローチャートである。図１０のフローチャートは、図８のＣＰＵ８１０がＲＡＭ８４０を使用して実行し、図７の位置判別部７１０を実現する。なお、このフローチャートは、初期化時や、新たな機器の設置や取り外しなどのタイミングで実行される。また、音声認識装置の音声認識が不良になった時、あるいは、雑音抑圧回路中の擬似雑音信号Ｅ２や適応フィルタＮＦのパラメータから雑音入力が小さくなったと判断された時などにも実行されてよい。

　まず、ステップＳ１００１において、第２マイクの位置の評価を開始するか否かを判定する。第１マイク及び第２マイクを配置して第２マイクの雑音入力測定開始をすれば、ステップＳ１００３において、雑音抑圧回路２０６からパラメータを取得する。ステップＳ１００５においては、雑音抑圧回路２０６からの擬似音声信号やパラメータなどから第２マイクの位置評価を行なう。続いて、ステップＳ１００７において、第２マイクの位置評価結果を、第２マイク位置に対応付けて記憶する。

　ステップＳ１００９においては、第１マイク及び第２マイクの配置が可能な位置の評価が終了したかの指示を判断する。測定が終了した指示が無ければ、ステップＳ１００１に戻って、第１マイク及び第２マイクの次の配置を待って、ステップＳ１００３～Ｓ１００７の処理を繰り返す。測定が終了した指示が有れば、今まで蓄積した第２マイクの位置評価結果から最も望ましい位置あるいはそのときの情報などを、音声認識装置２０８あるいはカーナビゲーション装置２０９に出力する。

　［第５実施形態］
　第２乃至第４実施形態では、本発明の音声処理装置を車両に適用する場合の例を説明した。第５実施形態では、本発明の音声処理装置を情報処理装置、たとえばノート型パーソナルコンピュータ（以下、ノート型ＰＣ）に適用した例を説明する。本実施形態によれば、ノート型ＰＣを室内で使用する場合の、室内の機器などの雑音や他の人の音声、あるいは自身の音声のエコーなどを含む雑音を広範囲に集音して、雑音を正確に推定して所望音声に近い擬似音声を復元することができる。

　《本実施形態に係る音声処理装置を備えた音声処理システムの構成》
　図１１は、本実施形態に係る音声処理装置を備えた音声処理システム１１００であるノート型ＰＣ１１３０を含む構成を示すブロック図である。なお、図１１には、ノート型ＰＣの本来の機能などについては説明を省略し、本実施形態の特徴である第１マイク１１０１及び第２マイク１１０３への集音に関連する構成を説明する。

　図１１において、ノート型ＰＣ１１３０は、表示画面を有するディスプレイ部とキーボードを含むキーボード部とを備えるが、本実施形態ではディスプレイ部に第１マイク１１０１及び第２マイク１１０３が配置された例を説明する。第１マイク１１０１はディスプレイ部の操作者側に配置され、第２マイク１１０３はディスプレイ部の操作者とは反対側に配置されている。しかし、第１マイク１１０１がキーボード部にあっても構わない。

　第１マイク１１０１には、操作者１１２１が発声した音声１１１１と回り込み空気伝播雑音（図示せず）とが混在した第１混在音が入力される。第１マイク１１０１は、かかる第１混在音を、音声信号と雑音信号とが混在した第１混在信号に変換し、不図示の雑音抑圧回路２０６に伝達する。一方、第２マイク１１０３には、二次曲面１１２０あるいは二次曲面を近似する擬似局面により反射された反射雑音１１１３と回り込み音声１１１２とが第１混在音と異なる割合で混在した第２混在音が入力される。この反射雑音１１１３には、操作者１１２１の発生した音声が二次曲面１１２０で反射したエコーや他の人１１２２が発生した音声が二次曲面１１２０で反射した反射音声も含まれる。一般に対象音源から発せられた音声が壁若しくはガラスなどで反射した反射音声のうち、直接音と較べて一定時間以上（たとえば２０ミリ秒以上）遅延したものは、音声認識に悪影響を与えるため、雑音とみなして抑圧する必要がある。本実施形態では、壁若しくはガラスなどで反射した音声をも雑音として一律に抑圧の対象とするため、雑音源だけでなく、このような乗員の発声した音声のエコーも抑圧することができる。第２マイク１１０３は、かかる第２混在音を、音声信号と雑音信号とが第１混在信号と異なる割合で混在した第２混在信号に変換し、不図示の雑音抑圧回路２０６に伝達する。

　以下の処理は第２乃至第４実施形態と同様であり、雑音抑圧回路２０６は、第１マイク１１０１及び第２マイク１１０３からそれぞれ伝達された第１混在信号と第２混在信号とに基づいて、擬似音声信号２０７を出力する。擬似音声信号２０７は、音声認識装置２０８で認識されて、ノート型ＰＣ１１３０において操作者１１２１による音声操作あるいはデータの音声入力として処理される。

　このように、所望音声と室内雑音とが混在した音空間において、操作者１１２１が発声したノート型ＰＣ１１３０への音声及び室内雑音が、第１マイク３０１と、音声の反射音を含む反射雑音を入力する第２マイク３０３とで異なる混在割合の混在音として入力される。そして、第１マイク３０１からの第１混在信号と、第２マイク３０３からの第２混在信号とに基づいて、雑音抑圧回路２０６で擬似音声信号が復元され、復元された擬似音声信号が音声認識装置２０８において認識される。認識された音声がノート型ＰＣ１１３０で処理される。

　［他の実施形態］
　以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステム又は装置も、本発明の範疇に含まれる。

　また、本発明は、複数の機器から構成されるシステムに適用されても良いし、単体の装置に適用されても良い。さらに、本発明は、実施形態の機能を実現する制御プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされる制御プログラム、あるいはその制御プログラムを格納した媒体、その制御プログラムをダウンロードさせるＷＷＷ(World Wide Web)サーバも、本発明の範疇に含まれる。

　この出願は、２０１１年１月１３日に出願された日本国特許出願　特願２０１１－００５３１７号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

　所望音声と雑音とが混在した第１混在音を入力して第１混在信号を出力する第１マイクと、
　前記第１マイクと同じ音空間に開放され、前記音空間の境界の一部を成す二次曲面状あるいは二次曲面を近似する擬似曲面状の境界面の焦点位置に配置されて、前記境界面で反射された所望音声及び前記境界面で反射された雑音を含み前記所望音声と前記雑音とが前記第１混在音とは異なる割合で混在した第２混在音を入力して、第２混在信号を出力する第２マイクと、
　前記第１混在信号と前記第２混在信号とに基づいて推定雑音信号を抑圧し、擬似音声信号を出力する雑音抑圧回路と、
　を備えることを特徴とする音声処理装置。
　前記擬似曲面は、前記二次曲面の接線方向に延びる平面の集合体を含むことを特徴とする請求項１に記載の音声処理装置。
　前記第１マイクと前記第２マイクとは、一体の音声入力ユニットであることを特徴とする請求項１又は２に記載の音声処理装置。
　前記第１マイクと前記第２マイクとの間に配置された遮音体をさらに備えることを特徴とする請求項１乃至３のいずれか１項に記載の音声処理装置。
　前記遮音体は、前記第２マイクに前記所望音声及び前記雑音が前記境界面で反射せず直接に入力するのを遮る位置に配置されていることを特徴とする請求項４に記載の音声処理装置。
　前記雑音抑圧回路の擬似音声信号、推定雑音信号又はパラメータに基づいて、前記第２マイクの位置が前記音空間の内部で発生する雑音を集音する位置であるか否かの情報を出力する出力手段をさらに備えることを特徴とする請求項１乃至５のいずれか１項に記載の音声処理装置。
　前記雑音抑圧回路は、
　　前記第１混在信号に混在すると推定される前記推定雑音信号を、前記第１混在信号から減算する第１減算手段と、
　　前記第２混在信号に混在すると推定される推定音声信号を、前記第２混在信号から減算する第２減算手段と、
　　前記推定雑音信号を前記第２減算手段の出力信号から生成する推定雑音信号生成手段と、
　　前記推定音声信号を前記第１減算手段の出力信号から生成する推定音声信号生成手段と、
　を有し、
　前記擬似音声信号は、前記第１減算手段の出力信号であることを特徴とする請求項１乃至６のいずれか１項に記載の音声処理装置。
　請求項１乃至７のいずれか１項に記載の音声処理装置を備えた車両であって、
　前記第１マイクは、前記音空間である車内の乗員が発声する音声を含む第１混在音が入力される位置に配置され、
　前記第２マイクは、前記車内の雑音源から発生する雑音が前記車両の前記境界面によって反射され前記第２マイクに集音される位置に配置されていることを特徴とする車両。
　前記境界面は、前記車両のフロントガラス又はリアガラスを含むことを特徴とする請求項８に記載の車両。
　請求項１乃至７のいずれか１項に記載の音声処理装置を備えた情報処理装置であって、
　前記第１マイクは、前記情報処理装置の、操作者が発声する所望音声を含む第１混在音が入力される位置に配置され、
　前記第２マイクは、前記情報処理装置を使用する室内の雑音源から発生する雑音が壁によって反射され前記第２マイクに集音される位置に配置されていることを特徴とする情報処理装置。
　請求項１乃至７のいずれか１項に記載の音声処理装置を備えた情報処理システムであって、
　前記音声処理装置の出力する前記擬似音声信号から所望音声を認識する音声認識装置と、
　前記音声認識装置が認識した所望音声にしたがって情報を処理する情報処理装置と、
　を備えることを特徴とする情報処理システム。
　所望音声と雑音とが混在した第１混在音を入力して第１混在信号を出力する第１マイクと、
　前記第１マイクと同じ音空間に開放され、前記所望音声と前記雑音とが前記第１混在音とは異なる割合で混在した第２混在音を入力して第２混在信号を出力する第２マイクと、
　前記第１混在信号と前記第２混在信号とに基づいて推定雑音信号を抑圧し、擬似音声信号を出力する雑音抑圧回路と、
　を備える音声処理装置の制御方法であって、
　前記雑音抑圧回路のパラメータを取得するステップと、
　前記雑音抑圧回路のパラメータにしたがって、前記第２マイクの位置が、前記音空間の境界の一部を成す二次曲面状あるいは二次曲面を近似する擬似曲面状の境界面の焦点位置であって、前記音空間の内部で発生する雑音を集音する位置であるか否かを報知するステップと、
　を含むことを特徴とする音声処理装置の制御方法。
　所望音声と雑音とが混在した第１混在音を入力して第１混在信号を出力する第１マイクと、
　前記第１マイクと同じ音空間に開放され、前記所望音声と前記雑音とが前記第１混在音とは異なる割合で混在した第２混在音を入力して第２混在信号を出力する第２マイクと、
　前記第１混在信号と前記第２混在信号とに基づいて推定雑音信号を抑圧し、擬似音声信号を出力する雑音抑圧回路と、
　を備える音声処理装置の制御プログラムを格納した記憶媒体であって、
　前記雑音抑圧回路のパラメータを取得するステップと、
　前記雑音抑圧回路のパラメータにしたがって、前記第２マイクの位置が、前記音空間の境界の一部を成す二次曲面状あるいは二次曲面を近似する擬似曲面状の境界面の焦点位置であって、前記音空間の内部で発生する雑音を集音する位置であるか否かを報知するステップと、
　をコンピュータに実行させる制御プログラムを格納したことを特徴とする記憶媒体。