WO2023100429A1

WO2023100429A1 - 収音装置、収音方法、及び収音プログラム

Info

Publication number: WO2023100429A1
Application number: PCT/JP2022/033098
Authority: WO
Inventors: 孝朗山邊
Original assignee: 株式会社Ｊｖｃケンウッド
Priority date: 2021-11-30
Filing date: 2022-09-02
Publication date: 2023-06-08

Abstract

マイクロフォン（１）は空気振動に基づく音声信号を生成する。振動センサ（３）は人体に伝わる振動に基づく振動信号を生成する。適応フィルタ（６）は振動信号に係数を乗算して変換音声信号を生成する。減算器（７）は音声信号と変換音声信号との差分である残差信号を生成する。適応制御部（５）は、音声区間であると判定されるときには、適応フィルタ（６）が第１の速度で残差信号が小さくなるように係数を更新するよう制御し、非音声区間であると判定されるときには、適応フィルタ（６）が第１の速度より遅い第２の速度で残差信号が小さくなるように係数を更新するよう制御するか、係数を更新しないように制御する適応フィルタ制御信号を適応フィルタ（６）に供給する。

Description

収音装置、収音方法、及び収音プログラム

　本開示は、収音装置、収音方法、及び収音プログラムに関する。

　特許文献１及び２には、空気振動に基づいて音声信号を生成するマイクロフォン、及び骨振動に基づいて音声信号に相当する振動信号を生成する振動センサを備えることにより、騒音環境下において明瞭な音声を取得することができる収音装置が記載されている。前者のマイクロフォンは気導マイクロフォンと称されることがあり、後者の振動センサは骨導マイクロフォンと称されることがある。

　特許文献１に記載の収音装置は、振動センサが生成する振動信号を音声信号に変換するフィルタリング部を備え、静穏下においても振動センサが生成する振動信号に基づく音声信号を出力する。特許文献１に記載の収音装置は、フィルタリング部より出力される音声信号とマイクロフォンが生成する音声信号との差分である誤差信号が小さくなるようにフィルタリング部のフィルタ係数を更新するように構成されている。

　特許文献２に記載の収音装置は、マイクロフォンが生成する音声信号と振動センサが生成する振動信号とを所定の混合比で混合する。特許文献２に記載の収音装置は、静穏下ではマイクロフォンが生成する音声信号の比率を多くし、雑音環境下では振動センサが生成する振動信号の比率を多くするように構成されている。

特開２００７－２５１３５４号公報特開２０００－２６１５３４号公報特許第５８７４３４４号公報特許第５９４８９１８号公報

　マイクロフォンが生成する音声信号と振動センサが生成する振動信号に基づく音声信号とでは音声信号の品質に差があることから、収音装置は、静穏下であればマイクロフォンが生成する音声信号を出力することが好ましい。特許文献１においては、誤差信号が小さくなるようにフィルタリング部のフィルタ係数を更新することによって、振動信号に基づく音声信号の品質を向上させることを意図している。しかしながら、例えば雑音環境下ではマイクロフォンが生成する音声信号には環境雑音が含まれ、振動信号に基づく音声信号の品質を向上させることができない場合があり、改良が求められている。

　１またはそれ以上の実施形態は、振動センサが生成する振動信号に基づく音声信号の品質をより向上させることができる収音装置、収音方法、及び収音プログラムを提供することを目的とする。

　１またはそれ以上の実施形態の第１の態様によれば、空気振動に基づく第１の音声信号を生成するマイクロフォンと、発話によって人体に伝わる振動に基づく振動信号を生成する振動センサと、前記第１の音声信号を目標信号として、前記振動信号を前記目標信号に近付けるように、前記振動信号に係数を乗算して変換音声信号を生成する適応フィルタと、前記目標信号と前記変換音声信号との差分である残差信号を生成する減算器と、前記適応フィルタが前記振動信号に乗算する係数を前記残差信号が小さくなるように更新するよう制御する適応制御部とを備える収音装置が提供される。

　１またはそれ以上の実施形態の第２の態様によれば、マイクロフォンが空気振動に基づく音声信号を生成し、振動センサが人体に伝わる振動に基づく振動信号を生成し、適応フィルタが、前記振動信号を前記音声信号に近付けるように補正するために、前記振動信号に係数を乗算して変換音声信号を生成し、減算器が、前記音声信号と前記変換音声信号との差分である残差信号を生成し、適応制御部が、音声が存在する音声区間であると判定されるときには、前記適応フィルタが第１の速度で前記残差信号が小さくなるように前記係数を更新するよう制御し、音声が存在しない非音声区間であると判定されるときには、前記適応フィルタが前記第１の速度より遅い第２の速度で前記残差信号が小さくなるように前記係数を更新するよう制御するか、前記係数を更新しないように制御する適応フィルタ制御信号を生成して前記適応フィルタに供給する収音方法が提供される。

　１またはそれ以上の実施形態の第３の態様によれば、マイクロフォンが空気振動に基づく第１の音声信号を生成し、振動センサが発話によって人体に伝わる振動に基づく振動信号を生成し、エコーキャンセラが、通信相手から送信されて回線を介して受信した第２の音声信号がスピーカによって再生された音声を前記マイクロフォンが収音することによって前記第１の音声信号に重畳したエコー成分を抑制し、適応フィルタが、前記エコーキャンセラによってエコー成分が抑制された前記第１の音声信号を目標信号として、前記振動信号を前記目標信号に近付けるように、前記振動信号に係数を乗算して変換音声信号を生成し、減算器が、前記目標信号と前記変換音声信号との差分である残差信号を生成し、適応制御部が、前記適応フィルタが前記振動信号に乗算する係数を前記残差信号が小さくなるように更新するよう制御する収音方法が提供される。

　１またはそれ以上の実施形態の第４の態様によれば、コンピュータに、振動センサが生成した人体に伝わる振動に基づく振動信号をマイクロフォンが生成した空気振動に基づく音声信号に近付けるように補正するために、前記振動信号に係数を乗算して変換音声信号を生成するステップと、前記音声信号と前記変換音声信号との差分である残差信号を生成するステップと、音声が存在する音声区間であると判定されるときには、第１の速度で前記残差信号が小さくなるように前記係数を更新するステップと、音声が存在しない非音声区間であると判定されるときには、前記第１の速度より遅い第２の速度で前記残差信号が小さくなるように前記係数を更新するか、前記係数を更新せず維持するステップとを実行させる収音プログラムが提供される。

　１またはそれ以上の実施形態の第４の態様によれば、コンピュータに、マイクロフォンが生成した空気振動に基づく第１の音声信号に、通信相手から送信されて回線を介して受信した第２の音声信号がスピーカによって再生された音声を前記マイクロフォンが収音することによって重畳したエコー成分を抑制するステップと、エコー成分が抑制された前記第１の音声信号を目標信号として、振動センサが生成した、発話によって人体に伝わる振動に基づく振動信号を前記目標信号に近付けるように、前記振動信号に係数を乗算して変換音声信号を生成するステップと、前記目標信号と前記変換音声信号との差分である残差信号を生成するステップと、前記振動信号に乗算する係数を前記残差信号が小さくなるように更新するステップとを実行させる収音プログラムが提供される。

　１またはそれ以上の実施形態の収音装置、収音方法、及び収音プログラムによれば、振動センサが生成する振動信号に基づく音声信号の品質をより向上させることができる。

図１は、第１実施形態の収音装置を示すブロック図である。図２Ａマイクロフォンが生成した音声信号を示す波形図である。図２Ｂは、振動センサが生成した振動信号を示す波形図である。図３は、音声信号及び振動信号の周波数特性を示す特性図である。図４は、図１の適応制御部５の具体的な構成例を示すブロック図である。図５は、図４の音声区間検出部５１及び５２による検出信号と、音圧レベル比算出部５５によって生成される環境雑音レベルとに基づいて適応フィルタ制御信号を生成する場合のパターンを示す図である。図６は、図４の音声区間検出部５１及び５２による検出信号と、相関度算出部５６によって算出される相関度とに基づいて適応フィルタ制御信号を生成する場合のパターンを示す図である。図７は、音声信号と適応フィルタ制御信号との関係を示す波形図である。図８は、図１の適応フィルタ６の具体的な構成例を示すブロック図である。図９は、図１の環境雑音分析部８の具体的な構成例を示すブロック図である。図１０は、図１のセレクタ９が音声信号と変換音声信号とを選択する動作の一例を示す図である。図１１は、第２実施形態の収音装置を示すブロック図である。図１２は、第２実施形態の収音装置が備えるエコーキャンセラの構成例を示すブロック図である。図１３は、マイクロフォンが生成した音声信号、スピーカより出力された相手音声、振動センサが生成した振動信号の例を示す波形図である。図１４は、図１２の適応制御部１２の具体的な構成例を示すブロック図である。図１５は、図１２の適応フィルタ１３の具体的な構成例を示すブロック図である。図１６は、図１１の適応制御部５の具体的な第１の構成例を示すブロック図である。図１７は、図１１の適応制御部５の具体的な第２の構成例を示すブロック図である。図１８は、図１１の適応フィルタ６の具体的な構成例を示すブロック図である。図１９Ａは、第２実施形態の収音装置の動作を示す部分的なフローチャートである。図１９Ｂは、第２実施形態の収音装置の動作を示す、図１９Ａに続く部分的なフローチャートである。

＜第１実施形態＞
　以下、第１実施形態の収音装置、収音方法、及び収音プログラムについて、添付図面を参照して説明する。図１は、第１実施形態の収音装置１００を示す。図１において、マイクロフォン１は空気振動に基づいて音声信号（第１の音声信号）を生成する。マイクロフォン１より出力される音声信号は、人が耳を通して知覚する音声に近いため、後述する振動信号を音声信号に変換する際の目標値となる。Ａ／Ｄ変換器２は、マイクロフォン１より供給されるアナログの音声信号をＡ／Ｄ変換して、デジタルの音声信号を適応制御部５、減算器７、環境雑音分析部８、セレクタ９に供給する。

　振動センサ３は、人体に伝わる振動に基づいて振動信号を生成する。振動センサ３は、人体の表面に接触するように配置されている。体内に埋め込まれている振動受信装置、人体と直に接するように配置されたマイクロフォン、人体の表面に伝わる振動を映像として取得するカメラ、人体の表面に伝わる振動を位置情報として取得する距離計は、振動センサに含まれる。Ａ／Ｄ変換器４は、振動センサ３より供給されるアナログの振動信号をＡ／Ｄ変換して、デジタルの振動信号を適応制御部５、適応フィルタ６、環境雑音分析部８に供給する。

　図２Ａはマイクロフォン１が生成した音声信号であり、図２Ｂは図２Ａの音声信号と同じ期間に振動センサ３が生成した振動信号である。図２Ａと図２Ｂとを比較すれば分かるように、音声信号と振動信号とは音圧レベルが相違する。図３は、音声信号及び振動信号の周波数特性を示している。一部の周波数帯域において、破線で示す振動信号の音圧レベルは実線で示す音声信号の音圧レベルよりも小さい。振動信号をスピーカに供給して音声として出力すると、マイクロフォン１が生成した音声信号をスピーカに供給して音声として出力する場合と比較して籠った音声となり、本来の音声とは異なって聞こえる。

　図１に戻り、適応制御部５は、Ａ／Ｄ変換器２より出力された音声信号、Ａ／Ｄ変換器４より出力された振動信号、減算器７より出力された残差信号に基づいて、適応フィルタ６を制御する適応フィルタ制御信号を生成して、適応フィルタ６及び環境雑音分析部８に供給する。適応フィルタ６は、後述するように、振動信号をマイクロフォン１が生成した音声信号に近付けるように補正することによって変換音声信号を生成して、減算器７及びセレクタ９に供給する。

　減算器７は、適応フィルタ６より出力された変換音声信号と、Ａ／Ｄ変換器２より出力された音声信号との差分を残差信号として、適応制御部５及び適応フィルタ６に供給する。

　図４は、適応制御部５の具体的な構成例を示す。概略的には、適応制御部５は、発話等の音声が存在する音声区間であるか音声が存在しない非音声区間であるかに応じて、適応フィルタ６の動作を異ならせるための適応フィルタ制御信号を生成する。

　適応制御部５は、音声区間検出部５１及び５２、音圧レベル取得部５３、音圧レベル比算出部５５、残差相対レベル取得部５４、相関度算出部５６、適応フィルタ学習速度設定部５７を備える。音声区間検出部５１及び５２はＶＡＤ（Voice Activity Detection）と称される技術によって、それぞれ、音声信号及び振動信号の音声区間を検出する。音声区間検出部５１及び５２は、少なくとも音圧レベルが所定のレベルを超えるか否かによって音声区間を検出する。

　音声区間検出部５１及び５２は、音声区間の検出精度を向上させるため、特許文献３または４に記載の技術を採用し、周波数を分析して人の声の特徴を検出することによって、音声区間を検出してもよい。音声区間検出部５１及び５２は、それぞれ、音声信号及び振動信号の音声区間と非音声区間とを識別する検出信号を適応フィルタ学習速度設定部５７に供給する。

　音圧レベル取得部５３は、音声信号及び振動信号の音圧レベルを取得する。音圧レベル比算出部５５は、音声信号の音圧レベルと振動信号の音圧レベルとの比である音圧レベル比を算出して、適応フィルタ学習速度設定部５７に供給する。音声信号及び振動信号の音圧レベルは、単位時間当たりの音圧の平均振幅値で表されていてもよいし、単位時間当たりの音圧の二乗和で表されていてもよい。発話区間の音圧レベル比と非発話区間の音圧レベル比は環境雑音レベルによって異なる。よって、音圧レベル比算出部５５が算出する音圧レベル比は、環境雑音レベルを示す。

　残差相対レベル取得部５４には、減算器７より出力された残差信号と、Ａ／Ｄ変換器４より出力された振動信号が入力される。音声区間においては、マイクロフォン１には発話等による空気振動が入力され、振動センサ３には発話等による振動が伝達するので、残差信号は低レベルとなる。非音声区間において、または音声区間において環境雑音が存在すると、残差信号は比較的高レベルとなる。残差相対レベル取得部５４は、減算器７より出力された残差信号のレベルを、振動信号のレベルで正規化して、残差相対レベルを取得する。

　振動信号が大きいほど、残差信号のレベルが大きくなる傾向となる。そこで、残差信号のレベルを振動信号のレベルで正規化することによって、振動信号の大きさに影響されない残差信号のレベルである残差相対レベルを得ることができる。

　相関度算出部５６は、残差相対レベルを所定の閾値（第２の閾値）と比較して相関度を算出する。相関度算出部５６は、残差相対レベルが閾値以下であれば音声信号と振動信号との相関が高いと判定して、相関が高いことを示す値を有する相関度を出力する。相関度算出部５６は、残差相対レベルが閾値を超えれば音声信号と振動信号との相関が低いと判定して、相関が低いことを示す値を有する相関度を出力する。

　適応フィルタ学習速度設定部５７は、少なくとも、音声区間検出部５１及び５２による検出信号に基づいて音声区間と非音声区間とを判別して適応フィルタ制御信号を生成する。

　適応フィルタ６をより良好に動作させるために、適応フィルタ学習速度設定部５７は、音声区間検出部５１及び５２による検出信号と、音圧レベル比算出部５５によって生成される環境雑音レベルとに基づいて適応フィルタ制御信号を生成するのがよい。適応フィルタ６をより良好に動作させるために、適応フィルタ学習速度設定部５７は、音声区間検出部５１及び５２による検出信号と、相関度算出部５６による判定結果とに基づいて適応フィルタ制御信号を生成してもよい。

　図５は、音声区間検出部５１及び５２による検出信号と、音圧レベル比算出部５５によって生成される環境雑音レベルとに基づいて適応フィルタ制御信号を生成する場合のパターン＃１～＃４を示している。図５における音声区間検出とは、音声区間検出部５１による検出信号と音声区間検出部５２による検出信号とを総合して、音声区間である（オン）か音声区間ではない（オフ）かを判定した結果を示す。

　適応フィルタ学習速度設定部５７は、音声区間検出部５１による検出信号と音声区間検出部５２による検出信号とのいずれか一方が音声区間であることを示せば、音声区間である（オン）と判定してもよい。逆に、適応フィルタ学習速度設定部５７は、いずれか一方が非音声区間であることを示せば、音声区間ではない（オフ）と判定してもよい。

　図５に示すように、適応フィルタ学習速度設定部５７は、パターン＃１として、音声区間検出がオフ、環境雑音レベルが所定の閾値（第１の閾値）以下である低レベルであれば、学習速度をセーブと設定する。適応フィルタ学習速度設定部５７は、パターン＃２として、音声区間検出がオン、環境雑音レベルが低レベルであれば、学習速度をアクティブと設定する。

　適応フィルタ学習速度設定部５７は、パターン＃３として、音声区間検出がオフ、環境雑音レベルが所定の閾値を超える高レベルであれば、学習速度をセーブと設定する。適応フィルタ学習速度設定部５７は、パターン＃４として、音声区間検出がオン、環境雑音レベルが高レベルであれば、学習速度をセーブと設定する。学習速度がアクティブであるとは、適応フィルタ６における適応動作を積極的に促すことを意味し、学習速度がセーブであるとは、適応フィルタ６における適応動作を抑えるか停止することを意味する。

　具体的には、適応フィルタ６における適応動作を積極的に促すとは、適応フィルタ６が第１の速度で短時間のうちに、振動信号に乗算する後述する係数を更新するよう制御することを意味する。適応フィルタ６における適応動作を抑えるとは、適応フィルタ６が第１の速度より遅い第２の速度で長時間をかけて、係数を更新するよう制御することを意味する。適応フィルタ６における適応動作を停止するとは、係数を更新しない（係数を維持する）よう制御することを意味する。

　図６は、音声区間検出部５１及び５２による検出信号と、相関度算出部５６によって算出される相関度とに基づいて適応フィルタ制御信号を生成する場合のパターン＃５～＃８を示している。図６における音声区間検出は、図５における音声区間検出と同じである。

　図６に示すように、適応フィルタ学習速度設定部５７は、パターン＃５として、音声区間検出がオフで相関度が高ければ、学習速度をセーブと設定する。適応フィルタ学習速度設定部５７は、パターン＃６として、音声区間検出がオンで相関度が高ければ、学習速度をアクティブと設定する。

　適応フィルタ学習速度設定部５７は、パターン＃７として、音声区間検出がオフで相関度が低ければ、学習速度をセーブと設定する。適応フィルタ学習速度設定部５７は、パターン＃８として、音声区間検出がオンで相関度が低ければ、学習速度をセーブと設定する。

　図５に示すように、適応フィルタ学習速度設定部５７は、音声区間であり、かつ、環境雑音レベルが低レベル（第１の閾値以下）であるという第１の条件を満たすとき、適応フィルタ６における学習速度をアクティブとする適応フィルタ制御信号を生成するのがよい。適応フィルタ学習速度設定部５７は、第１の条件を満たさないとき、適応フィルタ６における学習速度をセーブとする適応フィルタ制御信号を生成するのがよい。

　図６に示すように、適応フィルタ学習速度設定部５７は、音声区間であり、かつ、相関度が高い（残差相対レベルが第２の閾値以下である）いう第２の条件を満たすとき、適応フィルタ６における学習速度をアクティブとする適応フィルタ制御信号を生成するのがよい。適応フィルタ学習速度設定部５７は、第２の条件を満たさないとき、適応フィルタ６における学習速度をセーブとする適応フィルタ制御信号を生成するのがよい。

　学習速度をアクティブとすれば、適応フィルタ６は第１の速度で係数を更新する。学習速度をセーブとすれば、適応フィルタ６は第１の速度より遅い第２の速度で係数を更新するか、係数を更新しない。

　適応フィルタ学習速度設定部５７は、音声区間検出と、環境雑音レベルと、相関度とに基づいて適応フィルタ制御信号を生成してもよい。この場合、環境雑音レベルと相関度とのうちのいずれか一方を優先して、アクティブとセーブとのいずれかを設定してもよい。また、環境雑音レベルと相関度とをそれぞれポイント化して、適応フィルタ学習速度設定部５７は、環境雑音レベルのポイントと相関度のポイントとを総合して音声区間であるか否かを判定して、アクティブとセーブとのいずれかを設定してもよい。

　図７は、（ａ）に示す音声信号と（ｂ）に示す適応フィルタ制御信号との関係を示している。適応フィルタ制御信号は、音声信号の音声区間にハイ、非音声区間にローとなる。適応フィルタ制御信号のハイはアクティブを示し、適応フィルタ制御信号のローはセーブを示す。ここでは、音声区間の環境雑音レベルは低レベルであり、音声信号と振動信号との相関度は高いとする。

　図８は、ＦＩＲフィルタを用いた適応フィルタ６の具体的な構成例を示す。適応フィルタ６は、適応係数更新部６１、遅延器６２１～６２ｎ、乗算器６３０～６３ｎ、加算器６４１～６４ｎを備える。ｎは数十から数百程度の数である。遅延器６２１～６２ｎは、入力されたデジタルの振動信号の各サンプルを１クロックずつ遅延して出力する。乗算器６３０～６３ｎは、遅延器６２１に入力されるサンプルと遅延器６２１～６２ｎより出力される各サンプルとにそれぞれ係数を乗算して出力する。

　加算器６４１～６４ｎは、それぞれ、乗算器６３０及び６３１の出力、加算器６４１及び乗算器６３２の出力、加算器６４２及び乗算器６３３の出力、…、加算器６４（ｎ－１）（図示せず）及び乗算器６３ｎの出力を加算する。これにより、加算器６４ｎは、Ａ／Ｄ変換器４より出力された振動信号を、Ａ／Ｄ変換器２より出力された音声信号に近付けるように補正した変換音声信号を出力する。

　減算器７は、加算器６４ｎより出力された変換音声信号と、Ａ／Ｄ変換器２より出力された音声信号との差分である残差信号を出力する。適応係数更新部６１は、残差信号が小さくなるように、乗算器６３０～６３ｎが入力されるサンプルに乗算する係数を更新する。

　このとき、適応係数更新部６１は、適応フィルタ制御信号がアクティブを示すハイであるときには、乗算器６３０～６３ｎに供給する係数を残差信号が小さくなるように短時間で更新する。適応係数更新部６１は、適応フィルタ制御信号がセーブを示すローであるときには、乗算器６３０～６３ｎに供給する係数を残差信号が小さくなる方向に長時間をかけて更新するか、係数を更新しない。

　図５で説明したように、適応制御部５は、音声区間検出部５１及び５２が音声区間であることを検出しても、環境雑音レベルが高レベルであれば適応フィルタ制御信号を適応フィルタ６における学習速度をセーブに設定するローとする。環境雑音レベルが高レベルであるときに乗算器６３０～６３ｎに供給する係数を更新すると、振動信号を環境雑音に近似させて変換音声信号の音質を低下させてしまうことがある。

　また、図６で説明したように、適応制御部５は、音声区間検出部５１及び５２が音声区間であることを検出しても、相関度が低ければ、適応フィルタ制御信号をローとする。同様に、相関度が低いときに乗算器６３０～６３ｎに供給する係数を更新すると変換音声信号の音質を低下させてしまうことがある。

　そこで、適応係数更新部６１は、適応フィルタ制御信号がローであれば、係数を更新しないか、更新するとしても即座には更新せず、長時間をかけて徐々に更新するのがよい。適応フィルタ６は、環境雑音レベルが高レベルとなる前または相関度が低くなる前までの学習によって、振動信号を音声信号に近付ける係数を得て、音声品質が良好な変換音声信号を出力している。従って、適応フィルタ６は、環境雑音レベルが高レベルとなったり、相関度が低くなったりする短時間だけ、係数を更新しなくても、音声品質が良好な変換音声信号を継続して出力することができる。

　図９は、環境雑音分析部８の具体的な構成例を示す。環境雑音分析部８は、音圧レベル取得部８１及び８２、音圧レベル比算出部８３、セレクタ制御信号設定部８４を備える。音圧レベル取得部８１は、Ａ／Ｄ変換器２より出力された音声信号の音圧レベルを取得する。音圧レベル取得部８２は、Ａ／Ｄ変換器４より出力された振動信号の音圧レベルを取得する。音圧レベル比算出部８３は、音声信号の音圧レベルと振動信号の音圧レベルとの比である音圧レベル比を算出する。音圧レベル比算出部８３が算出する音圧レベル比は、環境雑音レベルを示す。

　音圧レベル取得部８１及び８２と音圧レベル比算出部８３は、図４に示す適応制御部５内の音圧レベル取得部５３及び音圧レベル比算出部５５と実質的に同じ構成である。よって、適応制御部５内の音圧レベル取得部５３及び音圧レベル比算出部５５を環境雑音分析部８の一部として供用することも可能である。

　環境雑音分析部８は、音声区間における発話等の音声に環境雑音が影響を及ぼしていなければセレクタ９によってＡ／Ｄ変換器２より出力された音声信号を選択し、影響を及ぼしていればセレクタ９によって適応フィルタ６より出力された変換音声信号を選択するために設けられている。

　セレクタ制御信号設定部８４には、音圧レベル比算出部８３より出力される音圧レベル比と、適応制御部５より供給される適応フィルタ制御信号とが入力される。セレクタ制御信号設定部８４に適応フィルタ制御信号を入力しているのは、非音声区間における環境雑音レベルに基づいて、Ａ／Ｄ変換器２より出力された音声信号と適応フィルタ６より出力された変換音声信号とを選択するためのセレクタ制御信号を生成するためである。音声区間における環境雑音レベルは音声の影響を受けるため、真の環境雑音レベルを示さないことがある。

　セレクタ制御信号設定部８４は、非音声区間における環境雑音レベルが所定の閾値（第３の閾値）以下であれば音声信号を選択し、閾値を超えれば変換音声信号を選択するセレクタ制御信号を生成してセレクタ９に供給する。セレクタ制御信号設定部８４が用いる第３の閾値は、適応フィルタ学習速度設定部５７が用いる第１の閾値と同じ値であってもよいし、異なる値であってもよい。

　図１０は、セレクタ９が音声信号と変換音声信号とを選択する動作の一例を示している。図１０において、時刻ｔ１以前で環境雑音レベルが閾値以下で、環境雑音は音声区間の音声に影響を及ぼしていない。時刻ｔ１～ｔ３では、環境雑音レベルが閾値を超えて環境雑音が音声区間の音声に影響を及ぼしている。時刻ｔ３以降で、環境雑音は音声区間の音声に影響を及ぼさない状態に戻っている。

　この場合、環境雑音分析部８は時刻ｔ１以前で音声信号を選択するセレクタ制御信号をセレクタ９に供給しており、セレクタ９は音声信号を選択して出力する。時刻ｔ１を過ぎると、環境雑音分析部８は変換音声信号を選択するセレクタ制御信号をセレクタ９に供給する。セレクタ９は、即座に音声信号を変換音声信号に切り替えるのではなく、時刻ｔ１～ｔ２の時間をかけて、音声信号の音圧レベルを逓減させ、変換音声信号の音圧レベルを逓増させながら、時刻ｔ２で変換音声信号に切り替える。

　時刻ｔ３を過ぎると、環境雑音分析部８は音声信号を選択するセレクタ制御信号をセレクタ９に供給する。同様に、セレクタ９は、時刻ｔ３～ｔ４の時間をかけて、変換音声信号の音圧レベルを逓減させ、音声信号の音圧レベルを逓増させながら、時刻ｔ４で音声信号に切り替える。

　セレクタ９は、音声信号と変換音声信号とを互いに切り替える際に、一方の音圧レベルを逓減させ、他方の音圧レベルを逓増させながら、音声信号と変換音声信号とを混合するので、音声信号と変換音声信号とを互いに違和感なく切り替えることができる。

　セレクタ９は、図１０のように音声信号と変換音声信号とを切り替える代わりに、音声信号と変換音声信号とを適応的に混合してもよい。この場合、セレクタ９は、相関度算出部５６で算出される相関度に応じて音声信号と変換音声信号とを混合するのがよい。セレクタ９は、相関度が高ければ、音声信号の重み付けを大きくして音声信号と変換音声信号とを混合し、相関度が低ければ、変換音声信号の重み付けを大きくして音声信号と変換音声信号とを混合する。

　セレクタ９が相関度算出部５６で算出される相関度に応じて音声信号と変換音声信号とを混合するように構成されている場合、環境雑音分析部８を省略してもよい。相関度算出部５６が３段階以上の相関度を算出して、セレクタ９が音声信号と変換音声信号とを両者に対する重み付けを複数に可変させて混合してもよい。相関度算出部５６が算出する相関度は２段階であってもよく、任意の複数段階であればよい。

　図１に戻り、Ｄ／Ａ変換器１０は、セレクタ９から供給された音声信号、音声信号と変換音声信号との混合音声信号、または変換音声信号をＤ／Ａ変換して、アナログの出力音声信号を生成する。以上のようにして収音装置１００が生成した出力音声信号は、外部のスピーカ、ヘッドフォン、音声記録装置等の任意の機器へと供給される。

　以上のように、収音装置１００は、適応フィルタ６において変換音声信号に乗算する係数を、常時、短時間で残差信号が小さくなるように更新するのではなく、変換音声信号の品質を悪化させる可能性があるときには、長時間をかけて更新するか、更新しないように構成している。従って、収音装置１００によれば、振動センサ３が生成する振動信号に基づく音声信号（変換音声信号）の品質を特許文献１に記載の収音装置よりも向上させることができる。

　また、収音装置１００は、セレクタ９によってＡ／Ｄ変換器２より出力された音声信号と適応フィルタ６より出力された変換音声信号とを選択して出力する。従って、収音装置１００によれば、マイクロフォン１が生成する音声信号と振動センサ３が生成する振動信号に基づく音声信号とを環境に応じて適切に選択することができる。

＜第２実施形態＞
　以下、第２実施形態の収音装置、収音方法、及び収音プログラムについて、添付図面を参照して説明する。図１１は、第２実施形態の収音装置２００を示す。第２実施形態の収音装置２００において、第１実施形態の収音装置１００と同一部分には同一部分を付し、その説明を省略することがある。

　図１１において、マイクロフォン１は空気振動に基づいて音声信号（第１の音声信号）を生成する。Ａ／Ｄ変換器２は、マイクロフォン１より供給されるアナログの音声信号をＡ／Ｄ変換して、デジタルの音声信号をエコーキャンセラ２０に供給する。第１の音声信号は、人が耳を通して知覚する音声に近いものの、第１の音声信号にはエコー成分が含まれる場合がある。よって、エコーキャンセラ２０より出力される音声信号を、後述する振動信号を音声信号に変換する際の目標信号とすることが望ましい。

　通信相手から送信されてサーバ及び回線１１を介して受信した音声（以下、相手音声）であるデジタルの音声信号（第２の音声信号）は、エコーキャンセラ２０及びＤ／Ａ変換器１５に供給される。第２の音声信号を相手音声信号と称することがある。Ｄ／Ａ変換器１５は、入力されたデジタルの音声信号をＤ／Ａ変換して、アナログの音声信号をスピーカ１６に供給する。スピーカ１６は入力された音声信号を再生して相手音声を出力する。このとき、マイクロフォン１がスピーカ１６より出力された相手音声を収音することにより、ユーザが発した音声に通信相手が発した音声がエコー成分として重畳することがある。

　エコーキャンセラ２０は、Ａ／Ｄ変換器２より出力される音声信号に重畳しているエコー成分を、回線１１を介して受信した音声信号を用いて抑制する。エコーキャンセラ２０は、エコー成分が抑制された音声信号を適応制御部５及び減算器７に供給する。エコーキャンセラ２０はマイクロフォン１が収音した音声信号に重畳されているエコー成分を完全にはキャンセルすることができないことがあるが、エコーキャンセラ２０より出力される音声信号をエコーキャンセルされた音声信号と称することとする。

　一例として、エコーキャンセラ２０は図１２のように構成することができる。図１２に示すように、エコーキャンセラ２０は、適応制御部１２、適応フィルタ１３、減算器１４を備える。適応制御部１２は、適応フィルタ１３を制御するための適応フィルタ制御信号を生成して、適応フィルタ１３に供給する。適応フィルタ１３は、適応フィルタ制御信号に従って、相手音声信号に係数を乗算して、エコー成分が重畳した音声信号よりエコー成分をキャンセルするためのキャンセル音声信号を生成して減算器１４に供給する。適応フィルタ１３の具体的な構成例については後述する。

　エコーキャンセラ２０は図１２に示すような適応フィルタ１３を備える構成に限定されず、他のエコー抑制方法を用いてもよい。エコーキャンセラ２０の具体的な構成は限定されない。

　図１１に戻り、振動センサ３は、人体（収音装置２００のユーザの体）に伝わる振動に基づいて振動信号を生成する。振動センサ３は、人体の表面に接触するように配置されている。体内に埋め込まれている振動受信装置、人体と直に接するように配置されたマイクロフォン、人体の表面に伝わる振動を映像として取得するカメラ、人体の表面に伝わる振動を位置情報として取得する距離計は、振動センサに含まれる。Ａ／Ｄ変換器４は、振動センサ３より供給されるアナログの振動信号をＡ／Ｄ変換して、デジタルの振動信号を適応制御部５及び適応フィルタ６に供給する。

　適応フィルタ６は、後述するように、エコーキャンセラ２０より出力されたエコーキャンセルされた音声信号を目標信号として、振動信号をその目標信号に近付けるように補正することによって変換音声信号を生成して、回線１１に供給する。回線１１は例えばインターネット回線である。変換音声信号は回線１１及び図示していないインターネット通話用のサーバを介して、通信相手へと送信される。

　図１３において、（ａ）はマイクロフォン１が生成した音声信号、（ｂ）はスピーカ１６より出力された相手音声、（ｃ）は振動センサ３が生成した振動信号を示している。図１３の（ｂ）において、区間ｂ１、ｂ２、ｂ３は通信相手の発話による音声が存在する音声区間（発話区間）であり、区間ｂ１、ｂ２、ｂ３以外は相手音声が存在しない非音声区間（非発話区間）である。図１３の（ｃ）において、区間ｃ１及びｃ２はユーザの発話による音声が存在する音声区間であり、区間ｃ１及びｃ２以外はユーザの音声が存在しない非音声区間である。

　区間ｂ３の大部分は区間ｃ２と重複しており、相手音声もユーザの音声も音圧レベルが高いので、エコーキャンセラによってエコーキャンセルしてもエコー成分が残りやすい。区間ｂ１は区間ｃ１と重複しており、相手音声の音圧レベルは低いものの、エコー成分が残ることがある。区間ｂ２はユーザの音声の非音声区間に位置しており、エコーキャンセラによってエコーキャンセルすることによってエコー成分が十分にキャンセルされることが期待できる。

　図１４は、図１２に示す適応制御部１２の具体的な構成例を示す。適応制御部１２は、音声区間検出部１２１及び適応フィルタ学習速度設定部１２２を備える。音声区間検出部１２１はＶＡＤと称される技術によって相手音声の音声区間を検出して、相手音声区間情報を適応フィルタ学習速度設定部１２２に供給する。音声区間検出部１２１は、少なくとも音圧レベルが所定のレベルを超えるか否かによって音声区間を検出する。

　概略的には、適応制御部１２は、相手音声が存在する音声区間であるか相手音声が存在しない非音声区間であるかに応じて、適応フィルタ１３の動作を異ならせるための適応フィルタ制御信号を生成する。具体的には、適応フィルタ学習速度設定部１２２は、相手音声区間情報が相手音声の音声区間を示せば、学習速度をアクティブと設定するための適応フィルタ制御信号を生成して適応フィルタ１３に供給する。適応フィルタ学習速度設定部１２２は、相手音声区間情報が相手音声の非音声区間を示せば、学習速度をセーブと設定するための適応フィルタ制御信号を生成して適応フィルタ１３に供給する。

　学習速度がアクティブであるとは、適応フィルタ１３における適応動作を積極的に促すことを意味し、学習速度がセーブであるとは、適応フィルタ１３における適応動作を抑えるか停止することを意味する。

　具体的には、適応フィルタ１３における適応動作を積極的に促すとは、適応フィルタ１３が第１の速度で短時間のうちにエコー成分をキャンセルするためのキャンセル信号を生成するよう、後述する係数を更新するよう制御することを意味する。適応フィルタ１３における適応動作を抑えるとは、適応フィルタ１３が第１の速度より遅い第２の速度で長時間をかけて、係数を更新するよう制御することを意味する。適応フィルタ１３における適応動作を停止するとは、係数を更新しない（係数を維持する）よう制御することを意味する。

　図１５は、ＦＩＲフィルタを用いた適応フィルタ１３の具体的な構成例を示す。適応フィルタ１３は、適応係数更新部１３１、遅延器１３２１～１３２ｎ、乗算器１３３０～１３３ｎ、加算器１３４１～１３４ｎを備える。ｎは数十から数百程度の数である。遅延器１３２１～１３２ｎは、入力されたデジタルの相手音声信号の各サンプルを１クロックずつ遅延して出力する。乗算器１３３０～１３３ｎは、遅延器１３２１に入力されるサンプルと遅延器１３２１～１３２ｎより出力される各サンプルとにそれぞれ係数を乗算して出力する。

　加算器１３４１～１３４ｎは、それぞれ、乗算器１３３０及び１３３１の出力、加算器１３４１及び乗算器１３３２の出力、加算器１３４２及び乗算器１３３３の出力、…、加算器１３４（ｎ－１）（図示せず）及び乗算器１３３ｎの出力を加算する。これにより、加算器１３４ｎは、エコー成分が重畳した音声信号よりエコー成分をキャンセルするためのキャンセル音声信号を出力する。

　減算器１４は、Ａ／Ｄ変換器２より出力されたエコー成分が重畳した音声信号よりキャンセル音声信号を減算して、エコーキャンセルされた音声信号を出力する。適応係数更新部１３１は、エコー成分が極力残留しないキャンセル音声信号を生成するように、乗算器１３３０～１３３ｎが入力されるサンプルに乗算する係数を更新する。

　このとき、適応係数更新部１３１は、適応フィルタ制御信号がアクティブを示すハイであるときには、乗算器１３３０～１３３ｎに供給する係数を短時間で更新する。適応係数更新部１３１は、適応フィルタ制御信号がセーブを示すローであるときには、乗算器１３３０～１３３ｎに供給する係数を長時間をかけて更新するか、係数を更新しない。

　図１６は、適応制御部５の具体的な第１の構成例を示す。図１１及び図１６に示すように、適応制御部５には、エコーキャンセラ２０より出力された音声信号及び振動信号の他に、回線１１より供給される相手音声信号が入力される。適応制御部５は、音声区間検出部５１０、残留エコーレベル推定部５２０、適応フィルタ学習速度設定部５５０を備える。

　音声区間検出部５１０はＶＡＤと称される技術によって振動信号の音声区間を検出して、音声区間情報を適応フィルタ学習速度設定部５５０に供給する。音声区間検出部５１０は、少なくとも音圧レベルが所定のレベルを超えるか否かによって音声区間を検出する。残留エコーレベル推定部５２０には、エコーキャンセラ２０より出力された音声信号と、相手音声信号とが入力される。残留エコーレベル推定部５２０は、相手音声信号の音圧レベルとエコーキャンセラ２０より出力された音声信号の音圧レベルとの所定の単位時間当たりの相対音圧レベル比を算出することによって、目標信号に残留する残留エコーレベルを推定する。所定の単位時間は、例えば数ミリ秒または数十ミリ秒程度である。残留エコーレベル推定部５２０は、残留エコーレベルを適応フィルタ学習速度設定部５５０に供給する。

　適応フィルタ学習速度設定部５５０は、音声区間情報がユーザの音声区間を示し、かつ残留エコーレベルが所定の閾値以下であるという第１の条件を満たせば、学習速度をアクティブと設定するための適応フィルタ制御信号を生成して適応フィルタ６に供給する。適応フィルタ学習速度設定部５５０は、第１の条件を満たさなければ、学習速度をセーブと設定するための適応フィルタ制御信号を生成して適応フィルタ６に供給する。

　学習速度がアクティブであるとは、適応フィルタ６における適応動作を積極的に促すことを意味し、学習速度がセーブであるとは、適応フィルタ６における適応動作を抑えるか停止することを意味する。

　具体的には、適応フィルタ６における適応動作を積極的に促すとは、適応フィルタ６が第３の速度で短時間のうちに振動信号に乗算する後述する係数を更新するよう制御することを意味する。適応フィルタ６における適応動作を抑えるとは、適応フィルタ６が第３の速度より遅い第４の速度で長時間をかけて、係数を更新するよう制御することを意味する。適応フィルタ６における適応動作を停止するとは、係数を更新しない（係数を維持する）よう制御することを意味する。第３の速度は第１の速度と同じでもよいし異なっていてもよく、第４の速度は第２の速度と同じでもよいし異なっていてもよい。

　音声区間情報がユーザの音声区間を示さない場合は、目標信号となる音声信号が存在しないので学習速度をセーブと設定するのがよい。音声区間情報がユーザの音声区間を示しても残留エコーレベルが閾値を超える場合には、残留エコー成分の存在によって変換音声信号の品質を悪化させる可能性があるため、学習速度をセーブと設定するのがよい。適応フィルタ６による変換音声信号の品質を悪化させない、残留エコーレベルと比較すべき閾値を予め測定して記憶部に記憶させておいてもよい。

　図１７は、適応制御部５の具体的な第２の構成例を示す。適応制御部５は、音声区間検出部５１０、残留エコーレベル推定部５２０、振動信号レベル補正部５３０、レベル比算出部５４０、適応フィルタ学習速度設定部５５０を備える。図１７において、図１６と同一部分には同一符号を付し、その説明を省略することがある。

　振動信号レベル補正部５３０には、音声区間検出部５１０より出力された振動信号の音声区間情報と、振動信号と、エコーキャンセラ２０より出力された音声信号とが入力される。振動信号レベル補正部５３０は、振動信号の音声区間において、振動信号とエコーキャンセラ２０より出力された音声信号との所定の単位時間当たりの相対音圧レベル比を算出する。また、振動信号レベル補正部５３０は、振動信号の音圧レベルを、相対音圧レベル比に基づいて音声信号の音圧レベルに相当する音圧レベルに補正した補正音圧レベルを出力する。所定の単位時間は、例えば数ミリ秒または数十ミリ秒程度である。

　マイクロフォン１が収音した音声信号はエコー成分または環境雑音を含むことがある。振動信号の音圧レベルを音声信号の音圧レベルに相当する音圧レベルに補正すれば、エコー成分または環境雑音の影響を受けない比較的正確な音声信号の音圧レベルを得ることができる。

　図１７の残留エコーレベル推定部５２０には、エコーキャンセラ２０より出力された音声信号と、相手音声信号と、振動信号の音声区間情報とが入力される。残留エコーレベル推定部５２０は、音声区間検出部１２１と同様に、ＶＡＤと称される技術によって相手音声信号の音声区間を検出して相手音声区間情報を生成し、相手音声信号の音圧レベルを検出して相手音圧情報を生成する。

　振動信号の音声区間情報がユーザの非音声区間を示し、相手音声区間情報が相手音声信号の音声区間を示せば、マイクロフォン１はユーザが発する音声を収音せずエコーのみを収音するから、エコーキャンセラ２０より出力された音声信号はエコー成分のみを含む。

　そこで、残留エコーレベル推定部５２０は、振動信号の音声区間情報がユーザの非音声区間を示し、相手音声区間情報が相手音声信号の音声区間を示すとき、相手音圧情報とエコーキャンセラ２０より出力された音声信号との所定の単位時間当たりの相対音圧レベル比を算出する。ここでの所定の単位時間も、例えば数ミリ秒または数十ミリ秒程度である。残留エコーレベル推定部５２０が算出する相対音圧レベル比は推定された残留エコーレベルに相当する。このようにして残留エコーレベル推定部５２０は残留エコーレベルを推定する。

　レベル比算出部５４０には、残留エコーレベル推定部５２０より出力された残留エコーレベルと、振動信号レベル補正部５３０より出力された補正音圧レベルとが入力される。レベル比算出部５４０は、補正音圧レベルを残留エコーレベルで除算して、補正音圧レベルと残留エコーレベルとの相対音圧レベル比を算出する。残留エコーレベル推定部５２０によって、マイクロフォン１が収音した音声信号に含まれている残留エコーレベルが予め推定されている。振動信号レベル補正部５３０によって、振動信号に基づく音声信号の音圧レベルに相当する補正音圧レベルが得られている。

　従って、レベル比算出部５４０が算出する相対音圧レベル比は、マイクロフォン１が環境雑音を収音する状態であっても、ユーザが発する音声と相手音声とが重なった状態であっても正確な音圧レベル比となる。レベル比算出部５４０が算出する相対音圧レベル比が所定の閾値を超えていれば、エコーキャンセラ２０より出力された音声信号はほとんどエコー成分を含まず、エコーキャンセラ２０によってエコー成分がキャンセルされているということになる。レベル比算出部５４０が算出する相対音圧レベル比が所定の閾値以下であれば、エコーキャンセラ２０より出力された音声信号がエコー成分を含み、エコーキャンセラ２０によってエコー成分がキャンセルされていないということになる。

　適応フィルタ学習速度設定部５５０には、音声区間検出部５１０より出力された音声区間情報と、レベル比算出部５４０より出力された相対音圧レベル比とが入力される。適応フィルタ学習速度設定部５５０は、音声区間情報がユーザの音声区間を示し、レベル比算出部５４０より出力された相対音圧レベル比が閾値を超えるという第２の条件を満たせば、学習速度をアクティブと設定するための適応フィルタ制御信号を生成して適応フィルタ６に供給する。適応フィルタ学習速度設定部５５０は、第２の条件を満たさなければ、学習速度をセーブと設定するための適応フィルタ制御信号を生成して適応フィルタ６に供給する。

　音声区間情報がユーザの音声区間を示さない場合は、目標信号となる音声信号が存在しないので学習速度をセーブと設定するのがよい。音声区間情報がユーザの音声区間を示しても相対音圧レベル比が閾値以下である場合には、残留エコー成分の存在によって変換音声信号の品質を悪化させる可能性があるため、学習速度をセーブと設定するのがよい。

　図１７において、適応制御部５の具体的な第３の構成例として、適応フィルタ学習速度設定部５５０に残留エコーレベル推定部５２０によって生成された相手音声区間情報を入力してもよい。この場合、適応フィルタ学習速度設定部５５０は、相手音声区間情報が相手音声信号の非音声区間を示し、かつ音声区間情報がユーザの音声区間を示すという第３の条件を満たせば、学習速度をアクティブと設定するための適応フィルタ制御信号を生成して適応フィルタ６に供給する。

　適応フィルタ学習速度設定部５５０は、相手音声区間情報が相手音声信号の音声区間を示し、レベル比算出部５４０より出力された相対音圧レベル比が閾値を超え、かつ音声区間情報がユーザの音声区間を示すという第４の条件を満たせば、学習速度をアクティブと設定するための適応フィルタ制御信号を生成して適応フィルタ６に供給する。

　適応フィルタ学習速度設定部５５０は、第３の条件と第４の条件のいずれも満たさなければ、学習速度をセーブと設定するための適応フィルタ制御信号を生成して適応フィルタ６に供給する。

　図１７に示す適応制御部５は、より好ましい構成として、振動信号レベル補正部５３０を備え、レベル比算出部５４０は、振動信号レベル補正部５３０で補正された振動信号の音圧レベル（補正音圧レベル）を振動信号レベルとして、振動信号レベルと残留エコーレベルとの相対音圧レベル比を算出している。簡略化のため、適応制御部５の具体的な第４の構成例として、振動信号レベル補正部５３０を省略してもよい。この場合、レベル比算出部５４０は、振動信号の音圧レベルを示す振動信号レベルと残留エコーレベルとのレベル比を算出すればよい。また、振動信号の音圧レベルが十分に高く、適応フィルタ６による変換音声信号の品質が維持されると推定される振動信号レベルと残留エコーレベルとのレベル比の閾値を予め測定して記憶部に記憶させておいてもよい。

　適応フィルタ学習速度設定部５５０は、音声区間情報がユーザの音声区間を示し、レベル比算出部５４０が算出したレベル比が所定の閾値を超えるという第５の条件を満たせば、学習速度をアクティブと設定するための適応フィルタ制御信号を生成して適応フィルタ６に供給する。適応フィルタ学習速度設定部５５０は、第５の条件を満たさなければ、学習速度をセーブと設定するための適応フィルタ制御信号を生成して適応フィルタ６に供給する。

　図１１において、減算器７は、適応フィルタ６より出力された変換音声信号と、エコーキャンセラ２０より出力された音声信号との差分を残差信号として、適応フィルタ６に供給する。

　図１８は、ＦＩＲフィルタを用いた適応フィルタ６の具体的な構成例を示す。収音装置２００の適応フィルタ６は、収音装置１００の適応フィルタ６と同様の構成を備える。適応フィルタ６は、適応係数更新部６１、遅延器６２１～６２ｎ、乗算器６３０～６３ｎ、加算器６４１～６４ｎを備える。ｎは数十から数百程度の数である。遅延器６２１～６２ｎは、入力されたデジタルの振動信号の各サンプルを１クロックずつ遅延して出力する。乗算器６３０～６３ｎは、遅延器６２１に入力されるサンプルと遅延器６２１～６２ｎより出力される各サンプルとにそれぞれ係数を乗算して出力する。

　加算器６４１～６４ｎは、それぞれ、乗算器６３０及び６３１の出力、加算器６４１及び乗算器６３２の出力、加算器６４２及び乗算器６３３の出力、…、加算器６４（ｎ－１）（図示せず）及び乗算器６３ｎの出力を加算する。これにより、加算器６４ｎは、Ａ／Ｄ変換器４より出力された振動信号を、エコーキャンセラ２０より出力された音声信号に近付けるように補正した変換音声信号を出力する。

　減算器７は、加算器６４ｎより出力された変換音声信号と、エコーキャンセラ２０より出力された音声信号との差分である残差信号を出力する。適応係数更新部６１は、残差信号が小さくなるように、乗算器６３０～６３ｎが入力されるサンプルに乗算する係数を更新する。

　適応フィルタ６は、学習速度をアクティブと設定するための適応フィルタ制御信号が入力されるときには、乗算器６３０～６３ｎに供給する係数を短時間で更新して、振動信号を音声信号に近付けるように補正する。これにより、収音装置２００は、即座に音声品質が良好な変換音声信号を回線１１へと供給することができる。

　適応フィルタ６は、学習速度をセーブと設定するための適応フィルタ制御信号が入力されるときには、乗算器６３０～６３ｎに供給する係数を更新しないか、更新するとしても即座には更新せず、長時間をかけて徐々に更新する。これにより、収音装置２００は、変換音声信号の音声品質をほとんど低下させることなく、音声品質が維持された変換音声信号を回線１１へと供給することができる。

　適応フィルタ６は、第１～第５の条件のうちのいずれかの条件を満たしているときの学習によって、振動信号を音声信号に近付ける係数を得て、音声品質が良好な変換音声信号を出力する。従って、適応フィルタ６は、第１～第５の条件のいずれも満たさない状態となっても、既に得られた振動信号を音声信号に近付ける係数を用いて変換音声信号を生成するので、音声品質が良好な変換音声信号を継続して出力することができる。

　図１９Ａ及び図１９Ｂに示すフローチャートを用いて、収音装置２００が実行する一連の動作を説明する。図１９Ａ及び図１９Ｂに示すフローチャートは、適応制御部５が図１７に示す第２の構成例である場合の動作を示す。

　図１９Ａにおいて、収音装置２００の電源がオンされて処理を開始すると、適応制御部１２は、ステップＳ１にて、相手音声区間情報及び相手音圧情報を生成する。適応制御部１２は、ステップＳ２にて、相手音声区間情報に基づき、相手音声区間であるか否かを判定する。相手音声区間であれば（YES）、適応制御部１２は、ステップＳ３にて、適応フィルタ１３にアクティブを示す適応フィルタ制御信号を供給する。相手音声区間でなければ（NO）、適応制御部１２は、ステップＳ４にて、適応フィルタ１３にセーブを示す適応フィルタ制御信号を供給する。

　ステップＳ３に続けて、適応フィルタ１３は、ステップＳ５にて、乗算器１３３０～１３３ｎに供給する係数を短時間で更新する。ステップＳ４に続けて、適応フィルタ１３は、ステップＳ６にて、乗算器１３３０～１３３ｎに供給する係数を長時間をかけて更新するか更新しない。

　適応制御部５は、ステップＳ７にて、振動信号に基づいて音声区間を判定し、ステップＳ８にて、振動信号の音圧レベルを補正する。ステップＳ７及びＳ８と並行して、適応制御部５は、ステップＳ９にて、残留エコーレベルを推定する。続けて、適応制御部５は、ステップＳ１０にて、補正音圧レベルと残留エコーレベルとの相対音圧レベル比を算出する。

　適応制御部５は、図１９ＢのステップＳ１１にて、振動信号の音声区間情報に基づき、音声区間であるか否かを判定する。音声区間であれば（YES）、適応制御部５は処理をステップＳ１２に移行させる。音声区間でなければ（NO）、適応制御部５は処理をステップＳ１４に移行させる。適応制御部５は、ステップＳ１２にて、補正音圧レベルと残留エコーレベルとの相対音圧レベル比が閾値を超えるか否かを判定する。相対音圧レベル比が閾値を超えれば（YES）、適応制御部５は処理をステップＳ１３に移行させる。相対音圧レベル比が閾値を超えなければ（NO）、適応制御部５は処理をステップＳ１４に移行させる。

　適応制御部５は、ステップＳ１３にて、適応フィルタ６にアクティブを示す適応フィルタ制御信号を供給する。適応制御部５は、ステップＳ１４にて、適応フィルタ６にセーブを示す適応フィルタ制御信号を供給する。ステップＳ１３に続けて、適応フィルタ６は、ステップＳ１５にて、乗算器６３０～６３ｎに供給する係数を短時間で更新する。ステップＳ１４に続けて、適応フィルタ６は、ステップＳ１６にて、乗算器６３０～６３ｎに供給する係数を長時間をかけて更新するか更新しない。

　収音装置２００は、ステップＳ１５またはＳ１６に続けて、ステップＳ１７にて、電源オフの操作がなされたか否かを判定する。電源オフの操作がなされなければ（NO）、収音装置２００は処理を図１９ＡのステップＳ１に戻し、ステップＳ１～Ｓ１７の処理を繰り返す。電源オフの操作がなされれば（YES）、収音装置２００は処理を終了させる。

　以上のように、収音装置２００は、適応フィルタ６において変換音声信号に乗算する係数を、常時、短時間で残差信号が小さくなるように更新するわけではない。収音装置２００は、残留エコー成分の存在によって変換音声信号の品質を悪化させる可能性があるときには、長時間をかけて更新するか、更新しないように構成している。従って、収音装置２００によれば、振動センサ３が生成する振動信号に基づく音声信号（変換音声信号）の品質を向上させることができる。

　収音装置２００によれば、ユーザの音声信号に通信相手の音声のエコー成分が重畳することがある環境下において、振動センサ３が生成する振動信号に基づく音声信号の品質をより向上させることができる。

　本発明は以上説明した第１実施形態または第２実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々変更可能である。図１において、マイクロフォン１及び振動センサ３を除く部分が、マイクロコンピュータによって構成されていてもよい。この場合、収音装置１００は、非一時的な記憶媒体に記憶されたコンピュータプログラム（収音プログラム）がマイクロコンピュータの中央処理装置に上述した音声信号と変換音声信号との選択的な出力処理を実行させる。マイクロフォン１及び振動センサ３を除く部分がハードウェアで構成されて集積回路によって構成されていてもよい。

　第１実施形態の収音プログラムは、コンピュータに、少なくとも次の第１～第４のステップを実行させればよい。第１のステップは、振動センサ３が生成した人体に伝わる振動に基づく振動信号をマイクロフォン１が生成した空気振動に基づく音声信号に近付けるように補正するために、振動信号に係数を乗算して変換音声信号を生成するステップである。第２のステップは、音声信号と変換音声信号との差分である残差信号を生成するステップである。

　第３のステップは、音声が存在する音声区間であると判定されるときには、第１の速度で残差信号が小さくなるように係数を更新するステップである。第４のステップは、音声が存在しない非音声区間であると判定されるときには、第１の速度より遅い第２の速度で残差信号が小さくなるように係数を更新するか、係数を更新せず維持するステップである。第１実施形態の収音プログラムは、コンピュータに、音声信号と変換音声信号とを選択するか両者を混合して出力する第５のステップをさらに実行させるのがよい。

　図１１における適応制御部５の第２及び第３の構成例においては、残留エコーレベル推定部５２０が相手音声区間情報を生成している。適応制御部５が用いる相手音声区間情報は適応制御部５の外部で生成されてもよい。図１４に示す適応制御部１２が備える音声区間検出部１２１が生成した相手音声区間情報を適応制御部５に入力してもよい。また、残留エコーレベル推定部５２０が相手音圧情報を生成するが、適応制御部５の外部で生成されてもよい。適応制御部１２内に相手音声信号の音圧レベルを検出する音圧情報検出部を設け、その音圧情報検出部が生成した相手音圧情報を適応制御部５に入力してもよい。

　図１１において、エコーキャンセラ２０より出力された音声信号と、適応フィルタ６より出力された変換音声信号とを選択して回線１１に供給するセレクタを設けてもよい。マイクロフォン１が生成した音声信号に環境雑音が重畳しているか否かを分析する環境雑音分析部を設け、セレクタは、環境雑音が重畳していなければエコーキャンセラ２０より出力された音声信号を選択し、環境雑音が重畳していれば変換音声信号を選択すればよい。

　図１１において、マイクロフォン１、振動センサ３、回線１１、及びスピーカ１６を除く部分が、マイクロコンピュータによって構成されていてもよい。この場合、収音装置２００は、非一時的な記憶媒体に記憶されたコンピュータプログラム（収音プログラム）がマイクロコンピュータの中央処理装置に上述した処理を実行させる。マイクロフォン１、振動センサ３、回線１１、及びスピーカ１６を除く部分がハードウェアで構成されて集積回路によって構成されていてもよい。

　第２実施形態の収音プログラムは、コンピュータに、少なくとも次の第１～第４のステップを実行させればよい。第１のステップは、マイクロフォン１が生成した空気振動に基づく第１の音声信号に、通信相手から送信されて回線を介して受信した第２の音声信号がスピーカ１６によって再生された音声をマイクロフォン１が収音することによって重畳したエコー成分を抑制するステップである。

　第２のステップは、エコー成分が抑制された第１の音声信号を目標信号として、振動センサ３が生成した、発話によって人体に伝わる振動に基づく振動信号を目標信号に近付けるように、振動信号に係数を乗算して変換音声信号を生成するステップである。第３のステップは、目標信号と変換音声信号との差分である残差信号を生成するステップである。第４のステップは、振動信号に乗算する係数を残差信号が小さくなるように更新するステップである。

　本願は、２０２１年１１月３０日に日本国特許庁に出願された特願２０２１－１９４２３３号、及び２０２２年１月１９日に日本国特許庁に出願された特願２０２２－００６１３６に基づく優先権を主張するものであり、それらの全ての開示内容は引用によりここに援用される。

Claims

　空気振動に基づく第１の音声信号を生成するマイクロフォンと、
　発話によって人体に伝わる振動に基づく振動信号を生成する振動センサと、
　前記第１の音声信号を目標信号として、前記振動信号を前記目標信号に近付けるように、前記振動信号に係数を乗算して変換音声信号を生成する適応フィルタと、
　前記目標信号と前記変換音声信号との差分である残差信号を生成する減算器と、
　前記適応フィルタが前記振動信号に乗算する係数を前記残差信号が小さくなるように更新するよう制御する適応制御部と、
　を備える収音装置。
　前記適応制御部は、
　音声が存在する音声区間であると判定されるときには、前記適応フィルタが第１の速度で前記残差信号が小さくなるように前記係数を更新するよう制御する適応フィルタ制御信号を生成して前記適応フィルタに供給し、
　音声が存在しない非音声区間であると判定されるときには、前記適応フィルタが前記第１の速度より遅い第２の速度で前記残差信号が小さくなるように前記係数を更新するよう制御するか、前記係数を更新しないように制御する適応フィルタ制御信号を生成して前記適応フィルタに供給する
　請求項１に記載の収音装置。
　前記適応制御部は、
　前記第１の音声信号と前記振動信号との少なくとも一方に基づいて検出された音声区間であり、かつ前記第１の音声信号と前記振動信号との音圧レベル比に基づく環境雑音レベルが第１の閾値以下であるという第１の条件を満たすとき、前記適応フィルタが前記第１の速度で前記係数を更新するよう制御する適応フィルタ制御信号を生成し、
　前記第１の条件を満たさないとき、前記適応フィルタが前記第２の速度で前記係数を更新するよう制御するか、前記係数を更新しないように制御する適応フィルタ制御信号を生成する
　請求項２に記載の収音装置。
　前記適応制御部は、
　前記第１の音声信号と前記振動信号との少なくとも一方に基づいて検出された音声区間であり、かつ前記第１の音声信号と前記変換音声信号との差分である残差信号を前記振動信号のレベルで正規化した残差相対レベルが第２の閾値以下であるという第２の条件を満たすとき、前記適応フィルタが前記第１の速度で前記係数を更新するよう制御する適応フィルタ制御信号を生成し、
　前記第２の条件を満たさないとき、前記適応フィルタが前記第２の速度で前記係数を更新するよう制御するか、前記係数を更新しないように制御する適応フィルタ制御信号を生成する
　請求項２に記載の収音装置。
　前記適応制御部は、
　前記第１の音声信号と前記振動信号との少なくとも一方に基づいて音声区間を検出する音声区間検出部と、
　前記第１の音声信号と前記変換音声信号との差分である残差信号を前記振動信号のレベルで正規化した残差相対レベルを取得する残差相対レベル取得部と、
　前記残差相対レベル取得部が取得した残差相対レベルに応じて、前記第１の音声信号と前記振動信号との複数段階の相関度を算出する相関度算出部と、
　を有する
　請求項２に記載の収音装置。
　前記第１の音声信号と前記変換音声信号とを選択するか両者を混合して出力するセレクタをさらに備える請求項２～５のいずれか１項に記載の収音装置。
　前記非音声区間における前記第１の音声信号と前記振動信号との音圧レベル比に基づく環境雑音レベルが第３の閾値以下であれば前記第１の音声信号を選択し、前記第３の閾値を超えれば前記変換音声信号を選択するよう、前記セレクタを制御するセレクタ制御信号を生成して前記セレクタに供給する環境雑音分析部をさらに備える請求項６に記載の収音装置。
　前記第１の音声信号と前記変換音声信号とを選択するか両者を混合して出力するセレクタをさらに備え
　前記セレクタは、前記相関度算出部によって算出された相関度に応じて前記第１の音声信号と前記変換音声信号とを適応的に混合して出力する
　請求項５に記載の収音装置。
　通信相手から送信されて回線を介して受信した第２の音声信号がスピーカによって再生された音声を前記マイクロフォンが収音することによって前記第１の音声信号に重畳したエコー成分を抑制するエコーキャンセラをさらに備え、
　前記適応フィルタは、前記エコーキャンセラによってエコー成分が抑制された前記第１の音声信号を目標信号として、前記振動信号を前記目標信号に近付けるように、前記振動信号に係数を乗算して変換音声信号を生成する
　請求項１に記載の収音装置。
　前記適応制御部は、
　前記目標信号の音圧レベルと前記第２の音声信号の音圧レベルとに基づいて前記目標信号に残留する残留エコーレベルを推定する残留エコーレベル推定部と、
　前記振動信号が音声区間を示し、かつ前記残留エコーレベルが所定の閾値以下であるという条件を満たせば、第１の速度で前記係数を更新するよう前記適応フィルタを制御し、前記条件を満たさなければ、前記第１の速度より遅い第２の速度で前記係数を更新するよう制御するか、前記係数を更新しないよう前記適応フィルタを制御する適応フィルタ学習速度設定部と、
　を備える請求項９に記載の収音装置。
　前記適応制御部は、
　前記目標信号の音圧レベルと前記第２の音声信号の音圧レベルとに基づいて前記目標信号に残留する残留エコーレベルを推定する残留エコーレベル推定部と、
　前記振動信号の音圧レベルを示す振動信号レベルと前記残留エコーレベルとのレベル比を算出するレベル比算出部と、
　前記振動信号が音声区間を示し、かつ前記レベル比が所定の閾値を超えるという条件を満たせば、第１の速度で前記係数を更新するよう前記適応フィルタを制御し、前記条件を満たさなければ、前記第１の速度より遅い第２の速度で前記係数を更新するよう制御するか、前記係数を更新しないよう前記適応フィルタを制御する適応フィルタ学習速度設定部と、
　を備える請求項９に記載の収音装置。
　前記適応制御部は、前記振動信号の音声区間における前記振動信号と前記目標信号との相対音圧レベル比を算出し、前記振動信号の音圧レベルを前記相対音圧レベル比に基づいて前記第１の音声信号の音圧レベルに相当する音圧レベルに補正する振動信号レベル補正部をさらに備え、
　前記レベル比算出部は、前記振動信号レベル補正部で補正された前記振動信号の音圧レベルを前記振動信号レベルとして、前記振動信号レベルと前記残留エコーレベルとの相対音圧レベル比を算出する
　請求項１１に記載の収音装置。
　マイクロフォンが空気振動に基づく音声信号を生成し、
　振動センサが人体に伝わる振動に基づく振動信号を生成し、
　適応フィルタが、前記振動信号を前記音声信号に近付けるように補正するために、前記振動信号に係数を乗算して変換音声信号を生成し、
　減算器が、前記音声信号と前記変換音声信号との差分である残差信号を生成し、
　適応制御部が、音声が存在する音声区間であると判定されるときには、前記適応フィルタが第１の速度で前記残差信号が小さくなるように前記係数を更新するよう制御し、音声が存在しない非音声区間であると判定されるときには、前記適応フィルタが前記第１の速度より遅い第２の速度で前記残差信号が小さくなるように前記係数を更新するよう制御するか、前記係数を更新しないように制御する適応フィルタ制御信号を生成して前記適応フィルタに供給する
　収音方法。
　マイクロフォンが空気振動に基づく第１の音声信号を生成し、
　振動センサが発話によって人体に伝わる振動に基づく振動信号を生成し、
　エコーキャンセラが、通信相手から送信されて回線を介して受信した第２の音声信号がスピーカによって再生された音声を前記マイクロフォンが収音することによって前記第１の音声信号に重畳したエコー成分を抑制し、
　適応フィルタが、前記エコーキャンセラによってエコー成分が抑制された前記第１の音声信号を目標信号として、前記振動信号を前記目標信号に近付けるように、前記振動信号に係数を乗算して変換音声信号を生成し、
　減算器が、前記目標信号と前記変換音声信号との差分である残差信号を生成し、
　適応制御部が、前記適応フィルタが前記振動信号に乗算する係数を前記残差信号が小さくなるように更新するよう制御する
　収音方法。
　コンピュータに、
　振動センサが生成した人体に伝わる振動に基づく振動信号をマイクロフォンが生成した空気振動に基づく音声信号に近付けるように補正するために、前記振動信号に係数を乗算して変換音声信号を生成するステップと、
　前記音声信号と前記変換音声信号との差分である残差信号を生成するステップと、
　音声が存在する音声区間であると判定されるときには、第１の速度で前記残差信号が小さくなるように前記係数を更新するステップと、
　音声が存在しない非音声区間であると判定されるときには、前記第１の速度より遅い第２の速度で前記残差信号が小さくなるように前記係数を更新するか、前記係数を更新せず維持するステップと、
　を実行させる収音プログラム。
　コンピュータに、
　マイクロフォンが生成した空気振動に基づく第１の音声信号に、通信相手から送信されて回線を介して受信した第２の音声信号がスピーカによって再生された音声を前記マイクロフォンが収音することによって重畳したエコー成分を抑制するステップと、
　エコー成分が抑制された前記第１の音声信号を目標信号として、振動センサが生成した、発話によって人体に伝わる振動に基づく振動信号を前記目標信号に近付けるように、前記振動信号に係数を乗算して変換音声信号を生成するステップと、
　前記目標信号と前記変換音声信号との差分である残差信号を生成するステップと、
　前記振動信号に乗算する係数を前記残差信号が小さくなるように更新するステップと、
　を実行させる収音プログラム。