WO2019012587A1

WO2019012587A1 - ゲイン調整装置、遠隔会話装置、ゲイン調整方法、およびゲイン調整プログラム

Info

Publication number: WO2019012587A1
Application number: PCT/JP2017/025163
Authority: WO
Inventors: 訓史鵜飼; 未輝雄村松
Original assignee: ヤマハ株式会社
Priority date: 2017-07-10
Filing date: 2017-07-10
Publication date: 2019-01-17
Also published as: US10893358B2; JPWO2019012587A1; US20200120420A1

Abstract

ゲイン調整装置は、レベル調整器と、センサと、設定部と、を備えている。レベル調整器は、マイクで取得した音声信号のレベルを調整する。センサは、距離に応じて変化する物理量を測定する。設定部は、前記センサの測定結果に応じて、前記レベル調整器のゲインを設定する。

Description

ゲイン調整装置、遠隔会話装置、ゲイン調整方法、およびゲイン調整プログラム

　本発明の一実施形態は、音声信号のゲインを調整するゲイン調整装置、遠隔会話装置、ゲイン調整方法、およびゲイン調整プログラムに関する。

　特許文献１の音声信号自動レベル調整装置は、入力信号のレベルを監視して、高レベルの信号が入力されたときに、該信号を減衰させる構成が開示されている。

特公昭６２－３１８５６号公報

　特許文献１の音声信号自動レベル調整装置は、話者が大きい声で話しても、小さい声で話しても、一定音量に調整してしまうため、話者が意図的に音量を変化させたとしても、同じ音量に調整してしまう。

　本発明の一実施形態は、話者との距離に関わらずレベルを一定とし、かつ話者の音量の変化を反映させることができるゲイン調整装置、遠隔会話装置、ゲイン調整方法、およびゲイン調整プログラムを提供することを目的とする。

　本発明の一実施形態に係るゲイン調整装置は、レベル調整器と、センサと、設定部と、を備えている。レベル調整器は、マイクで取得した音声信号のレベルを調整する。センサは、距離に応じて変化する物理量を測定する。設定部は、前記センサの測定結果に応じて、前記レベル調整器のゲインを設定する。

　本発明の一実施形態によれば、話者との距離に関わらずレベルを一定とし、かつ話者の音量の変化を反映させることができる。

収音装置の構成を示す概略図である。収音装置の構成を示すブロック図である。ＣＰＵの機能的構成を示すブロック図である。収音装置の動作を示すフローチャートである。変形例１に係る収音装置１Ａの外観概略図である。収音装置１Ａの構成を示すブロック図である。ＣＰＵの機能的構成を示すブロック図である。バンドパスフィルタをさらに備えたＣＰＵの機能的構成を示すブロック図である。スピーカ１６をさらに備えた音声処理装置１Ｂを示す図である。音声処理システムの構成を示す図である。ヘッドセット型の筐体を示す図である。図１２（Ａ）および図１２（Ｂ）は、第２実施形態に係る音声処理システムの特徴を示す概略図である。

　（第１実施形態）
　第１実施形態のゲイン調整装置は、レベル調整器と、センサと、設定部と、を備えている。レベル調整器は、マイクで取得した音声信号のレベルを調整する。センサは、距離に応じて変化する物理量を測定する。設定部は、前記センサの測定結果に応じて、前記レベル調整器のゲインを設定する。

　第１実施形態のゲイン調整装置は、距離に応じて変化する物理量（例えば電磁波の送信から受信までの時間、または複数のマイクで取得される信号レベルの比、等）を取得し、該物理量に応じてゲインを設定するため、話者との距離に関わらず一定のゲインに調整することが可能となる。また、ゲイン調整装置は、距離が変化しない場合には、ゲイン設定も変化しないため、話者が意図的に音量を変化させた場合に、該話者の音量の変化を反映させることができる。

　図１は、ゲイン調整装置を備える収音装置１の構成を示す外観の概略図である。図１においては、収音に係る主構成を記載して、その他の構成は記載していない。収音装置１は、円筒形状の筐体５０、マイク１５、およびセンサ１７を備えている。

　マイク１５は、筐体５０の上面に配置されている。ただし、筐体５０の形状、およびマイクの配置態様は一例であり、この例に限るものではない。マイク１５は、例えば指向性マイクである。マイク１５は、装置の前方（図中の左方向）の感度が最も強く、後方（図中の右方向）に感度が無い。ただし、マイクの指向性も、この例に限るものではない。

　図２に示すように、収音装置１は、インタフェース（Ｉ／Ｆ）１１、ＣＰＵ１２、ＲＡＭ１３、メモリ１４、マイク１５、およびセンサ１７を備えている。

　メモリ１４は、フラッシュメモリまたはハードディスクドライブ（ＨＤＤ）等の記憶媒体からなる。メモリ１４は、ＣＰＵ１２の動作用プログラムを記憶している。

　マイク１５は、話者の音声を取得する。マイク１５は、取得した音声に係る音声信号をＣＰＵ１２に出力する。ＣＰＵ１２は、マイク１５から入力された音声信号に信号処理を施して、Ｉ／Ｆ１１に出力する。なお、収音装置１は、信号処理の専用プロセッサ（ＤＳＰ：Digital Signal Processor）を備えていてもよい。この場合、ＣＰＵ１２の指示に従って、ＤＳＰが信号処理を行なう。

　Ｉ／Ｆ１１は、ＣＰＵ１２から入力された音声信号を外部に出力する。Ｉ／Ｆ１１は、例えばＵＳＢ等の通信Ｉ／Ｆである。Ｉ／Ｆ１１は、情報処理装置等に対して音声信号を出力する。あるいは、Ｉ／Ｆ１１は、該音声信号を、記憶部（不図示）に出力する。記憶部は、マイク１５で取得された収音信号を録音データとして記録する。

　ＣＰＵ１２は、メモリ１４からプログラムを読み出し、ＲＡＭ１３に一時記憶することで、種々の動作を行う。

　図３は、ＣＰＵ１２の機能ブロック図である。ＣＰＵ１２は、上記プログラムにより、設定部１２１およびレベル調整器１２２を実現する。設定部１２１、レベル調整器１２２、およびセンサ１７により、本発明のゲイン調整装置が実現される。

　レベル調整器１２２は、マイク１５から入力された音声信号のレベルを調整して、Ｉ／Ｆ１１に出力する。レベル調整器１２２は、センサ１７の測定結果に応じて、レベル調整器１２２のゲインを設定する。

　図４は、ＣＰＵ１２の動作を示すフローチャートである。ＣＰＵ１２は、センサ１７から距離推定値を取得する（Ｓ１１）。ＣＰＵ１２のうち、レベル調整器１２２は、マイク１５から音声信号を入力する（Ｓ１２）。設定部１２１は、距離推定値に応じて、レベル調整器１２２のゲインを設定する（Ｓ１３）。レベル調整器１２２は、設定されたゲインで音声信号のレベルを調整し、出力する（Ｓ１４）。

　センサ１７は、この例では、測距センサである。測距センサは、例えば赤外線等の電磁波を送信して、反射波を受信する。図１に示したように、センサ１７は、例えば筐体５０の側面に設置されている。センサ１７は、装置の前方（図１中の左方向）に赤外線を送信し、対象物（本実施形態では話者）からの反射波を受信する。センサ１７は、赤外線を送信してから受信するまでの時間差を求める。この時間差は、センサ１７と話者との距離に応じて変化する物理量の一例である。この実施形態では、赤外線を送信してから受信するまでの時間差から、センサ１７と話者との距離を推定する。例えば、距離推定値Ｄは、送信時刻Ｔ１、受信時刻Ｔ２、光速Ｃを用いて、Ｄ＝（Ｔ２－Ｔ１）／Ｃで表される。距離推定値Ｄは、センサ１７が求めてもよいし、ＣＰＵ１２がセンサ１７から送信時刻Ｔ１および受信時刻Ｔ２を取得することにより、求めてもよい。

　レベル調整器１２２は、センサ１７の測定結果である、距離推定値Ｄに応じて、レベル調整器１２２のゲインを設定する。例えば、ゲインＧは、基準距離Ｄｈを用いて、Ｇ＝Ｄ／Ｄｈで表される。これにより、話者の距離が遠くなるほどゲインが大きくなるため、マイク１５と話者との距離に関わらず、均一なレベルの音声信号が出力される。また、ゲインＧは、話者との距離が変化しない場合には変化しないため、話者が意図的に音量を変化させた場合には、音声信号のレベルも変化する。したがって、収音装置１は、話者の音量の変化を反映することができる。

　次に、図５は、変形例１に係る収音装置１Ａの外観概略図である。図５においても、収音に係る主構成を記載して、その他の構成は記載していない。収音装置１Ａは、図１の例に加えて、２つのマイク１５Ａおよびマイク１５Ｂを備えている。

　マイク１５Ａおよびマイク１５Ｂは、筐体５０の上面に配置されている。ただし、２つのマイクの配置態様は一例であり、この例に限るものではない。マイク１５Ａおよびマイク１５Ｂは、例えば指向性マイクである。マイク１５Ａおよびマイク１５Ｂは、装置の前方（図中の左方向）の感度が最も強く、後方（図中の右方向）に感度が無い。マイク１５Ａは、筐体５０の前方に設置され、マイク１５Ｂは、筐体５０の後方に設置されている。２つのマイクの指向性も、この例に限るものではない。

　図６は、収音装置１Ａの構成を示すブロック図である。収音装置１Ａは、図２の収音装置に比べて、センサ１７を備えていない。また、収音装置１Ａは、収音装置１とは異なり、複数（この例では２つ）のマイク１５Ａおよびマイク１５Ｂを備えている。

　図７は、ＣＰＵ１２の機能的構成を示すブロック図である。この例では、ＣＰＵ１２は、さらに計算部１２３を備えている。計算部１２３は、マイク１５Ａおよびマイク１５Ｂから音声信号を入力する。レベル調整器１２２は、マイク１５Ａから音声信号を入力する。

　この場合、マイク１５Ａ、マイク１５Ｂ、および計算部１２３（ＣＰＵ１２の実行するソフトウェア）により、本発明のセンサが実現される。計算部１２３は、マイク１５Ａおよびマイク１５Ｂのレベル比を計算する。

　計算部１２３は、例えば、マイク１５Ａの音声信号およびマイク１５Ｂの音声信号のパワーをそれぞれ算出する。また、計算部１２３は、算出したパワーを所定時間範囲で平均化する。さらに、計算部１２３は、マイク１５Ａの音声信号における平均パワー値を、マイク１５Ｂの音声信号における平均パワー値で除算する。この除算値が上記レベル比に相当する。なお、当該除算値は、レベル比の一例である。計算部１２３は、例えば、振幅の瞬時値からレベル比を算出してもよい。

　音声信号のレベルは、マイクと話者との距離が遠くなるにしたがって低下する。よって、上記レベル比も、センサと話者との距離に応じて変化する物理量の一例である。設定部１２１は、計算部１２３で算出されたレベル比に応じて、レベル調整器１２２のゲインを設定する。

　以上のようにして、収音装置１Ａにおいても、マイクと話者との距離が遠くなるほどゲインが大きくなるため、マイク１５Ａと話者との距離に関わらず、均一なレベルの音声信号が出力される。また、ゲインＧは、距離が変化しない場合には、変化しないため、収音装置１は、話者の音量の変化を反映することができる。

　なお、図７では、レベル調整器１２２は、マイク１５Ａの音声信号を入力する例を示したが、マイク１５Ｂの音声信号を入力して、マイク１５Ｂの音声信号のレベルを調整してもよい。

　また、図８に示すように、ＣＰＵ１２は、さらにバンドパスフィルタ（ＢＰＦ）１２４を備えていてもよい。ＢＰＦ１２４は、マイク１５Ａの音声信号およびマイク１５Ｂの音声信号について、それぞれ所定帯域を抽出する。ＢＰＦ１２４は、特に、指向性の影響が少ない低域（例えば１ｋＨｚ以下）の帯域を抽出する。これにより、指向性の影響が少ない帯域（音が回り込み易い帯域）の信号で物理量が計算されるため、例えばマイク１５Ａとマイク１５Ｂとの間に障害物があった場合でも、障害物に影響されずに、高精度に物理量（距離に応じて変化する値）を計算することができる。

　以上の例においては、本発明のゲイン調整装置を備えた装置の一例として、収音装置を示した。ゲイン調整装置は、例えば図９に示すような、スピーカ１６をさらに備えた音声処理装置１Ｂに用いることも可能である。

　音声処理装置１Ｂは、図６に示した収音装置１Ａの構成に加えて、スピーカ１６をさらに備えている。ＣＰＵ１２は、Ｉ／Ｆ１１から入力された音声信号に信号処理を施して、スピーカ１６に出力する。スピーカ１６は、ＣＰＵ１２から入力された音声信号に基づいて、音声を出力する。

　例えば、図１０に示すように、音声処理装置１Ｂは、ネットワーク２を介して、遠隔地に設置された音声処理装置３と接続され、音声処理システムを構成する。音声処理装置３は、音声処理装置１Ｂと同じ構成および機能を有する。

　この場合、ユーザは、音声処理装置１Ｂおよび音声処理装置３を用いて、遠隔地間での会話を行なうことができる。音声処理装置１Ｂおよび音声処理装置３は、それぞれ遠隔会話装置に対応する。

　なお、音声処理装置１Ｂの形状は、図１および図５に示した様な筐体形状に限らず、例えば図１１に示すようなヘッドセット型の筐体であてもよい。

　この場合、マイク１５Ａは、話者の口元に配置され、マイク１５Ｂは、話者の口元から離れた耳（スピーカ１６）の近くに配置される。

　なお、上述の例では、設定部１２１は、センサで測定した物理量に応じて、例えば話者との距離が遠くなるほど線形にゲインを大きくする例を示した。しかし、設定部１２１は、話者との距離に応じて非線形にゲインを変更する態様であってもよい。例えば、マイクと話者との距離が遠くなるほど間接音が優位となり、話者の直接音の割合が減少する。したがって、設定部１２１は、話者との距離が遠くなるほどゲイン増加量を増大させる態様としてもよい。

　（第２実施形態）
　第２実施形態の音声処理システムは、ネットワークを介して接続される、送信装置（音声処理装置１Ｂ）および受信装置（音声処理装置３）を備えている。送信装置は、マイクと、センサと、音圧測定部と、送信部（Ｉ／Ｆ１１）と、を備えている。センサは、距離に応じて変化する物理量を測定する。音圧測定部は、マイクの入力音圧レベルを測定する。送信部は、前記センサの測定結果と、前記音圧測定部の測定結果と、を送信する。受信装置は、受信部（Ｉ／Ｆ１１）と、出力音圧レベル調整部と、を備えている。受信部は、前記センサの測定結果と、前記音圧測定部の測定結果と、を受信する。出力音圧レベル調整部は、スピーカの出力音圧レベルを調整する。

　これにより、第２実施形態の音声処理システムは、受信側において、送信側における話者とマイクとの距離感を再現することができる。すなわち、第２実施形態の音声処理システムでは、受信側の第２ユーザは、送信側の第１ユーザがあたかも受信側の空間に居て、同じ空間にいる第１ユーザから会話音が発せられたように感じることができる。

　図１２（Ａ）および図１２（Ｂ）は、第２実施形態に係る音声処理システムの特徴を示す概略図である。音声処理システムは、図１０と同様に、ネットワーク２を介して接続される、音声処理装置１Ｂおよび音声処理装置３を備えている。送信側の音声処理装置１Ｂおよび受信側の音声処理装置３の構成は、図９のブロック図で示した構成と同様である。ただし、図１２（Ａ）および図１２（Ｂ）では、一例として筐体５０の側面にスピーカ１６が設けられた構成を示す。

　第２実施形態の音声処理システムは、送信側における話者と装置との距離、およびマイク１５で測定される入力音圧レベル、に応じて、受信側のスピーカ１６の出力音圧レベルの調整を行なう点が特徴である。

　送信側の音声処理装置１ＢのＣＰＵ１２は、音圧測定部に相当し、マイク１５Ａの入力音圧レベル、すなわち、音圧（ｄＢＳＰＬ）を測定する。ＣＰＵ１２は、測定した音圧と、話者との距離（例えば計算部１２３で計算したレベル比、あるいはセンサ１７で測定した時間差のように、距離に応じて変化する物理量）と、を受信側の音声処理装置３に送信する。音声処理装置３のＣＰＵ１２は、スピーカの出力音圧レベル調整部に相当し、受信した音圧および話者との距離に基づいて、スピーカ１６の出力音圧レベルを調整する。

　例えば、図１２（Ａ）および図１２（Ｂ）に示すように、第１ユーザ９１がマイク１５Ａから１ｍ離れた位置で発話し、マイク１５Ａで測定された音圧が５６ｄＢＳＰＬとすると、受信側の音声処理装置３においては、スピーカ１６の出力音圧レベルを、スピーカ１６から１ｍ離れた先にいる第２ユーザ９２の位置で５６ｄＢＳＰＬの出力音圧レベルに調節することで、第１ユーザ９１の音声が到達する。例えば、音声処理装置３のマイク１５Ａとスピーカ１６は固定距離であるため、この固定距離でのスピーカ１６の出力音圧レベルを測定すれば、ユーザの位置での任意の出力音圧レベルにするための減衰調整係数を求めることができる。例えば、マイク１５Ａとスピーカ１６の距離が５ｃｍのとき、マイク１５Ａの位置で８２ｄＢＳＰＬにすれば、１ｍ離れた位置では５６ｄＢＳＰＬになる。

　このように、第２実施形態の音声処理システムは、受信側において、送信側における話者との距離を再現するように、スピーカの出力音圧レベルを調整する。したがって、第２実施形態の音声処理システムでは、受信側の第２ユーザは、あたかも同じ空間に居る第１ユーザから会話音が発せられたように感じることができる。

　なお、第２実施形態においても、送信側で距離に応じたゲイン調整を行い、かつ受信側でスピーカの出力音圧レベルを調整してもよい。

　最後に、本実施形態の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲には、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。例えば、センサは、カメラと、該カメラで撮影した画像の大きさを、物理量として計算する計算部と、からなる態様であってもよい。この場合も、設定部１２１は、センサで測定した物理量に応じてレベル調整器１２２のゲインを設定する。

１，１Ａ…収音装置
１Ｂ，３…音声処理装置
２…ネットワーク
１１…Ｉ／Ｆ
１２…ＣＰＵ
１３…ＲＡＭ
１４…メモリ
１５…マイク
１５Ａ…マイク
１５Ｂ…マイク
１６…スピーカ
１７…センサ
５０…筐体
６２…特公昭
９１…ユーザ
９２…ユーザ
１２１…設定部
１２２…レベル調整器
１２３…計算部
１２４…バンドパスフィルタ

Claims

　マイクで取得した音声信号のレベルを調整するレベル調整器と、
　距離に応じて変化する物理量を測定するセンサと、
　前記センサの測定結果に応じて、前記レベル調整器のゲインを設定する設定部と、
　を備えたゲイン調整装置。
　前記物理量は、前記マイクと音源との距離に応じて変化する、
　請求項１に記載のゲイン調整装置。
　前記センサは、
　複数のマイクと、
　前記物理量として、前記複数のマイクにおけるレベル比を計算する計算部と、
　を備えた請求項１または請求項２に記載のゲイン調整装置。
　前記計算部に入力する信号の所定帯域を抽出するフィルタ部を備えた、
　請求項３に記載のゲイン調整装置。
　前記センサは、電磁波を送信し、前記電磁波の送信から受信までの時間差を、前記物理量として計算する計算部、
　を備えた請求項１または請求項２に記載のゲイン調整装置。
　前記センサは、カメラと、
　前記カメラで撮影した画像の大きさを、前記物理量として計算する計算部と、
　を備えた請求項１または請求項２に記載のゲイン調整装置。
　前記設定部は、前記物理量に応じて非線形に前記ゲインを設定する、
　請求項１乃至請求項５のいずれかに記載のゲイン調整装置。
　請求項１乃至請求項７のいずれかに記載のゲイン調整装置と、
　スピーカと、
　を備えた遠隔会話装置。
　距離に応じて変化する物理量を測定し、
　前記センサの測定結果に応じて、マイクで取得した音声信号のレベルを調整する、
　ゲイン調整方法。
　信号処理装置に、
　距離に応じて変化する物理量を測定し、
　前記センサの測定結果に応じて、マイクで取得した音声信号のレベルを調整する、
　処理を実行させるゲイン調整プログラム。