WO2022038673A1 - 収音装置、収音方法、プログラム - Google Patents
収音装置、収音方法、プログラム Download PDFInfo
- Publication number
- WO2022038673A1 WO2022038673A1 PCT/JP2020/031121 JP2020031121W WO2022038673A1 WO 2022038673 A1 WO2022038673 A1 WO 2022038673A1 JP 2020031121 W JP2020031121 W JP 2020031121W WO 2022038673 A1 WO2022038673 A1 WO 2022038673A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- sound
- power
- vector
- sound collecting
- frequency band
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 15
- 238000012545 processing Methods 0.000 claims description 33
- 238000001228 spectrum Methods 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 21
- 238000012937 correction Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 description 9
- 238000011156 evaluation Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000003491 array Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000005094 computer simulation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Otolaryngology (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
ターゲットエリアが遠方に位置する場合において、音源強調性能を改善することができる収音装置を提供する。本発明の収音装置は、マイクロホンアレーから遠方に位置する所望の音源エリアに対し、中周波数帯域の特性に基づいて低周波数帯域の特性を補正することを特徴とする。
Description
本発明は、方向性のある雑音源(干渉雑音源)に囲まれた所望の領域(以下、ターゲットエリア)に位置する音源(以下、目的音源)の音のみを強調し収音する収音装置、収音方法、プログラムに関する。
この分野の従来技術として、例えば特許文献1~5などがある。例えば特許文献2の実施形態2の収音装置は、図1に例示する構成であって、2つのマイクロホンアレー3L、3Rと、6つ以上の収音部(同図の例では、第1~第6収音部4’-1~4’-6)と、周波数領域変換部5と、処理対象信号生成部140’と、パワースペクトル推定部7’と、利得係数算出部130’と、乗算部9と、逆周波数領域変換部10を含む。図2は、特許文献2の実施形態2の収音装置の各収音部の設定を説明するための音源位置の領域を示す図である。図3は特許文献2の実施形態2の収音装置の動作フローである。
第1収音部4’-1は、図2に示す角度領域ΘL1の音を抑圧して収音する(S4’-1)。第3収音部4’-3は、図2に示す角度領域ΘL2の音を抑圧して収音する(S4’-3)。第5収音部4’-5は、図2に示す角度領域ΘL3の音を抑圧して収音する(S4’-5)。
同様に、マイクロホンアレー3Rの第2収音部4’-2は、図2に示す角度領域ΘR1の音を抑圧して収音する(S4’-2)。第4収音部4’-4は、図2に示す角度領域ΘR2の音を抑圧して収音する(S4’-4)。第6収音部4’-6は、図2に示す角度領域ΘR3の音を抑圧して収音する(S4’-6)。
周波数領域変換部5は、各収音部4’-1~4’-6で収音された信号yLL(n)、yLR(n)、yCL(n)、yCR(n)、yRL(n)、yRR(n)を、周波数領域の信号YLL(ω,l)、YLR(ω,l)、YCL(ω,l)、YCR(ω,l)、YRL(ω,l)、YRR(ω,l)に変換する。
処理対象信号生成部140’は、周波数領域の第1収音部4-1’からの信号YLL(ω,l)、第2収音部4-2’からの信号YLR(ω,l)、第5収音部4-5’からの信号YRL(ω,l)、第6収音部4-6’からの信号YRR(ω,l)を加算し、加算された信号Y’S(ω,l)を4で割り、平均値を処理対象信号YS(ω,l)として出力する(S140’)。
パワースペクトル推定部7’は、各収音部からの周波数領域の信号YLL(ω,l)、YCL(ω,l)、YRL(ω,l)、YLR(ω,l)、YCR(ω,l)、YRR(ω,l)から、パワー値|YLL(ω,l)|2、|YCL(ω,l)|2、|YRL(ω,l)|2、|YLR(ω,l)|2、|YCR(ω,l)|2、|YRR(ω,l)|2を計算し、パワー値をベクトル形式でまとめた、パワーベクトルY(ω,l)を算出し、パワーベクトルY(ω,l)とパワー推定行列T+に基づいて、推定信号パワーベクトルXopt(ω,l)を算出する(S7’)。利得係数算出部130’は、入力された推定信号パワーベクトルXopt(ω,l)を、推定信号パワー|S(ω,l)|2、推定左側方雑音パワー|NLL(ω,l)|2、推定左方向雑音パワー|NL(ω,l)|2、推定正面方向雑音パワー|NC(ω,l)|2、推定右方向雑音パワー|NR(ω,l)|2、推定右側方雑音パワー|NRR(ω,l)|2としてそれぞれ出力し、推定信号パワー|S(ω,l)|2と処理対象信号YS(ω,l)から、第1ゲイン係数GS(ω,l)を計算し、推定信号パワー|S(ω,l)|2、推定左側方雑音パワー|NLL(ω,l)|2、推定左方向雑音パワー|NL(ω,l)|2、推定正面方向雑音パワー|NC(ω,l)|2、推定右方向雑音パワー|NR(ω,l)|2、推定右側方雑音パワー|NRR(ω,l)|2から、第2ゲイン係数GSNR(ω,l)を計算し、第1ゲイン係数GS(ω,l)と第2ゲイン係数GSNR(ω,l)との積を利得係数R(ω,l)として出力する(S130’)。
乗算部9は、利得係数算出部130’で算出した利得係数R(ω,l)を処理対象信号YS(ω,l)に乗算する(S9)。逆周波数領域変換部10は、利得係数が乗算された処理対象信号R(ω,l)YS(ω,l)を時間領域に変換する。上述の処理により時間周波数ビンごとに、干渉雑音源成分を抑圧した信号を取得できる。
従来技術が抱える課題として、目的音源がマイクロホンアレーの遠方にあるほど、低周波における音声強調性能は劣化する、という課題がある。
目的音源と干渉雑音源の相対位置が同じでも、マイクロホンアレーが目的音源の遠方に位置するほど目的音源、マイクロホンアレー、干渉雑音源のなす角は小さくなる。その結果、ビームフォーマで鋭い指向性を形成することが困難になる。すると、ビームフォーマの出力(ビーム出力)では目的音源と干渉雑音源の感度差が小さくなるため複数の音源が励起しやすい。ビーム出力で複数の音源が励起していると、音源間の干渉により局所パワースペクトル推定の混合モデルと実際の混合との近似誤差が大きくなるためパワースペクトル推定精度は劣化する。また、ビームフォーマの一般的性質として、低周波になるほどビームフォーマの指向性は鈍くなる。従って、低周波になるほど音声強調性能は劣化しやすい。
そこで本発明では、ターゲットエリアが遠方に位置する場合において、音源強調性能を改善することができる収音装置を提供することを目的とする。
本発明の収音装置は、マイクロホンアレーから遠方に位置する所望の音源エリアに対し、中周波数帯域の特性に基づいて低周波数帯域の特性を補正することを特徴とする。
本発明の収音装置によれば、ターゲットエリアが遠方に位置する場合において、音源強調性能を改善することができる。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
目的音源および干渉雑音源の周波数成分は偏在していないと仮定する。また、ビームフォーマの周波数方向における指向性の一般的性質から、FlowからFhighまでの周波数(中周波数帯域)ではビームフォーマの指向性は十分に鋭く、またパワースペクトル推定値の推定精度も十分に高いと仮定する。
ここで、中周波数帯域は、例えばFlow=0.1Fs,Fhigh=0.25Fsとする。ただし、Fsは標本化周波数である。
ある時間フレームごとに、パワースペクトル推定部7’で算出したパワースペクトル推定値に含まれる中周波数帯域のパワースペクトル推定値を用いて、中周波数帯域の各領域のパワー比ρmid(以下、各領域のパワー比)を算出する。実施例1では、低周波において、複数の音源が励起している時間周波数ビンでは、音声強調性能が改善するような各領域のパワースペクトルの形状は各領域のパワー比ρmidに近いと仮定する。そこで、各領域のパワー比から生成したパワースペクトル(補正用パワースペクトル)とパワースペクトル推定部7’で算出した各領域のパワースペクトル推定値を混合することでパワースペクトル推定値を補正する。すなわち、ビーム出力で複数の音源が励起している、もしくは、励起しやすい場合は、パワースペクトル推定部7’で算出したパワースペクトル推定値を補正用パワースペクトルに近づけることを意図している。
本実施例の収音装置は、マイクロホンアレーから遠方に位置する所望の音源エリアに対し、中周波数帯域の特性に基づいて低周波数帯域の特性を補正することを特徴とする収音装置であって、各周波数領域の局所PSDを推定し、各周波数領域の中周波数帯域のパワー比で推定された局所PSDのうち低周波数帯域の局所PSDを補正し、補正された局所PSDに基づいてビームを形成する収音装置である。
以下、図4を参照して実施例1の収音装置の構成を説明する。同図に示すように本実施例の収音装置は、特許文献2の収音装置が備える、2つのマイクロホンアレー3L、3Rと、6つ以上の収音部(同図の例では、第1~第6収音部4-1~4-6)と、周波数領域変換部5と、処理対象信号生成部140と、パワースペクトル推定部7と、利得係数算出部130と、乗算部9と、逆周波数領域変換部10をすべて含み、さらにパワースペクトル推定部7の後段であって、利得係数算出部130の前段に、あらたに推定値補正部201を含む。また、図5に示すように、本実施例の収音装置は、特許文献2の収音装置の動作であるステップS4-1~S4-6、S140、S7、S130、S9を実行し、さらに、ステップS7、S140の後、かつステップS130の前にステップS201を実行する。
≪推定値補正部201≫
推定値補正部201は、処理対象信号YS(ω,l)と、推定信号パワーベクトルXopt(ω,l)を入力とし、補正した推定信号パワーベクトルX^opt(ω,l)を出力する(S201)。
推定値補正部201は、処理対象信号YS(ω,l)と、推定信号パワーベクトルXopt(ω,l)を入力とし、補正した推定信号パワーベクトルX^opt(ω,l)を出力する(S201)。
中周波数帯域を[Flow,Fhigh)と定義する。また、Ωlow,Ωhighは、それぞれFlow,Fhighに対応する周波数ビンインデックスとする。以下では、標本化周波数をFsとし、Flow=0.1Fs,Fhigh=0.25Fsとする。
図6に示すように、推定値補正部201は、パワー比算出部2011と、混合係数算出部2012と、補正用パワーベクトル算出部2013と、パワースペクトル混合部2014を含む。
[推定値補正部201における処理の流れ]
現在の時間フレームにおいて、パワー比算出部2011はステップS2011(後述)を実行する。
現在の時間フレームにおいて、パワー比算出部2011はステップS2011(後述)を実行する。
ω<Ωlowの周波数ビン:混合係数算出部2012、補正用パワーベクトル算出部2013、パワースペクトル混合部2014は、ステップS2012、S2013、S2014(後述)を実行する。
ω≧Ωlowの周波数ビン:パワースペクトル混合部2014は、ステップS2014を実行する。
以下、図7を参照して、ステップS2011~S2014の各動作を説明する。
<パワー比算出部2011>
パワー比算出部2011は、特許文献2と同様に推定したパワーベクトルXoptを入力とし、パワーベクトルXoptのあらかじめ定めた中周波数帯域[Flow,Fhigh)の予め定めた各領域のパワー比ρmidを算出する(S2011)。
ただし、インデックス記号⇒ω:周波数ビン、l:時間フレーム、c:エリア、定数⇒Ω:周波数ビン数、L:時間フレーム数、C:エリア数とする。また、(z)[c]はベクトルzからインデックスcの要素を抽出する操作とする。
パワー比算出部2011は、特許文献2と同様に推定したパワーベクトルXoptを入力とし、パワーベクトルXoptのあらかじめ定めた中周波数帯域[Flow,Fhigh)の予め定めた各領域のパワー比ρmidを算出する(S2011)。
<混合係数算出部2012>
混合係数算出部2012は、パワー比ρmidのスパース性に基づく指標で混合係数のベクトルλ(ω,l)を算出する(S2012)。
混合係数算出部2012は、パワー比ρmidのスパース性に基づく指標で混合係数のベクトルλ(ω,l)を算出する(S2012)。
例えば、以下のような式が考えられる。
なお、g(・)は重みづけのための関数(恒等写像、べき関数など)であり、後述する実験結果では恒等写像とした。また、この実施例では、λ0(ω,l)=λ1(ω,l)=…=λC-1(ω,l)である。
なお、中周波数帯域の各領域のパワー比ρmidがスパースな時/スパースでないときに現実空間では以下の事象が起きている。
時間フレームlにおける領域cのパワー比ρmid(l,c)について、ρmid(l,:)を時間フレームlにおける各領域のパワー比のベクトルとすると、現実の空間で、
・ρmid(l,:)がスパースな時:時間フレームlにおいて音源が励起している領域は少ない。
・ρmid(l,:)がスパースな時:時間フレームlにおいて音源が励起している領域は少ない。
・ρmid(l,:)がスパースでないとき:時間フレームlにおいて音源が励起している領域は多い。
と考えられる。
例えば、
・ρmid(l,0)=1.0の場合、時間フレームlでは領域c=0のみ音源が励起している。
・ρmid(l,0)=1.0の場合、時間フレームlでは領域c=0のみ音源が励起している。
・ρmid(l,0)=ρmid(l,1)=・・・=ρmid(l,C-1)=1/Cの場合、時間フレームlでは全ての領域で音源が励起している。
と考えられる。なお、前述したようにCはエリア数(領域の数)、また、ベクトルρmid(l,:)の要素の総和は1.0である。
<補正用パワーベクトル算出部2013>
補正用パワーベクトル算出部2013は、パワー比ρmid(l,c)と、処理対象信号YS(ω,l)を入力とし、処理対象信号YS(ω,l)とパワー比ρmid(l,c)の積(次式)を補正用パワーベクトルXmodとして算出する(S2013)。
補正用パワーベクトル算出部2013は、パワー比ρmid(l,c)と、処理対象信号YS(ω,l)を入力とし、処理対象信号YS(ω,l)とパワー比ρmid(l,c)の積(次式)を補正用パワーベクトルXmodとして算出する(S2013)。
<パワースペクトル混合部2014>
パワースペクトル混合部2014は、ステップS7で推定したパワーベクトルXopt(ω,l)と、補正用パワーベクトルXmod(ω,l)と、混合係数のベクトルλ(ω,l)を入力とし、hを全ての要素が1のベクトルとし、混合係数のベクトルλ(ω,l)とパワーベクトルXopt(ω,l)の要素ごとの積と、h-λと補正用パワーベクトルXmod(ω,l)の要素ごとの積の和に基づいて補正後のパワーベクトルX^opt(ω,l)を算出する。
なお、〇は、ベクトルの要素ごとの積とする。hは、要素数がC個で、全ての要素が1であり、Xmodと同じ要素数のベクトルとする。
パワースペクトル混合部2014は、ステップS7で推定したパワーベクトルXopt(ω,l)と、補正用パワーベクトルXmod(ω,l)と、混合係数のベクトルλ(ω,l)を入力とし、hを全ての要素が1のベクトルとし、混合係数のベクトルλ(ω,l)とパワーベクトルXopt(ω,l)の要素ごとの積と、h-λと補正用パワーベクトルXmod(ω,l)の要素ごとの積の和に基づいて補正後のパワーベクトルX^opt(ω,l)を算出する。
以下、特許文献2の収音装置と同様に、ステップS130で補正後のパワーベクトルX^optと処理対象信号YSから算出した周波数ごとの利得係数Rを、ステップS9で処理対象信号YSに乗算し、時間領域に変換して出力する。
[変形例]
混合の比率は、各時間フレームや周波数ビンにおいて、複数の音源が励起しているか、もしくは、励起しやすいかを示す、以下の(1)~(3)の指標およびパラメタの内、少なくとも1つ以上を用いて決定すればよい。
混合の比率は、各時間フレームや周波数ビンにおいて、複数の音源が励起しているか、もしくは、励起しやすいかを示す、以下の(1)~(3)の指標およびパラメタの内、少なくとも1つ以上を用いて決定すればよい。
(1)その時間フレームにおける各領域のパワー比のスパース性に関する指標(実施例1)
・各領域のパワー比のスパース性が低い。
・各領域のパワー比のスパース性が低い。
⇒複数の音源が励起している。
⇒音源間の干渉により、低周波における音源強調性能は劣化すると考えられる。
(2)その周波数ビンにおけるゲイン行列T(ω)のスパース性に関する指標
・ビームフォーマの指向性が鈍い。
・ビームフォーマの指向性が鈍い。
⇒ゲイン行列のスパース性が低い。
⇒ビーム出力で複数の音源が励起しやすい。
⇒音源間の干渉により、低周波における音源強調性能は劣化すると考えられる。
(3)目的音源と各マイクロホンアレー間の距離および2つのマイクロホンアレー間の距離
・2つのマイクロホンアレー間の距離が狭いほど目的音源がマイクロホンアレーの遠方に位置する場合は指向性の鋭いビームフォーマを構築することが難しい。
・2つのマイクロホンアレー間の距離が狭いほど目的音源がマイクロホンアレーの遠方に位置する場合は指向性の鋭いビームフォーマを構築することが難しい。
⇒ビーム出力で、複数の音源が励起しやすい。
⇒音源間の干渉により、低周波における音源強調性能は劣化すると考えられる。
なお、上記実施例、変形例に記載したように、中周波数帯域の各領域のパワー比を、現在の時間フレームの該当周波数ビンのパワーの総和として算出することにかえて、過去の時間フレームのパワー値や、その統計量(平均、最小、最大値など)を利用して算出してもよい。
<実施例1の収音装置の性能評価(1)>
実施例1の収音装置を計算機のシミュレーション実験(鏡像法)で評価した結果を図8に示す。実験条件(空間サイズと音源・マイクロホンアレーの位置)については図9に示すとおりである。目的音源から2つの直線マイクロホンアレーの中央までの距離dを0.5,1.0,・・・,3.5と0.5mずつ変化させて音源強調性能を比較した。ただし、目的音源と干渉雑音源間の相対位置は固定した。評価指標はSDR(信号対歪み比、参考非特許文献1)を用いた。
実施例1の収音装置を計算機のシミュレーション実験(鏡像法)で評価した結果を図8に示す。実験条件(空間サイズと音源・マイクロホンアレーの位置)については図9に示すとおりである。目的音源から2つの直線マイクロホンアレーの中央までの距離dを0.5,1.0,・・・,3.5と0.5mずつ変化させて音源強調性能を比較した。ただし、目的音源と干渉雑音源間の相対位置は固定した。評価指標はSDR(信号対歪み比、参考非特許文献1)を用いた。
(参考非特許文献1:Vincent, Emmanuel, et.al., "Performance measurement in blind audio source separation,"IEEE trans. on ASLP 14(4) 1462-1469, 2006)
SDRは数値が大きいほど音声強調性能が高いことを示す。目的音源がマイクロホンアレーの遠方に位置する場合、実施例1の収音装置は従来技術よりもSDR平均値、すなわち音源強調性能が改善することを確認した。
SDRは数値が大きいほど音声強調性能が高いことを示す。目的音源がマイクロホンアレーの遠方に位置する場合、実施例1の収音装置は従来技術よりもSDR平均値、すなわち音源強調性能が改善することを確認した。
<実施例1の収音装置の性能評価(2)>
以下の方法により、実施例1の収音装置の適用対象となる低周波成分のみの信号のSDRを算出した。強調信号x(n)、リファレンス信号xref(n)を短時間フーリエ変換する。周波数領域の強調信号X(ω,t)、リファレンス信号Xref(ω,t)において、次式でω≧Ωlowの成分を0とする。
逆短時間フーリエ変換し、低周波成分のみの強調信号xlow(n)、リファレンス信号xref_low(n)を得る。xlow(n)とxref_low(n)からSDR(参考非特許文献1)を算出する。評価実験の結果を図10に示す。
以下の方法により、実施例1の収音装置の適用対象となる低周波成分のみの信号のSDRを算出した。強調信号x(n)、リファレンス信号xref(n)を短時間フーリエ変換する。周波数領域の強調信号X(ω,t)、リファレンス信号Xref(ω,t)において、次式でω≧Ωlowの成分を0とする。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
上述の各種の処理は、図11に示すコンピュータの記録部10020に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部10010、入力部10030、出力部10040などに動作させることで実施できる。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP-ROM(Electrically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
Claims (5)
- マイクロホンアレーから遠方に位置する所望の音源エリアに対し、中周波数帯域の特性に基づいて低周波数帯域の特性を補正することを特徴とする
収音装置。 - 請求項1に記載の収音装置であって、
各周波数領域の局所PSDを推定し、各周波数領域の中周波数帯域のパワー比で推定された局所PSDのうち低周波数帯域の局所PSDを補正し、補正された局所PSDに基づいてビームを形成する
収音装置。 - あらかじめ定めた1つ以上のマイクロホンからの信号または所望音源位置を含む角度領域を収音範囲とする特性に設定した収音部で収音した信号から生成した処理対象信号YSと、周波数ごとの所望音源の信号量とその他の音源の信号量であるパワーベクトルXoptを用いる請求項1または2に記載の収音装置であって、
前記パワーベクトルXoptのあらかじめ定めた中周波数帯域[Flow,Fhigh)の予め定めた各領域のパワー比ρmidを算出するパワー比算出部と、
前記パワー比ρmidのスパース性に基づく指標で混合係数のベクトルλを算出する混合係数算出部と、
前記処理対象信号YSと前記パワー比ρmidの積を補正用パワーベクトルXmodとして算出する補正用パワーベクトル算出部と、
hを全ての要素が1のベクトルとし、前記混合係数のベクトルλと前記パワーベクトルXoptの要素ごとの積と、h-λと前記補正用パワーベクトルXmodの要素ごとの積の和に基づいて補正後のパワーベクトルX^optを算出するパワースペクトル混合部を含み、
前記補正後のパワーベクトルX^optと前記処理対象信号YSから算出した周波数ごとの利得係数Rを、前記処理対象信号YSに乗算する
収音装置。 - 収音装置が実行する収音方法であって、
マイクロホンアレーから遠方に位置する所望の音源エリアに対し、中周波数帯域の特性に基づいて低周波数帯域の特性を補正することを特徴とする
収音方法。 - コンピュータを請求項1から3の何れかに記載の収音装置として機能させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/031121 WO2022038673A1 (ja) | 2020-08-18 | 2020-08-18 | 収音装置、収音方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/031121 WO2022038673A1 (ja) | 2020-08-18 | 2020-08-18 | 収音装置、収音方法、プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2022038673A1 true WO2022038673A1 (ja) | 2022-02-24 |
Family
ID=80322937
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2020/031121 WO2022038673A1 (ja) | 2020-08-18 | 2020-08-18 | 収音装置、収音方法、プログラム |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2022038673A1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008236287A (ja) * | 2007-03-20 | 2008-10-02 | Sanyo Electric Co Ltd | 音声信号生成装置及び方法 |
JP2015126279A (ja) * | 2013-12-25 | 2015-07-06 | 沖電気工業株式会社 | 音声信号処理装置及びプログラム |
WO2015129760A1 (ja) * | 2014-02-28 | 2015-09-03 | 日本電信電話株式会社 | 信号処理装置、方法及びプログラム |
-
2020
- 2020-08-18 WO PCT/JP2020/031121 patent/WO2022038673A1/ja active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008236287A (ja) * | 2007-03-20 | 2008-10-02 | Sanyo Electric Co Ltd | 音声信号生成装置及び方法 |
JP2015126279A (ja) * | 2013-12-25 | 2015-07-06 | 沖電気工業株式会社 | 音声信号処理装置及びプログラム |
WO2015129760A1 (ja) * | 2014-02-28 | 2015-09-03 | 日本電信電話株式会社 | 信号処理装置、方法及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4195267B2 (ja) | 音声認識装置、その音声認識方法及びプログラム | |
US11246000B2 (en) | Audio precompensation filter optimized with respect to bright and dark zones | |
EP1848110A2 (en) | Audio output device and method for calculating parameters | |
WO2006090589A1 (ja) | 音分離装置、音分離方法、音分離プログラムおよびコンピュータに読み取り可能な記録媒体 | |
JP2019078864A (ja) | 楽音強調装置、畳み込みオートエンコーダ学習装置、楽音強調方法、プログラム | |
WO2022038673A1 (ja) | 収音装置、収音方法、プログラム | |
JP7254938B2 (ja) | 音響源用の結合音源定位及び分離方法 | |
JP6567478B2 (ja) | 音源強調学習装置、音源強調装置、音源強調学習方法、プログラム、信号処理学習装置 | |
JP6517124B2 (ja) | 雑音抑圧装置、雑音抑圧方法、およびプログラム | |
JP5583181B2 (ja) | 縦続接続型伝達系パラメータ推定方法、縦続接続型伝達系パラメータ推定装置、プログラム | |
Pathan et al. | A Correlation-Less Approach Toward the Steepest-Descent-Based Adaptive Channel Equalizer | |
WO2021171533A1 (ja) | フィルタ係数最適化装置、フィルタ係数最適化方法、プログラム | |
WO2021024474A1 (ja) | Psd最適化装置、psd最適化方法、プログラム | |
JP7375904B2 (ja) | フィルタ係数最適化装置、潜在変数最適化装置、フィルタ係数最適化方法、潜在変数最適化方法、プログラム | |
WO2021024475A1 (ja) | Psd最適化装置、psd最適化方法、プログラム | |
JP5106936B2 (ja) | 音場再現フィルタ算出装置および音場再現システム | |
WO2023276068A1 (ja) | 音響信号強調装置、音響信号強調方法、プログラム | |
WO2021100094A1 (ja) | 音源信号推定装置、音源信号推定方法、プログラム | |
WO2021255925A1 (ja) | 目的音信号生成装置、目的音信号生成方法、プログラム | |
Tuna et al. | Data-driven local average room transfer function estimation for multi-point equalization | |
CN110677782B (zh) | 信号自适应噪声过滤器 | |
JP5325134B2 (ja) | 反響消去方法、反響消去装置、そのプログラムおよび記録媒体 | |
WO2022130445A1 (ja) | 音源信号生成装置、音源信号生成方法、プログラム | |
WO2022269854A1 (ja) | フィルタ生成装置、フィルタ生成方法、プログラム | |
JP4616891B2 (ja) | 多重ベクトル量子化方法、装置、プログラム及びその記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20950239 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 20950239 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: JP |