WO2022038673A1 - 収音装置、収音方法、プログラム - Google Patents

収音装置、収音方法、プログラム Download PDF

Info

Publication number
WO2022038673A1
WO2022038673A1 PCT/JP2020/031121 JP2020031121W WO2022038673A1 WO 2022038673 A1 WO2022038673 A1 WO 2022038673A1 JP 2020031121 W JP2020031121 W JP 2020031121W WO 2022038673 A1 WO2022038673 A1 WO 2022038673A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
power
vector
sound collecting
frequency band
Prior art date
Application number
PCT/JP2020/031121
Other languages
English (en)
French (fr)
Inventor
大将 千葉
賢一 野口
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2020/031121 priority Critical patent/WO2022038673A1/ja
Publication of WO2022038673A1 publication Critical patent/WO2022038673A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Definitions

  • the present invention is a sound collecting device that emphasizes and collects only the sound of a sound source (hereinafter, target sound source) located in a desired region (hereinafter, target area) surrounded by a directional noise source (interference noise source). , Sound collection method, program.
  • target sound source located in a desired region (hereinafter, target area) surrounded by a directional noise source (interference noise source).
  • target area surrounded by a directional noise source (interference noise source).
  • sound collection method program.
  • Patent Documents 1 to 5 there are Patent Documents 1 to 5.
  • the sound collecting device according to the second embodiment of Patent Document 2 has a configuration exemplified in FIG. 1, and has two microphone arrays 3L and 3R and six or more sound collecting units (in the example of the same figure, the first to the first). 6th sound pickup unit 4'-1 to 4'-6), frequency domain conversion unit 5, processing target signal generation unit 140', power spectrum estimation unit 7', and gain coefficient calculation unit 130'. A unit 9 and a reverse frequency domain conversion unit 10 are included.
  • FIG. 2 is a diagram showing a region of a sound source position for explaining the setting of each sound collecting unit of the sound collecting device according to the second embodiment of Patent Document 2.
  • FIG. 3 is an operation flow of the sound collecting device according to the second embodiment of Patent Document 2.
  • the first sound collecting unit 4'-1 suppresses the sound in the angle region ⁇ L1 shown in FIG. 2 and collects the sound (S4'-1).
  • the third sound collecting unit 4'-3 suppresses the sound in the angle region ⁇ L2 shown in FIG. 2 and collects the sound (S4'-3).
  • the fifth sound collecting unit 4'-5 suppresses and collects the sound in the angle region ⁇ L3 shown in FIG. 2 (S4'-5).
  • the second sound collecting unit 4'-2 of the microphone array 3R suppresses the sound in the angle region ⁇ R1 shown in FIG. 2 and collects the sound (S4'-2).
  • the fourth sound collecting unit 4'-4 suppresses the sound in the angle region ⁇ R2 shown in FIG. 2 and collects the sound (S4'-4).
  • the sixth sound collecting unit 4'-6 suppresses the sound in the angle region ⁇ R3 shown in FIG. 2 and collects the sound (S4'-6).
  • the frequency domain conversion unit 5 has signals y LL (n), y LR (n), y CL (n), y CR (n), which are picked up by the sound pickup units 4'-1 to 4'-6.
  • y RL (n), y RR (n) are used as signals in the frequency domain Y LL ( ⁇ , l), Y LR ( ⁇ , l), Y CL ( ⁇ , l), Y CR ( ⁇ , l), Y. Convert to RL ( ⁇ , l), Y RR ( ⁇ , l).
  • the processing target signal generation unit 140' has a signal Y LL ( ⁇ , l) from the first sound pickup unit 4-1' in the frequency region and a signal Y LR ( ⁇ , l) from the second sound pickup unit 4-2'. ), Signal Y RL ( ⁇ , l) from the 5th sound collecting unit 4-5', signal Y RR ( ⁇ , l) from the 6th sound collecting unit 4-6' are added, and the added signal Y ' S ( ⁇ , l) is divided by 4, and the average value is output as the processing target signal YS ( ⁇ , l) (S140').
  • the power spectrum estimation unit 7' has signals Y LL ( ⁇ , l), Y CL ( ⁇ , l), Y RL ( ⁇ , l), Y LR ( ⁇ , l) in the frequency region from each sound pickup unit. From Y CR ( ⁇ , l), Y RR ( ⁇ , l), power value
  • ( ⁇ , l) is calculated, and the estimated signal power vector X opt ( ⁇ , l) is calculated based on the power vector Y ( ⁇ , l) and the power estimation matrix T + (S7').
  • the gain coefficient calculation unit 130 sets the input estimated signal power vector X opt ( ⁇ , l) into the estimated signal power
  • 2 Estimated left-direction noise power
  • 2 Estimated front-direction noise power
  • 2 is output, and the first gain coefficient is obtained from the estimated signal power
  • G S ( ⁇ , l) is calculated, estimated signal power
  • the second gain coefficient G SNR ( ⁇ , l) is calculated from 2, and the product of the first gain coefficient G S ( ⁇ , l) and the second gain coefficient G SNR ( ⁇ , l) is calculated as the gain coefficient R. It is output as ( ⁇ , l) (S130').
  • the multiplication unit 9 multiplies the gain coefficient R ( ⁇ , l) calculated by the gain coefficient calculation unit 130'by the processing target signal YS ( ⁇ , l) (S9).
  • the inverse frequency domain conversion unit 10 converts the processing target signal R ( ⁇ , l) YS ( ⁇ , l) multiplied by the gain coefficient into the time domain.
  • Japanese Unexamined Patent Publication No. 2009-005261 Japanese Unexamined Patent Publication No. 2009-025490 Japanese Unexamined Patent Publication No. 2010-0264885 Japanese Unexamined Patent Publication No. 2013-183358 Japanese Unexamined Patent Publication No. 2016-127457
  • the angle between the target sound source, the microphone array, and the interference noise source becomes smaller as the microphone array is located farther from the target sound source.
  • the beam former beam output
  • the sensitivity difference between the target sound source and the interference noise source becomes small, so that a plurality of sound sources are likely to be excited.
  • the beam output the approximation error between the mixed model of local power spectrum estimation and the actual mixing becomes large due to the interference between the sound sources, so that the power spectrum estimation accuracy deteriorates.
  • the directivity of the beam former becomes dull as the frequency becomes lower. Therefore, the lower the frequency, the more easily the speech enhancement performance deteriorates.
  • an object of the present invention is to provide a sound collecting device capable of improving the sound enhancement performance when the target area is located far away.
  • the sound collecting device of the present invention is characterized in that it corrects the characteristics of the low frequency band based on the characteristics of the middle frequency band for a desired sound source area located far from the microphone array.
  • the sound enhancement performance can be improved when the target area is located far away.
  • FIG. 1 The figure explaining the experimental condition of the performance evaluation experiment of the sound collecting apparatus of Example 1.
  • FIG. 1 The graph which shows the result of the performance evaluation experiment of the sound collecting apparatus of Example 1 (SDR average value of the signal of only a low frequency component).
  • the frequency components of the target sound source and the interference noise source are not unevenly distributed.
  • the directivity of the beamformer is sufficiently sharp at frequencies from F low to F high (medium frequency band), and the estimation accuracy of the power spectrum estimation value is also sufficient. Suppose it is high.
  • Fs is the sampling frequency.
  • the power spectrum estimation value of the medium frequency band included in the power spectrum estimation value calculated by the power spectrum estimation unit 7' is used to obtain the power ratio ⁇ mid of each region of the medium frequency band (hereinafter, each region). Power ratio) is calculated.
  • the power spectrum estimated value is corrected by mixing the power spectrum (correction power spectrum) generated from the power ratio of each region and the power spectrum estimated value of each region calculated by the power spectrum estimation unit 7'. That is, when a plurality of sound sources are excited by the beam output or are easily excited, it is intended that the power spectrum estimated value calculated by the power spectrum estimation unit 7'is brought closer to the correction power spectrum.
  • the sound collecting device of the present embodiment is a sound collecting device characterized in that the characteristics of the low frequency band are corrected based on the characteristics of the middle frequency band for a desired sound source area located far from the microphone array. , Estimates the local PSD of each frequency region, corrects the local PSD of the low frequency band among the local PSD estimated by the power ratio of the middle frequency band of each frequency region, and forms a beam based on the corrected local PSD. It is a sound collecting device.
  • the sound collecting device of this embodiment includes two microphone arrays 3L and 3R provided in the sound collecting device of Patent Document 2, and six or more sound collecting units (in the example of the figure, the first sound collecting unit).
  • -Sixth sound pickup unit 4-1 to 4-6 frequency domain conversion unit 5, processing target signal generation unit 140, power spectrum estimation unit 7, gain coefficient calculation unit 130, multiplication unit 9, and so on.
  • the reverse frequency domain conversion unit 10 is included, and the estimation value correction unit 201 is newly included in the rear stage of the power spectrum estimation unit 7 and in the front stage of the gain coefficient calculation unit 130.
  • the sound collecting device of the present embodiment executes steps S4-1 to S4-6, S140, S7, S130, and S9, which are the operations of the sound collecting device of Patent Document 2, and further. , After steps S7, S140 and before step S130.
  • Estimated value correction unit 201 inputs the processing target signal Y S ( ⁇ , l) and the estimated signal power vector X opt ( ⁇ , l), and outputs the corrected estimated signal power vector X ⁇ opt ( ⁇ , l). (S201).
  • the mid-frequency band is defined as [F low , F high ].
  • ⁇ low and ⁇ high are frequency bin indexes corresponding to F low and F high , respectively.
  • the sampling frequency is Fs
  • F low 0.1Fs
  • F high 0.25Fs.
  • the estimated value correction unit 201 includes a power ratio calculation unit 2011, a mixing coefficient calculation unit 2012, a correction power vector calculation unit 2013, and a power spectrum mixing unit 2014.
  • step S2011 (described later).
  • Frequency bin of ⁇ ⁇ low The mixing coefficient calculation unit 2012, the correction power vector calculation unit 2013, and the power spectrum mixing unit 2014 execute steps S2012, S2013, and S2014 (described later).
  • the power spectrum mixing unit 2014 executes step S2014.
  • the power ratio calculation unit 2011 takes the power vector X opt estimated in the same manner as in Patent Document 2 as an input, and the power ratio of each predetermined region of the predetermined medium frequency band [F low , F high ) of the power vector X opt . Calculate ⁇ mid (S2011). However, the index symbol ⁇ ⁇ : frequency bin, l: time frame, c: area, constant ⁇ ⁇ : frequency bin number, L: time frame number, C: area number. In addition, (z) [c] is an operation to extract the element of index c from the vector z.
  • the mixing coefficient calculation unit 2012 calculates the vector ⁇ ( ⁇ , l) of the mixing coefficient with an index based on the sparsity of the power ratio ⁇ mid (S2012).
  • ⁇ mid (l, c) For the power ratio ⁇ mid (l, c) of the region c in the time frame l, if ⁇ mid (l, :) is the vector of the power ratio of each region in the time frame l, in the real space, ⁇ When ⁇ mid (l, :) is sparse: There are few regions where the sound source is excited in the time frame l.
  • C is the number of areas (the number of areas), and the sum of the elements of the vector ⁇ mid (l, :) is 1.0.
  • the correction power vector calculation unit 2013 inputs the power ratio ⁇ mid (l, c) and the processing target signal Y S ( ⁇ , l), and processes the processing target signal Y S ( ⁇ , l) and the power ratio ⁇ mid ( The product of l and c) (the following equation) is calculated as the correction power vector X mod (S2013).
  • X mod, c ( ⁇ , l) is an element in index c of X mod ( ⁇ , l).
  • the power spectrum mixing unit 2014 inputs the power vector X opt ( ⁇ , l) estimated in step S7, the correction power vector X mod ( ⁇ , l), and the mixing coefficient vector ⁇ ( ⁇ , l).
  • is the product of each vector element.
  • h is a vector with C elements, all elements being 1, and the same number of elements as X mod .
  • the gain coefficient R for each frequency calculated from the power vector X ⁇ opt corrected in step S130 and the processing target signal YS is converted into the processing target signal YS in step S9 . Multiply, convert to time domain and output.
  • the mixing ratio is at least one of the following indicators and parameters (1) to (3) that indicate whether a plurality of sound sources are excited or easily excited in each time frame or frequency bin. It may be determined using the above.
  • the power ratio of each region of the middle frequency band is calculated as the sum of the powers of the corresponding frequency bins of the current time frame, instead of calculating the power of the past time frame. It may be calculated using the power value and its statistics (average, minimum, maximum value, etc.).
  • FIG. 8 shows the results of evaluating the sound collecting device of Example 1 by a computer simulation experiment (mirror image method).
  • the experimental conditions (spatial size and position of sound source / microphone array) are as shown in FIG.
  • the sound enhancement performance was compared by changing the distance d from the target sound source to the center of the two linear microphone arrays by 0.5, 1.0, ..., 3.5 and 0.5 m. However, the relative position between the target sound source and the interference noise source was fixed.
  • SDR Signal to Distortion Ratio, Reference Non-Patent Document 1
  • the device of the present invention is, for example, as a single hardware entity, an input unit to which a keyboard or the like can be connected, an output unit to which a liquid crystal display or the like can be connected, and a communication device (for example, a communication cable) capable of communicating outside the hardware entity.
  • Communication unit CPU (Central Processing Unit, cache memory, registers, etc.) to which can be connected, RAM and ROM as memory, external storage device as hard hardware, and input, output, and communication units of these.
  • CPU, RAM, ROM has a bus connecting so that data can be exchanged between external storage devices.
  • a device (drive) or the like capable of reading and writing a recording medium such as a CD-ROM may be provided in the hardware entity.
  • a physical entity equipped with such hardware resources there is a general-purpose computer or the like.
  • the external storage device of the hardware entity stores a program required to realize the above-mentioned functions and data required for processing of this program (not limited to the external storage device, for example, reading a program). It may be stored in a ROM, which is a dedicated storage device). Further, the data obtained by the processing of these programs is appropriately stored in a RAM, an external storage device, or the like.
  • each program stored in the external storage device (or ROM, etc.) and the data required for processing of each program are read into the memory as needed, and are appropriately interpreted and executed and processed by the CPU. ..
  • the CPU realizes a predetermined function (each configuration requirement represented by the above, ... Department, ... means, etc.).
  • the present invention is not limited to the above-described embodiment, and can be appropriately modified without departing from the spirit of the present invention. Further, the processes described in the above-described embodiment are not only executed in chronological order according to the order described, but may also be executed in parallel or individually as required by the processing capacity of the device that executes the processes. ..
  • the processing function in the hardware entity (device of the present invention) described in the above embodiment is realized by the computer, the processing content of the function that the hardware entity should have is described by the program. Then, by executing this program on the computer, the processing function in the above hardware entity is realized on the computer.
  • the various processes described above can be performed by causing the recording unit 10020 of the computer shown in FIG. 11 to read a program for executing each step of the above method and operating the control unit 10010, the input unit 10030, the output unit 10040, and the like. ..
  • the program that describes this processing content can be recorded on a computer-readable recording medium.
  • the recording medium that can be read by a computer may be, for example, a magnetic recording device, an optical disk, a photomagnetic recording medium, a semiconductor memory, or the like.
  • a hard disk device, a flexible disk, a magnetic tape or the like as a magnetic recording device
  • a DVD DigitalVersatileDisc
  • DVD-RAM RandomAccessMemory
  • CD-ROM CompactDiscReadOnly
  • Memory CD-R (Recordable) / RW (ReWritable), etc.
  • MO Magnetto-Optical disc
  • EEP-ROM Electrical Erasable and Programmable-Read Only Memory
  • EEP-ROM Electrical Erasable and Programmable-Read Only Memory
  • the distribution of this program is carried out, for example, by selling, transferring, renting, etc. a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be stored in the storage device of the server computer, and the program may be distributed by transferring the program from the server computer to another computer via the network.
  • a computer that executes such a program first, for example, first stores a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. Then, when the process is executed, the computer reads the program stored in its own recording medium and executes the process according to the read program. Further, as another execution form of this program, a computer may read the program directly from a portable recording medium and execute processing according to the program, and further, the program is transferred from the server computer to this computer. You may execute the process according to the received program one by one each time.
  • ASP Application Service Provider
  • the program in this embodiment includes information to be used for processing by a computer and equivalent to the program (data that is not a direct command to the computer but has a property that regulates the processing of the computer, etc.).
  • the hardware entity is configured by executing a predetermined program on the computer, but at least a part of these processing contents may be realized in terms of hardware.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Otolaryngology (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

ターゲットエリアが遠方に位置する場合において、音源強調性能を改善することができる収音装置を提供する。本発明の収音装置は、マイクロホンアレーから遠方に位置する所望の音源エリアに対し、中周波数帯域の特性に基づいて低周波数帯域の特性を補正することを特徴とする。

Description

収音装置、収音方法、プログラム
本発明は、方向性のある雑音源(干渉雑音源)に囲まれた所望の領域(以下、ターゲットエリア)に位置する音源(以下、目的音源)の音のみを強調し収音する収音装置、収音方法、プログラムに関する。
 この分野の従来技術として、例えば特許文献1~5などがある。例えば特許文献2の実施形態2の収音装置は、図1に例示する構成であって、2つのマイクロホンアレー3L、3Rと、6つ以上の収音部(同図の例では、第1~第6収音部4’-1~4’-6)と、周波数領域変換部5と、処理対象信号生成部140’と、パワースペクトル推定部7’と、利得係数算出部130’と、乗算部9と、逆周波数領域変換部10を含む。図2は、特許文献2の実施形態2の収音装置の各収音部の設定を説明するための音源位置の領域を示す図である。図3は特許文献2の実施形態2の収音装置の動作フローである。
 第1収音部4’-1は、図2に示す角度領域ΘL1の音を抑圧して収音する(S4’-1)。第3収音部4’-3は、図2に示す角度領域ΘL2の音を抑圧して収音する(S4’-3)。第5収音部4’-5は、図2に示す角度領域ΘL3の音を抑圧して収音する(S4’-5)。
 同様に、マイクロホンアレー3Rの第2収音部4’-2は、図2に示す角度領域ΘR1の音を抑圧して収音する(S4’-2)。第4収音部4’-4は、図2に示す角度領域ΘR2の音を抑圧して収音する(S4’-4)。第6収音部4’-6は、図2に示す角度領域ΘR3の音を抑圧して収音する(S4’-6)。
 周波数領域変換部5は、各収音部4’-1~4’-6で収音された信号yLL(n)、yLR(n)、yCL(n)、yCR(n)、yRL(n)、yRR(n)を、周波数領域の信号YLL(ω,l)、YLR(ω,l)、YCL(ω,l)、YCR(ω,l)、YRL(ω,l)、YRR(ω,l)に変換する。
 処理対象信号生成部140’は、周波数領域の第1収音部4-1’からの信号YLL(ω,l)、第2収音部4-2’からの信号YLR(ω,l)、第5収音部4-5’からの信号YRL(ω,l)、第6収音部4-6’からの信号YRR(ω,l)を加算し、加算された信号Y’(ω,l)を4で割り、平均値を処理対象信号Y(ω,l)として出力する(S140’)。
 パワースペクトル推定部7’は、各収音部からの周波数領域の信号YLL(ω,l)、YCL(ω,l)、YRL(ω,l)、YLR(ω,l)、YCR(ω,l)、YRR(ω,l)から、パワー値|YLL(ω,l)|、|YCL(ω,l)|、|YRL(ω,l)|、|YLR(ω,l)|、|YCR(ω,l)|、|YRR(ω,l)|を計算し、パワー値をベクトル形式でまとめた、パワーベクトルY(ω,l)を算出し、パワーベクトルY(ω,l)とパワー推定行列Tに基づいて、推定信号パワーベクトルXopt(ω,l)を算出する(S7’)。利得係数算出部130’は、入力された推定信号パワーベクトルXopt(ω,l)を、推定信号パワー|S(ω,l)|、推定左側方雑音パワー|NLL(ω,l)|、推定左方向雑音パワー|N(ω,l)|、推定正面方向雑音パワー|N(ω,l)|、推定右方向雑音パワー|N(ω,l)|、推定右側方雑音パワー|NRR(ω,l)|としてそれぞれ出力し、推定信号パワー|S(ω,l)|と処理対象信号Y(ω,l)から、第1ゲイン係数G(ω,l)を計算し、推定信号パワー|S(ω,l)|、推定左側方雑音パワー|NLL(ω,l)|、推定左方向雑音パワー|N(ω,l)|、推定正面方向雑音パワー|N(ω,l)|、推定右方向雑音パワー|N(ω,l)|、推定右側方雑音パワー|NRR(ω,l)|から、第2ゲイン係数GSNR(ω,l)を計算し、第1ゲイン係数G(ω,l)と第2ゲイン係数GSNR(ω,l)との積を利得係数R(ω,l)として出力する(S130’)。
 乗算部9は、利得係数算出部130’で算出した利得係数R(ω,l)を処理対象信号Y(ω,l)に乗算する(S9)。逆周波数領域変換部10は、利得係数が乗算された処理対象信号R(ω,l)Y(ω,l)を時間領域に変換する。上述の処理により時間周波数ビンごとに、干渉雑音源成分を抑圧した信号を取得できる。
特開2009-005261号公報 特開2009-025490号公報 特開2010-026485号公報 特開2013-183358号公報 特開2016-127457号公報
 従来技術が抱える課題として、目的音源がマイクロホンアレーの遠方にあるほど、低周波における音声強調性能は劣化する、という課題がある。
 目的音源と干渉雑音源の相対位置が同じでも、マイクロホンアレーが目的音源の遠方に位置するほど目的音源、マイクロホンアレー、干渉雑音源のなす角は小さくなる。その結果、ビームフォーマで鋭い指向性を形成することが困難になる。すると、ビームフォーマの出力(ビーム出力)では目的音源と干渉雑音源の感度差が小さくなるため複数の音源が励起しやすい。ビーム出力で複数の音源が励起していると、音源間の干渉により局所パワースペクトル推定の混合モデルと実際の混合との近似誤差が大きくなるためパワースペクトル推定精度は劣化する。また、ビームフォーマの一般的性質として、低周波になるほどビームフォーマの指向性は鈍くなる。従って、低周波になるほど音声強調性能は劣化しやすい。
 そこで本発明では、ターゲットエリアが遠方に位置する場合において、音源強調性能を改善することができる収音装置を提供することを目的とする。
 本発明の収音装置は、マイクロホンアレーから遠方に位置する所望の音源エリアに対し、中周波数帯域の特性に基づいて低周波数帯域の特性を補正することを特徴とする。
 本発明の収音装置によれば、ターゲットエリアが遠方に位置する場合において、音源強調性能を改善することができる。
特許文献2の収音装置の構成例を示すブロック図。 特許文献2の収音装置の各収音部の設定を説明するための音源位置の領域を示す図。 特許文献2の収音装置の動作例を示すフローチャート。 実施例1の収音装置の構成例を示すブロック図。 実施例1の収音装置の動作例を示すフローチャート。 実施例1の収音装置の推定値補正部の構成例を示すブロック図。 実施例1の収音装置の推定値補正部の動作例を示すフローチャート。 実施例1の収音装置の性能評価実験の結果(SDR平均値)を示すグラフ。 実施例1の収音装置の性能評価実験の実験条件を説明する図。 実施例1の収音装置の性能評価実験の結果(低周波成分のみの信号のSDR平均値)を示すグラフ。 コンピュータの機能構成例を示す図。
 以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
 目的音源および干渉雑音源の周波数成分は偏在していないと仮定する。また、ビームフォーマの周波数方向における指向性の一般的性質から、FlowからFhighまでの周波数(中周波数帯域)ではビームフォーマの指向性は十分に鋭く、またパワースペクトル推定値の推定精度も十分に高いと仮定する。
 ここで、中周波数帯域は、例えばFlow=0.1Fs,Fhigh=0.25Fsとする。ただし、Fsは標本化周波数である。
 ある時間フレームごとに、パワースペクトル推定部7’で算出したパワースペクトル推定値に含まれる中周波数帯域のパワースペクトル推定値を用いて、中周波数帯域の各領域のパワー比ρmid(以下、各領域のパワー比)を算出する。実施例1では、低周波において、複数の音源が励起している時間周波数ビンでは、音声強調性能が改善するような各領域のパワースペクトルの形状は各領域のパワー比ρmidに近いと仮定する。そこで、各領域のパワー比から生成したパワースペクトル(補正用パワースペクトル)とパワースペクトル推定部7’で算出した各領域のパワースペクトル推定値を混合することでパワースペクトル推定値を補正する。すなわち、ビーム出力で複数の音源が励起している、もしくは、励起しやすい場合は、パワースペクトル推定部7’で算出したパワースペクトル推定値を補正用パワースペクトルに近づけることを意図している。
 本実施例の収音装置は、マイクロホンアレーから遠方に位置する所望の音源エリアに対し、中周波数帯域の特性に基づいて低周波数帯域の特性を補正することを特徴とする収音装置であって、各周波数領域の局所PSDを推定し、各周波数領域の中周波数帯域のパワー比で推定された局所PSDのうち低周波数帯域の局所PSDを補正し、補正された局所PSDに基づいてビームを形成する収音装置である。
 以下、図4を参照して実施例1の収音装置の構成を説明する。同図に示すように本実施例の収音装置は、特許文献2の収音装置が備える、2つのマイクロホンアレー3L、3Rと、6つ以上の収音部(同図の例では、第1~第6収音部4-1~4-6)と、周波数領域変換部5と、処理対象信号生成部140と、パワースペクトル推定部7と、利得係数算出部130と、乗算部9と、逆周波数領域変換部10をすべて含み、さらにパワースペクトル推定部7の後段であって、利得係数算出部130の前段に、あらたに推定値補正部201を含む。また、図5に示すように、本実施例の収音装置は、特許文献2の収音装置の動作であるステップS4-1~S4-6、S140、S7、S130、S9を実行し、さらに、ステップS7、S140の後、かつステップS130の前にステップS201を実行する。
≪推定値補正部201≫
 推定値補正部201は、処理対象信号YS(ω,l)と、推定信号パワーベクトルXopt(ω,l)を入力とし、補正した推定信号パワーベクトルX^opt(ω,l)を出力する(S201)。
 中周波数帯域を[Flow,Fhigh)と定義する。また、Ωlowhighは、それぞれFlow,Fhighに対応する周波数ビンインデックスとする。以下では、標本化周波数をFsとし、Flow=0.1Fs,Fhigh=0.25Fsとする。
 図6に示すように、推定値補正部201は、パワー比算出部2011と、混合係数算出部2012と、補正用パワーベクトル算出部2013と、パワースペクトル混合部2014を含む。
[推定値補正部201における処理の流れ]
 現在の時間フレームにおいて、パワー比算出部2011はステップS2011(後述)を実行する。
 ω<Ωlowの周波数ビン:混合係数算出部2012、補正用パワーベクトル算出部2013、パワースペクトル混合部2014は、ステップS2012、S2013、S2014(後述)を実行する。
 ω≧Ωlowの周波数ビン:パワースペクトル混合部2014は、ステップS2014を実行する。
 以下、図7を参照して、ステップS2011~S2014の各動作を説明する。
<パワー比算出部2011>
 パワー比算出部2011は、特許文献2と同様に推定したパワーベクトルXoptを入力とし、パワーベクトルXoptのあらかじめ定めた中周波数帯域[Flow,Fhigh)の予め定めた各領域のパワー比ρmidを算出する(S2011)。
Figure JPOXMLDOC01-appb-M000001
 ただし、インデックス記号⇒ω:周波数ビン、l:時間フレーム、c:エリア、定数⇒Ω:周波数ビン数、L:時間フレーム数、C:エリア数とする。また、(z)[c]はベクトルzからインデックスcの要素を抽出する操作とする。
<混合係数算出部2012>
 混合係数算出部2012は、パワー比ρmidのスパース性に基づく指標で混合係数のベクトルλ(ω,l)を算出する(S2012)。
例えば、以下のような式が考えられる。
Figure JPOXMLDOC01-appb-M000002
 なお、g(・)は重みづけのための関数(恒等写像、べき関数など)であり、後述する実験結果では恒等写像とした。また、この実施例では、λ0(ω,l)=λ1(ω,l)=…=λC-1(ω,l)である。
 なお、中周波数帯域の各領域のパワー比ρmidがスパースな時/スパースでないときに現実空間では以下の事象が起きている。
 時間フレームlにおける領域cのパワー比ρmid(l,c)について、ρmid(l,:)を時間フレームlにおける各領域のパワー比のベクトルとすると、現実の空間で、
・ρmid(l,:)がスパースな時:時間フレームlにおいて音源が励起している領域は少ない。
・ρmid(l,:)がスパースでないとき:時間フレームlにおいて音源が励起している領域は多い。
と考えられる。
 例えば、
・ρmid(l,0)=1.0の場合、時間フレームlでは領域c=0のみ音源が励起している。
・ρmid(l,0)=ρmid(l,1)=・・・=ρmid(l,C-1)=1/Cの場合、時間フレームlでは全ての領域で音源が励起している。
と考えられる。なお、前述したようにCはエリア数(領域の数)、また、ベクトルρmid(l,:)の要素の総和は1.0である。
<補正用パワーベクトル算出部2013>
 補正用パワーベクトル算出部2013は、パワー比ρmid(l,c)と、処理対象信号YS(ω,l)を入力とし、処理対象信号YS(ω,l)とパワー比ρmid(l,c)の積(次式)を補正用パワーベクトルXmodとして算出する(S2013)。
Figure JPOXMLDOC01-appb-M000003
 Xmod,c(ω,l)は、Xmod(ω,l)のインデックスcにおける要素である。
<パワースペクトル混合部2014>
 パワースペクトル混合部2014は、ステップS7で推定したパワーベクトルXopt(ω,l)と、補正用パワーベクトルXmod(ω,l)と、混合係数のベクトルλ(ω,l)を入力とし、hを全ての要素が1のベクトルとし、混合係数のベクトルλ(ω,l)とパワーベクトルXopt(ω,l)の要素ごとの積と、h-λと補正用パワーベクトルXmod(ω,l)の要素ごとの積の和に基づいて補正後のパワーベクトルX^opt(ω,l)を算出する。
Figure JPOXMLDOC01-appb-M000004
 なお、〇は、ベクトルの要素ごとの積とする。hは、要素数がC個で、全ての要素が1であり、Xmodと同じ要素数のベクトルとする。
 以下、特許文献2の収音装置と同様に、ステップS130で補正後のパワーベクトルX^optと処理対象信号Yから算出した周波数ごとの利得係数Rを、ステップS9で処理対象信号Yに乗算し、時間領域に変換して出力する。
[変形例]
 混合の比率は、各時間フレームや周波数ビンにおいて、複数の音源が励起しているか、もしくは、励起しやすいかを示す、以下の(1)~(3)の指標およびパラメタの内、少なくとも1つ以上を用いて決定すればよい。
(1)その時間フレームにおける各領域のパワー比のスパース性に関する指標(実施例1)
・各領域のパワー比のスパース性が低い。
⇒複数の音源が励起している。
⇒音源間の干渉により、低周波における音源強調性能は劣化すると考えられる。
(2)その周波数ビンにおけるゲイン行列T(ω)のスパース性に関する指標
・ビームフォーマの指向性が鈍い。
⇒ゲイン行列のスパース性が低い。
⇒ビーム出力で複数の音源が励起しやすい。
⇒音源間の干渉により、低周波における音源強調性能は劣化すると考えられる。
(3)目的音源と各マイクロホンアレー間の距離および2つのマイクロホンアレー間の距離
・2つのマイクロホンアレー間の距離が狭いほど目的音源がマイクロホンアレーの遠方に位置する場合は指向性の鋭いビームフォーマを構築することが難しい。
⇒ビーム出力で、複数の音源が励起しやすい。
⇒音源間の干渉により、低周波における音源強調性能は劣化すると考えられる。
 なお、上記実施例、変形例に記載したように、中周波数帯域の各領域のパワー比を、現在の時間フレームの該当周波数ビンのパワーの総和として算出することにかえて、過去の時間フレームのパワー値や、その統計量(平均、最小、最大値など)を利用して算出してもよい。
<実施例1の収音装置の性能評価(1)>
 実施例1の収音装置を計算機のシミュレーション実験(鏡像法)で評価した結果を図8に示す。実験条件(空間サイズと音源・マイクロホンアレーの位置)については図9に示すとおりである。目的音源から2つの直線マイクロホンアレーの中央までの距離dを0.5,1.0,・・・,3.5と0.5mずつ変化させて音源強調性能を比較した。ただし、目的音源と干渉雑音源間の相対位置は固定した。評価指標はSDR(信号対歪み比、参考非特許文献1)を用いた。
(参考非特許文献1:Vincent, Emmanuel, et.al., "Performance measurement in blind audio source separation,"IEEE trans. on ASLP 14(4) 1462-1469, 2006)
 SDRは数値が大きいほど音声強調性能が高いことを示す。目的音源がマイクロホンアレーの遠方に位置する場合、実施例1の収音装置は従来技術よりもSDR平均値、すなわち音源強調性能が改善することを確認した。
<実施例1の収音装置の性能評価(2)>
 以下の方法により、実施例1の収音装置の適用対象となる低周波成分のみの信号のSDRを算出した。強調信号x(n)、リファレンス信号xref(n)を短時間フーリエ変換する。周波数領域の強調信号X(ω,t)、リファレンス信号Xref(ω,t)において、次式でω≧Ωlowの成分を0とする。
Figure JPOXMLDOC01-appb-M000005
 逆短時間フーリエ変換し、低周波成分のみの強調信号xlow(n)、リファレンス信号xref_low(n)を得る。xlow(n)とxref_low(n)からSDR(参考非特許文献1)を算出する。評価実験の結果を図10に示す。
<補記>
 本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
 ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
 ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
 本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
 既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
 上述の各種の処理は、図11に示すコンピュータの記録部10020に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部10010、入力部10030、出力部10040などに動作させることで実施できる。
 この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP-ROM(Electrically Erasable and Programmable-Read Only Memory)等を用いることができる。
 また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
 また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (5)

  1.  マイクロホンアレーから遠方に位置する所望の音源エリアに対し、中周波数帯域の特性に基づいて低周波数帯域の特性を補正することを特徴とする
     収音装置。
  2.  請求項1に記載の収音装置であって、
     各周波数領域の局所PSDを推定し、各周波数領域の中周波数帯域のパワー比で推定された局所PSDのうち低周波数帯域の局所PSDを補正し、補正された局所PSDに基づいてビームを形成する
     収音装置。
  3.  あらかじめ定めた1つ以上のマイクロホンからの信号または所望音源位置を含む角度領域を収音範囲とする特性に設定した収音部で収音した信号から生成した処理対象信号Yと、周波数ごとの所望音源の信号量とその他の音源の信号量であるパワーベクトルXoptを用いる請求項1または2に記載の収音装置であって、
     前記パワーベクトルXoptのあらかじめ定めた中周波数帯域[Flow,Fhigh)の予め定めた各領域のパワー比ρmidを算出するパワー比算出部と、
     前記パワー比ρmidのスパース性に基づく指標で混合係数のベクトルλを算出する混合係数算出部と、
     前記処理対象信号Yと前記パワー比ρmidの積を補正用パワーベクトルXmodとして算出する補正用パワーベクトル算出部と、
     hを全ての要素が1のベクトルとし、前記混合係数のベクトルλと前記パワーベクトルXoptの要素ごとの積と、h-λと前記補正用パワーベクトルXmodの要素ごとの積の和に基づいて補正後のパワーベクトルX^optを算出するパワースペクトル混合部を含み、
     前記補正後のパワーベクトルX^optと前記処理対象信号Yから算出した周波数ごとの利得係数Rを、前記処理対象信号Yに乗算する
     収音装置。
  4.  収音装置が実行する収音方法であって、
     マイクロホンアレーから遠方に位置する所望の音源エリアに対し、中周波数帯域の特性に基づいて低周波数帯域の特性を補正することを特徴とする
     収音方法。
  5.  コンピュータを請求項1から3の何れかに記載の収音装置として機能させるプログラム。
PCT/JP2020/031121 2020-08-18 2020-08-18 収音装置、収音方法、プログラム WO2022038673A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/031121 WO2022038673A1 (ja) 2020-08-18 2020-08-18 収音装置、収音方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/031121 WO2022038673A1 (ja) 2020-08-18 2020-08-18 収音装置、収音方法、プログラム

Publications (1)

Publication Number Publication Date
WO2022038673A1 true WO2022038673A1 (ja) 2022-02-24

Family

ID=80322937

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/031121 WO2022038673A1 (ja) 2020-08-18 2020-08-18 収音装置、収音方法、プログラム

Country Status (1)

Country Link
WO (1) WO2022038673A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008236287A (ja) * 2007-03-20 2008-10-02 Sanyo Electric Co Ltd 音声信号生成装置及び方法
JP2015126279A (ja) * 2013-12-25 2015-07-06 沖電気工業株式会社 音声信号処理装置及びプログラム
WO2015129760A1 (ja) * 2014-02-28 2015-09-03 日本電信電話株式会社 信号処理装置、方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008236287A (ja) * 2007-03-20 2008-10-02 Sanyo Electric Co Ltd 音声信号生成装置及び方法
JP2015126279A (ja) * 2013-12-25 2015-07-06 沖電気工業株式会社 音声信号処理装置及びプログラム
WO2015129760A1 (ja) * 2014-02-28 2015-09-03 日本電信電話株式会社 信号処理装置、方法及びプログラム

Similar Documents

Publication Publication Date Title
JP4195267B2 (ja) 音声認識装置、その音声認識方法及びプログラム
US11246000B2 (en) Audio precompensation filter optimized with respect to bright and dark zones
EP1848110A2 (en) Audio output device and method for calculating parameters
JP2019078864A (ja) 楽音強調装置、畳み込みオートエンコーダ学習装置、楽音強調方法、プログラム
WO2022038673A1 (ja) 収音装置、収音方法、プログラム
JP7254938B2 (ja) 音響源用の結合音源定位及び分離方法
JP6567478B2 (ja) 音源強調学習装置、音源強調装置、音源強調学習方法、プログラム、信号処理学習装置
JP6517124B2 (ja) 雑音抑圧装置、雑音抑圧方法、およびプログラム
WO2021255925A1 (ja) 目的音信号生成装置、目的音信号生成方法、プログラム
JP5583181B2 (ja) 縦続接続型伝達系パラメータ推定方法、縦続接続型伝達系パラメータ推定装置、プログラム
CN110677782B (zh) 信号自适应噪声过滤器
WO2021171533A1 (ja) フィルタ係数最適化装置、フィルタ係数最適化方法、プログラム
WO2021024474A1 (ja) Psd最適化装置、psd最適化方法、プログラム
WO2021171532A1 (ja) フィルタ係数最適化装置、潜在変数最適化装置、フィルタ係数最適化方法、潜在変数最適化方法、プログラム
WO2021024475A1 (ja) Psd最適化装置、psd最適化方法、プログラム
JP5106936B2 (ja) 音場再現フィルタ算出装置および音場再現システム
WO2022168230A1 (ja) 残響除去装置、パラメータ推定装置、残響除去方法、パラメータ推定方法、プログラム
WO2023276068A1 (ja) 音響信号強調装置、音響信号強調方法、プログラム
WO2021100094A1 (ja) 音源信号推定装置、音源信号推定方法、プログラム
JP5325134B2 (ja) 反響消去方法、反響消去装置、そのプログラムおよび記録媒体
WO2022130445A1 (ja) 音源信号生成装置、音源信号生成方法、プログラム
WO2022269854A1 (ja) フィルタ生成装置、フィルタ生成方法、プログラム
WO2021186631A1 (ja) 音源位置判定装置、音源位置判定方法、プログラム
JP4616891B2 (ja) 多重ベクトル量子化方法、装置、プログラム及びその記録媒体
JP4972032B2 (ja) 収音装置、収音方法、そのプログラム、その記録媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20950239

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20950239

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP