WO2023053559A1 - 音声処理装置、音声処理プログラム、音声処理方法及び装着体 - Google Patents

音声処理装置、音声処理プログラム、音声処理方法及び装着体 Download PDF

Info

Publication number
WO2023053559A1
WO2023053559A1 PCT/JP2022/020062 JP2022020062W WO2023053559A1 WO 2023053559 A1 WO2023053559 A1 WO 2023053559A1 JP 2022020062 W JP2022020062 W JP 2022020062W WO 2023053559 A1 WO2023053559 A1 WO 2023053559A1
Authority
WO
WIPO (PCT)
Prior art keywords
target area
microphone arrays
user
sound
microphone
Prior art date
Application number
PCT/JP2022/020062
Other languages
English (en)
French (fr)
Inventor
高詩 石黒
大 藤枝
宗大 原
悠介 ▲高▼橋
Original Assignee
沖電気工業株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 沖電気工業株式会社 filed Critical 沖電気工業株式会社
Publication of WO2023053559A1 publication Critical patent/WO2023053559A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Definitions

  • the present invention relates to a voice processing device, a voice processing program, a voice processing method, and a wearable object, and can be applied, for example, to sound collection processing for collecting voices spoken by a user (wearer) wearing the wearable object.
  • a user who wears a wearing body (for example, a wearing body having a shape such as a headset type, a headphone type, a neckband type, etc.) equipped with an earphone (speaker) and a microphone speaks.
  • a wearing body for example, a wearing body having a shape such as a headset type, a headphone type, a neckband type, etc.
  • an earphone microphone
  • Techniques described in Patent Documents 1 and 2 exist as techniques for collecting sound.
  • Patent Literature 1 describes a device that uses a neckband-type wearable body to collect the voice uttered by the user.
  • two microphones are arranged linearly in a neckband-type wearing body, the first microphone is arranged to face the user's mouth, and the second microphone is arranged to face the user's mouth. It is placed facing the foot.
  • the technique described in Patent Document 1 by performing beam forming processing on the acoustic signals captured by the two microphones, the user's uttered voice coming from the direction of the user's mouth is emphasized, and the user's foot side is emphasized. suppresses the noise component coming from
  • Patent Literature 2 describes a device that uses a headphone-type wearing body to collect the voice uttered by the user.
  • a microphone array is mounted on each of the left and right ear cups.
  • beam forming processing is performed on acoustic signals supplied from two left and right microphone arrays to enhance the acoustic response in the direction of the user's mouth, and the output of each beam forming processing is banded.
  • a signal in which the component of the user's uttered voice is emphasized is acquired by adding each.
  • background noise noise reference signal
  • speech enhancement is performed by using an applied filter to emphasize the component of the user's uttered voice. Estimate the speech component from the signal (suppress the background noise component).
  • the utterance voice of the user wearing the device is emphasized by performing beam forming processing on the acoustic signal supplied from the microphone array (a plurality of microphones).
  • the noise coming from the extension line is also emphasized.
  • simply adding signals obtained by performing beamforming processing on acoustic signals supplied from two left and right microphone arrays for each subband does not only affect the user's mouth, Noise in the range of beamforming and ambient speech (speech of others existing around the user) will also be emphasized.
  • an adaptive filter is used to estimate the speech component of a speech-enhanced signal. Requires a lot of computational resources. Therefore, as in the technique described in Patent Document 2, when estimating a speech component using an adaptive filter, if sufficient computational resources cannot be secured, the adaptive filter does not converge to the optimum solution, and the learning result diverges. The quality (estimation accuracy) of the output signal may deteriorate (for example, the target sound may be attenuated or noise may increase in the estimated speech value).
  • a voice processing device a voice processing program, a voice processing method, and a wearable body capable of efficiently collecting high-quality voice uttered by a user with a microphone attached to the wearable body are provided. Desired.
  • a speech processing apparatus is to be worn on a user's body, and based on a wearable body to which a plurality of microphone arrays are attached and input signals supplied from each of the microphone arrays, A beamformer output that forms directivity in a direction of a target area including a target position on the user's body is obtained from each of the microphone arrays, and the target area is used as a sound source using the obtained beamformer output. and area sound pickup means for picking up target area sound, wherein the directivity of each of the microphone arrays overlaps only in one region including the target area.
  • a voice processing program provides a computer mounted on a voice processing device, which is worn on the body of a user and has a wearable body to which a plurality of microphone arrays are attached, for each of the microphone arrays. obtaining a beamformer output whose directivity is formed in a direction of a target area including a target position on the user's body from each of the microphone arrays based on the input signal supplied from the to function as area sound pickup means for picking up target area sound whose sound source is the target area, and that the directivities of the respective microphone arrays overlap only in one region including the target area. Characterized by
  • a third aspect of the present invention is a speech processing method performed by a speech processing device, comprising: a wearable body to which a plurality of microphone arrays are attached;
  • the area sound pickup means outputs a beamformer that forms directivity in a direction of a target area including a target position on the user's body from each of the microphone arrays based on an input signal supplied from each of the microphone arrays. and using the obtained beamformer output to pick up a target area sound whose sound source is the target area, and the directivity of each of the microphone arrays is only in one region including the target area It is characterized by duplication.
  • a wearable body to be worn on a user's body includes a plurality of microphone arrays, and based on input signals of the respective microphone arrays, each of the microphone arrays detects an object on the user's body. each of the microphones such that the directivities of each of the microphone arrays overlap only in one region containing the area of interest when shaping the directivity of the beamformer output in the direction of the area of interest containing the location.
  • An array is arranged.
  • a voice processing apparatus is a voice processing apparatus, based on input signals supplied from a plurality of microphone arrays attached to a wearable body worn on a user's body, from each of the microphone arrays on the user's body.
  • area sound pickup means for acquiring a beamformer output having directivity formed in a direction of a target area including a target position, and using the acquired beamformer output to pick up target area sound whose sound source is the target area; wherein the directivities of each of the microphone arrays overlap only in one region containing the target area.
  • a voice processing program causes a computer, based on input signals supplied from a plurality of microphone arrays attached to a wearable body worn on the user's body, to perform voice recognition of the user from each of the microphone arrays. Acquiring a beamformer output that forms directivity in the direction of a target area including a target position on the body, and using the acquired beamformer output to pick up the target area sound whose sound source is the target area. Serving as sound means, the directivity of each of the microphone arrays overlaps only in one region including the target area.
  • a seventh aspect of the present invention is a speech processing method performed by a speech processing device, comprising area sound pickup means, wherein the area sound pickup means is supplied from a plurality of microphone arrays attached to a user's body. based on the received input signal, obtaining a beamformer output forming directivity in a direction of a target area including a target position on the user's body from each of the microphone arrays, and using the obtained beamformer output and picking up a target area sound whose sound source is the target area, and the directivity of each of the microphone arrays overlaps only in one region including the target area.
  • the voice uttered by the user can be efficiently picked up with high quality by the microphone attached to the wearer's body.
  • FIG. 1 is a block diagram showing a functional configuration of a speech processing device according to a first embodiment
  • FIG. FIG. 2 is a front view of a user wearing a wearing body (No. 1) according to the first embodiment
  • FIG. 2 is a view of a user wearing the wearing body (No. 1) according to the first embodiment as seen from above (overhead)
  • 1 is a block diagram showing the configuration of a subtractive beamformer according to a first embodiment
  • FIG. FIG. 4 is a diagram showing directivity formed by the subtractive beamformer according to the first embodiment
  • FIG. 4 is a diagram showing directivity formed by the subtractive beamformer according to the first embodiment
  • 1 is a diagram showing a configuration example of a microphone array according to the first embodiment
  • FIG. 4 is a graph (image diagram) showing the beamformer output of the microphone array according to the first embodiment in the frequency domain;
  • FIG. 4 is a graph (image diagram) showing the beamformer output of the microphone array according to the first embodiment in the frequency domain;
  • FIG. 10 is an explanatory diagram (image) showing changes in the power spectrum of each frequency component when area sound pickup processing is performed based on the beamformer output obtained using the microphone array according to the first embodiment;
  • FIG. 10 is an explanatory diagram (image) showing changes in the power spectrum of each frequency component when area sound pickup processing is performed based on the beamformer output obtained using the microphone array according to the first embodiment;
  • FIG. 10 is an explanatory diagram (image) showing changes in the power spectrum of each frequency component when area sound pickup processing is performed based on the beamformer output obtained using the microphone array according to the first embodiment;
  • FIG. 10 is an explanatory diagram (image) showing changes in the power spectrum of each frequency component when area sound pickup processing is performed based on the beamformer output obtained using the microphone array according to the first embodiment
  • FIG. 4 is a front view of a user wearing a wearing body (No. 2) according to the first embodiment; It is the figure which looked at the user wearing the wearing body (2) which concerns on 1st Embodiment from above (overhead).
  • FIG. 10 is a diagram showing an example in which the directivity of microphone arrays attached to the wearer overlaps in a plurality of areas
  • FIG. 7 is a block diagram showing a functional configuration of a speech processing device according to a second embodiment
  • FIG. 10 is a diagram showing a state in which a user wears the wearing body according to the second embodiment
  • FIG. 11 is a block diagram showing the functional configuration of a speech processing device according to a third embodiment
  • FIG. 11 is a diagram showing a state in which a user wears a wearing body according to the third embodiment
  • FIG. 11 is a diagram showing a state in which a user wears a wearing body (No. 1) according to the fourth embodiment
  • FIG. 14 is a diagram showing a state in which a user wears a wearing body (No. 2) according to the fourth embodiment
  • FIG. 14 is a diagram showing a state in which a user wears a wearing body (No. 3) according to the fourth embodiment
  • FIG. 10 is a diagram showing a configuration (part 1) of a microphone array according to a modified example of the embodiment;
  • FIG. 10 is a diagram showing a configuration (part 1) of a microphone array according to a modified example of the embodiment;
  • FIG. 11 is a diagram showing a configuration (part 2) of a microphone array according to a modified example of the embodiment;
  • FIG. 10 is a diagram showing a modified example (part 1) of the wearing body according to the first embodiment;
  • FIG. 10 is a diagram showing a modified example (part 2) of the mounting body according to the first embodiment;
  • FIG. 1 is a block diagram showing the functional configuration of a speech processing device 1 according to this embodiment.
  • the audio processing device 1 has a sound collection processing unit 10, a wearing body 20, and a reproduction processing unit 30.
  • the wearable body 20 is a device that can be worn on the head of the user US.
  • FIG. 1 the outline of the configuration of the mounting body 20 will be described with reference to FIGS. 1 to 3.
  • FIG. 1 the outline of the configuration of the mounting body 20 will be described with reference to FIGS. 1 to 3.
  • FIG. 2 and 3 are diagrams showing the user US wearing the wearing body 20.
  • FIG. 2 and 3 are diagrams showing the user US wearing the wearing body 20.
  • FIG. 2 is a view of the user US viewed from the front
  • FIG. 3 is a view of the user US viewed from above.
  • the wearing body 20 is a device (so-called headset type device) having a headphone function and a microphone function.
  • the wearable body 20 includes a microphone array section 21 for capturing voice uttered by the user US (hereinafter referred to as "speech voice"), and a speaker section for emitting sound based on the supplied acoustic signal toward the user US. 22.
  • the microphone array section 21 includes a plurality of microphone arrays MA each composed of a plurality of microphones M. As shown in FIG. In this embodiment, the microphone array section 21 is assumed to have two microphone arrays MA (MA1, MA2). Assume that the microphone arrays MA1 and MA2 each include two microphones M (M1 and M2). In other words, the microphone array section 21 has four microphones M in total. The number of microphones M included in each microphone array MA may be three or more.
  • Acoustic signals based on sounds captured by the microphones M constituting the microphone array section 21 are supplied to the sound collection processing section 10 .
  • a non-directional omnidirectional microphone for example, an omnidirectional MEMS (Micro Electronics Mechanical System) microphone
  • MEMS Micro Electronics Mechanical System
  • the speaker unit 22 includes a right speaker SP_R for the right ear of the user US and a left speaker SP_L for the left ear.
  • the speaker section 22 is configured to include two speakers, but the number and configuration of the speakers are not limited.
  • the speaker unit 22 may be configured to include only one of the right speaker SP_R and the left speaker SP_L.
  • the mounting body 20 has a microphone array section 21 and a speaker section 22 attached thereto.
  • the wearing body 20 has a right earcup 201 to be put on the right ear of the user US, a left earcup 202 to be put on the left ear of the user US, and a headband portion 203 .
  • a right ear cup 201 and a left ear cup 202 are attached to both ends of the headband portion 203, respectively.
  • a right speaker SP_R and a left speaker SP_L are attached inside the right ear cup 201 and the left ear cup 202, respectively.
  • a support member 205 that supports the microphone arrays MA1 and MA2 is attached to the right ear cup 201.
  • the support member 205 is a wire-shaped member capable of holding a curved shape, and has one end fixed to the right earcup 201 and the other end to which a housing 207 containing the microphone array MA1 is attached.
  • a projection-shaped support portion 204 for attaching one end of a support member 205 is formed on the outer surface of the right earcup 201 (the outer side as viewed from the user US). The support portion 204 may be rotatably attached to the right earcup 201 .
  • the support member 205 is a wire having a curved shape along the circumference of the mouth portion UM of the user US (a wire capable of maintaining a curved shape).
  • the support member 205 may be made of metal or elastic resin.
  • a housing 208 containing a microphone array MA2 is connected to the housing 207 via a connecting portion 206 .
  • the connecting portion 206 may be made of a wire similar to that of the supporting member 205 .
  • the housings 207 and 208 are arranged side by side along the circumference of the mouth portion UM of the user US by the supporting portion 204 and the supporting member. 205 and connecting portion 206 . Details of layout design of the microphone arrays MA1 and MA2 will be described later.
  • the sound pickup processing unit 10 has a data input unit 11, an area sound pickup processing unit 12, and an output unit 13.
  • the sound collection processing unit 10 may be configured entirely of hardware (for example, a dedicated chip, etc.), or may be partially or wholly configured as software (program).
  • the speech processing device 1 may be configured, for example, by installing a program (including the speech processing program of the embodiment) in a computer having a processor and memory.
  • the data input unit 11 converts the acoustic signals captured by the microphone array unit 21 (microphone arrays MA1 and MA2 in this embodiment) from analog signals to digital signals and supplies them to the area sound pickup processing unit 12 .
  • a signal (digital signal) supplied from the data input section 11 to the area sound pickup processing section 12 will be referred to as an "input signal”.
  • the area sound collection processing unit 12 performs a process (hereinafter referred to as “area sound collection process ”) to acquire a signal (hereinafter referred to as “target area sound extraction signal”) extracted from the target area sound, and supply it to the output unit 13 .
  • the target area when the area sound pickup processing unit 12 performs area sound pickup processing is the vicinity of the mouth portion UM of the user US.
  • the region around the mouth portion UM is illustrated as the target area TA.
  • the area of the target area TA is shown surrounded by a dotted line. Therefore, in this embodiment, the microphone arrays MA1 and MA2 are arranged side by side so as to surround the target area TA. The details of the area sound pickup processing performed by the area sound pickup processing unit 12 will be described later.
  • the output unit 13 outputs the supplied target area sound extraction signal in a predetermined method/format.
  • the format of the signal output by the output unit 13 (hereinafter also referred to as "output signal") is not limited, and various formats can be applied.
  • the output unit 13 may encode the output signal using a predetermined format digital audio signal (eg, PCM format signal) or a predetermined codec and output it (the output method is not limited).
  • the output unit 13 may output the output signal as an analog acoustic signal (for example, output to a speaker (not shown)).
  • the output unit 13 may output the output signal in the format of the frequency domain or the format of the time domain.
  • the reproduction processing unit 30 converts an externally supplied reproduction acoustic signal (for example, a digital signal supplied from an external computer or the like) into analog signals (an analog signal for the right speaker SP_R and an analog signal for the left speaker SP_L). , and supplied to the speaker unit 22 (right speaker SP_R, left speaker SP_L).
  • the reproduction processing unit 30 may be composed of a single piece of hardware (for example, a single semiconductor chip), or may be mounted on the same computer as the sound collection processing unit 10 .
  • the sound collection processing unit 10 and the reproduction processing unit 30 may be incorporated in the mounting body 20, or may be mounted in a computer separate from the mounting body 20 (for example, a computer such as a smartphone, tablet, or PC).
  • a computer such as a smartphone, tablet, or PC.
  • the area sound pickup processing unit 12 can apply various area sound pickup processes. For example, in the area sound pickup processing unit 12, area sound pickup processing described in Japanese Patent Application Laid-Open No. 2017-181761 (hereinafter referred to as “reference document 1”) or the like can be applied.
  • reference document 1 Japanese Patent Application Laid-Open No. 2017-181761
  • BF beamformer
  • the subtractive BF has the advantage of being able to form sharp directivity with a small number of microphones compared to the additive BF.
  • FIG. 4 is a block diagram showing the configuration of the subtraction type BF.
  • FIG. 4 shows a configuration example of a subtractive BF that processes input signals from a microphone array MA having two microphones (microphones M1 and M2).
  • the subtractive BF first calculates the time difference between the signals of sound existing in the target direction (hereinafter also referred to as "target sound") arriving at each microphone using a delay device, and adds a delay to adjust the phase of the target sound. match.
  • target sound the signals of sound existing in the target direction
  • the time difference is calculated by the following equation (1).
  • d is the distance between microphones
  • c is the speed of sound
  • ⁇ L is the amount of delay.
  • ⁇ L is the angle from the direction perpendicular to the straight line connecting the microphones M1 and M2 to the target direction (target area TA).
  • ⁇ L (d sin ⁇ L )/c (1)
  • the delayer in the subtractive BF is the input signal x1 of the first microphone M1.
  • Delay processing is performed on (t). After that, the delayed input signal x 1 (t) is subtracted according to equation (2).
  • A(t) x 2 (t) ⁇ x 1 (t ⁇ L ) (2)
  • Subtraction processing can be performed in the frequency domain as well, in which case equation (2) is changed to equation (3) below.
  • Figs. 5A and 5B are diagrams showing the directivity formed by the subtractive BF shown in Fig. 4.
  • Figs. 5A and 5B are diagrams showing the directivity formed by the subtractive BF shown in Fig. 4.
  • the distribution of the directivity in each direction (the directivity around the microphones M1 and M2) in the subtractive BF is illustrated by dashed lines.
  • a filter that forms unidirectionality from an input signal is called a unidirectional filter, and a filter that forms bidirectionality is called a bidirectional filter.
  • SS spectral subtraction
  • This method uses a bidirectional filter to extract sounds that exist in directions other than the target direction (hereinafter also referred to as "non-target sounds"), and subtracts the power spectrum of the extracted non-target sounds from the power spectrum of the input signal. , the target area sound whose sound source is the target area TA can be emphasized.
  • non-target area sound the sound of the sound source existing around the area
  • the subtractive BF the subtractive BF
  • FIG. 6 is an explanatory diagram showing a configuration example of each of the microphone arrays MA1 and MA2 when using the two microphone arrays MA1 and MA2 to pick up the target area sound from the sound source in the target area TA.
  • FIGS. 7A and 7B are explanatory diagrams (graphs) showing the respective BF outputs of the microphone arrays MA1 and MA2 shown in FIG. 6 in the frequency domain.
  • 7A and 7B are graphs (image diagrams) showing the BF outputs of the microphone arrays MA1 and MA2, respectively, in the frequency domain.
  • the power ratio of the target area sound contained in the BF output of each of the microphone arrays MA1 and MA2 is estimated and used as the correction coefficient.
  • the correction coefficient for the target area sound power is calculated by equation (5) or (6).
  • each BF output is corrected by a correction coefficient and SS is performed to extract non-target area sounds existing in the direction of the target area. Furthermore, the target area sound can be extracted by SSing the extracted non-target area sound from the output of each BF.
  • 8A, 8B, and 8C are explanatory diagrams showing changes in the power spectrum of each frequency component when area sound pickup processing is performed based on BF outputs obtained using the microphone arrays MA1 and MA2 shown in FIG. 6 ( image).
  • a BF output Y1 obtained by suppressing the non-target area sound N2 is obtained from the input signal X1 of the microphone array MA1 (see FIG. 8A).
  • the BF output Y 2 (n) of the microphone array MA1 is extracted from the microphone array MA2 BF output Y 2 (n) of is multiplied by the power correction coefficient ⁇ (see FIG. 8B).
  • the target area sound can be extracted by SSing the non-target area sound from each BF output according to the equation (8) (see FIG. 8C).
  • ⁇ (n) is a coefficient for changing the intensity during SS.
  • N 1 Y 1 - ⁇ Y 2 (7)
  • Z 1 Y 1 - ⁇ N 1 (8)
  • the area sound pickup processing unit 12 can perform area sound pickup processing for the target area TA based on the BF outputs of the microphone arrays MA1 and MA2.
  • the area sound pickup processing unit 12 picks up sounds whose sound sources are regions where the directivities (sound pickup directivities) of the BF outputs of the microphone arrays MA1 and MA2 overlap. Therefore, in order to set the sound pickup area to the target area TA, it is desirable that the directivity of the BF outputs of the microphone arrays MA1 and MA2 overlap in the target area TA, as shown in FIG.
  • midpoints of lines connecting the positions of the microphones M1 and M2 in the microphone arrays MA1 and MA2 are indicated as P101 and P102, respectively.
  • the directivity of the BF outputs of the microphone arrays MA1 and MA2 is centered on P101 and P102, respectively, and formed in a direction substantially perpendicular to the line passing through each microphone.
  • the directivity of the microphone array MA1 is indicated by a dashed-dotted line and denoted by D101.
  • the directivity of the microphone array MA2 is indicated by a chain double-dashed line, and is denoted by D102.
  • the directivities D101 and D102 are set so as to overlap only in one area including the target area TA (an area including the mouth portion UM of the user US), so that the user's It is possible to pick up only the uttered voice uttered by the US from the mouth portion UM (only the target area sound is picked up).
  • the mounting body 20 may be replaced with a mounting body 20A as shown in FIGS.
  • FIG 9 and 10 are diagrams showing the configuration of the mounting body 20A.
  • 9 and 10 are diagrams showing the user US wearing the wearing body 20A.
  • FIG. 9 is a diagram of the user US viewed from the front
  • FIG. 10 is a diagram of the user US viewed from above (overhead).
  • the mounting body 20 has a configuration in which both the housings 207 and 208 (microphone arrays MA1 and MA2) are connected to the support member 205 attached to the right ear cup 201 .
  • the housing 207 microwave array MA1
  • the housing 208 microwave array MA2
  • the housing 208 is attached to the left ear cup 201. It is supported by a support member 210 attached to the ear cup 202 .
  • the left earcup 202 is supported so as to be bilaterally symmetrical (symmetrical when viewed from the user US (mouth portion UM; target area TA)) with the right side configuration (supporting portion 204, supporting member 205, and housing 207).
  • a portion 209, a support member 210 and a housing 208 (microphone array MA2) are attached.
  • the support portion 209 and the support member 210 have the same configuration as the support portion 204 and the support member 205 except that they are bilaterally symmetrical.
  • the microphone arrays MA1 and MA2 (housings 207 and 208) are arranged along the periphery of the mouth portion UM (target area TA) of the user US (arranged so as to surround the periphery).
  • Directivity D101 and D102 of the microphone arrays MA1 and MA2 are both arranged to face the mouth portion UM (target area TA) of the user US. Therefore, even with the configuration of the mounting body 20A, the directivities D101 and D102 (that is, the directivity of the BF outputs of the microphone arrays MA1 and MA2) can overlap only in one area including the target area TA. can.
  • the microphone arrays MA1 and MA2 are arranged along the periphery of the target area TA, and the directivity of the microphone arrays MA1 and MA2 is arranged so as to eventually face the target area TA. Accordingly, in this embodiment, the directivity D101 and D102 overlap only in one area including the target area TA, and the voice of the user US in the target area TA can be picked up.
  • the directivity (D101, D102) of the microphone arrays MA1, MA2 are parallel or substantially parallel
  • the directivity (D101, D102) of the microphone arrays MA1, MA2 is limited to only one area including the target area TA. Such a state must be avoided because it does not cause an overlapping state (overlapping regions also occur on the left and right sides of the face of the user US).
  • FIG. 11 shows the configuration of the mount 20B in which the directivities (D101, D102) of the microphone arrays MA1, MA2 are substantially parallel.
  • the mounted body 20B differs from the mounted body 20A in that the directivity (D101, D102) of the microphone arrays MA1 and MA2 is substantially parallel.
  • the directivity (D101, D102) of the microphone arrays MA1, MA2 does not overlap only in one area including the target area TA. sound in the region of .
  • an area with overlapping directivity is also formed in the area opposite to the target area TA of the other microphone array MA. Therefore, in the state of the wearing body 20B, a sound pickup area is formed not only in the mouth portion UM of the user US but also in the lateral direction of the head of the user US.
  • the data input unit 11 converts the acoustic signals picked up by the microphone arrays MA1 and MA2 from analog signals to digital signals.
  • the output unit 13 outputs the supplied target area sound extraction signal as an output signal in a predetermined method/format.
  • the reproduction processing unit 30 converts an externally supplied reproduction acoustic signal into an analog signal, and supplies the analog signal to the speaker unit 22 (right speaker SP_R, left speaker SP_L).
  • the microphone arrays MA1 and MA2 are arranged along the periphery of the target area TA (the area including the mouth portion UM of the user US), and the directivity of the microphone arrays MA1 and MA2 (The directivity of the BF output in the area sound pickup processing of the sound pickup processing unit 10) is arranged so as to face the mouth portion UM (target area TA) of the user US.
  • the directivities D101 and D102 overlap only in one area including the target area TA, and the mouth portion UM of the user US ( It is possible to pick up the sound (speech voice of the user US) whose sound source is the target area TA).
  • FIG. 12 is a block diagram showing the functional configuration of the speech processing device 1A according to the second embodiment.
  • the same reference numerals or corresponding reference numerals are assigned to the same or corresponding portions as those in FIG.
  • the configuration of the speech processing device 1A of the second embodiment will be described below, focusing on the differences from the first embodiment.
  • the two microphone arrays MA1 and MA2 are used to pick up the target area sound of the target area TA. good too.
  • the directivity of the three microphone arrays (the directivity of the BF output) is set in one area including the target area TA (the area including the mouth portion UM of the user US). shall be set so that only
  • the sound processing device 1A of the second embodiment differs from the first embodiment in that the mounting body 20 and the sound collection processing section 10 are replaced with the mounting body 40 and the sound collection processing section 10A, respectively.
  • the mounting body 40 of the second embodiment differs from that of the first embodiment in that the microphone array section 21 is replaced with a microphone array section 21A.
  • the microphone array section 21A differs from the first embodiment in that a third microphone array MA3 is added.
  • the sound pickup processing section 10A differs from the first embodiment in that the area sound pickup processing section 12 is replaced with an area sound pickup processing section 12A.
  • FIG. 13 is a diagram showing a state in which the user US wears the wearing body 40.
  • the head of the user US is viewed from above (overhead).
  • the mount 40 has a configuration in which a third microphone array MA3 is added to the mount 20A shown in FIG. 10 described above.
  • the same reference numerals or corresponding reference numerals are assigned to the same or corresponding portions as in FIG. 10 described above.
  • the third microphone array MA3 is arranged behind the head of the user US.
  • the microphone array MA3 is arranged so that directivity of the BF output can be directed from the back side of the head of the user US (occipital side) to the target area TA (around the mouth portion UM).
  • the midpoint of the line connecting the positions of the microphones M1 and M2 in the microphone array MA3 is indicated as P103.
  • the directivity of the microphone array MA3 is centered on P103 and is generally formed in a direction orthogonal to a line passing through each microphone.
  • the directivity of the microphone array MA3 is indicated by a dashed line and denoted by D103.
  • the configuration for attaching the third microphone array MA3 to the mounting body 40 is not limited, it may be attached as shown in FIG. 13, for example.
  • a housing 211 containing a microphone array MA3 is attached to the main body of the mounting body 40 (right earcup 201, left earcup 202) using wire-shaped support members 212 and 213.
  • Both support members 212 and 213 may be wires similar to the other support members.
  • one end of the support member 212 is fixed to the support portion 204 of the right earcup 201 and the other end is fixed to the housing 211 .
  • one end of the support member 213 is fixed to the support portion 209 of the left earcup 202, and the other end is fixed to the housing 211. As shown in FIG. 13, one end of the support member 212 is fixed to the support portion 204 of the right earcup 201 and the other end is fixed to the housing 211 . 13, one end of the support member 213 is fixed to the support portion 209 of the left earcup 202, and the other end is fixed to the housing 211. As shown in FIG.
  • the directivities D101, D102, and D103 are set so as to overlap only in one area including the target area TA (area including the mouth portion UM of the user US). , the speech voice uttered by the user US from the mouth portion UM can be collected.
  • the directivities D101 and D102 are substantially parallel, but the area where the three directivities D101 to D103 all overlap is only one area including the target area TA. There is no problem in the area sound pickup processing with the target area TA as the target area.
  • the area sound pickup processing unit 12A is different from the first embodiment in that the area sound pickup processing unit 12A performs area sound pickup processing on the sound in areas where the directivities D101, D102, and D103 of the three microphone arrays MA1, MA2, and MA3 all overlap.
  • reference document 2 For the processing of area sound pickup using the BF outputs of three or more microphone arrays, for example, the processing of Japanese Patent Application Laid-Open No. 2018-170717 (hereinafter referred to as “reference document 2”) can be applied, so a detailed description will be given. omitted.
  • the wearing body 40 shown in FIG. 13 by adding the microphone array MA3 to the occipital side of the user US, the sound pickup area is formed in the lateral direction of the face of the user US. can be prevented from forming.
  • FIG. 14 is a block diagram showing the functional configuration of a speech processing device 1B according to the third embodiment.
  • the same reference numerals or corresponding reference numerals are assigned to the same or corresponding portions as those in FIG.
  • the configuration of the audio processing device 1B of the third embodiment will be described below, focusing on the differences from the first embodiment.
  • a total of four microphones are used to configure two microphone arrays MA1 and MA2, but some microphones may be shared between the microphone arrays to reduce the total number of microphones. .
  • three microphones M1 to M3 are used to form two microphone arrays MA1 and MA2.
  • the audio processing device 1B of the third embodiment differs from the first embodiment in that the mounting body 20 and the sound collection processing section 10 are replaced with the mounting body 50 and the sound collection processing section 10B, respectively.
  • the mounting body 50 of the third embodiment differs from that of the first embodiment in that the microphone array section 21 is replaced with a microphone array section 21B.
  • the microphone array section 21B as described above, the three microphones M1 to M3 constitute two two-channel microphone arrays MA1 and MA2.
  • the microphones M1 and M2 constitute a microphone array MA1
  • the microphones M2 and M3 constitute a microphone array MA2. That is, in this embodiment the microphone M2 is shared between the two microphone arrays MA1, MA2.
  • FIG. 15 is a diagram showing a state in which the user US wears the wearing body 50.
  • the mount 50 differs from the mount 20 of the first embodiment in that the housings 207 and 208 are replaced with a housing 214 housing the three microphones M1 to M3.
  • the housing 214 has a curved shape around the target area TA (around the mouth portion UM), and has a curved shape around the target area TA (around the mouth portion UM).
  • Microphones M1 to M3 are arranged side by side.
  • the mounting body 50 is configured such that the microphones M1 to M3 can be arranged side by side along the periphery of the target area TA (periphery of the mouth portion UM).
  • the specific configuration of the mounting body 50 is not limited as long as the microphones M1 to M3 can be arranged side by side along the periphery of the target area TA (periphery of the mouth portion UM).
  • the microphones M1 to M3 may be connected by a wire or the like (not shown) rather than in one housing.
  • the midpoint of the line connecting the positions of the microphones M1 and M2 that constitute the microphone array MA1 is indicated as P101.
  • P102 is the midpoint of a line connecting the positions of the microphones M2 and M3 that constitute the microphone array MA2.
  • the directivity of the microphone array MA1 is centered on P101 and formed in a direction substantially orthogonal to a line passing through each microphone.
  • the directivity of the microphone array MA2 is centered on P102 and formed in a direction substantially perpendicular to the line passing through each microphone.
  • the directivity of the microphone array MA1 is indicated by a one-dot chain line and denoted by D101
  • the directivity of the microphone array MA2 is indicated by a two-dot chain line and denoted by D102.
  • the three microphones M1 to M3 constitute two microphone arrays MA1 and MA3.
  • BF outputs of the two microphone arrays are acquired based on and area sound pickup processing is performed. Since the processing performed by the area sound pickup processing unit 12B differs only in the combination of input signals used for calculating the BF output, detailed description thereof will be omitted.
  • the directivities D101 and D102 overlap only in one area including the target area TA (the area including the mouth portion UM of the user US). , it is possible to pick up the uttered voice uttered by the user US from the mouth portion UM. That is, in the third embodiment, since some microphones are shared among a plurality of microphone arrays, the total number of used microphones can be reduced.
  • the wearable body is described as a headset-type device (a device worn on the head of the user US). ).
  • a headset-type device a device worn on the head of the user US.
  • the wearing body is changed to a neckband type in the first and second embodiments.
  • the wearing body 20 in the first embodiment may be replaced with a neckband-type wearing body 60 according to the fourth embodiment as shown in FIG.
  • FIG. 16 is a diagram showing a state in which the user US wears the wearing body 60.
  • FIG. 16 is a diagram showing a state in which the user US wears the wearing body 60.
  • FIG. 16 the user US wearing the wearing body 60 is viewed from above (overhead).
  • the wearing body 60 includes a substantially U-shaped neckband main body 601 (a neckband-shaped housing that can be worn around the neck of the user US) as shown in FIG. It has a configuration in which a left speaker SP_L is mounted. As shown in FIG. 16, the microphone arrays MA1 and MA2 are attached to the neckband body 601 itself. In addition, as shown in FIG. 16, the wearing body 60 has a right ear earphone 602 attached to the right ear of the user US and a left ear earphone 603 attached to the left ear. A right ear earphone 602 and a left ear earphone 603 are connected to the neckband main body 601 by lead wires 602a and 603a, respectively.
  • Right ear earphone 602/left ear earphone 603 are equipped with right speaker SP_R/left speaker SP_L, respectively.
  • the right speaker SP_R and the left speaker SP_L emit sound based on acoustic signals supplied via lead wires 602a and 603a toward the ear (outer ear) of the user US.
  • the configuration of the earphones (the right speaker SP_R and the left speaker SP_L) in the mounting body 60 is not limited, and various configurations can be applied.
  • the shape of the neckband main body 601 is not limited to the example of FIG. 16, and various shapes can be applied.
  • the U-shaped neckband main body 601 is arranged around the head of the user US, so that it necessarily surrounds the target area TA (the area including the mouth portion UM of the user US). positional relationship.
  • the microphone arrays MA1 and MA2 are arranged at both ends of the neckband main body 601 (positions diagonally in front of the user US).
  • the microphone arrays MA1 and MA2 are arranged so that the directivity of the BF output is directed toward the target area TA (the area including the mouth portion UM of the user US).
  • the directivity D101, D102 (that is, the microphone arrays MA1, MA2 BF output directivity) can be in a state of overlapping only in one region including the target area TA.
  • the arrangement of the microphone arrays MA1 and MA2 is not limited to the example shown in FIG. 16, and may be arranged as shown in FIG.
  • FIG. 17 is a diagram showing an example in which the arrangement of the microphone arrays MA1 and MA2 in the mounting body 60 is modified.
  • the microphone arrays MA1 and MA2 are arranged at positions slightly behind the ears of the user US, and the directivity of the BF output is measured over the head of the user US in the target area TA (mouth of the user US). area containing partial UM). Even when arranged in this way, the directivities D101 and D102 (the directivities of the BF outputs of the microphone arrays MA1 and MA2) can overlap only in one area including the target area TA.
  • the area sound pickup processing unit 12 includes the microphone arrays MA1 and MA2.
  • the sound of the target area TA can be subjected to area sound pickup processing from the input signal of .
  • the wearing body 40 in the speech processing device 1A of the second embodiment may similarly have a neckband type configuration.
  • the mounting body 40 in the second embodiment may be replaced with the mounting body 70 according to the fourth embodiment as shown in FIG.
  • FIG. 18 is a diagram showing a state in which the wearing body 70 is worn by the user US.
  • the wearing body 70 shown in FIG. 18 differs from the wearing body 50 shown in FIG. 15 in that a third microphone array MA3 is added to the neckband main body 601 . Also, in the wearing body 70, the placement positions of the microphone arrays MA1 and MA2 are also different from the wearing body 50 shown in FIG.
  • a microphone array MA3 is added to the rear portion of the head of the user US, and the directivity D103 of the microphone array MA3 is directed toward the target area TA (an area including the mouth portion UM of the user US). ing.
  • the positions and sound pickup directivities D101 to D103 of the microphone arrays MA1 to MA3 shown in FIG. 18 have the same positional relationship as the mounting body 40 (FIG. 13) of the second embodiment.
  • the area sound pickup processing unit 12A can detect the input signals of the microphone arrays MA1 to MA3. Therefore, the sound in the target area TA can be processed for area sound collection.
  • the wearing body is a neckband type, it is possible to adapt to more diverse needs (for example, the user's need not to wear the wearing body on the head) (improve convenience). .
  • the microphone array MA constituting the audio processing device has been described as having a 2-channel configuration, but it may be replaced with a 3-channel configuration or more.
  • FIGS. 19A and 19B are diagrams showing an example of a process of directivity directed toward a target direction (direction toward a target area TA) using a microphone array MA with three or more channels and picking up sound.
  • FIG. 19A is a diagram showing an example of a configuration in which a 3-channel microphone array MA is used to orient the directivity in the target direction (direction toward the target area TA), and FIG. It is the figure which showed the example of the structure which turns directivity to a direction.
  • reference document 3 Japanese Patent Application Laid-Open No. 2015-050558
  • the techniques described in References 1 and 3 are used to pick up the sound in the target direction (direction toward the target area TA) using the 4-channel microphone array MA shown in FIG. 19B.
  • the microphone array It is possible to direct the directivity only in the target direction (direction to the target area TA) from MA and not to collect the sound of the sound source in the direction opposite to the target direction (downward as viewed from FIG. 19B).
  • the microphone arrays MA1 and MA2 are arranged as in the mounting body 20B of FIG. can be in an overlapping state only in one region containing
  • the quality of the picked up sound can be improved compared to the case of picking up sound with a two-channel microphone array.
  • FIG. 20 is a diagram showing an example of processing for forming a three-dimensional cone-shaped (cone-shaped) directivity in a target direction using a 4-channel microphone array MA.
  • the sound pickup direction may be given an angle (for example, an elevation angle or a depression angle) with respect to the vertical direction or the horizontal direction.
  • the configuration for supporting the microphone arrays MA1 and MA2 (housings 207 and 208) forming the mounting body 20 is not limited to the above example.
  • the housings 207 and 208 may be connected by a wire-shaped connecting member.
  • FIG. 21 is a diagram showing a configuration example (mounting body 20A2) in which a connection member 215 that connects the housings 207 and 208 is added to the configuration of the mounting body 20A (FIG. 9).
  • a connection member 215 that connects the housings 207 and 208 is added to the configuration of the mounting body 20A (FIG. 9).
  • the connecting member 215 a wire similar to the other connecting members may be applied.
  • FIG. 22 shows a configuration example (mounting body 20A3) in which the members supporting the housings 207 and 208 are supported by a single wire-shaped support member 216 in the configuration of the mounting body 20A (FIG. 9). It is a diagram. As for the support member 216, the same wire as other connecting members may be applied.
  • one end of the support member 216 is fixed to the housing 207, and the other end is fixed to the housing 208 around the rear of the head of the user US.
  • the support member 216 is supported by support portions 204 and 209 .
  • the support member 216 is arranged so as to pass through the projections of the support portions 204 and 209 .
  • the housings 207 and 208 are stably held and positional deviations (especially heights of the housings 207 and 208) are minimized. (vertical direction) deviation) can be suppressed, so it is possible to contribute to stable sound collection processing.
  • the audio processing device is configured to include the playback processing unit and the speaker unit.
  • a configuration that only makes sound may be used.
  • the speaker section may be excluded from the wearing body.
  • the data input unit 11 converts the acoustic signal picked up by each microphone array from an analog signal to a digital signal. may be used to input a digital signal from a digital MEMS microphone. In that case, the data input unit 11 may be provided with interface conversion and decimation filter functions.
  • a decimation filter is a low-pass filter that thins out the sampling frequency and passes only the voice band.
  • Audio processing apparatus 1A, 1B Audio processing apparatus 10, 10A, 10B... Sound collection processing part 11, 11B... Data input part 12, 12A, 12B... Area sound collection processing part, 13... Output part, 20, 20A, 20A2, 20A3, 20B, 40, 50, 60, 70... Mounting body 21, 21A, 21B... Microphone array part 22... Speaker part 30... Reproduction processing part 201... Right ear cup 202...

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

【課題】装着体につけられたマイクロホンでユーザの発話する音声を高品質でかつ効率的に収音する。 【解決手段】本発明は、音声処理装置に関する。本発明の音声処理装置は、ユーザの身体に装着されるものであって、複数のマイクロホンアレイが付けられた装着体と、それぞれのマイクロホンアレイから供給される入力信号に基づいて、それぞれのマイクロホンアレイからユーザの身体上の目的位置を含む目的エリアの方向へ指向性を形成したビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて、目的エリアを音源とする目的エリア音を収音するエリア収音手段とを備え、それぞれのマイクロホンアレイの指向性が、目的エリアを含む1つの領域でのみ重複することを特徴とする。

Description

音声処理装置、音声処理プログラム、音声処理方法及び装着体
 本発明は、音声処理装置、音声処理プログラム、音声処理方法及び装着体に関し、例えば、装着体を装着したユーザ(装着者)の発話する音声を収音する収音処理に適用し得る。
 従来、イヤホン(スピーカ)及びマイクを備える装着体(例えば、ヘッドセット型、ヘッドホン型、ネックバンド型等の形状の装着体)を用いて、当該装着体を装着するユーザ(装着者)の発話する音声を収音する技術として特許文献1、2の記載技術が存在する。
 特許文献1では、ネックバンド型の装着体を用いてユーザの発話する音声を収音する装置について記載されている。特許文献1の記載技術では、ネックバンド型の装着体において2つのマイクロホンが直線的に配置されており、第1のマイクロホンがユーザの口側を向くように配置され、第2のマイクロホンがユーザの足側を向くように配置されている。そして、特許文献1の記載技術では、上記の2つのマイクロホンで捕捉した音響信号にビーム形成処理を施すことにより、ユーザの口の方向から到来するユーザの発話音声を強調すると共に、ユーザの足側から到来する雑音成分を抑圧している。
 特許文献2では、ヘッドホン型の装着体を用いて、ユーザの発話する音声を収音する装置について記載されている。特許文献2に記載されたヘッドホンでは、左右のイヤーカップのそれぞれにマイクロホンアレイが搭載されている。そして、特許文献2の記載技術では、左右2つのマイクロホンアレイから供給される音響信号に対してユーザの口の方向における音響応答を増強するビーム形成処理を施し、それぞれのビーム形成処理の出力を帯域ごとに加算することによりユーザの発話音声の成分を強調した信号を取得する。さらに、特許文献2の記載技術では、装着体に付けられた1以上のマイクロホンを用いて背景雑音ノイズ(基準信号)を取得し、適用フィルタを用いてユーザの発話音声の成分を強調した音声強調信号から音声成分を推定(背景雑音ノイズの成分を抑制)する。
国際公開第2016/063587号 特開2021-089441号公報
 特許文献1、2の記載技術では、いずれもマイクロホンアレイ(複数のマイクロホン)から供給される音響信号に対してビーム形成処理を施すことで、装着体のユーザの発話音声を強調している。しかしながら、特許文献1、2に記載されたビーム形成処理で強調されるのは、マイクロホンアレイからユーザの口元への方向から到来する音響の成分であるため、その延長線上から到来する雑音についても強調されることになる。例えば、特許文献2の記載技術のように、左右2つのマイクロホンアレイから供給される音響信号に対してビーム形成処理を施した信号をサブ帯域ごとに加算するたけでは、ユーザの口元だけでなく、ビーム形成の範囲にある雑音や周囲の話し声(ユーザの周囲に存在する他人の話し声)も強調してしまうことになる。
 また、特許文献2の記載技術では、適応フィルタを用いて、音声強調信号の音声成分を推定しているが、一般的に適応フィルタを用いて音声成分を推定するには信号処理が複雑であり多くの演算リソースを必要とする。したがって、特許文献2の記載技術のように、適応フィルタを用いて音声成分を推定する際に、十分な演算リソースが確保できない場合、適応フィルタが最適解に収束せず、学習結果が発散し、出力信号の品質(推定精度)が劣化する(例えば、音声推定値において、目的音が減衰してしまったり、雑音が大きくなってしまう)おそれがある。
 以上のような問題に鑑みて、装着体につけられたマイクロホンでユーザの発話する音声を高品質でかつ効率的に収音することができる音声処理装置、音声処理プログラム、音声処理方法及び装着体が望まれている。
 第1の本発明の音声処理装置は、ユーザの身体に装着されるものであって、複数のマイクロホンアレイが付けられた装着体と、それぞれの前記マイクロホンアレイから供給される入力信号に基づいて、それぞれの前記マイクロホンアレイから前記ユーザの身体上の目的位置を含む目的エリアの方向へ指向性を形成したビームフォーマ出力を取得し、取得した前記ビームフォーマ出力を用いて、前記目的エリアを音源とする目的エリア音を収音するエリア収音手段とを備え、それぞれの前記マイクロホンアレイの前記指向性が、前記目的エリアを含む1つの領域でのみ重複することを特徴とする。
 第2の本発明の音声処理プログラムは、ユーザの身体に装着されるものであって、複数のマイクロホンアレイが付けられた装着体を備える音声処理装置に搭載されたコンピュータを、それぞれの前記マイクロホンアレイから供給される入力信号に基づいて、それぞれの前記マイクロホンアレイから前記ユーザの身体上の目的位置を含む目的エリアの方向へ指向性を形成したビームフォーマ出力を取得し、取得した前記ビームフォーマ出力を用いて、前記目的エリアを音源とする目的エリア音を収音するエリア収音手段として機能させ、それぞれの前記マイクロホンアレイの前記指向性が、前記目的エリアを含む1つの領域でのみ重複することを特徴とする。
 第3の本発明は、音声処理装置が行う音声処理方法において、ユーザの身体に装着されるものであって、複数のマイクロホンアレイが付けられた装着体と、エリア収音手段とを備え、前記エリア収音手段は、それぞれの前記マイクロホンアレイから供給される入力信号に基づいて、それぞれの前記マイクロホンアレイから前記ユーザの身体上の目的位置を含む目的エリアの方向へ指向性を形成したビームフォーマ出力を取得し、取得した前記ビームフォーマ出力を用いて、前記目的エリアを音源とする目的エリア音を収音し、それぞれの前記マイクロホンアレイの前記指向性が、前記目的エリアを含む1つの領域でのみ重複することを特徴とする。
 第4の本発明は、ユーザの身体に装着される装着体において、複数のマイクロホンアレイを備え、それぞれの前記マイクロホンアレイの入力信号に基づいて、それぞれの前記マイクロホンアレイから前記ユーザの身体上の目的位置を含む目的エリアの方向へビームフォーマ出力の指向性を形成する場合に、それぞれの前記マイクロホンアレイの前記指向性が、前記目的エリアを含む1つの領域でのみ重複するように、それぞれの前記マイクロホンアレイが配置されていることを特徴とする。
 第5の本発明の音声処理装置は、ユーザの身体に装着される装着体に付けられた複数のマイクロホンアレイから供給される入力信号に基づいて、それぞれの前記マイクロホンアレイから前記ユーザの身体上の目的位置を含む目的エリアの方向へ指向性を形成したビームフォーマ出力を取得し、取得した前記ビームフォーマ出力を用いて、前記目的エリアを音源とする目的エリア音を収音するエリア収音手段とを備え、それぞれの前記マイクロホンアレイの前記指向性が、前記目的エリアを含む1つの領域でのみ重複することを特徴とする。
 第6の本発明の音声処理プログラムは、コンピュータを、ユーザの身体に装着される装着体に付けられた複数のマイクロホンアレイから供給される入力信号に基づいて、それぞれの前記マイクロホンアレイから前記ユーザの身体上の目的位置を含む目的エリアの方向へ指向性を形成したビームフォーマ出力を取得し、取得した前記ビームフォーマ出力を用いて、前記目的エリアを音源とする目的エリア音を収音するエリア収音手段として機能させ、それぞれの前記マイクロホンアレイの前記指向性が、前記目的エリアを含む1つの領域でのみ重複することを特徴とする。
 第7の本発明は、音声処理装置が行う音声処理方法において、エリア収音手段を備え、前記エリア収音手段は、ユーザの身体に装着される装着体に付けられた複数のマイクロホンアレイから供給される入力信号に基づいて、それぞれの前記マイクロホンアレイから前記ユーザの身体上の目的位置を含む目的エリアの方向へ指向性を形成したビームフォーマ出力を取得し、取得した前記ビームフォーマ出力を用いて、前記目的エリアを音源とする目的エリア音を収音し、それぞれの前記マイクロホンアレイの前記指向性が、前記目的エリアを含む1つの領域でのみ重複することを特徴とする。
 本発明によれば、装着体につけられたマイクロホンでユーザの発話する音声を高品質でかつ効率的に収音することができる。
 さらに、複数のマイクロホンアレイの指向性が重複する目的エリア、すなわち、ユーザの口元周辺だけを強調するので、ユーザの周囲の雑音や話し声(ユーザの周囲に存在する他人の話し声)を収音するのを防止することが出来る。
 従って、在宅勤務テレワーク及びオフィス内のWeb会議向けマイクや、騒々しい環境に設置される案内端末のマイクとして利用でき、在宅勤務でのプライバシー保護や、オフィスでの機密情報保護や、案内端末でのハンズフリー通話・非対面の接客実現に寄与する。
 在宅勤務テレワークのWeb会議向けマイクに適用すると、家族の声、ペットの声、防災無線、救急車のサイレンなどのプライバシーに関わる情報が会議相手に伝わってしまう課題を解決できる。
 オフィス内のWeb会議向けマイクに適用すると、周囲で話している機密情報や雑談が会議相手に伝わってしまう課題を解決できる。
 騒々しい環境下にある案内端末等のマイクとして適用すると、周囲の騒音を抑圧できるので、端末利用者と遠隔地にいるオペレータとのスムースな会話が可能になる。さらに、音声認識も支障なく利用することが可能となる。
第1の実施形態に係る音声処理装置の機能的構成を示すブロック図である。 第1の実施形態に係る装着体(その1)を装着したユーザを正面方向から見た図である。 第1の実施形態に係る装着体(その1)を装着したユーザを上方向(頭上)から見た図である。 第1の実施形態に係る減算型ビームフォーマに係る構成を示すブロック図である。 第1の実施形態に係る減算型ビームフォーマにより形成される指向性について示した図である。 第1の実施形態に係る減算型ビームフォーマにより形成される指向性について示した図である。 第1の実施形態に係るマイクロホンアレイの構成例について示した図である。 第1の実施形態に係るマイクロホンアレイのビームフォーマ出力について周波数領域で示したグラフ(イメージ図)である。 第1の実施形態に係るマイクロホンアレイのビームフォーマ出力について周波数領域で示したグラフ(イメージ図)である。 第1の実施形態に係るマイクロホンアレイを用いて取得したビームフォーマ出力に基づいてエリア収音処理した場合における各周波数成分のパワースペクトルの変化について示した説明図(イメージを図)である。 第1の実施形態に係るマイクロホンアレイを用いて取得したビームフォーマ出力に基づいてエリア収音処理した場合における各周波数成分のパワースペクトルの変化について示した説明図(イメージを図)である。 第1の実施形態に係るマイクロホンアレイを用いて取得したビームフォーマ出力に基づいてエリア収音処理した場合における各周波数成分のパワースペクトルの変化について示した説明図(イメージを図)である。 第1の実施形態に係る装着体(その2)を装着したユーザを正面方向から見た図である。 第1の実施形態に係る装着体(その2)を装着したユーザを上方向(頭上)から見た図である。 複数の領域で装着体に付けられたマイクロホンアレイの指向性が重複する例について示した図である。 第2の実施形態に係る音声処理装置の機能的構成を示すブロック図である。 第2の実施形態に係る装着体をユーザが装着した状態について示した図である。 第3の実施形態に係る音声処理装置の機能的構成を示すブロック図である。 第3の実施形態に係る装着体をユーザが装着した状態について示した図である。 第4の実施形態に係る装着体(その1)をユーザが装着した状態について示した図である。 第4の実施形態に係る装着体(その2)をユーザが装着した状態について示した図である。 第4の実施形態に係る装着体(その3)をユーザが装着した状態について示した図である。 実施形態の変形実施例に係るマイクロホンアレイの構成(その1)について示した図である。 実施形態の変形実施例に係るマイクロホンアレイの構成(その1)について示した図である。 実施形態の変形実施例に係るマイクロホンアレイの構成(その2)について示した図である。 第1の実施形態に係る装着体の変形実施例(その1)について示した図である。 第1の実施形態に係る装着体の変形実施例(その2)について示した図である。
 (A)第1の実施形態
 以下、本発明による音声処理装置、音声処理プログラム、音声処理方法及び装着体の第1の実施形態を、図面を参照しながら詳述する。
 (A-1)実施形態の構成
 図1は、この実施形態に係る音声処理装置1の機能的構成を示すブロック図である。
 音声処理装置1は、収音処理部10、装着体20、及び再生処理部30を有している。
 装着体20は、ユーザUSの頭部に装着可能なデバイスである。
 次に、図1~図3を用いて、装着体20の構成概要について説明する。
 図2、図3は、ユーザUSに装着体20を装着させた状態で示した図である。
 図2はユーザUSを正面方向から見た図となっており、図3はユーザUSを上側から見た図となっている。図2、図3に示すように、装着体20は、ヘッドホン機能及びマイク機能を備えるデバイス(いわゆるヘッドセット型のデバイス)となっている。
 装着体20は、ユーザUSの発話する音声(以下、「発話音声」とよぶ)を捕捉するためのマイクロホンアレイ部21と、供給された音響信号に基づく音響をユーザUSへ向けて放出するスピーカ部22とを有している。マイクロホンアレイ部21は複数のマイクロホンMにより構成されるマイクロホンアレイMAを複数備えている。この実施形態では、マイクロホンアレイ部21は、2つのマイクロホンアレイMA(MA1、MA2)を備えているものとする。マイクロホンアレイMA1、MA2は、それぞれ2つのマイクロホンM(M1、M2)を備えているものとする。言い換えると、マイクロホンアレイ部21は、計4つのマイクロホンMを備えている。なお、各マイクロホンアレイMAが備えるマイクロホンMの数は3以上であってもよい。マイクロホンアレイ部21を構成する各マイクロホンMが捕捉した音響に基づく音響信号は、収音処理部10に供給されることになる。各マイクロホンM(M1、M2)については、例えば、指向性を持たない全指向性マイク(例えば、全指向性のMEMS(Micro Elerctronics Mechanical System)マイク)を適用することができる。
 スピーカ部22は、ユーザUSの右耳用の右スピーカSP_Rと左耳用の左スピーカSP_Lを備えている。この実施形態では、スピーカ部22は2つのスピーカを備える構成としているが、スピーカの数や構成については限定されないものである。例えば、スピーカ部22は、右スピーカSP_R又は左スピーカSP_Lの一方のみを備える構成としてもよい。
 図2、図3に示すように、装着体20ではマイクロホンアレイ部21及びスピーカ部22が取り付けされている。
 図2、図3に示すように、装着体20は、ユーザUSの右耳に被せる右イヤーカップ201、ユーザUSの左耳に被せる左イヤーカップ202、及びヘッドバンド部203を有している。ヘッドバンド部203の両端部には、それぞれ右イヤーカップ201と左イヤーカップ202とが付けられている。右イヤーカップ201、左イヤーカップ202の内側には、それぞれ右スピーカSP_R、左スピーカSP_Lが取付されている。
 右イヤーカップ201には、マイクロホンアレイMA1、MA2を支持する支持部材205が取り付けされている。支持部材205は湾曲した形状を保持可能なワイヤ形状の部材であり、一端が右イヤーカップ201に固定され、他端にマイクロホンアレイMA1を収容した筐体207が取り付けられている。右イヤーカップ201の外側(ユーザUSから見て外側)の表面には、支持部材205の一端を取り付けするための突起形状の支持部204が形成されている。支持部204は、右イヤーカップ201に回動自在に取り付けされていてもよい。また、支持部材205は、ユーザUSの口部分UMの周囲に沿って湾曲した形状のワイヤ(湾曲した形状を保持し得るワイヤ)である。例えば、支持部材205は、金属製でもよいし、弾力性のある樹脂製としてもよい。筐体207には、連結部206を介してマイクロホンアレイMA2を収容した筐体208が連結されている。連結部206は、支持部材205と同様のワイヤで構成するようにしてもよい。
 図2、図3に示すように、筐体207、208(マイクロホンアレイMA1、MA2)は、ユーザUSの口部分UMの周囲に沿った位置に並べて配置されるように、支持部204、支持部材205及び連結部206により支持されている。マイクロホンアレイMA1、MA2の配置設計の詳細については後述する。
 次に、収音処理部10の構成概要について説明する。
 収音処理部10は、データ入力部11、エリア収音処理部12、及び出力部13を有している。
 収音処理部10は、全てハードウェア(例えば、専用チップ等)により構成するようにしてもよいし一部又は全部についてソフトウェア(プログラム)として構成するようにしてもよい。音声処理装置1は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム(実施形態の音声処理プログラムを含む)をインストールすることにより構成するようにしてもよい。
 データ入力部11は、マイクロホンアレイ部21(この実施形態ではマイクロホンアレイMA1、MA2)で捕捉した音響信号をアナログ信号からディジタル信号に変換してエリア収音処理部12に供給する。以下では、データ入力部11から、エリア収音処理部12に供給される信号(ディジタル信号)を「入力信号」と呼ぶものとする。
 エリア収音処理部12は、各マイクロホンアレイMAの入力信号から、目的エリア内の音源からの音(以下、「目的エリア音」と呼ぶ)を収音する処理(以下、「エリア音収音処理」と呼ぶ)により目的エリア音を抽出した信号(以下、「目的エリア音抽出信号」と呼ぶ)を取得し、出力部13に供給する。
 ここでは、エリア収音処理部12がエリア収音処理を行う際の目的エリアはユーザUSの口部分UMの周辺であるものとする。図3では、口部分UMの周辺の領域を目的エリアTAとして図示している。図3では、目的エリアTAの領域を点線で囲って図示している。したがって、この実施形態では、目的エリアTAの周囲を囲うようにマイクロホンアレイMA1、MA2を並べて配置することになる。エリア収音処理部12が行うエリア収音処理の詳細については後述する。
 出力部13は、供給された目的エリア音抽出信号を所定の方式/形式で出力する。出力部13が出力する信号(以下、「出力信号」とも呼ぶものとする)の形式は限定されないものであり、種々の形式を適用することができる。例えば、出力部13は、出力信号を所定の形式のディジタル音響信号(例えば、PCM形式の信号)や所定のコーデックにより符号化して出力(出力する方式については限定されない)するようにしてもよい。また、出力部13は、出力信号を、アナログ音響信号として出力(例えば、図示しないスピーカに出力)するようにしてもよい。さらに、出力部13は、出力信号を周波数領域の形式で出力するようにしてもよいし時間領域の形式で出力するようにしてもよい。
 次に、再生処理部30の構成について説明する。
 再生処理部30は、外部から供給された再生用の音響信号(例えば、外部のコンピュータ等から供給されたディジタル信号)をアナログ信号(右スピーカSP_R用のアナログ信号、及び左スピーカSP_L用アナログ信号)に変換し、スピーカ部22(右スピーカSP_R、左スピーカSP_L)に供給する。再生処理部30は、例えば、単独のハードウェア(例えば、単独の半導体チップ)で構成するようにしてもよいし、収音処理部10と同じコンピュータ上に搭載するようにしてもよい。
 収音処理部10及び再生処理部30は、装着体20に内蔵させるようにしてもよいし、装着体20とは別のコンピュータ(例えば、スマートホン、タブレット、PC等のコンピュータ)に搭載させるようにしてもよい。
 次に、エリア収音処理部12が行うエリア収音処理の方式について説明する。
 エリア収音処理部12では、種々のエリア収音処理を適用することができる。例えば、エリア収音処理部12では、特開2017-181761号公報(以下、「参考文献1」と呼ぶ)等に記載されたエリア収音処理を適用することができる。
 以下、エリア収音処理部12に適用されるエリア収音処理の具体例について説明する。
 複数の音源が存在する環境下において、ある特定の方向の音のみ分離し収音する技術として、マイクロホンアレイを用いたビームフォーマ(Beam Former;以下「BF」と表す)がある。BFとは、各マイクロホンに到達する信号の時間差を利用して指向性を形成する技術である。
 BFは、加算型と減算型の大きく2つの種類に分けられる。特に減算型BFは、加算型BFに比べ、少ないマイクロホン数で鋭い指向性を形成できるという利点がある。
 図4は、減算型BFに係る構成を示すブロック図である。
 図4では、マイクロホン数が2個(マイクロホンM1、M2)のマイクロホンアレイMAからの入力信号を処理する減算型BFの構成例について示している。
 減算型BFは、まず遅延器により目的とする方向に存在する音(以下、「目的音」とも呼ぶ)が各マイクロホンに到来する信号の時間差を算出し、遅延を加えることにより目的音の位相を合わせる。減算型BFの遅延器では、時間差は下記(1)式により算出される。
 下記の(1)式において、dはマイクロホン間の距離、cは音速、τLは遅延量である。また、下記の(1)式において、θは、マイクロホンM1、M2間を結んだ直線に対する垂直方向から目的方向(目的エリアTA)への角度である。
 τ=(dsinθ)/c…(1)
 ここで、死角が第1のマイクロホンM1と第2のマイクロホンM2の中心に対し、第1のマイクロホンの方向に存在する場合、減算型BFにおける遅延器は、第1のマイクロホンM1の入力信号x(t)に対し遅延処理を行う。その後、遅延処理された入力信号x(t)は、(2)式に従い減算処理される。
 A(t)=x(t)-x(t-τ)…(2)
 減算処理は周波数領域でも同様に行うことができ、その場合(2)式は以下の(3)式のように変更される。
Figure JPOXMLDOC01-appb-M000001
 図5Aおよび図5Bは、図4に示す減算型BFにより形成される指向性について示した図である。
 図5Aはθ=±π/2とした場合における減算型BFの指向性について示しており、図5Bはθ=0,πとした場合における減算型BFの指向性について示している。図5では、減算型BFにおける各方向の指向性(マイクロホンM1、M2の周囲における指向性)の分布を破線で図示している。
 ここでθ=±π/2の場合、形成される指向性は図5Aに示すように、カージオイド型の単一指向性となり、θ=0,πの場合は、図5Bのような8の字型の双指向性となる。ここでは、入力信号から単一指向性を形成するフィルタを単一指向性フィルタ、双指向性を形成するフィルタを双指向性フィルタと呼ぶものとする。
 またスペクトル減算法(Spectral Subtraction;以下、「SS」とも呼ぶ)を用いることで、双指向性の死角に強い指向性を形成することもできる。SSによる指向性の形成は、(4)式に従う。(4)式では、第1のマイクロホンM1の入力信号Xを用いているが、第2のマイクロホンM2の入力信号Xでも同様の効果を得ることができる。(4)式において、βはSSの強度を調節するための係数である。減算時に値がマイナスとなった場合は、0または元の値を小さくした値に置き換えるフロアリング処理を行うようにしてもよい。この方式は、双指向性フィルタにより目的方向以外に存在する音(以下、「非目的音」とも呼ぶ)を抽出し、抽出した非目的音のパワースペクトルを入力信号のパワースペクトルから減算することで、目的エリアTAを音源とする目的エリア音を強調することができる。
 |Y(ω)|=|X(ω)|-β|A(ω)|…(4)
 目的エリアTAを音源とする目的エリア音だけを収音したい場合、減算型BFを用いるだけでは、そのエリアの周囲に存在する音源の音(以下、「非目的エリア音」とも呼ぶ)も収音してしまう可能性がある。そこで、上記の参考文献1等のエリア収音処理では、複数のマイクロホンアレイを用い、それぞれ別々の方向から目的エリアTAへ指向性を向け、指向性を目的エリアTAで重複させることで目的エリア音を収音する。
 図6は、2つのマイクロホンアレイMA1、MA2を用いて、目的エリアTAの音源からの目的エリア音を収音する場合における各マイクロホンアレイMA1、MA2の構成例について示した説明図である。
 図7Aおよび図7Bは、図6に示すマイクロホンアレイMA1、MA2のそれぞれのBF出力について周波数領域で示した説明図(グラフ)である。図7A、図7Bは、それぞれマイクロホンアレイMA1、MA2のBF出力について周波数領域で示したグラフ(イメージ図)である。
 ここでは、まず各マイクロホンアレイMA1、MA2のBF出力に含まれる目的エリア音のパワーの比率を推定し、それを補正係数とする。例えば、2つのマイクロホンアレイMA1、MA2を使用する場合、目的エリア音パワーの補正係数は、(5)式または(6)式により算出される。
Figure JPOXMLDOC01-appb-M000002
 ここで|Y1k|,|Y2k|はマイクロホンアレイMA1、MA2のBF出力の周波数kのパワー、Nは周波数ビンの総数、αはBF出力に対するパワー補正係数である。また、modeは最頻値、medianは中央値を表している。その後、補正係数により各BF出力を補正し、SSすることで、目的エリア方向に存在する非目的エリア音を抽出する。更に抽出した非目的エリア音を各BFの出力からSSすることにより目的エリア音を抽出することができる。
 図8A、図8Bおよび図8Cは、図6に示すマイクロホンアレイMA1、MA2を用いて取得したBF出力に基づいてエリア収音処理した場合における各周波数成分のパワースペクトルの変化について示した説明図(イメージ図)である。
 まず、マイクロホンアレイMA1の入力信号X1から、非目的エリア音N2を抑圧したBF出力Y1を得る(図8A参照)。
 マイクロホンアレイMA1からみた目的エリア方向に存在する非目的エリア音N(n)を抽出するには、(7)式に示すように、マイクロホンアレイMA1のBF出力Y(n)からマイクロホンアレイMA2のBF出力Y(n)にパワー補正係数αを掛けたものをSSする(図8B参照)。その後、(8)式に従い、各BF出力から非目的エリア音をSSして目的エリア音を抽出することができる(図8C参照)。γ(n)はSS時の強度を変更するための係数である。
 N=Y-αY…(7)
 Z=Y-γN…(8)
 以上のように、エリア収音処理部12では、マイクロホンアレイMA1、MA2のBF出力に基づいて、目的エリアTAに対するエリア収音処理を行うことができる。
 次に、マイクロホンアレイ部21(マイクロホンアレイMA1、MA2)の配置設計方針について図3を用いて説明する。
 上記の通り、エリア収音処理部12は、マイクロホンアレイMA1、MA2のBF出力について指向性(収音指向性)の重なる領域を音源とする音を収音する。したがって、収音エリアを目的エリアTAに設定するためには、図3に示すように、マイクロホンアレイMA1、MA2のBF出力の指向性が目的エリアTAで重なるようにすることが望ましい。
 図3では、マイクロホンアレイMA1、MA2において、マイクロホンM1とマイクロホンM2の位置を結んだ線の中点をそれぞれP101、P102として図示している。マイクロホンアレイMA1、MA2のBF出力の指向性は、それぞれP101、P102を中心とし、概ね各マイクロホンを通る線と直交する方向に形成される。ここでは、マイクロホンアレイMA1の指向性を一点鎖線で示すと共に符号D101を付記するものとする。また、ここでは、マイクロホンアレイMA2の指向性を二点鎖線で示すと共に符号D102を付記するものとする。この実施形態では、図3に示すように、指向性D101、D102が、目的エリアTA(ユーザUSの口部分UMを含む領域)を含む1つの領域でのみ重複するように設定することで、ユーザUSが口部分UMから発する発話音声だけを収音(目的エリア音だけを収音)することができる。
 従って、この実施形態において、装着体20を、図9、図10に示すような装着体20Aに置き換えるようにしてもよい。
 図9、図10は、装着体20Aの構成について示した図である。
 図9、図10は、ユーザUSに装着体20Aを装着させた状態で示した図である。
 図9はユーザUSを正面方向から見た図となっており、図10はユーザUSを上側(頭上)から見た図となっている。
 装着体20では、右イヤーカップ201に取り付けられた支持部材205に筐体207、208(マイクロホンアレイMA1、MA2)が両方連結された構成になっていた。これに対して、装着体20Aでは、右イヤーカップ201に取り付けられた支持部材205には、筐体207(マイクロホンアレイMA1)のみが取り付けられており、筐体208(マイクロホンアレイMA2)は、左イヤーカップ202に取り付けられた支持部材210に支持されている。
 左イヤーカップ202には、右側の構成(支持部204、支持部材205及び筐体207)と左右対称(ユーザUS(口部分UM;目的エリアTA)から見て左右対称)となるように、支持部209、支持部材210及び筐体208(マイクロホンアレイMA2)が取り付けされている。支持部209及び支持部材210は、左右対称であること以外支持部204及び支持部材205と同様の構成とする。この場合、図9に示すように、マイクロホンアレイMA1、MA2(筐体207、208)は、ユーザUSの口部分UM(目的エリアTA)の周囲に沿って配置(周囲を囲うように配置)されており、マイクロホンアレイMA1、MA2の指向性D101、D102が、いずれもユーザUSの口部分UM(目的エリアTA)に向くように配置されている。したがって、装着体20Aのように構成しても、指向性D101、D102(すなわちマイクロホンアレイMA1、MA2のBF出力の指向性)が目的エリアTAを含む1つの領域でのみ重複する状態とすることができる。
 以上のように、この実施形態では、マイクロホンアレイMA1、MA2が、目的エリアTAの周囲に沿って配置され、マイクロホンアレイMA1、MA2の指向性は、いずれ目的エリアTAに向くように配置されている。これにより、この実施形態では、指向性D101、D102が目的エリアTAを含む1つの領域でのみ重複する状態とし、ユーザUSの目的エリアTAの音声を収音することができる。
 ただし、マイクロホンアレイMA1、MA2の指向性(D101、D102)が並行又は略並行となる場合には、マイクロホンアレイMA1、MA2の指向性(D101、D102)が目的エリアTAを含む1つの領域でのみ重複する状態にならない(ユーザUSの顔の左右にも重複する領域が発生する)ため、そのような状態は避ける必要がある。
 図11は、マイクロホンアレイMA1、MA2の指向性(D101、D102)が略並行となった装着体20Bの構成について示している。
 装着体20Bは、装着体20Aと比較して、マイクロホンアレイMA1、MA2の指向性(D101、D102)が略並行となるように取り付けされている点で異なっている。装着体20Bの状態では、マイクロホンアレイMA1、MA2の指向性(D101、D102)が目的エリアTAを含む1つの領域でのみ重複する状態にならないため、エリア収音処理部12において、目的エリアTA以外の領域の音も収音されてしまうことになる。例えば、1方のマイクロホンアレイから見た場合において、他方のマイクロホンアレイMAの目的エリアTAの反対側の領域でも指向性が重複する領域が形成される。したがって、装着体20Bの状態では、ユーザUSの口部分UMだけでなく、ユーザUSの頭部の左右方向にも収音エリアが形成されてしまうことになる。
 以上のように、全てのマイクロホンアレイMAの指向性が並行する状態又は略並行する状態となると、目的エリアTA以外でマイクロホンアレイMA1、MA2の指向性が重なる領域が発生し、エリア収音処理部12において、目的エリアTA以外の音が収音されてしまうことになるため避けることが望ましい。
 (A-2)実施形態の動作
 次に、以上のような構成を有するこの実施形態の音声処理装置1の動作(実施形態の音声処理方法)を説明する。
 まず、収音処理部10の動作を中心に説明する。
 データ入力部11は、各マイクロホンアレイMA1、MA2で収音した音響信号をアナログ信号からディジタル信号に変換する。
 エリア収音処理部12は、マイクロホンアレイMA1、MA2の入力信号から、目的エリアTAを収音するエリア収音処理を行って目的エリア音抽出信号を取得し、出力部13に供給する。エリア収音処理部12は、マイクロホンアレイMA1、MA2が目的方向(目的エリアTAへの方向)に指向性を向けたBF出力を取得し、取得したBF出力に基づいて目的エリアTA(ユーザUSの口部分UMを含む領域)の目的エリア音(ユーザUSの発話する音声)を収音した目的エリア音抽出信号を取得する。エリア収音処理部12は、例えば、上記の図4~図8Cに示すようなエリア収音処理を行うようにしてもよい。
 出力部13は、供給された目的エリア音抽出信号を所定の方式/形式で出力信号として出力する。
 次に、再生処理部30の動作について説明する。
 再生処理部30は、外部から供給された再生用の音響信号をアナログ信号に変換し、スピーカ部22(右スピーカSP_R、左スピーカSP_L)に供給する。
 (A-3)実施形態の効果
 第1の実施形態では、以下のような効果を奏することができる。
 第1の実施形態の音声処理装置1では、マイクロホンアレイMA1、MA2が、目的エリアTA(ユーザUSの口部分UMを含む領域)の周囲に沿って配置され、マイクロホンアレイMA1、MA2の指向性(収音処理部10のエリア収音処理におけるBF出力の指向性)は、いずれもユーザUSの口部分UM(目的エリアTA)に向くように配置されている。これにより、この実施形態では、指向性D101、D102(すなわちマイクロホンアレイMA1、MA2のBF出力の指向性)が目的エリアTAを含む1つの領域でのみ重複する状態とし、ユーザUSの口部分UM(目的エリアTA)を音源とする音声(ユーザUSの発話音声)を収音することができる。
 (B)第2の実施形態
 以下、本発明による音声処理装置、音声処理プログラム、音声処理方法及び装着体の第2の実施形態を、図面を参照しながら詳述する。
 図12は、第2の実施形態に係る音声処理装置1Aの機能的構成について示したブロック図である。図12では、上述の図1と同一部分又は対応部分には同一符号又は対応符号を付している。
 以下では、第2の実施形態の音声処理装置1Aの構成について第1の実施形態との差異を中心に説明する。
 第1の実施形態では、2つのマイクロホンアレイMA1、MA2を用いて目的エリアTAの目的エリア音を収音する構成となっているが、3以上のマイクロホンアレイを用いたエリア収音処理を行ってもよい。第2の実施形態の音声処理装置1Aでは、例として、3つのマイクロホンアレイの指向性(BF出力の指向性)を目的エリアTA(ユーザUSの口部分UMを含む領域)を含む1つの領域でのみ重複するように設定されているものとする。
 第2の実施形態の音声処理装置1Aでは、装着体20、収音処理部10が、それぞれ装着体40、収音処理部10Aに置き換わっている点で第1の実施形態と異なっている。第2の実施形態の装着体40は、マイクロホンアレイ部21がマイクロホンアレイ部21Aに置き換わっている点で第1の実施形態と異なっている。マイクロホンアレイ部21Aは、3つ目のマイクロホンアレイMA3が追加されている点で第1の実施形態と異なっている。また、収音処理部10Aでは、エリア収音処理部12がエリア収音処理部12Aに置き換わっている点で第1の実施形態と異なっている。
 図13は、ユーザUSが装着体40を装着した状態で示す図である。
 図13では、ユーザUSの頭部を上方向(頭上)から見た図となっている。装着体40は、上述の図10に示す装着体20Aに、3つ目のマイクロホンアレイMA3を追加した構成となっている。図13では、上述の図10と同一部分又は対応部分には同一符号又は対応符号を付している。図13に示すように、第2の実施形態の装着体40では、3つ目のマイクロホンアレイMA3がユーザUSの頭部の後ろ側に配置されている。マイクロホンアレイMA3は、ユーザUSの頭部の後ろ側(後頭部側)から、目的エリアTA(口部分UMの周辺)にBF出力の指向性を向けることが可能となるように配置されている。
 図13では、マイクロホンアレイMA3において、マイクロホンM1とマイクロホンM2の位置を結んだ線の中点をP103として図示している。マイクロホンアレイMA3の指向性は、P103を中心とし、概ね各マイクロホンを通る線と直交する方向に形成される。ここでは、マイクロホンアレイMA3の指向性を破線で示すと共に符号D103を付記するものとする。
 3つ目のマイクロホンアレイMA3を装着体40に取り付ける構成については限定されないものであるが、例えば、図13のように取り付けてもよい。
 図13では、マイクロホンアレイMA3を収容した筐体211が、ワイヤ形状の支持部材212、213を用いて装着体40本体(右イヤーカップ201、左イヤーカップ202)に取り付けされている。支持部材212、213は、いずれも他の支持部材と同様のワイヤとしてもよい。
 図13では、支持部材212の一端が右イヤーカップ201の支持部204に固定されており、他端が筐体211に固定されている。また、図13では、支持部材213の一端が左イヤーカップ202の支持部209に固定されており、他端が筐体211に固定されている。
 この実施形態では、図13に示すように、指向性D101、D102、D103が、目的エリアTA(ユーザUSの口部分UMを含む領域)を含む1つの領域でのみ重複するように設定することで、ユーザUSが口部分UMから発する発話音声を収音することができる。
 なお、図13の例では、指向性D101、D102は略並行な状態となっているが、3つの指向性D101~D103が全て重複する領域は、目的エリアTAを含む1つの領域のみとなるため目的エリアTAを目的エリアとするエリア収音処理に支障はない。
 次に、エリア収音処理部12Aの処理について第1の実施形態との差異を説明する。
 上記の通り、第2の実施形態では、マイクロホンアレイが3つ配置されている。エリア収音処理部12Aは、この3つのマイクロホンアレイMA1、MA2、MA3の指向性D101、D102、D103が全て重複するエリアの音をエリア収音処理する点で、第1の実施形態と異なっている。
 3以上のマイクロホンアレイのBF出力を用いてエリア収音する処理については、例えば、特開2018-170717号公報(以下、「参考文献2」と呼ぶ)の処理を適用することができるので詳しい説明を省略する。
 第2の実施形態では、3以上のマイクロホンアレイを用いてエリア収音処理を行うので、第1の実施形態のように2つのマイクロホンアレイを用いてエリア収音処理を行う場合と比較して、目的エリアをより狭い範囲に限定(極限)することができるので、より高品質な収音処理を行うことができる。
 特に、図13に示す装着体40を用いることで、この実施形態の装着体40では、ユーザUSの後頭部側にマイクロホンアレイMA3を追加することにより、ユーザUSの顔の左右方向に収音エリアが形成されることを防止することができる。
 (C)第3の実施形態
 以下、本発明による音声処理装置、音声処理プログラム、音声処理方法及び装着体の第3の実施形態を、図面を参照しながら詳述する。
 図14は、第3の実施形態に係る音声処理装置1Bの機能的構成について示したブロック図である。図14では、上述の図1と同一部分又は対応部分には同一符号又は対応符号を付している。
 以下では、第3の実施形態の音声処理装置1Bの構成について第1の実施形態との差異を中心に説明する。
 第1の実施形態では、計4つのマイクロホンを用いて2つのマイクロホンアレイMA1、MA2を構成しているが、一部のマイクロホンをマイクロホンアレイ間で共有してマイクロホンの総数を減らすようにしてもよい。第3の実施形態の例では、3つのマイクロホンM1~M3を用いて2つのマイクロホンアレイMA1、MA2を構成している。
 第3の実施形態の音声処理装置1Bでは、装着体20、収音処理部10が、それぞれ装着体50、収音処理部10Bに置き換わっている点で第1の実施形態と異なっている。第3の実施形態の装着体50は、マイクロホンアレイ部21がマイクロホンアレイ部21Bに置き換わっている点で第1の実施形態と異なっている。マイクロホンアレイ部21Bでは、上記の通り3つのマイクロホンM1~M3で、2つの2チャンネルマイクロホンアレイMA1、MA2が構成されている。この実施形態では、マイクロホンM1、M2でマイクロホンアレイMA1が構成されており、マイクロホンM2、M3でマイクロホンアレイMA2が構成されている。すなわち、この実施形態では、マイクロホンM2が2つのマイクロホンアレイMA1、MA2の間で共有されている。
 図15は、ユーザUSが装着体50を装着した状態で示す図である。
 装着体50では、筐体207、208が、3つのマイクロホンM1~M3が収容された筐体214に置き換えられている点で第1の実施形態の装着体20と異なる。
 図15に示すように、筐体214は、目的エリアTA(口部分UMの周辺)の周囲に沿って湾曲した形状となっており、目的エリアTA(口部分UMの周辺)の周囲に沿ってマイクロホンM1~M3が並べて配置されている。言い換えると、装着体50では、マイクロホンM1~M3を目的エリアTA(口部分UMの周辺)の周囲に沿って並べて配置できる構成となっている。なお、マイクロホンM1~M3を目的エリアTA(口部分UMの周辺)の周囲に沿って並べて配置できれば、装着体50の具体的な構成は限定されないものである。例えば、マイクロホンM1~M3を1つの筐体ではなく図示しないワイヤ等により連結した構成としてもよい。
 図15では、マイクロホンアレイMA1を構成するマイクロホンM1とマイクロホンM2の位置を結んだ線の中点をP101として図示している。また、図15では、マイクロホンアレイMA2を構成するマイクロホンM2とマイクロホンM3の位置を結んだ線の中点をP102として図示している。また、ここでは、マイクロホンアレイMA1の指向性は、P101を中心とし、概ね各マイクロホンを通る線と直交する方向に形成される。さらに、ここでは、マイクロホンアレイMA2の指向性は、P102を中心とし、概ね各マイクロホンを通る線と直交する方向に形成される。さらにまた、ここでは、マイクロホンアレイMA1の指向性を一点鎖線で示すと共に符号D101を付記し、マイクロホンアレイMA2の指向性を二点鎖線で示すと共に符号D102を付記するものとする。
 次に、エリア収音処理部12Bの処理について第1の実施形態との差異を説明する。
 上記の通り、第3の実施形態では、3つのマイクロホンM1~M3で2つのマイクロホンアレイMA1、MA3が構成されているので、エリア収音処理部12Bは、この3つのマイクロホンM1~M3の入力信号に基づいて2つのマイクロホンアレイのBF出力を取得してエリア収音処理を行う。エリア収音処理部12Bが行う処理は、BF出力の算出に使用する入力信号の組合せが異なるだけであるため詳しい説明を省略する。
 これにより、第3の実施形態では、第1の実施形態と同様に、指向性D101、D102が、目的エリアTA(ユーザUSの口部分UMを含む領域)を含む1つの領域でのみ重複するように設定することができるので、ユーザUSが口部分UMから発する発話音声を収音することができる。すなわち、第3の実施形態では、複数のマイクロホンアレイの間で一部のマイクロホンを共有しているので、使用するマイクロホンの総数を低減することができる。
(D)第4の実施形態
 以下、本発明による音声処理装置、音声処理プログラム、音声処理方法及び装着体の第4の実施形態を、図面を参照しながら詳述する。
 第1、第2の実施形態では、装着体をヘッドセット型のデバイス(ユーザUSの頭部に装着するデバイス)として説明したが、いわゆるネックバンド型のデバイス(ユーザUSの首部分に装着するデバイス)としてもよい。第4の実施形態では、第1、第2の実施形態において装着体をネックバンド型に変更した例について説明する。
 例えば、第1の実施形態において装着体20を、図16に示すような第4の実施形態に係るネックバンド型の装着体60に置き換えるようにしてもよい。
 図16は、装着体60をユーザUSが装着した状態について示した図である。
 図16では、装着体60を装着したユーザUSを上方向(頭上)から見た図となっている。
 装着体60は、図16に示すような略U字型のネックバンド本体601(ユーザUSの首にかけることが可能なネックバンド型の筐体)に、マイクロホンアレイMA1、MA2、右スピーカSP_R及び左スピーカSP_Lが搭載された構成となっている。図16に示すように、マイクロホンアレイMA1、MA2はネックバンド本体601自体に取り付けられている。また、図16に示すように、装着体60は、ユーザUSの右耳に付ける右耳用イヤホン602と左耳に付ける左耳用イヤホン603とを有している。右耳用イヤホン602、左耳用イヤホン603は、それぞれリード線602a、603aでネックバンド本体601に接続されている。右耳用イヤホン602/左耳用イヤホン603には、それぞれ右スピーカSP_R/左スピーカSP_Lが搭載されている。右スピーカSP_R及び左スピーカSP_Lは、リード線602a、603aを介して供給される音響信号に基づく音響をユーザUSの耳(外耳)に向けて放出する。なお、装着体60においてイヤホン(右スピーカSP_R、左スピーカSP_L)に関する構成は限定されないものであり、種々の構成を適用することができる。また、ネックバンド本体601の形状も図16の例に限定されないものであり、種々の形状を適用することができる。
 図16に示すように、U字型のネックバンド本体601は、ユーザUS頭部の周囲に配置されるので、必然的に目的エリアTA(ユーザUSの口部分UMを含む領域)を囲うような位置関係となる。図16の例では、ネックバンド本体601の両端部の位置(ユーザUSから見て斜め前の位置)に、マイクロホンアレイMA1、MA2を配置している。図16の例では、マイクロホンアレイMA1、MA2のBF出力の指向性が目的エリアTA(ユーザUSの口部分UMを含む領域)に向けるように配置されていることになる。
 以上のように、第1の実施形態の音声処理装置1において、ヘッドセット型の装着体20を、ネックバンド型の装着体60に置き換えた場合でも指向性D101、D102(すなわちマイクロホンアレイMA1、MA2のBF出力の指向性)が目的エリアTAを含む1つの領域でのみ重複する状態とすることができる。なお、ネックバンド型の装着体60において、マイクロホンアレイMA1、MA2の配置は、図16の例に限定されず、図17に示すような配置としてもよい。
 図17は、装着体60においてマイクロホンアレイMA1、MA2配置を変形した場合の例について示した図である。
 図17に示す装着体60では、マイクロホンアレイMA1、MA2をユーザUSの耳よりもやや後ろとなる位置に配置し、ユーザUSの頭部越しにBF出力の指向性を目的エリアTA(ユーザUSの口部分UMを含む領域)に向けている。このように配置した場合でも、指向性D101、D102(マイクロホンアレイMA1、MA2のBF出力の指向性)が目的エリアTAを含む1つの領域でのみ重複する状態とすることができる。
 したがって、第1の実施形態の音声処理装置1において、ネックバンド型の装着体60(図16、図17のような構成)を用いる場合でも、エリア収音処理部12では、マイクロホンアレイMA1、MA2の入力信号から、目的エリアTAの音をエリア収音処理することができる。
 また、第2の実施形態の音声処理装置1Aにおける装着体40についても同様にネックバンド型の構成としてもよい。
 例えば、第2の実施形態において装着体40を、図18に示すような第4の実施形態に係る装着体70に置き換えるようにしてもよい。
 図18は、装着体70をユーザUSが装着した状態について示した図である。
 図18に示す装着体70では、ネックバンド本体601に第3のマイクロホンアレイMA3が追加されている点で、図15に示す装着体50と異なっている。また、装着体70では、マイクロホンアレイMA1、MA2の配置位置も、図15に示す装着体50と異なり、ユーザUSの口部分UM(目的エリアTA)の左右方向に配置されている。
 図18の装着体70では、ユーザUSの頭部の後方部分にマイクロホンアレイMA3が追加され、マイクロホンアレイMA3の指向性D103は、目的エリアTA(ユーザUSの口部分UMを含む領域)に向けられている。つまり、図18に示すマイクロホンアレイMA1~MA3の位置及び収音指向性D101~D103は、第2の実施形態の装着体40(図13)と同様の位置関係となっている。
 したがって、第2の実施形態の音声処理装置1Aにおいて、ネックバンド型の装着体70(図18のような構成)を用いる場合でも、エリア収音処理部12Aでは、マイクロホンアレイMA1~MA3の入力信号から、目的エリアTAの音をエリア収音処理することができる。
 第4の実施形態では、装着体をネックバンド型としているため、より多様なニーズ(例えば、ユーザが頭部に装着体を装着しないというニーズ)に適応する(利便性を向上させる)ことができる。
(E)他の実施形態
 本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
 (E-1)上記の各実施形態において、音声処理装置を構成するマイクロホンアレイMAは、2チャンネルの構成であるものとして説明したが、3チャンネル以上の構成に置き換えてもよい。
 図19Aおよび図19Bは、3チャンネル以上のマイクロホンアレイMAを用いて目的方向(目的エリアTAへの方向)に指向性を向けて収音する処理の例について示した図である。
 図19Aは3チャンネルのマイクロホンアレイMAを用いて目的方向(目的エリアTAへの方向)に指向性を向ける構成の例について示した図であり、図19Bは4チャンネルのマイクロホンアレイMAを用いて目的方向に指向性を向ける構成の例について示した図である。
 3チャンネル以上のマイクロホンアレイMAを用いて、目的方向(目的エリアTAへの方向)に指向性を向けて収音する処理については、例えば、上記の参考文献1や特開2015-050558号公報(以下、「参考文献3」と呼ぶ)の記載技術を適用するようにしてもよい。
 ここで、参考文献1、3の記載技術を用いて、図19Aに示す3チャンネルのマイクロホンアレイMAを用いて、目的方向(目的エリアTAへの方向)の音を収音する場合を想定する。この場合、例えば、マイクロホンM1、M2の入力信号に基づくBF出力と、マイクロホンM1、M3の入力信号に基づくBF出力を組み合わせることで、マイクロホンアレイMAから目的方向(目的エリアTAへの方向)へのみ指向性を向け、目的方向と反対方向(図19Aからみて下方向)の音源の音を収音しないようにすることができる。
 次に、参考文献1、3の記載技術を用いて、図19Bに示す4チャンネルのマイクロホンアレイMAを用いて、目的方向(目的エリアTAへの方向)の音を収音する場合を想定する。この場合、例えば、マイクロホンM1、M2の入力信号に基づくBF出力と、マイクロホンM1、M3の入力信号に基づくBF出力と、マイクロホンM2、M4の入力信号に基づくBF出力とを組み合わせることで、マイクロホンアレイMAから目的方向(目的エリアTAへの方向)へのみ指向性を向け、目的方向と反対方向(図19Bからみて下方向)の音源の音を収音しないようにすることができる。
 以上のように、3チャンネル以上のマイクロホンアレイを用いる場合、図11の装着体20BのようにマイクロホンアレイMA1、MA2を配置しても、マイクロホンアレイMA1、MA2による収音指向性を、目的エリアTAを含む1つの領域でのみ重複する状態とすることができる。また、3チャンネル以上のマイクロホンアレイを用いて、目的方向の音を収音する場合、2チャンネルのマイクロホンアレイを用いて収音する場合と比較して収音する音声の品質を向上させることができる。
 また、4チャンネルのマイクロホンアレイMAを用いて目的方向の音を収音する場合は、図20に示すように、3次元的に円錐型の指向性を形成することで目的方向の音を収音するようにしてもよい。
 図20は、4チャンネルのマイクロホンアレイMAを用いて、目的方向へ三次元的に円錐型(コーン型)の指向性を形成する処理の例について示した図である。
 図20に示すような円錐型(コーン型)の指向性を形成するには、例えば、特開2006-197552号公報(以下、「参考文献4」と呼ぶ)の記載技術を適用するようにしてもよい。これにより、上記の各実施形態において、マイクロホンアレイMAから見て左右方向だけでなく、上下方向についても目的エリアを絞り込んだ処理を行うことができるので、さらに収音精度を向上させることができる。なお、図20のように三次元的に指向性を形成する場合、収音方向に垂直方向や水平方向に対する角度(例えば、仰角や俯角)を付けるようにしてもよい。
 (E-2)第1の実施形態において、装着体20を構成するマイクロホンアレイMA1、MA2(筐体207、208)を支持する構成については上記の例に限定されないものである。
 例えば、上記の図9に示す装着体20Aにおいて、筐体207、208の間をワイヤ形状の連結部材で連結するようにしてもよい。
 図21は、装着体20A(図9)の構成に筐体207、208の間を連結する連結部材215を追加した構成例(装着体20A2)について示した図である。連結部材215については、他の連結部材と同様のワイヤを適用するようにしてもよい。筐体207、208の間を連結することで、筐体207、208を安定的に保持して位置のずれ(特に筐体207、208の高さ(垂直方向)のずれ)を抑制することができるため、安定的な収音処理に寄与することができる。
 また、例えば、上記の図9に示す装着体20Aにおいて、筐体207、208を1つの支持部材216で支持するようにしてもよい。
 図22は、装着体20A(図9)の構成において、筐体207、208を支持する部材を1本のワイヤ形状の支持部材216で支持するように変更した構成例(装着体20A3)について示した図である。支持部材216については、他の連結部材と同様のワイヤを適用するようにしてもよい。
 図22に示すように支持部材216は、一端が筐体207に固定され、ユーザUSの頭部後方を回って他端が筐体208に固定されている。支持部材216は、支持部204、209で支持されている。支持部材216は、支持部204、209の突起を貫通するように配置されている。
 このように、1つ(一体)の支持部材216で筐体207、208を支持することで、筐体207、208を安定的に保持して位置のずれ(特に筐体207、208の高さ(垂直方向)のずれ)を抑制することができるため、安定的な収音処理に寄与することができる。
 (E-3)上記の各実施形態では、音声処理装置に再生処理部及びスピーカ部が搭載された構成としているが、再生処理部及びスピーカ部を除外して、ユーザUSの発話する音声を収音するのみの構成(収音処理に必要な構成のみの装置)としてもよい。この場合、装着体からはスピーカ部を除外するようにしてもよい。
 (E-4)上記の各実施形態において、データ入力部11は、各マイクロホンアレイで収音した音響信号をアナログ信号からディジタル信号に変換するものとしたが、アナログMEMSマイクの代わりにディジタルMEMSマイクを用いるようにして、ディジタルMEMSマイクからのディジタル信号を入力するようにしても良い。その場合、データ入力部11にはインタフェース変換やデシメーションフィルタの機能を具備するようにしても良い。デシメーションフィルタはサンプリング周波数を間引くとともに、音声帯域のみを通過させる低域透過フィルタである。
 1…音声処理装置、1A、1B…音声処理装置、10、10A、10B…収音処理部、11、11B…データ入力部、12、12A、12B…エリア収音処理部、13…出力部、20、20A、20A2、20A3、20B、40、50、60、70…装着体、21、21A、21B…マイクロホンアレイ部、22…スピーカ部、30…再生処理部、201…右イヤーカップ、202…左イヤーカップ、203…ヘッドバンド部、204…支持部、205…支持部材、206…連結部、207、208…筐体、209…支持部、210…支持部材、211…筐体、212、213…支持部材、214…筐体、連結部材…215、216…支持部材、601…ネックバンド本体、602…右耳用イヤホン、602a…リード線、603…左耳用イヤホン、603a…リード線、M、M1~M4…マイクロホン、MA、MA1~MA3…マイクロホンアレイ。

 

Claims (9)

  1.  ユーザの身体に装着されるものであって、複数のマイクロホンアレイが付けられた装着体と、
     それぞれの前記マイクロホンアレイから供給される入力信号に基づいて、それぞれの前記マイクロホンアレイから前記ユーザの身体上の目的位置を含む目的エリアの方向へ指向性を形成したビームフォーマ出力を取得し、取得した前記ビームフォーマ出力を用いて、前記目的エリアを音源とする目的エリア音を収音するエリア収音手段とを備え、
     それぞれの前記マイクロホンアレイの前記指向性が、前記目的エリアを含む1つの領域でのみ重複する
     ことを特徴とする音声処理装置。
  2.  前記目的エリアは、前記ユーザの口部分を含む領域であり、それぞれの前記マイクロホンアレイは、前記目的エリアの周囲に配置されていることを特徴とする請求項1に記載の音声処理装置。
  3.  前記装着体は、前記ユーザの頭部又は首部分に装着されることを特徴とする請求項2に記載の音声処理装置。
  4.  ユーザの身体に装着されるものであって、複数のマイクロホンアレイが付けられた装着体を備える音声処理装置に搭載されたコンピュータを、
     それぞれの前記マイクロホンアレイから供給される入力信号に基づいて、それぞれの前記マイクロホンアレイから前記ユーザの身体上の目的位置を含む目的エリアの方向へ指向性を形成したビームフォーマ出力を取得し、取得した前記ビームフォーマ出力を用いて、前記目的エリアを音源とする目的エリア音を収音するエリア収音手段として機能させ、
     それぞれの前記マイクロホンアレイの前記指向性が、前記目的エリアを含む1つの領域でのみ重複する
     ことを特徴とする音声処理プログラム。
  5.  音声処理装置が行う音声処理方法において、
     ユーザの身体に装着されるものであって、複数のマイクロホンアレイが付けられた装着体と、エリア収音手段とを備え、
     前記エリア収音手段は、それぞれの前記マイクロホンアレイから供給される入力信号に基づいて、それぞれの前記マイクロホンアレイから前記ユーザの身体上の目的位置を含む目的エリアの方向へ指向性を形成したビームフォーマ出力を取得し、取得した前記ビームフォーマ出力を用いて、前記目的エリアを音源とする目的エリア音を収音し、
     それぞれの前記マイクロホンアレイの前記指向性が、前記目的エリアを含む1つの領域でのみ重複する
     ことを特徴とする音声処理方法。
  6.  ユーザの身体に装着される装着体において、
     複数のマイクロホンアレイを備え、
     それぞれの前記マイクロホンアレイの入力信号に基づいて、それぞれの前記マイクロホンアレイから前記ユーザの身体上の目的位置を含む目的エリアの方向へビームフォーマ出力の指向性を形成する場合に、それぞれの前記マイクロホンアレイの前記指向性が、前記目的エリアを含む1つの領域でのみ重複するように、それぞれの前記マイクロホンアレイが配置されていること
     を特徴とする装着体。
  7.  ユーザの身体に装着される装着体に付けられた複数のマイクロホンアレイから供給される入力信号に基づいて、それぞれの前記マイクロホンアレイから前記ユーザの身体上の目的位置を含む目的エリアの方向へ指向性を形成したビームフォーマ出力を取得し、取得した前記ビームフォーマ出力を用いて、前記目的エリアを音源とする目的エリア音を収音するエリア収音手段とを備え、
     それぞれの前記マイクロホンアレイの前記指向性が、前記目的エリアを含む1つの領域でのみ重複する
     ことを特徴とする音声処理装置。
  8.  コンピュータを、
     ユーザの身体に装着される装着体に付けられた複数のマイクロホンアレイから供給される入力信号に基づいて、それぞれの前記マイクロホンアレイから前記ユーザの身体上の目的位置を含む目的エリアの方向へ指向性を形成したビームフォーマ出力を取得し、取得した前記ビームフォーマ出力を用いて、前記目的エリアを音源とする目的エリア音を収音するエリア収音手段として機能させ、
     それぞれの前記マイクロホンアレイの前記指向性が、前記目的エリアを含む1つの領域でのみ重複する
     ことを特徴とする音声処理プログラム。
  9.  音声処理装置が行う音声処理方法において、
     エリア収音手段を備え、
     前記エリア収音手段は、ユーザの身体に装着される装着体に付けられた複数のマイクロホンアレイから供給される入力信号に基づいて、それぞれの前記マイクロホンアレイから前記ユーザの身体上の目的位置を含む目的エリアの方向へ指向性を形成したビームフォーマ出力を取得し、取得した前記ビームフォーマ出力を用いて、前記目的エリアを音源とする目的エリア音を収音し、
     それぞれの前記マイクロホンアレイの前記指向性が、前記目的エリアを含む1つの領域でのみ重複する
     ことを特徴とする音声処理方法。

     
PCT/JP2022/020062 2021-09-30 2022-05-12 音声処理装置、音声処理プログラム、音声処理方法及び装着体 WO2023053559A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-161354 2021-09-30
JP2021161354A JP2023050963A (ja) 2021-09-30 2021-09-30 音声処理装置、音声処理プログラム、音声処理方法及び装着体

Publications (1)

Publication Number Publication Date
WO2023053559A1 true WO2023053559A1 (ja) 2023-04-06

Family

ID=85782205

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/020062 WO2023053559A1 (ja) 2021-09-30 2022-05-12 音声処理装置、音声処理プログラム、音声処理方法及び装着体

Country Status (2)

Country Link
JP (1) JP2023050963A (ja)
WO (1) WO2023053559A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170094407A1 (en) * 2015-09-29 2017-03-30 Wave Sciences LLC Wearable directional microphone array apparatus and system
JP2019161400A (ja) * 2018-03-12 2019-09-19 沖電気工業株式会社 収音装置、プログラム及び方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170094407A1 (en) * 2015-09-29 2017-03-30 Wave Sciences LLC Wearable directional microphone array apparatus and system
JP2019161400A (ja) * 2018-03-12 2019-09-19 沖電気工業株式会社 収音装置、プログラム及び方法

Also Published As

Publication number Publication date
JP2023050963A (ja) 2023-04-11

Similar Documents

Publication Publication Date Title
US10748549B2 (en) Audio signal processing for noise reduction
CN110100453B (zh) 在双边麦克风阵列中控制风噪声
CN107533838B (zh) 使用多个麦克风的语音感测
CN110089130B (zh) 两用双边麦克风阵列
CN105898651B (zh) 包括用于拾取用户自我话音的分立传声器单元的听力系统
EP3883266A1 (en) A hearing device adapted to provide an estimate of a user's own voice
CN113544775B (zh) 用于头戴式音频设备的音频信号增强
US10199029B2 (en) Speech enhancement for headsets with in-ear microphones
JP5624202B2 (ja) 空間的キューおよびフィードバック
WO2019114397A1 (zh) 一种麦克风颈环耳机
US20200294521A1 (en) Microphone configurations for eyewear devices, systems, apparatuses, and methods
WO2020137585A1 (ja) 特定音検出器および方法、並びにプログラム
WO2007017810A2 (en) A headset, a communication device, a communication system, and a method of operating a headset
WO2019176153A1 (ja) 収音装置、記憶媒体及び方法
JP7350092B2 (ja) 眼鏡デバイス、システム、装置、および方法のためのマイク配置
WO2023053559A1 (ja) 音声処理装置、音声処理プログラム、音声処理方法及び装着体
CN113179464A (zh) 可穿戴式话筒扬声器
CN113228706A (zh) 扬声器系统、声音处理装置、声音处理方法以及程序
WO2019119376A1 (en) Earphone and method for uplink cancellation of an earphone
US20230254630A1 (en) Acoustic output device and method of controlling acoustic output device
Wu et al. Hearing aid system with 3D sound localization
JP7565529B2 (ja) ヘッドセットおよび通話用マイクの指向性制御方法
CN218788831U (zh) 耳机与基于耳机的组网通信系统
US12081944B1 (en) Audio device apparatus for hearing impaired users
US20230300526A1 (en) Microphone apparatus

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22875440

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22875440

Country of ref document: EP

Kind code of ref document: A1