WO2019239667A1 - 収音装置、収音方法、及びプログラム - Google Patents
収音装置、収音方法、及びプログラム Download PDFInfo
- Publication number
- WO2019239667A1 WO2019239667A1 PCT/JP2019/011503 JP2019011503W WO2019239667A1 WO 2019239667 A1 WO2019239667 A1 WO 2019239667A1 JP 2019011503 W JP2019011503 W JP 2019011503W WO 2019239667 A1 WO2019239667 A1 WO 2019239667A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- sound
- noise
- noise source
- data
- target
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
Definitions
- the present disclosure relates to a sound collection device that collects a target sound, a sound collection method, and a program.
- Patent Document 1 discloses a signal processing device that performs noise reduction processing on collected sound signals obtained from a plurality of microphones.
- This signal processing device detects a speaker based on imaging data of a camera and specifies the relative direction of the speaker with respect to a plurality of speakers.
- this signal processing device specifies the direction of the noise source from the noise level included in the amplitude spectrum of the collected sound signal.
- the signal processing device performs noise reduction processing when the relative direction of the speaker matches the direction of the noise source. Thereby, the disturbance signal is efficiently reduced.
- This disclosure provides a sound collection device, a sound collection method, and a program that improve the accuracy of sound collection of a target sound.
- a sound collection device is a sound collection device that suppresses noise and collects sound, and includes a first input unit that inputs image data generated by a camera, and sound output from a microphone array.
- a second input unit that inputs a signal, a storage unit that stores first data indicating the feature amount of an image of an object indicating a noise source or a target sound source, and a first unit that collates the image data with the first data
- a control unit that specifies a direction of the noise source by performing collation and performs signal processing on the acoustic signal so as to suppress sound coming from the specified direction of the noise source.
- the direction in which sound is suppressed is determined by comparing image data obtained from the camera with a feature amount of an image of an object indicating a noise source or a target sound source. Therefore, noise can be suppressed with high accuracy. Thereby, the accuracy of sound collection of the target sound is improved.
- storage part A diagram schematically showing an example of the sound collection environment
- the figure which shows the example which emphasizes the sound from the target sound source and suppresses the sound from the noise source Flow chart showing sound collection methods of the first to third embodiments
- a diagram for explaining the sound collection direction at a vertical angle Diagram for explaining the judgment area Flowchart showing the overall operation of noise source direction estimation in the first to third embodiments
- Diagram for explaining object detection Diagram for explaining detection of sound source Flowchart showing determination of target sound source direction in the first to third embodiments
- Diagram for explaining beamform processing by beamform unit Flowchart showing determination of noise source direction in the second embodiment
- storage part The flowchart which shows the detection of the non-target object of 3rd Embodiment Flowchart showing detection of noise in the third embodiment
- the signal processing apparatus of Patent Document 1 specifies the direction of a noise source from the noise level included in the amplitude spectrum of the collected sound signal. However, it is difficult to accurately specify the direction of the noise source only by the noise level.
- the sound collection device of the present disclosure matches the direction of the noise source by comparing at least one of the image data acquired from the camera and the acoustic signal acquired from the microphone array with the data indicating the feature amount of the noise source or the target sound source. Is identified. Thereby, the direction of the noise source can be specified with high accuracy, and noise coming from the specified direction can be suppressed by signal processing. By accurately suppressing the noise, the accuracy of collecting the target sound is improved.
- FIG. 1 illustrates a configuration of a sound collection device according to the present disclosure.
- the sound collection device 1 includes a camera 10, a microphone array 20, a control unit 30, a storage unit 40, an input / output interface unit 50, and a bus 60.
- the sound collection device 1 collects, for example, a voice of a person in a meeting.
- the sound collection device 1 is a dedicated sound collection device in which the camera 10, the microphone array 20, the control unit 30, the storage unit 40, the input / output interface unit 50, and the bus 60 are integrated.
- the camera 10 includes an image sensor such as a CCD image sensor, a CMOS image sensor, or an NMOS image sensor.
- the camera 10 generates and outputs image data that is a video signal.
- the microphone array 20 includes a plurality of microphones.
- the microphone array 20 receives sound waves, converts them into acoustic signals that are electrical signals, and outputs them.
- the control unit 30 estimates the target sound source direction and the noise source direction based on the image data obtained from the camera 10 and the acoustic signal obtained from the microphone array 20.
- the target sound source direction is a direction in which a target sound source that emits a target sound exists.
- the noise source direction is a direction in which a noise source that emits noise exists.
- the control unit 30 extracts the target sound from the acoustic signal output from the microphone array 20 by performing signal processing that emphasizes the sound coming from the target sound source direction and suppresses the sound coming from the noise source direction.
- the control unit 30 can be realized by a semiconductor element or the like.
- the control unit 30 can be configured by, for example, a microcomputer, CPU, MPU, DSP, FPGA, or ASIC.
- the storage unit 40 stores noise source data indicating the feature amount of the noise source.
- Image data obtained from the camera 10 and acoustic signals obtained from the microphone array 20 may be stored in the storage unit 40.
- the storage unit 40 can be realized by, for example, a hard disk (HDD), SSD, RAM, DRAM, ferroelectric memory, flash memory, magnetic disk, or a combination thereof.
- the input / output interface unit 50 includes a circuit that communicates with an external device in accordance with a predetermined communication standard.
- the predetermined communication standard includes, for example, LAN, Wi-Fi (registered trademark), Bluetooth (registered trademark), USB, and HDMI (registered trademark).
- the bus 60 is a signal line that electrically connects the camera 10, the microphone array 20, the control unit 30, the storage unit 40, and the input / output interface unit 50.
- control unit 30 When the control unit 30 acquires image data from the camera 10 or retrieves it from the storage unit 40, the control unit 30 corresponds to an input unit for image data. When the control unit 30 acquires an acoustic signal from the microphone array 20 or extracts it from the storage unit 40, the control unit 30 corresponds to an input unit for the acoustic signal.
- FIG. 2 shows the function of the control unit 30 and the data stored in the storage unit 40.
- the function of the control unit 30 may be configured only by hardware, or may be realized by combining hardware and software.
- the control unit 30 includes a target sound source direction estimation unit 31, a noise source direction estimation unit 32, and a beamform unit 33.
- the target sound source direction estimation unit 31 estimates the target sound source direction.
- the target sound source direction estimation unit 31 includes a target object detection unit 31a, a sound source detection unit 31b, and a target sound source direction determination unit 31c.
- the target object detection unit 31 a detects a target object from the image data v generated by the camera 10.
- the target object is an object serving as a target sound source.
- the target object detection unit 31a detects, for example, a human face as a target object.
- the target object detection unit 31a uses each image in the plurality of determination regions r ( ⁇ t , ⁇ t ) in the image data v corresponding to one frame of moving image or one still image as a target object.
- v) is calculated.
- the determination region r ( ⁇ t , ⁇ t ) will be described later.
- the sound source detector 31b detects a sound source from the acoustic signal s obtained from the microphone array 20. Specifically, the sound source detection unit 31b calculates a probability P ( ⁇ t , ⁇ t
- Target source direction determination unit 31c the probability P ( ⁇ t, ⁇ t
- the target sound source direction is indicated by, for example, a horizontal angle ⁇ t and a vertical angle ⁇ t with respect to the sound collection device 1.
- the noise source direction estimation unit 32 estimates the noise source direction.
- the noise source direction estimation unit 32 includes a non-object detection unit 32a, a noise detection unit 32b, and a noise source direction determination unit 32c.
- the non-target object detection unit 32 a detects a non-target object from the image data v generated by the camera 10. Specifically, the non-target object detection unit 32a receives each image in the plurality of determination regions r ( ⁇ n , ⁇ n ) in the image data v corresponding to one frame of moving image or one still image. It is determined whether it is a target object.
- the non-target object is an object that becomes a noise source. For example, when the sound collection device 1 is used in a conference room, non-target objects are a conference room door, a projector in the conference room, and the like. For example, when the sound collection device 1 is used outdoors, the non-target object is a moving object that emits sound such as an ambulance.
- the noise detection unit 32b detects noise from the acoustic signal s output from the microphone array 20.
- noise is also referred to as non-target sound.
- the noise detection unit 32b determines whether or not the sound coming from the direction specified by the horizontal angle ⁇ n and the vertical angle ⁇ n is noise.
- the noise is, for example, a sound when a door is opened and closed, a sound of a projector fan, and an ambulance siren sound.
- the noise source direction determination unit 32c determines the noise source direction based on the determination result of the non-object detection unit 32a and the determination result of the noise detection unit 32b. For example, when the non-object detection unit 32a detects a non-object and the noise detection unit 32b detects noise, the noise source direction is determined based on the detected position or direction.
- the noise source direction is indicated by, for example, a horizontal angle ⁇ n and a vertical angle ⁇ n with respect to the sound collection device 1.
- the beamform unit 33 performs signal processing on the acoustic signal s output from the microphone array 20 to enhance the sound coming from the target sound source direction and suppress the sound coming from the noise source direction.
- the target sound is extracted from s. As a result, it is possible to collect clear sound with reduced noise.
- the storage unit 40 stores noise source data 41 indicating the characteristic amount of the noise source.
- the noise source data 41 may include one noise source or a plurality of noise sources.
- the noise source data 41 may include a car, a door, and a projector as noise sources.
- the noise source data 41 includes non-object data 41a and noise data 41b which is non-object sound data.
- the non-object data 41a includes an image feature amount of the non-object that becomes a noise source.
- the non-target object data 41a is, for example, a database including image feature amounts of non-target objects.
- Image feature values include, for example, wavelet feature values, Haar-like feature values, HOG (Histograms of Oriented Gradients) feature values, EOH (Edge of Oriented Histograms) feature values, Edgelet feature values, Joint Haar-like feature values, Joint HOG One or more of a feature quantity, a sparse feature quantity, a shapelet feature quantity, and a co-occurrence probability feature quantity.
- the non-target object detection unit 32a detects the non-target object, for example, by collating the feature amount extracted from the image data v with the non-target object data 41a.
- the noise data 41b includes an acoustic feature amount of noise output from the noise source.
- the noise data 41b is, for example, a database including noise acoustic feature amounts.
- the acoustic feature amount is, for example, one or more of MFCC (Mel-Frequency Cepstral Coefficient) and i-vector.
- the noise detection unit 32b detects noise by collating the feature amount extracted from the acoustic signal s with the noise data 41b.
- FIG. 3 schematically illustrates an example in which the sound collection device 1 collects a target sound emitted from a target sound source around and a noise emitted from a noise source.
- FIG. 4 shows an example of signal processing for enhancing the target sound and suppressing noise.
- the horizontal axis of FIG. 4 indicates the direction in which the target sound and noise arrive, that is, the angles of the target sound source and noise source with respect to the sound collection device 1.
- the vertical axis in FIG. 4 indicates the gain of the acoustic signal.
- the microphone array 20 outputs an acoustic signal including noise. Therefore, as shown in FIG.
- the sound collection device 1 of the present embodiment forms a blind spot by beam forming processing with respect to the noise source direction. That is, the sound collection device 1 performs signal processing for suppressing noise on the acoustic signal. Thereby, the target sound can be collected with high accuracy.
- the sound collection device 1 further performs signal processing for enhancing the sound coming from the target sound source direction with respect to the acoustic signal. Thereby, the target sound can be collected with higher accuracy.
- FIG. 5 shows a sound collection operation by the control unit 30.
- the noise source direction estimation unit 32 estimates the noise source direction (S1).
- the target sound source direction estimation unit 31 estimates the target sound source direction (S2).
- the beamform unit 33 performs beamform processing based on the estimated noise source direction and target sound source direction (S3). Specifically, the beamform unit 33 performs signal processing on the acoustic signal output from the microphone array 20 so as to suppress the sound coming from the noise source direction and emphasize the sound coming from the target sound source direction. .
- the order of the noise source direction estimation shown in step 1 and the target sound source direction estimation shown in step S2 may be reversed.
- FIG. 6A schematically shows an example of sound collection at the horizontal angle ⁇ .
- FIG. 6B schematically shows an example of sound collection at the vertical angle ⁇ .
- FIG. 6C shows an example of the determination region r ( ⁇ , ⁇ ).
- the position of the coordinate system of each region in the image data v generated by the camera 10 is associated with the horizontal angle ⁇ and the vertical angle ⁇ with respect to the sound collection device 1 according to the angle of view of the camera 10.
- the image data v generated by the camera 10 can be divided into a plurality of determination areas r ( ⁇ , ⁇ ) corresponding to the horizontal angle of view and the vertical angle of view of the camera 10.
- the image data v may be divided into a circle or a lattice.
- the determination region when estimating the noise source direction (S1) is described as r ( ⁇ n , ⁇ n )
- the determination region when estimating the target sound source direction (S2) is r ( ⁇ t , ⁇ t ).
- the size or shape of the determination regions r ( ⁇ n , ⁇ n ), r ( ⁇ t , ⁇ t ) may be the same or different.
- FIG. 7 shows details of the noise source direction estimation (S1).
- the order of detection of the non-target object shown in step S11 and noise detection shown in step S12 may be reversed.
- the non-target object detection unit 32a detects a non-target object from the image data v generated by the camera 10 (S11). Specifically, the non-target object detection unit 32a determines whether or not the image in the determination region r ( ⁇ n , ⁇ n ) is a non-target object in the image data v.
- the noise detection unit 32b detects noise from the acoustic signal s output from the microphone array 20 (S12). Specifically, the noise detection unit 32b determines whether or not the sound arriving from the direction of the horizontal angle ⁇ n and the vertical angle ⁇ n is noise from the acoustic signal s.
- the noise source direction determining unit 32c determines the noise source direction ( ⁇ n , ⁇ n ) based on the non-target object and the noise detection result (S13).
- FIG. 8 shows an example of non-target detection (S11).
- the non-target object detection unit 32a acquires the image data v generated by the camera 10 (S111).
- the non-object detection unit 32a extracts an image feature amount in the determination region r ( ⁇ n , ⁇ n ) (S112).
- the image feature quantity to be extracted corresponds to the image feature quantity indicated by the non-target object data 41a.
- the image feature amount to be extracted includes a wavelet feature amount, a Haar-like feature amount, an HOG feature amount, an EOH feature amount, an Edgelet feature amount, a Joint Haar-like feature amount, a Joint HOG feature amount, a sparse feature amount, and a Shapelet feature amount.
- the image feature amount is not limited to these, and may be a feature amount for specifying an object from image data.
- the non-object detection unit 32a compares the extracted image feature quantity with the non-object data 41a, and calculates the similarity P ( ⁇ n , ⁇ n
- v) is a probability indicating the probability that the image in the determination region r ( ⁇ n , ⁇ n ) is a non-object, that is, the non-object-likeness.
- the method for detecting the non-target object is arbitrary.
- the non-object detection unit 32a calculates the similarity by template matching between the extracted image feature quantity and the non-object data 41a.
- the non-target object detection unit 32a determines whether or not the similarity is equal to or greater than a predetermined value (S114). If the similarity is greater than or equal to a predetermined value, it is determined that the image in the determination region r ( ⁇ n , ⁇ n ) is a non-target object (S115). If the similarity is lower than the predetermined value, it is determined that the image in the determination region r ( ⁇ n , ⁇ n ) is not a non-target object (S116).
- the non-target object detection unit 32a determines whether or not the determination in all the determination regions r ( ⁇ n , ⁇ n ) in the image data v is completed (S117). If there is a determination region r ( ⁇ n , ⁇ n ) that has not been determined, the process returns to step S112. When the determination for all the determination regions r ( ⁇ n , ⁇ n ) is completed, the processing shown in FIG.
- FIG. 9 shows an example of noise detection (S12).
- Noise detection unit 32b to form a directivity in the direction of the determination region r ( ⁇ n, ⁇ n), determined from the acoustic signal s region r ( ⁇ n, ⁇ n) extracts the sound coming from the direction of ( S121).
- the noise detection unit 32b extracts an acoustic feature amount from the extracted sound (S122).
- the extracted acoustic feature amount corresponds to the acoustic feature amount indicated by the noise data 41b.
- the extracted acoustic feature quantity is one or more of MFCC and i-vector.
- the acoustic feature amount is not limited to these, and may be a feature amount for specifying an object from acoustic data.
- the noise detection unit 32b compares the extracted acoustic feature quantity with the noise data 41b, and calculates a similarity P ( ⁇ n , ⁇ n
- s) is the probability that the sound coming from the direction of the determination region r ( ⁇ n , ⁇ n ) is noise, that is, the accuracy indicating noise likelihood.
- the detection method of noise is arbitrary. For example, the noise detection unit 32b calculates the similarity by template matching between the extracted acoustic feature quantity and the noise data 41b.
- the noise detection unit 32b determines whether the similarity is equal to or greater than a predetermined value (S124). If the similarity is greater than or equal to a predetermined value, it is determined that the sound coming from the direction of the determination region r ( ⁇ n , ⁇ n ) is noise (S125). If the similarity is lower than the predetermined value, it is determined that the sound coming from the direction of the determination region r ( ⁇ n , ⁇ n ) is not noise (S126).
- the noise detection unit 32b determines whether or not the determination in all the determination regions r ( ⁇ n , ⁇ n ) is completed (S127). If there is a determination region r ( ⁇ n , ⁇ n ) that has not been determined, the process returns to step S121. When the determination for all the determination regions r ( ⁇ n , ⁇ n ) is completed, the processing shown in FIG.
- FIG. 10 shows an example of directivity formation in step S121.
- FIG. 10 shows an example in which the microphone array 20 includes two microphones 20i and 20j.
- the timing of reception of sound waves coming from the ⁇ direction in the microphones 20i and 20j varies depending on the interval d between the microphones 20i and 20j.
- a propagation delay corresponding to the distance dsin ⁇ occurs in the microphone 20j. That is, a phase difference occurs in the acoustic signals output from the microphones 20i and 20j.
- the noise detection unit 32b delays the output of the microphone 20i by a delay amount corresponding to the distance dsin ⁇ , and then adds the acoustic signals output from the microphones 20i and 20j by the adder 321.
- the phase of the signal coming from the ⁇ direction matches, so that the signal coming from the ⁇ direction is emphasized at the output of the adder 321.
- signals coming from directions other than ⁇ are not emphasized as much as signals coming from ⁇ because the phases do not match each other.
- directivity is formed in the ⁇ direction by using the output of the adder 321.
- FIG. 11 shows an example of determining the noise source direction (S13).
- the noise source direction determination unit 32c acquires the determination results in the determination region r ( ⁇ n , ⁇ n ) from the non-object detection unit 32a and the noise detection unit 32b (S131).
- the noise source direction determination unit 32c determines whether or not the determination result in the determination region r ( ⁇ n , ⁇ n ) is a non-target object and indicates noise (S132).
- the noise source direction determination unit 32c determines that there is a noise source in the direction of the determination region r ( ⁇ n , ⁇ n ), and determines the determination region r ( ⁇ n , ⁇ n ), the horizontal angle ⁇ n and the vertical angle ⁇ n which are noise source directions are specified (S133).
- the noise source direction determination unit 32c determines whether or not the determination in the entire determination region r ( ⁇ n , ⁇ n ) is completed (S134). If there is a determination region r ( ⁇ n , ⁇ n ) that has not been determined, the process returns to step S131. If the determination for all the determination regions r ( ⁇ n , ⁇ n ) is completed, the processing shown in FIG. 11 is terminated.
- FIG. 12 shows details of the estimation of the target sound source direction (S2).
- S2 the order of detection of the object in step S21 and detection of the sound source in step S22 may be reversed.
- the target object detection unit 31a detects the target object based on the image data v generated by the camera 10 (S21). Specifically, the target object detection unit 31a calculates a probability P ( ⁇ t , ⁇ t
- the detection method of the target object is arbitrary.
- the detection of the object is performed by determining whether or not each determination region r ( ⁇ t , ⁇ t ) matches the feature of the face as the object (“Rapid Object Detection using a Boosted Cascade of Simple Features ”(see ACCEPTED CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION 2001).
- the sound source detection unit 31b detects a sound source based on the acoustic signal s output from the microphone array 20 (S22). Specifically, the sound source detection unit 31b calculates a probability P ( ⁇ t , ⁇ t
- the method for detecting the sound source is arbitrary. For example, the sound source can be detected using a CSP (Cross-Power Spectrum Phase Analysis) method or a MUSIC (Multiple Signal Classification) method.
- the target sound source direction determination unit 31c has a probability P ( ⁇ t , ⁇ t
- FIG. 13 shows an example of a face identification method.
- the target object detection unit 31a includes, for example, weak classifiers 310 (1) to 310 (N). When the weak classifiers 310 (1) to 310 (N) are not particularly distinguished, they are also referred to as N weak classifiers 310.
- the weak classifiers 310 (1) to 310 (N) each have information indicating facial features. Information indicating facial features is different for each of the N weak classifiers 310.
- the object detection unit 31a calculates the number of times C (r ( ⁇ t , ⁇ t )) that the region r ( ⁇ t , ⁇ t ) is determined to be a face.
- the target object detection unit 31a first determines whether or not the region r ( ⁇ t , ⁇ t ) is a face by the first weak classifier 310 (1).
- the weak classifier 310 (1) determines that the region r ( ⁇ t , ⁇ t ) is not a face
- “C (r ( ⁇ t , ⁇ t )) 0” is obtained. If the first weak classifier 310 (1) determines that the region r ( ⁇ t , ⁇ t ) is a face, the second weak classifier 310 (2) It is determined whether or not the region r ( ⁇ t , ⁇ t ) is a face by using facial feature information different from that of the discriminator 310 (1).
- the size of the region r ( ⁇ t , ⁇ t ) when detecting a face may be constant or variable.
- the size of the region r ( ⁇ t , ⁇ t ) when detecting a face may change for each image data v for one frame of a moving image or one still image.
- the target object detection unit 31a determines whether or not all the regions r ( ⁇ t , ⁇ t ) in the image data v are faces, the target object detection unit 31a performs horizontal analysis in the image data v according to the following equation (1).
- v) that the image at the position specified by the angle ⁇ t and the vertical angle ⁇ t is a face is calculated.
- FIG. 14 schematically shows a state in which sound waves arrive at the microphones 20 i and 20 j of the microphone array 20. Depending on the distance d between the microphones 20i and 20j, a time difference ⁇ occurs when the sound waves arrive at the microphones 20i and 20j.
- the sound source detection unit 31b calculates the probability P ( ⁇ t
- the CSP coefficient can be obtained by the following equation (3) (The Institute of Electronics, Information and Communication Engineers Journal D-II Vol. J83-D-II No. 8 pp. 1713-1721, “CSP using microphone array” See “Multiple sound source localization based on the law”).
- n represents time
- S i (n) represents an acoustic signal received by the microphone 20i
- S j (n) represents an acoustic signal received by the microphone 20j.
- DFT represents a discrete Fourier transform. * Indicates a conjugate complex number.
- the probability P ( ⁇ t) that the sound source exists at the horizontal angle ⁇ t is obtained by converting the CSP coefficient of the equation (2) from the time axis to the direction axis by the equation (5).
- S) can be calculated.
- s) that the sound source exists at the vertical angle ⁇ t can be calculated by the CSP coefficient and the time difference ⁇ , similarly to the probability P ( ⁇ t
- FIG. 15 shows details of the determination of the target sound source direction (S23).
- the target sound source direction determination unit 31c calculates a probability P ( ⁇ t , ⁇ t ) that is a target sound source for each determination region r ( ⁇ t , ⁇ t ) (S231).
- the target sound source direction determination unit 31c uses the target object probability P ( ⁇ t , ⁇ t
- the probability P ( ⁇ t , ⁇ t ) that a person who is the target sound source is present is calculated by the following equation (6).
- the target sound source direction determination unit 31c determines, as the target sound source direction, the horizontal angle ⁇ t and the vertical angle ⁇ t at which the probability P ( ⁇ t , ⁇ t ) is maximized by the following equation (7) (S232).
- v) shown in the equation (6) is determined based on, for example, the image accuracy CMv indicating the probability that the target object is included in the image data v. May be.
- the target sound source direction determination unit 31c sets the image accuracy CMv based on the image data v.
- the target sound source direction determination unit 31c compares the average luminance Yave of the image data v with the recommended luminance (Ymin_base to Ymax_base).
- the recommended luminance has a range from the minimum recommended luminance (Ymin_base) to the maximum recommended luminance (Ymax_base).
- Information indicating the recommended luminance is stored in the storage unit 40 in advance.
- the image accuracy CMv is set to the maximum value “1”, and the image accuracy CMv is lowered as the average luminance Yave is higher or lower than the recommended luminance.
- the target sound source direction determination unit 31c determines the weight Wv corresponding to the image accuracy CMv by, for example, a monotonically increasing function.
- s) shown in the equation (6) is determined based on, for example, the acoustic accuracy CMs indicating the probability that the sound is included in the acoustic signal s. Also good. Specifically, the target sound source direction determination unit 31c calculates the acoustic accuracy CMs using a human voice GMM (Gausian Mixture Model) and a non-voice GMM. The voice GMM and the non-voice GMM are generated by learning in advance. Information indicating the voice GMM and the non-voice GMM is stored in the storage unit 40. The target sound source direction determination unit 31c first calculates the likelihood Lv by the sound GMM in the acoustic signal s.
- the beamform processing (S3) by the beamform unit 33 after the noise source direction ( ⁇ n , ⁇ n ) and the target sound source direction ( ⁇ t , ⁇ t ) are determined will be described.
- the method of beamform processing is arbitrary.
- the beamform unit 33 uses a generalized sidelobe canceller (GSC) (Electrotechnical Information Communication Society Technical Research Report, No. DSP2001-108, ICD2001-113, IE2001-92, pp.61-68, October). 2001, "Proposal of an adaptive speaker tracking algorithm in a two-channel microphone array using a generalized sidelobe canceller").
- FIG. 16 shows a functional configuration of the beamform unit 33 using a generalized sidelobe canceller (GSC).
- the beamform unit 33 includes delay elements 33a and 33b, a beam steering unit 33c, a null steering unit 33d, and a subtractor 33e.
- the delay element 33a corrects the arrival time difference related to the target sound based on the delay amount Z Dt corresponding to the target sound source direction ( ⁇ t , ⁇ t ). Specifically, the delay element 33a corrects the arrival time difference between the input signal u2 (n) input to the microphone 20j and the input signal u1 (n) input to the microphone 20i.
- the beam steering unit 33c generates an output signal d (n) based on the sum of the input signal u1 (n) and the corrected input signal u2 (n).
- the phases of the signal components coming from the target sound source direction ( ⁇ t , ⁇ t ) match, so that the output signal d (n) comes from the target sound source direction ( ⁇ t , ⁇ t ).
- the signal component is emphasized.
- the delay element 33b corrects the arrival time difference related to noise based on the delay amount Z Dn corresponding to the noise source direction ( ⁇ n , ⁇ n ). Specifically, the delay element 33b corrects the arrival time difference between the input signal u2 (n) input to the microphone 20j and the input signal u1 (n) input to the microphone 20i.
- the null steering unit 33d includes an adaptive filter (ADF) 33f.
- the null steering unit 33d uses the sum of the input signal u1 (n) and the corrected input signal u2 (n) as the input signal x (n) of the adaptive filter 33f, and sets the coefficient of the adaptive filter 33f in the input signal x (n).
- the output signal y (n) is generated by multiplication.
- the coefficient of the adaptive filter 33f is a mean square error between the output signal d (n) of the beam steering unit 33c and the output signal y (n) of the null steering unit 33d, that is, the square of the output signal e (n) of the subtractor 33e. Updated to minimize the average.
- the subtractor 33e subtracts the output signal y (n) from the null steering unit 33d from the output signal d (n) from the beam steering unit 33c to generate an output signal e (n). Since the phases of the signal components coming from the noise source direction ( ⁇ n , ⁇ n ) coincide with each other at the input of the null steering unit 33d, the noise source direction ( ⁇ n , The signal component coming from ⁇ n ) is suppressed.
- the beamform unit 33 outputs the output signal e (n) of the subtractor 33e.
- the output signal e (n) of the beamform unit 33 is a signal in which the target sound is emphasized and noise is suppressed.
- the target sound is enhanced and the noise is suppressed using the beam steering unit 33c and the null steering unit 33d.
- the process is not limited thereto, and the target sound is not limited thereto. It is only necessary to emphasize the noise and suppress the noise.
- the sound collection device 1 includes an input unit, a storage unit 40, and a control unit 30.
- the input unit in the sound collection device 1 incorporating the camera 10 and the microphone array 20 is a control unit 30.
- the input unit inputs an acoustic signal output from the microphone array 20 and image data generated by the camera 10.
- the storage unit 40 stores non-object data 41a indicating an image feature amount of a non-object that becomes a noise source and noise data 41b indicating an acoustic feature amount of noise output from the noise source.
- the control unit 30 performs the first collation (S113) for collating the image data with the non-object data 41a and the second collation (S123) for collating the acoustic signal with the noise data 41b, so that the direction of the noise source Is specified (S133).
- the control unit 30 performs signal processing on the acoustic signal so as to suppress the sound coming from the direction of the identified noise source (S3).
- the direction of the noise source can be specified with high accuracy. .
- noise can be suppressed with high accuracy, and the accuracy of collecting the target sound is improved.
- the determination as to whether or not there is a noise source in the direction of the determination region r ( ⁇ n , ⁇ n ) is different from the first embodiment.
- the non-target object detection unit 32a compares the similarity P ( ⁇ n , ⁇ n
- the noise detection unit 32b compares the similarity P ( ⁇ n , ⁇ n
- the noise source direction determination unit 32c determines that there is a noise source in the direction of the determination region r ( ⁇ n , ⁇ n ) when it is a non-target object and noise.
- the non-target object detection unit 32a outputs the similarity P ( ⁇ n , ⁇ n
- the noise detection unit 32b outputs a similarity P ( ⁇ n , ⁇ n
- Noise source direction determination unit 32c is, similarity P ( ⁇ n, ⁇ n
- FIG. 17 shows an example of determining the noise source direction (S13) in the second embodiment.
- Noise source direction determination unit 32c is similarity P ( ⁇ n, ⁇ n
- the noise source direction determination unit 32c determines that the determination area ( ⁇ n, ⁇ n) in the direction of a noise source, the determination region ( ⁇ n, ⁇ n) corresponding to The horizontal angle ⁇ n and the vertical angle ⁇ n are specified as the noise source direction (S1303).
- s) between the noise was calculated the product of, but not limited thereto .
- s) (formula (8)), or the weighted product (formula (9))
- the noise source direction determination unit 32c determines whether or not the determination in the entire determination region r ( ⁇ n , ⁇ n ) has been completed (S1304). If there is a determination region r ( ⁇ n , ⁇ n ) that has not been determined, the process returns to step S1301. If the determination for all the determination regions r ( ⁇ n , ⁇ n ) is completed, the processing shown in FIG. 117 is terminated.
- the noise source direction can be specified with high accuracy as in the first embodiment.
- the noise source data 41 indicating the feature amount of the noise source is stored in the storage unit 40, and the noise source direction estimation unit 32 estimates the noise source direction using the noise source data 41.
- the target sound source data indicating the feature amount of the target sound source is stored in the storage unit 40, and the noise source direction estimation unit 32 estimates the noise source direction using the target sound source data.
- FIG. 18 shows functions of the control unit 30 and data stored in the storage unit 40 in the third embodiment.
- the storage unit 40 stores target sound source data 42.
- the target sound source data 42 includes target object data 42a and target sound data 42b.
- the target object data 42a includes the image feature amount of the target object serving as the target sound source.
- the target object data 42a is, for example, a database including the image feature amount of the target object.
- Image feature quantities include, for example, wavelet feature quantities, Haar-like feature quantities, HOG feature quantities, EOH feature quantities, Edgelet feature quantities, Joint Haar-like feature quantities, Joint HOG feature quantities, sparse feature quantities, Shapelet feature quantities, and Any one or more of the co-occurrence probability feature quantities.
- the target sound data 42b includes the acoustic feature amount of the target sound output from the target sound source.
- the target sound data 42b is, for example, a database including the acoustic feature amount of the target sound.
- the acoustic feature amount of the target sound is, for example, one or more of MFCC and i-vector.
- FIG. 19 shows an example of non-target detection (S11) in the present embodiment.
- Steps S1101, S1102, and S1107 in FIG. 19 are the same as steps S111, S112, and S117 in FIG.
- the non-target object detection unit 32a collates the extracted image feature quantity with the target object data 42a, and calculates the similarity with the target object (S1103).
- the non-target object detection unit 32a determines whether or not the similarity is equal to or less than a predetermined value (S1104).
- the non-target object detection unit 32a determines that the object is not the target object, that is, the non-target object if the similarity is equal to or less than a predetermined value (S1105). If the similarity is greater than a predetermined value, the non-object detection unit 32a determines that the object is an object, that is, is not a non-object (S1106).
- FIG. 20 shows an example of noise detection (S12) in the present embodiment.
- Steps S1201, S1202, and S1207 in FIG. 20 are the same as steps S121, S122, and S127 in FIG. 9, respectively.
- the noise detection unit 32b compares the extracted acoustic feature quantity with the target sound data 42b and calculates the similarity with the target sound (S1203).
- the noise detection unit 32b determines whether the similarity is equal to or less than a predetermined value (S1204). If the similarity is less than or equal to a predetermined value, it is determined that the sound coming from the direction of the determination region r ( ⁇ n , ⁇ n ) is not the target sound, that is, noise (S1205). If the similarity is greater than a predetermined value, it is determined that the sound coming from the direction of the determination region r ( ⁇ n , ⁇ n ) is the target sound, that is, not noise (S1206).
- the noise source direction can be specified with high accuracy as in the first embodiment.
- the target sound source data 42 may be used to specify the target sound source direction.
- the object detection unit 31a may detect the object by collating the image data v with the object data 42a.
- the sound source detecting unit 31b may detect the target sound by comparing the acoustic signal s with the target sound data 42b.
- the target sound source direction estimation unit 31 and the noise source direction estimation unit 32 may be integrated into one.
- the noise source direction determination unit 32c indicates whether or not the determination result in the determination region r ( ⁇ n , ⁇ n ) is a non-target object and noise. Judged. Further, the noise source direction determination unit 32c may determine whether or not the noise source specified from the non-target object and the noise is the same. For example, it may be determined whether the non-target object specified from the image data is a door and whether the noise specified from the acoustic signal is a sound when the door is opened or closed.
- the noise source direction determination unit 32c when the noise source direction determination unit 32c detects a non-target object and noise in the determination region r ( ⁇ n , ⁇ n ) in step S132 of FIG. 11, the determination region r ( ⁇ n , ⁇ n ), the horizontal angle ⁇ n and the vertical angle ⁇ n are determined as the noise source direction.
- the noise source direction determination unit 32c can detect only one of a non-target object and noise in the determination region r ( ⁇ n , ⁇ n )
- the determination region r ( ⁇ n , ⁇ n ) may be determined as the noise source direction.
- the non-object detection unit 32a may specify the noise source direction based on the detection of the non-object, and the noise detection unit 32b may specify the noise source direction based on the noise detection.
- the noise source direction determination unit 32c determines whether or not the noise source direction specified by the non-object detection unit 32a matches the noise source direction specified by the noise detection unit 32b. It may be determined whether or not noise suppression is performed.
- the noise source direction determination unit 32c may perform noise suppression by the beamform unit 33 when either the non-object detection unit 32a or the noise detection unit 32b can identify the noise source direction.
- the sound collection device 1 includes both the non-object detection unit 32a and the noise detection unit 32b, but may include only one of them. That is, the noise source direction may be specified only from the image data, or the noise source direction may be specified only from the acoustic signal. In this case, the noise source direction determination unit 32c may be omitted.
- the non-object detection unit 32a may use PCA (Principal Component Analysis), neural network, linear discriminant analysis (LDA), support vector machine (SVM), AdaBoost, Real AdaBoost, and the like.
- the non-target object data 41a may be a model obtained by learning the image feature amount of the non-target object.
- the target object data 42a may be a model obtained by learning the image feature amount of the target object.
- the non-object detection unit 32a may perform all or part of the processing corresponding to steps S111 to S117 in FIG. 8 using, for example, a model obtained by learning the image feature amount of the non-object.
- the noise detection unit 32b may use, for example, PCA, neural network, linear discriminant analysis, support vector machine, AdaBoost, Real AdaBoost, and the like.
- the noise data 41b may be a model obtained by learning an acoustic feature amount of noise.
- the target sound data 42b may be a model obtained by learning the acoustic feature amount of the target sound.
- the noise detection unit 32b may perform all or part of the processing corresponding to steps S121 to S127 in FIG. 9 using a model in which the acoustic feature amount of noise is learned.
- the target sound source direction determination unit 31c may separate the sound signal into sound and non-speech by sound source separation technology, and determine whether the sound is the target sound or noise based on the power ratio of sound and non-speech.
- a sound source separation technique for example, blind sound source separation (BSS) may be used.
- the beamform unit 33 includes the adaptive filter 33f
- the beamform unit 33 may have a configuration shown by the noise detection unit 32b in FIG.
- a blind spot can be formed by the output of the subtractor 322.
- the microphone array 20 includes the two microphones 20i and 20j has been described, but the microphone array 20 may include two or more microphones.
- the noise source direction is not limited to one direction and may be a plurality of directions.
- the enhancement of the target sound direction and the suppression of the noise source direction are not limited to the above embodiment, and can be performed by an arbitrary method.
- the noise source direction is determined only by at least one of the horizontal angle ⁇ n and the vertical angle ⁇ n. If it can be specified, it is only necessary to determine at least one of the horizontal angle ⁇ n and the vertical angle ⁇ n . Similarly, for the target sound source direction, at least one of the horizontal angle ⁇ t and the vertical angle ⁇ t may be determined.
- the sound collection device 1 may not include either one or both of the camera 10 and the microphone array 20.
- the sound collection device 1 is electrically connected to the external camera 10 or the microphone array 20.
- the sound collection device 1 is an electronic device such as a smartphone including the camera 10 and may be electrically and mechanically connected to an external device including the microphone array 20.
- the input / output interface unit 50 inputs image data from the camera 10 externally attached to the sound collection device 1, the input / output interface unit 50 corresponds to an image data input unit.
- the input / output interface unit 50 inputs an acoustic signal from the microphone array 20 externally attached to the sound collection device 1, the input / output interface unit 50 corresponds to an input unit for the acoustic signal.
- the target is not limited to a human face, but may be a part that can be recognized as a human.
- the object may be a human body or lips.
- a person's voice is collected as a target sound, but the target sound is not limited to a person's voice.
- the target sound may be a car sound or an animal call.
- a sound collection device of the present disclosure is a sound collection device that suppresses noise and collects sound, and includes a first input unit that inputs image data generated by a camera, and sound output from a microphone array.
- a second input unit that inputs a signal, a storage unit that stores first data indicating the feature amount of an image of an object indicating a noise source or a target sound source, and a first unit that collates the image data with the first data
- a control unit that specifies a direction of the noise source by performing collation and performs signal processing on the acoustic signal so as to suppress sound coming from the specified direction of the noise source.
- the direction of the noise source is specified by comparing the image data with the first data indicating the feature amount of the image of the object indicating the noise source or the target sound source, the direction of the noise source can be specified with high accuracy. it can. Since the noise coming from the direction of the noise source specified with high accuracy is suppressed, the accuracy of collecting the target sound is improved.
- the storage unit stores second data indicating the feature amount of the sound output from the object, and the control unit stores the first verification and the acoustic signal as the second data.
- the direction of the noise source may be specified by performing a second collation that collates with the above data.
- the direction of the noise source is specified by comparing the acoustic signal with the second data indicating the feature amount of the sound output from the object, the direction of the noise source can be specified with high accuracy. Since the noise coming from the direction of the noise source specified with high accuracy is suppressed, the accuracy of collecting the target sound is improved.
- the first data indicates the feature amount of the image of the object that is a noise source
- the control unit performs the first verification, and the object similar to the object from the image data May be specified as the direction of the noise source.
- the first data indicates the feature amount of the image of the object serving as the target sound source
- the control unit performs the first collation and is similar to the object from the image data.
- the direction of the detected object may be specified as the direction of the noise source.
- control unit divides the image data into a plurality of determination areas and collates the images in each determination area with the first data in the first verification. Then, the direction of the noise source may be specified based on the position in the image data of the determination area including the detected object.
- the second data indicates the feature amount of the noise output from the noise source, and the control unit performs the second matching, and the sound signal is similar to the noise.
- the direction in which the detected sound arrives may be specified as the direction of the noise source.
- the direction of the noise source can be specified with high accuracy by checking against the noise feature.
- the second data indicates a feature amount of the target sound output from the target sound source
- the control unit performs a second verification and is similar to the target sound from the acoustic signal.
- the direction in which the detected sound arrives may be specified as the direction of the noise source.
- the control unit picks up the sound signal with directivity in each of the plurality of determination directions and collects the sound signal in the second verification. May be compared with the second data to specify the determination direction in which the sound is detected as the direction of the noise source.
- the first accuracy of the presence of the noise source is calculated by the first verification
- the second accuracy of the noise source is calculated by the second verification
- Sounds coming from the direction of the noise source may be suppressed when the calculated value calculated based on the first accuracy and the second accuracy is greater than or equal to a predetermined threshold.
- the calculated value may be any one of a product, a sum, a weighted product, and a weighted sum of the first accuracy and the second accuracy.
- the control unit determines a target sound source direction in which the target sound source exists based on the image data and the sound signal, and starts from the target sound source direction.
- Signal processing that enhances the incoming sound may be performed on the acoustic signal.
- the sound collection device of (1) may include at least one of a camera and a microphone array.
- the sound collection method is a sound collection method in which noise is collected by a calculation unit, the step of inputting image data generated by a camera, and an acoustic signal output from a microphone array Performing a first collation for collating the image data with the first data, obtaining the first data indicating the feature amount of the image of the object indicating the noise source or the target sound source, Identifying the direction of the noise source, and performing signal processing on the acoustic signal so as to suppress sound coming from the identified direction of the noise source.
- the sound collection device and the sound collection method described in all claims of the present disclosure are realized by cooperation with hardware resources such as a processor, a memory, and a program.
- the sound collection device of the present disclosure is useful as a device that collects the voice of a person who is talking, for example.
Landscapes
- Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Circuit For Audible Band Transducer (AREA)
- Studio Devices (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
目的音の収音の精度を向上させる収音装置を提供する。収音装置(1)は、カメラ(10)によって生成された画像データを入力する第1の入力部(30,50)と、マイクアレイ(20)から出力される音響信号を入力する第2の入力部(30,50)と、雑音源又は目的音源を示す物体の画像の特徴量を示す第1のデータ(41a)を記憶する記憶部(40)と、画像データを第1のデータと照合する第1の照合を行うことによって、雑音源の方向を特定し、特定した雑音源の方向から到来する音を抑圧するような信号処理を音響信号に対して行う制御部(30)と、を備える。
Description
本開示は、目的音を収音する収音装置、収音方法、及びプログラムに関する。
特許文献1は、複数のマイクロホンから得られた収音信号に対し、ノイズ低減化処理を施す信号処理装置を開示している。この信号処理装置は、カメラの撮像データに基づいて話者を検出し、複数のスピーカに対する話者の相対方向を特定している。また、この信号処理装置は、収音信号の振幅スペクトルに含まれたノイズレベルからノイズ源の方向を特定している。信号処理装置は、話者の相対方向とノイズ源の方向とが一致するときに、ノイズ低減化処理を行っている。これにより、外乱信号を効率的に低減している。
本開示は、目的音の収音の精度を向上させる収音装置、収音方法、及びプログラムを提供する。
本開示の一態様の収音装置は、雑音を抑圧して収音する収音装置であって、カメラによって生成された画像データを入力する第1の入力部と、マイクアレイから出力される音響信号を入力する第2の入力部と、雑音源又は目的音源を示す物体の画像の特徴量を示す第1のデータを記憶する記憶部と、画像データを第1のデータと照合する第1の照合を行うことによって、雑音源の方向を特定し、特定した雑音源の方向から到来する音を抑圧するような信号処理を音響信号に対して行う制御部と、を備える。
これらの概括的かつ特定の態様は、システム、方法、及びコンピュータプログラム、並びに、それらの組み合わせにより、実現されてもよい。
本開示の収音装置、収音方法、及びプログラムによれば、カメラから得られる画像データを雑音源又は目的音源を示す物体の画像の特徴量と照合することによって、音を抑圧する方向を決定するため、雑音を精度良く抑圧することができる。これにより、目的音の収音の精度が向上する。
(本開示の基礎となった知見)
特許文献1の信号処理装置は、収音信号の振幅スペクトルに含まれたノイズレベルからノイズ源の方向を特定している。しかし、ノイズレベルだけではノイズ源の方向を精度良く特定することは難しい。本開示の収音装置は、カメラから取得した画像データとマイクアレイから取得した音響信号の少なくともいずれか一方を、雑音源又は目的音源の特徴量を示すデータと照合することによって、雑音源の方向を特定する。これにより、精度良く雑音源の方向を特定して、特定した方向から到来する雑音を信号処理によって抑圧することができる。雑音を精度良く抑圧することによって、目的音の収音の精度が向上する。
特許文献1の信号処理装置は、収音信号の振幅スペクトルに含まれたノイズレベルからノイズ源の方向を特定している。しかし、ノイズレベルだけではノイズ源の方向を精度良く特定することは難しい。本開示の収音装置は、カメラから取得した画像データとマイクアレイから取得した音響信号の少なくともいずれか一方を、雑音源又は目的音源の特徴量を示すデータと照合することによって、雑音源の方向を特定する。これにより、精度良く雑音源の方向を特定して、特定した方向から到来する雑音を信号処理によって抑圧することができる。雑音を精度良く抑圧することによって、目的音の収音の精度が向上する。
(第1実施形態)
以下、実施形態について、図面を参照しながら説明する。本実施形態では、人物の音声を目的音として収音する例について説明する。
以下、実施形態について、図面を参照しながら説明する。本実施形態では、人物の音声を目的音として収音する例について説明する。
1. 収音装置の構成
図1は、本開示の収音装置の構成を示している。収音装置1は、カメラ10、マイクアレイ20、制御部30、記憶部40、入出力インタフェース部50、及びバス60を備える。収音装置1は、例えば、会議中の人の音声を収音する。本実施形態において、収音装置1は、カメラ10、マイクアレイ20、制御部30、記憶部40、入出力インタフェース部50、及びバス60が一体化された専用の収音機である。
図1は、本開示の収音装置の構成を示している。収音装置1は、カメラ10、マイクアレイ20、制御部30、記憶部40、入出力インタフェース部50、及びバス60を備える。収音装置1は、例えば、会議中の人の音声を収音する。本実施形態において、収音装置1は、カメラ10、マイクアレイ20、制御部30、記憶部40、入出力インタフェース部50、及びバス60が一体化された専用の収音機である。
カメラ10は、CCDイメージセンサ、CMOSイメージセンサ、又はNMOSイメージセンサなどのイメージセンサを備える。カメラ10は、映像信号である画像データを生成して、出力する。
マイクアレイ20は、複数のマイクロホンを備える。マイクアレイ20は、音波を受信して、電気信号である音響信号に変換して出力する。
制御部30は、カメラ10から得られた画像データと、マイクアレイ20から得られた音響信号に基づいて、目的音源方向と雑音源方向を推定する。目的音源方向は、目的音を発する目的音源が存在する方向である。雑音源方向は、雑音を発する雑音源が存在する方向である。制御部30は、目的音源方向から到来する音を強調し且つ雑音源方向から到来する音を抑圧するような信号処理を行うことによって、マイクアレイ20が出力した音響信号から目的音を取り出す。制御部30は、半導体素子などで実現可能である。制御部30は、例えば、マイコン、CPU、MPU、DSP、FPGA、又はASICで構成することができる。
記憶部40は、雑音源の特徴量を示す雑音源データを格納する。カメラ10から得られた画像データ及びマイクアレイ20から得られた音響信号が記憶部40に格納されてもよい。記憶部40は、例えば、ハードディスク(HDD)、SSD、RAM、DRAM、強誘電体メモリ、フラッシュメモリ、磁気ディスク、又はこれらの組み合わせによって実現できる。
入出力インタフェース部50は、所定の通信規格に準拠して外部機器との通信を行う回路を含む。所定の通信規格は、例えば、LAN、Wi-Fi(登録商標)、Bluetooth(登録商標)、USB、及びHDMI(登録商標)を含む。
バス60は、カメラ10、マイクアレイ20、制御部30、記憶部40、及び入出力インタフェース部50を電気的に接続する信号線である。
制御部30が画像データをカメラ10から取得又は記憶部40から取り出すときは、制御部30が画像データの入力部に相当する。制御部30が音響信号をマイクアレイ20から取得又は記憶部40から取り出すときは、制御部30が音響信号の入力部に相当する。
図2は、制御部30の機能と記憶部40に格納されるデータとを示している。制御部30の機能は、ハードウェアのみで構成してもよいし、ハードウェアとソフトウェアとを組み合わせることにより実現してもよい。
制御部30は、目的音源方向推定部31、雑音源方向推定部32、及びビームフォーム部33を含む。
目的音源方向推定部31は、目的音源方向を推定する。目的音源方向推定部31は、目的物検出部31a、音源検出部31b、及び目的音源方向決定部31cを含む。
目的物検出部31aは、カメラ10によって生成された画像データvから目的物を検出する。目的物は、目的音源となる物体である。目的物検出部31aは、例えば、人の顔を目的物として検出する。具体的には、目的物検出部31aは、動画1フレーム分又は静止画1枚分に相当する画像データv内の複数の判定領域r(θt,φt)内のそれぞれの画像が目的物である確率P(θt,φt|v)を算出する。判定領域r(θt,φt)については後述する。
音源検出部31bは、マイクアレイ20から得られる音響信号sから音源を検出する。具体的には、音源検出部31bは、収音装置1に対する水平角θt及び垂直角φtによって特定される方向に音源が存在する確率P(θt,φt|s)を算出する。
目的音源方向決定部31cは、目的物である確率P(θt,φt|v)と音源が存在する確率P(θt,φt|s)とに基づいて、目的音源方向を決定する。目的音源方向は、例えば、収音装置1に対する水平角θt及び垂直角φtで示される。
雑音源方向推定部32は、雑音源方向を推定する。雑音源方向推定部32は、非目的物検出部32a、雑音検出部32b、及び雑音源方向決定部32cを含む。
非目的物検出部32aは、カメラ10によって生成された画像データvから非目的物を検出する。具体的には、非目的物検出部32aは、動画1フレーム分又は静止画1枚分に相当する画像データv内の複数の判定領域r(θn,φn)内のそれぞれの画像が非目的物であるか否かを判定する。非目的物は、雑音源となる物体である。例えば、収音装置1が会議室で使用される場合、非目的物は会議室のドア及び会議室内にあるプロジェクタ等である。例えば、収音装置1が屋外で使用される場合、非目的物は救急車などの音を発する移動物体である。
雑音検出部32bは、マイクアレイ20が出力した音響信号sから雑音を検出する。本明細書において、雑音を非目的音とも称する。具体的には、雑音検出部32bは、水平角θn及び垂直角φnによって特定される方向から到来する音が雑音か否かを判定する。雑音は、例えば、ドアの開閉時の音、プロジェクタのファンの音、及び救急車のサイレン音である。
雑音源方向決定部32cは、非目的物検出部32aの判定結果と雑音検出部32bの判定結果に基づいて、雑音源方向を決定する。例えば、非目的物検出部32aが非目的物を検出し、且つ雑音検出部32bが雑音を検出したときに、検出した位置又は方向に基づいて雑音源方向を決定する。雑音源方向は、例えば、収音装置1に対する水平角θn及び垂直角φnで示される。
ビームフォーム部33は、マイクアレイ20が出力した音響信号sに対して、目的音源方向から到来する音を強調し、雑音源方向から到来する音を抑圧するような信号処理を行って、音響信号sから目的音を取り出す。これにより、雑音が低減された、クリアな音声を収音できる。
記憶部40には、雑音源の特徴量を示す雑音源データ41が格納されている。雑音源データ41に含まれる雑音源は1つであってもよいし、複数であってもよい。例えば、雑音源データ41は、車、ドア、及びプロジェクタを雑音源として含んでもよい。雑音源データ41は、非目的物データ41aと、非目的音データである雑音データ41bとを含む。
非目的物データ41aは、雑音源となる非目的物の画像特徴量を含む。非目的物データ41aは、例えば、非目的物の画像特徴量を含むデータベースである。画像特徴量は、例えば、wavelet特徴量、Haar-like特徴量、HOG(Histograms of Oriented Gradients)特徴量、EOH(Edge of Oriented Histograms)特徴量、Edgelet特徴量、Joint Haar-like特徴量、Joint HOG特徴量、スパース特徴量、Shapelet特徴量、及び共起確率特徴量のうちのいずれか1つ以上である。非目的物検出部32aは、例えば、画像データvから抽出した特徴量を非目的物データ41aと照合することによって、非目的物を検出する。
雑音データ41bは、雑音源が出力する雑音の音響特徴量を含む。雑音データ41bは、例えば、雑音の音響特徴量を含むデータベースである。音響特徴量は、例えば、MFCC(Mel-Frequency Cepstral Coefficient)及びi-vectorのうちのいずれか1つ以上である。雑音検出部32bは、例えば、音響信号sから抽出した特徴量を雑音データ41bと照合することによって、雑音を検出する。
2. 収音装置の動作
2.1 信号処理の概要
図3は、収音装置1が、周囲にある目的音源が発する目的音と雑音源が発する雑音を収音する例を模式的に示している。図4は、目的音を強調し且つ雑音を抑圧する信号処理の一例を示している。図4の横軸は、目的音及び雑音が到来する方向、すなわち収音装置1に対する目的音源及び雑音源の角度を示す。図4の縦軸は、音響信号のゲインを示す。図3に示すように、収音装置1の周囲に雑音源があると、マイクアレイ20は雑音を含む音響信号を出力する。よって、本実施形態の収音装置1は、図4に示すように、雑音源方向に対して、ビームフォーム処理により死角を形成する。すなわち、収音装置1は、音響信号に対して雑音を抑圧するような信号処理を行う。これにより、精度良く目的音を収音することができる。収音装置1は、さらに、音響信号に対して目的音源方向から到来する音を強調するような信号処理を行う。これにより、より精度良く目的音を収音することができる。
2.1 信号処理の概要
図3は、収音装置1が、周囲にある目的音源が発する目的音と雑音源が発する雑音を収音する例を模式的に示している。図4は、目的音を強調し且つ雑音を抑圧する信号処理の一例を示している。図4の横軸は、目的音及び雑音が到来する方向、すなわち収音装置1に対する目的音源及び雑音源の角度を示す。図4の縦軸は、音響信号のゲインを示す。図3に示すように、収音装置1の周囲に雑音源があると、マイクアレイ20は雑音を含む音響信号を出力する。よって、本実施形態の収音装置1は、図4に示すように、雑音源方向に対して、ビームフォーム処理により死角を形成する。すなわち、収音装置1は、音響信号に対して雑音を抑圧するような信号処理を行う。これにより、精度良く目的音を収音することができる。収音装置1は、さらに、音響信号に対して目的音源方向から到来する音を強調するような信号処理を行う。これにより、より精度良く目的音を収音することができる。
2.2 収音装置の全体動作
図5は、制御部30による収音動作を示している。
図5は、制御部30による収音動作を示している。
雑音源方向推定部32は、雑音源方向を推定する(S1)。目的音源方向推定部31は、目的音源方向を推定する(S2)。ビームフォーム部33は、推定された雑音源方向及び目的音源方向に基づいて、ビームフォーム処理を行う(S3)。具体的には、ビームフォーム部33は、マイクアレイ20が出力した音響信号に対して、雑音源方向から到来する音を抑圧し、目的音源方向から到来する音を強調するように信号処理を行う。ステップ1に示す雑音源方向の推定と、ステップS2に示す目的音源方向の推定の順序は、逆であってもよい。
図6Aは、水平角θにおける収音の例を模式的に示している。図6Bは、垂直角φにおける収音の例を模式的に示している。図6Cは、判定領域r(θ,φ)の一例を示している。カメラ10が生成する画像データv内の各領域の座標系の位置は、カメラ10の画角に応じて、収音装置1に対する水平角θ及び垂直角φに対応付けられる。カメラ10が生成する画像データvは、カメラ10の水平画角及び垂直画角に応じた複数の判定領域r(θ,φ)に分割されうる。なお、カメラ10の種類に応じて、画像データvは、円周状に分割されてもよいし、格子状に分割されてもよい。本実施形態では、ステップS1において判定領域r(θ,φ)に対応する方向が雑音源方向か否かを判定し、ステップS2において判定領域r(θ,φ)に対応する方向が目的音源方向か否かを判定する。本明細書において、雑音源方向を推定するとき(S1)の判定領域をr(θn,φn)と記載し、目的音源方向を推定するとき(S2)の判定領域をr(θt,φt)と記載する。判定領域r(θn,φn),r(θt,φt)の大きさ又は形状は、同一であってもよいし、異なってもよい。
2.3 雑音源方向の推定
図7から図11を参照して、雑音源方向の推定について説明する。図7は、雑音源方向の推定(S1)の詳細を示している。図7において、ステップS11に示す非目的物の検出と、ステップS12に示す雑音の検出の順序は、逆であってもよい。
図7から図11を参照して、雑音源方向の推定について説明する。図7は、雑音源方向の推定(S1)の詳細を示している。図7において、ステップS11に示す非目的物の検出と、ステップS12に示す雑音の検出の順序は、逆であってもよい。
非目的物検出部32aは、カメラ10によって生成された画像データvから非目的物を検出する(S11)。具体的には、非目的物検出部32aは、画像データvにおいて、判定領域r(θn,φn)内の画像が非目的物か否かを判定する。雑音検出部32bは、マイクアレイ20から出力された音響信号sから雑音を検出する(S12)。具体的には、雑音検出部32bは、音響信号sから、水平角θn及び垂直角φnの方向から到来する音が雑音か否かを判定する。雑音源方向決定部32cは、非目的物と雑音の検出結果に基づいて、雑音源方向(θn,φn)を決定する(S13)。
図8は、非目的物の検出(S11)の一例を示している。非目的物検出部32aは、カメラ10が生成した画像データvを取得する(S111)。非目的物検出部32aは、判定領域r(θn,φn)内の画像特徴量を抽出する(S112)。抽出する画像特徴量は、非目的物データ41aが示す画像特徴量に対応する。例えば、抽出する画像特徴量は、wavelet特徴量、Haar-like特徴量、HOG特徴量、EOH特徴量、Edgelet特徴量、Joint Haar-like特徴量、Joint HOG特徴量、スパース特徴量、Shapelet特徴量、及び共起確率特徴量のうちのいずれか1つ以上である。画像特徴量はこれらに限定するものではなく、画像データから物体を特定するための特徴量であればよい。
非目的物検出部32aは、抽出した画像特徴量を非目的物データ41aと照合して、非目的物との類似度P(θn,φn|v)を算出する(S113)。類似度P(θn,φn|v)は、判定領域r(θn,φn)内の画像が非目的物である確率、すなわち、非目的物らしさを示す確度である。非目的物の検出方法は、任意である。例えば、非目的物検出部32aは、抽出した画像特徴量と非目的物データ41aとのテンプレートマッチングによって類似度を算出する。
非目的物検出部32aは、類似度が所定値以上か否かを判定する(S114)。類似度が所定値以上であれば、判定領域r(θn,φn)内の画像が非目的物であると判定する(S115)。類似度が所定値よりも低ければ、判定領域r(θn,φn)内の画像が非目的物ではないと判定する(S116)。
非目的物検出部32aは、画像データv内の全判定領域r(θn,φn)における判定が完了したか否かを判断する(S117)。判定していない判定領域r(θn,φn)があれば、ステップS112に戻る。全判定領域r(θn,φn)についての判定が完了すれば、図8に示す処理を終了する。
図9は、雑音の検出(S12)の一例を示している。雑音検出部32bは、判定領域r(θn,φn)の方向に指向性を形成して、音響信号sから判定領域r(θn,φn)の方向から到来する音を抽出する(S121)。雑音検出部32bは、抽出した音から音響特徴量を抽出する(S122)。抽出する音響特徴量は、雑音データ41bが示す音響特徴量に対応する。例えば、抽出する音響特徴量は、MFCC及びi-vectorのうちのいずれか1つ以上である。音響特徴量はこれらに限定するものではなく、音響データから物体を特定するための特徴量であればよい。
雑音検出部32bは、抽出した音響特徴量を雑音データ41bと照合して、雑音との類似度P(θn,φn|s)を算出する(S123)。類似度P(θn,φn|s)は、判定領域r(θn,φn)の方向から到来する音が雑音である確率、すなわち、雑音らしさを示す確度である。雑音の検出方法は、任意である。例えば、雑音検出部32bは、抽出した音響特徴量と雑音データ41bとのテンプレートマッチングによって類似度を算出する。
雑音検出部32bは、類似度が所定値以上か否かを判定する(S124)。類似度が所定値以上であれば、判定領域r(θn,φn)の方向から到来する音が雑音であると判定する(S125)。類似度が所定値よりも低ければ、判定領域r(θn,φn)の方向から到来する音は雑音ではないと判定する(S126)。
雑音検出部32bは、全判定領域r(θn,φn)における判定が完了したか否かを判断する(S127)。判定していない判定領域r(θn,φn)があれば、ステップS121に戻る。全判定領域r(θn,φn)についての判定が完了すれば、図9に示す処理を終了する。
図10は、ステップS121における指向性の形成の一例を示している。図10では、マイクアレイ20が2つのマイクロホン20i,20jを含む例を示している。マイクロホン20i,20jにおけるθ方向から到来する音波の受信のタイミングは、マイクロホン20i,20j間の間隔dに応じて異なる。具体的には、マイクロホン20jにおいては、距離dsinθに応じた分の伝搬遅延が発生する。すなわち、マイクロホン20i,20jから出力される音響信号において位相差が生じる。
雑音検出部32bは、距離dsinθに相当する遅延量によってマイクロホン20iの出力を遅延させてから、加算器321によりマイクロホン20i,20jから出力される音響信号を加算する。加算器321の入力において、θ方向から到来する信号の位相は一致するため、加算器321の出力において、θ方向から到来した信号は強調される。一方、θ以外の方向から到来した信号は、互いに位相が一致しないため、θから到来した信号ほど強調されることはない。よって、例えば、加算器321の出力を用いることによって、θ方向に指向性が形成される。
図10の例では、水平角θにおける方向について例示しているが、垂直角φにおける方向についても同様に、指向性を形成することができる。
図11は、雑音源方向の決定(S13)の一例を示している。雑音源方向決定部32cは、非目的物検出部32aと雑音検出部32bとからそれぞれ判定領域r(θn,φn)における判定結果を取得する(S131)。雑音源方向決定部32cは、判定領域r(θn,φn)における判定結果が、非目的物であり且つ雑音であることを示しているか否かを判断する(S132)。判定結果が非目的物であり且つ雑音であれば、雑音源方向決定部32cは、その判定領域r(θn,φn)の方向に雑音源があると判断して、判定領域r(θn,φn)から雑音源方向である水平角θn,垂直角φnを特定する(S133)。
雑音源方向決定部32cは、全判定領域r(θn,φn)における判定が完了したか否かを判断する(S134)。判定していない判定領域r(θn,φn)があれば、ステップS131に戻る。全判定領域r(θn,φn)についての判定が完了すれば、図11に示す処理を終了する。
2.4 目的音源方向の推定
図12から図15を参照して、目的音源方向の推定について説明する。図12は、目的音源方向の推定(S2)の詳細を示している。図12において、ステップS21における目的物の検出とステップS22における音源の検出の順序は、逆であってもよい。
図12から図15を参照して、目的音源方向の推定について説明する。図12は、目的音源方向の推定(S2)の詳細を示している。図12において、ステップS21における目的物の検出とステップS22における音源の検出の順序は、逆であってもよい。
目的物検出部31aは、カメラ10によって生成された画像データvに基づいて、目的物を検出する(S21)。具体的には、目的物検出部31aは、画像データv内において判定領域r(θt,φt)内の画像が目的物である確率P(θt,φt|v)を算出する。目的物の検出方法は、任意である。一例として、目的物の検出は、各判定領域r(θt,φt)が目的物である顔の特徴と一致しているか否かを判定することによって行う(「Rapid Object Detection using a Boosted Cascade of Simple Features」 ACCEPTED CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION 2001を参照)。
音源検出部31bは、マイクアレイ20から出力された音響信号sに基づいて、音源を検出する(S22)。具体的には、音源検出部31bは、水平角θt及び垂直角φtで特定される方向に音源が存在する確率P(θt,φt|s)を算出する。音源の検出方法は、任意である。例えば、音源の検出は、CSP(Cross-Power Spectrum Phase Analysis)法又はMUSIC(Multiple Signal Classification)法を使用して行うことができる。
目的音源方向決定部31cは、画像データvから算出した目的物である確率P(θt,φt|v)と音響信号sから算出した音源である確率P(θt,φt|s)とに基づいて、目的音源方向(θt,φt)を決定する(S23)。
ステップS21における顔の識別方法の一例について説明する。図13は、顔の識別方法の一例を示している。目的物検出部31aは、例えば、弱識別器310(1)~310(N)を備える。弱識別器310(1)~310(N)を特に区別しないときは、N個の弱識別器310とも称する。弱識別器310(1)~310(N)は、それぞれ、顔の特徴を示す情報を有する。顔の特徴を示す情報は、N個の弱識別器310のそれぞれにおいて、異なる。目的物検出部31aは、領域r(θt,φt)が顔であると判定した回数C(r(θt,φt))を計算する。具体的には、目的物検出部31aは、最初に、一つ目の弱識別器310(1)によって、領域r(θt,φt)が顔であるか否かを判定する。弱識別器310(1)が、領域r(θt,φt)は顔でないと判定した場合、「C(r(θt,φt))=0」となる。一つ目の弱識別器310(1)が、領域r(θt,φt)は顔であると判定した場合は、二つ目の弱識別器310(2)が、一つ目の弱識別器310(1)とは異なる顔の特徴の情報を用いて、領域r(θt,φt)が顔であるか否かを判定する。二つ目の弱識別器310(2)が、領域r(θt,φt)が顔であると判定した場合、三つ目の弱識別器310(3)が、領域r(θt,φt)が顔であるか否かを判定する。このように、動画1フレーム分又は静止画1枚分に相当する画像データvに対して、領域r(θt,φt)毎に、N個の弱識別器310を用いて顔であるか否かを判定する。例えば、N個の弱識別器310の全てが領域r(θt,φt)は顔であると判定した場合、顔であると判定された回数は「C(r(θt,φt))=N」となる。
顔を検出するときの領域r(θt,φt)の大きさは、一定であってもよいし、可変であってもよい。例えば、顔を検出するときの領域r(θt,φt)の大きさは、動画の1フレーム分又は静止画1枚分の画像データv毎に変わってもよい。
目的物検出部31aは、画像データv内の領域r(θt,φt)の全てについて、顔であるか否かの判定を行うと、下記式(1)によって、画像データv内において水平角θt及び垂直角φtで特定される位置の画像が顔である確率P(θt,φt|v)を算出する。
ステップS22における音源の検出方法の一例であるCSP法について説明する。図14は、音波がマイクアレイ20のマイクロホン20i及び20jに到来する状態を模式的に示している。マイクロホン20i及び20j間の距離dに応じて、音波がマイクロホン20i及び20jに到来するときに時間差τが生じる。
音源検出部31bは、水平角θtにおいて、音源が存在する確率P(θt|s)を、CSP係数を用いた下記式(2)により算出する。
ここで、CSP係数は、下記式(3)によって求めることができる(電子情報通信学会論文誌 D-II Vol.J83-D-II No.8 pp.1713-1721、「マイクロホンアレーを用いたCSP法に基づく複数音源位置推定」を参照)。式(3)において、nは時間、Si(n)はマイクロホン20iで受音した音響信号、Sj(n)はマイクロホン20jで受音した音響信号を示している。式(3)において、DFTは、離散フーリエ変換を示す。また、*は共役複素数を示す。
時間差τは、音速c、マイクロホン20i,20j間の距離d、及びサンプリング周波数Fsを用いて、下記式(4)によって表せる。
よって、下記式(5)に示すように、式(2)のCSP係数を式(5)によって時間軸から方向軸に変換することによって、水平角θtにおいて音源が存在する確率P(θt|s)を算出できる。
垂直角φtにおける音源が存在する確率P(φt|s)は、水平角θtにおける確率P(θt|s)と同様に、CSP係数と時間差τによって算出できる。また、確率P(θt|s)及び確率P(φt|s)に基づいて、確率P(θt,φt|s)を算出できる。
図15は、目的音源方向の決定(S23)の詳細を示している。目的音源方向決定部31cは、判定領域r(θt,φt)毎に、目的音源である確率P(θt,φt)を算出する(S231)。例えば、目的音源方向決定部31cは、目的物の確率P(θt,φt|v)とその重みWv、及び音源の確率P(θt,φt|s)とその重みWsを用いて、目的音源である人物がいる確率P(θt,φt)を下記式(6)によって算出する。
それから、目的音源方向決定部31cは、下記式(7)により、確率P(θt,φt)が最大となる水平角θt及び垂直角φtを目的音源方向として決定する(S232)。
式(6)に示す、目的物の確率P(θt,φt|v)に対する重みWvは、例えば、目的物が画像データvに含まれている確からしさを示す画像確度CMvに基づいて決定されてもよい。具体的には、例えば、目的音源方向決定部31cは、画像データvに基づいて、画像確度CMvを設定する。例えば、目的音源方向決定部31cは、画像データvの平均輝度Yaveを推奨輝度(Ymin_base~Ymax_base)と比較する。推奨輝度は、最小推奨輝度(Ymin_base)から最大推奨輝度(Ymax_base)までの範囲を有する。推奨輝度を示す情報は、予め記憶部40に格納されている。平均輝度Yaveが最小推奨輝度よりも低ければ、目的音源方向決定部31cは、画像確度CMvを「CMv=Yave/Ymin_base」に設定する。平均輝度Yaveが最大推奨輝度よりも高ければ、目的音源方向決定部31cは、画像確度CMvを「CMv=Ymax_base/Yave」に設定する。平均輝度Yaveが推奨輝度の範囲内であれば、目的音源方向決定部31cは、画像確度CMvを「CMv=1」に設定する。平均輝度Yaveが最小推奨輝度Ymin_baseよりも低かったり、最大推奨輝度Ymax_baseよりも高かったりすれば、目的物である顔を誤検出する場合がある。よって、平均輝度Yaveが推奨輝度の範囲内のときは画像確度CMvを最大値「1」に設定し、平均輝度Yaveが推奨輝度より高い、或いは、低いほど画像確度CMvを低くする。目的音源方向決定部31cは、例えば、単調増加関数によって、画像確度CMvに応じた重みWvを決定する。
式(6)に示す、音源の確率P(θt,φt|s)に対する重みWsは、例えば、音声が音響信号sに含まれている確からしさを示す音響確度CMsに基づいて決定されてもよい。具体的には、目的音源方向決定部31cは、人の音声GMM(Gausian Mixture Model)と非音声GMMを用いて、音響確度CMsを算出する。音声GMMと非音声GMMは、予め学習して生成されたものである。音声GMMと非音声GMMを示す情報は記憶部40に格納されている。目的音源方向決定部31cは、まず、音響信号sにおける音声GMMによる尤度Lvを算出する。次に、目的音源方向決定部31cは、音響信号sにおける非音声GMMによる尤度Lnを算出する。それから、目的音源方向決定部31cは、音響確度CMsを「CMs=Lv/Ln」に設定する。目的音源方向決定部31cは、例えば、単調増加関数によって、音響確度CMsに応じた重みWsを決定する。
2.5 ビームフォーム処理
雑音源方向(θn,φn)と目的音源方向(θt,φt)が決定された後のビームフォーム部33によるビームフォーム処理(S3)について説明する。ビームフォーム処理の方法は任意である。一例として、ビームフォーム部33は、一般化サイドローブキャンセラ(GSC)を利用する(電子情報通信学会技術研究報告、No.DSP2001-108、ICD2001-113、IE2001-92、pp.61-68、October,2001.「一般化サイドローブキャンセラを用いた2チャンネルマイクロホンアレーにおける適応話者追尾アルゴリズムの提案」を参照)。図16は、一般化サイドローブキャンセラ(GSC)を利用したビームフォーム部33の機能的構成を示している。
雑音源方向(θn,φn)と目的音源方向(θt,φt)が決定された後のビームフォーム部33によるビームフォーム処理(S3)について説明する。ビームフォーム処理の方法は任意である。一例として、ビームフォーム部33は、一般化サイドローブキャンセラ(GSC)を利用する(電子情報通信学会技術研究報告、No.DSP2001-108、ICD2001-113、IE2001-92、pp.61-68、October,2001.「一般化サイドローブキャンセラを用いた2チャンネルマイクロホンアレーにおける適応話者追尾アルゴリズムの提案」を参照)。図16は、一般化サイドローブキャンセラ(GSC)を利用したビームフォーム部33の機能的構成を示している。
ビームフォーム部33は、遅延素子33a,33b、ビームステアリング部33c、ヌルステアリング部33d、及び減算器33eを含む。
遅延素子33aは、目的音源方向(θt,φt)に応じた遅延量ZDtに基づいて、目的音に関する到来時間差を補正する。具体的には、遅延素子33aは、マイクロホン20jに入力された入力信号u2(n)について、マイクロホン20iに入力された入力信号u1(n)との到来時間差を補正する。
ビームステアリング部33cは、入力信号u1(n)と補正後の入力信号u2(n)の和に基づいて出力信号d(n)を生成する。ビームステアリング部33cの入力において、目的音源方向(θt,φt)から到来する信号成分の位相は一致するため、出力信号d(n)において目的音源方向(θt,φt)から到来する信号成分は強調されている。
遅延素子33bは、雑音源方向(θn,φn)に応じた遅延量ZDnに基づいて、雑音に関する到来時間差を補正する。具体的には、遅延素子33bは、マイクロホン20jに入力された入力信号u2(n)について、マイクロホン20iに入力された入力信号u1(n)との到来時間差を補正する。
ヌルステアリング部33dは、適応フィルタ(ADF)33fを含む。ヌルステアリング部33dは、入力信号u1(n)と補正後の入力信号u2(n)の和を適応フィルタ33fの入力信号x(n)とし、入力信号x(n)に適応フィルタ33fの係数を乗算することによって出力信号y(n)を生成する。適応フィルタ33fの係数は、ビームステアリング部33cの出力信号d(n)と、ヌルステアリング部33dの出力信号y(n)の平均二乗誤差、すなわち、減算器33eの出力信号e(n)の二乗平均が最小になるように更新される。
減算器33eは、ビームステアリング部33cの出力信号d(n)からヌルステアリング部33dの出力信号y(n)を減算して出力信号e(n)を生成する。ヌルステアリング部33dの入力において、雑音源方向(θn,φn)から到来する信号成分の位相は一致するため、減算器33eが出力する出力信号e(n)において雑音源方向(θn,φn)から到来する信号成分が抑圧される。
ビームフォーム部33は、減算器33eの出力信号e(n)を出力する。ビームフォーム部33の出力信号e(n)は、目的音が強調され且つ雑音が抑圧された信号となる。
本実施の形態では、ビームステアリング部33cおよびヌルステアリング部33dを用いて目的音を強調し、且つ雑音を抑圧する処理を実施する例を示したが、処理はこれに限るものではなく、目的音を強調し、且つ雑音を抑圧する処理であれば良い。
3. 効果及び補足
本実施形態の収音装置1は、入力部と、記憶部40と、制御部30とを備える。カメラ10及びマイクアレイ20を内蔵する収音装置1における入力部は、制御部30である。入力部は、マイクアレイ20から出力される音響信号とカメラ10によって生成された画像データを入力する。記憶部40は、雑音源となる非目的物の画像特徴量を示す非目的物データ41aと、雑音源が出力する雑音の音響特徴量を示す雑音データ41bを記憶する。制御部30は、画像データを非目的物データ41aと照合する第1の照合(S113)と、音響信号を雑音データ41bと照合する第2の照合(S123)を行うことによって、雑音源の方向を特定する(S133)。制御部30は、特定した雑音源の方向から到来する音を抑圧するような信号処理を音響信号に対して行う(S3)。
本実施形態の収音装置1は、入力部と、記憶部40と、制御部30とを備える。カメラ10及びマイクアレイ20を内蔵する収音装置1における入力部は、制御部30である。入力部は、マイクアレイ20から出力される音響信号とカメラ10によって生成された画像データを入力する。記憶部40は、雑音源となる非目的物の画像特徴量を示す非目的物データ41aと、雑音源が出力する雑音の音響特徴量を示す雑音データ41bを記憶する。制御部30は、画像データを非目的物データ41aと照合する第1の照合(S113)と、音響信号を雑音データ41bと照合する第2の照合(S123)を行うことによって、雑音源の方向を特定する(S133)。制御部30は、特定した雑音源の方向から到来する音を抑圧するような信号処理を音響信号に対して行う(S3)。
このように、カメラ10から得られる画像データを非目的物データ41aと照合し、マイクアレイ20から得られる音響信号を雑音データ41bと照合するため、精度良く雑音源の方向を特定することができる。これにより、雑音を精度良く抑圧することができるため、目的音の収音の精度が向上する。
(第2実施形態)
本実施形態では、判定領域r(θn,φn)の方向に雑音源があるか否かの判定が第1実施形態と異なる。第1実施形態では、非目的物検出部32aは、類似度P(θn,φn|v)を所定値と比較して、判定領域r(θn,φn)内の画像が非目的物か否かを判定した。雑音検出部32bは、類似度P(θn,φn|s)を所定値と比較して、判定領域r(θn,φn)の方向から到来する音が雑音か否かを判定した。雑音源方向決定部32cは、非目的物であり且つ雑音である場合に、判定領域r(θn,φn)の方向に雑音源があると判断した。
本実施形態では、判定領域r(θn,φn)の方向に雑音源があるか否かの判定が第1実施形態と異なる。第1実施形態では、非目的物検出部32aは、類似度P(θn,φn|v)を所定値と比較して、判定領域r(θn,φn)内の画像が非目的物か否かを判定した。雑音検出部32bは、類似度P(θn,φn|s)を所定値と比較して、判定領域r(θn,φn)の方向から到来する音が雑音か否かを判定した。雑音源方向決定部32cは、非目的物であり且つ雑音である場合に、判定領域r(θn,φn)の方向に雑音源があると判断した。
本実施形態では、非目的物検出部32aは、目的物との類似度P(θn,φn|v)を出力する。すなわち、図8に示すステップS114~116を実行しない。雑音検出部32bは、雑音との類似度P(θn,φn|s)を出力する。すなわち、図9に示すステップS124~126を実行しない。雑音源方向決定部32cが、目的物との類似度P(θn,φn|v)と雑音との類似度P(θn,φn|s)に基づいて、判定領域r(θn,φn)の方向に雑音源があるか否かを判定する。
図17は、第2実施形態における雑音源方向の決定(S13)の一例を示している。雑音源方向決定部32cは、非目的物との類似度P(θn,φn|v)と雑音との類似度P(θn,φn|s)の積を算出する(S1301)。非目的物との類似度P(θn,φn|v)と雑音との類似度P(θn,φn|s)は、それぞれ雑音源が判定領域r(θn,φn)内に存在する確度に相当する。雑音源方向決定部32cは、算出した積の値が所定値以上か否かを判断する(S1302)。積が所定値以上であれば、雑音源方向決定部32cは、判定領域(θn,φn)の方向に雑音源があると判断して、判定領域(θn,φn)に対応する水平角θn及び垂直角φnを雑音源方向として特定する(S1303)。
図17では、非目的物との類似度P(θn,φn|v)と雑音との類似度P(θn,φn|s)の積を算出したが、これに限るものではない。例えば、類似度P(θn,φn|v)と雑音との類似度P(θn,φn|s)との和(式(8))や、重みつきの積(式(9)や、重みつきの和(式(10))により判定しても良い。
P(θn,φn|v)+P(θn,φn|s) ・・・(8)
P(θn,φn|v)Wv×P(θn,φn|s)Ws ・・・(9)
P(θn,φn|v)Wv+P(θn,φn|s)Ws ・・・(10)
雑音源方向決定部32cは、全判定領域r(θn,φn)における判定が完了したか否かを判断する(S1304)。判定していない判定領域r(θn,φn)があれば、ステップS1301に戻る。全判定領域r(θn,φn)についての判定が完了すれば、図117に示す処理を終了する。
本実施形態によれば、第1実施形態と同様に、雑音源方向を精度良く特定できる。
(第3実施形態)
本実施形態は、照合するデータが第1実施形態と異なる。第1実施形態では、記憶部40には、雑音源の特徴量を示す雑音源データ41が格納され、雑音源方向推定部32は雑音源データ41を用いて、雑音源方向を推定した。本実施形態では、記憶部40には、目的音源の特徴量を示す目的音源データが格納され、雑音源方向推定部32は目的音源データを用いて、雑音源方向を推定する。
本実施形態は、照合するデータが第1実施形態と異なる。第1実施形態では、記憶部40には、雑音源の特徴量を示す雑音源データ41が格納され、雑音源方向推定部32は雑音源データ41を用いて、雑音源方向を推定した。本実施形態では、記憶部40には、目的音源の特徴量を示す目的音源データが格納され、雑音源方向推定部32は目的音源データを用いて、雑音源方向を推定する。
図18は、第3実施形態における制御部30の機能と記憶部40に格納されるデータとを示している。記憶部40には、目的音源データ42が格納される。目的音源データ42は、目的物データ42aと目的音データ42bとを含む。目的物データ42aは、目的音源となる目的物の画像特徴量を含む。目的物データ42aは、例えば、目的物の画像特徴量を含むデータベースである。画像特徴量は、例えば、wavelet特徴量、Haar-like特徴量、HOG特徴量、EOH特徴量、Edgelet特徴量、Joint Haar-like特徴量、Joint HOG特徴量、スパース特徴量、Shapelet特徴量、及び共起確率特徴量のうちのいずれか1つ以上である。目的音データ42bは、目的音源が出力する目的音の音響特徴量を含む。目的音データ42bは、例えば、目的音の音響特徴量を含むデータベースである。目的音の音響特徴量は、例えば、MFCC及びi-vectorのうちの1つ以上である。
図19は、本実施形態における非目的物の検出(S11)の一例を示している。図19のステップS1101,S1102,S1107は、図8のステップS111,S112,S117とそれぞれ同一である。本実施形態では、非目的物検出部32aは、抽出した画像特徴量を目的物データ42aと照合して、目的物との類似度を算出する(S1103)。非目的物検出部32aは、類似度が所定値以下か否かを判断する(S1104)。非目的物検出部32aは、類似度が所定値以下であれば目的物ではない、すなわち非目的物であると判定する(S1105)。非目的物検出部32aは、類似度が所定値よりも大きければ、目的物である、すなわち非目的物ではないと判定する(S1106)。
図20は、本実施形態における雑音の検出(S12)の一例を示している。図20のステップS1201,S1202,S1207は、図9のステップS121,S122,S127とそれぞれ同一である。本実施形態では、雑音検出部32bは、抽出した音響特徴量を目的音データ42bと照合して、目的音との類似度を算出する(S1203)。雑音検出部32bは、類似度が所定値以下か否かを判断する(S1204)。類似度が所定値以下であれば、判定領域r(θn,φn)の方向から到来する音が目的音ではない、すなわち雑音であると判定する(S1205)。類似度が所定値よりも大きければ、判定領域r(θn,φn)の方向から到来する音は目的音である、すなわち雑音ではないと判定する(S1206)。
本実施形態によれば、第1実施形態と同様に、雑音源方向を精度良く特定できる。
本実施形態において、目的音源方向を特定するために目的音源データ42を使用してもよい。例えば、目的物検出部31aは、画像データvを目的物データ42aと照合して、目的物を検出してもよい。音源検出部31bは、音響信号sを目的音データ42bと照合して目的音を検出してもよい。この場合、目的音源方向推定部31と雑音源方向推定部32は、一つに統合されてもよい。
(他の実施形態)
以上のように、本出願において開示する技術の例示として、第1~第3実施形態を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施形態にも適用可能である。また、上記実施形態で説明した各構成要素を組み合わせて、新たな実施形態とすることも可能である。そこで、以下、他の実施形態を例示する。
以上のように、本出願において開示する技術の例示として、第1~第3実施形態を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施形態にも適用可能である。また、上記実施形態で説明した各構成要素を組み合わせて、新たな実施形態とすることも可能である。そこで、以下、他の実施形態を例示する。
第1実施形態では、図11のステップS132において、雑音源方向決定部32cは、判定領域r(θn,φn)における判定結果が非目的物であり且つ雑音であることを示しているか否かを判断した。さらに、雑音源方向決定部32cは、非目的物と雑音から特定される雑音源が同一か否かを判定してもよい。例えば、画像データから特定される非目的物がドアであり、且つ音響信号から特定される雑音がドアの開閉時の音であるか否かを判定してもよい。判定領域r(θn,φn)内においてドアの画像とドアの音が検出されたときに、判定領域r(θn,φn)の方向に雑音源であるドアがあると判断してもよい。
第1実施形態では、図11のステップS132において、雑音源方向決定部32cは、判定領域r(θn,φn)内において非目的物及び雑音を検出したときに、判定領域r(θn,φn)に対応する水平角θn及び垂直角φnを雑音源方向に決定した。しかし、雑音源方向決定部32cは、判定領域r(θn,φn)内において、非目的物と雑音のいずれか一方しか検出できないときであっても、その判定領域r(θn,φn)に対応する水平角θn及び垂直角φnを雑音源方向に決定してもよい。
非目的物検出部32aが非目的物の検出に基づいて雑音源方向を特定し、且つ雑音検出部32bが雑音の検出に基づいて雑音源方向を特定してもよい。この場合、雑音源方向決定部32cは、非目的物検出部32aが特定した雑音源方向と、雑音検出部32bが特定した雑音源方向とが一致するか否かに基づいて、ビームフォーム部33による雑音の抑圧をするか否かを決定してもよい。雑音源方向決定部32cは、非目的物検出部32aと雑音検出部32bのいずれか一方において雑音源方向を特定できたときに、ビームフォーム部33による雑音の抑圧を行ってもよい。
上記実施形態では、収音装置1は、非目的物検出部32aと、雑音検出部32bの両方を備えたが、いずれか一方のみを備えてもよい。すなわち、画像データのみから雑音源方向を特定してもよいし、音響信号のみから雑音源方向を特定してもよい。この場合、雑音源方向決定部32cはなくてもよい。
上記実施形態では、テンプレートマッチングによる照合について説明した。これに代えて、機械学習による照合を行ってもよい。例えば、非目的物検出部32aは、PCA(Principal Component Analysis)、ニューラルネットワーク、線形判別分析(LDA)、サポートベクタマシン(SVM)、AdaBoost、及びReal AdaBoostなどを使用してもよい。この場合、非目的物データ41aは、非目的物の画像特徴量を学習したモデルであってもよい。同様に、目的物データ42aは、目的物の画像特徴量を学習したモデルであってもよい。非目的物検出部32aは、例えば、非目的物の画像特徴量を学習したモデルを使用して、図8のステップS111~S117に対応する処理の全部又は一部を行ってもよい。雑音検出部32bは、例えば、PCA、ニューラルネットワーク、線形判別分析、サポートベクタマシン、AdaBoost、及びReal AdaBoostなどを使用してもよい。この場合、雑音データ41bは雑音の音響特徴量を学習したモデルであってもよい。同様に、目的音データ42bは、目的音の音響特徴量を学習したモデルであってもよい。雑音検出部32bは、例えば、雑音の音響特徴量を学習したモデルを使用して、図9のステップS121~S127に対応する処理の全部又は一部を行ってもよい。
目的音か雑音かの判定において、音源分離技術を使用してもよい。例えば、目的音源方向決定部31cは、音響信号を音源分離技術によって音声と非音声に分離し、音声と非音声のパワー比に基づいて、目的音か雑音かを判定してもよい。音源分離技術として、例えば、ブラインド音源分離(BSS)を用いてもよい。
上記実施形態では、ビームフォーム部33が適応フィルタ33fを含む例について説明したが、ビームフォーム部33は図10の雑音検出部32bが示す構成を備えてもよい。この場合、減算器322の出力により、死角を形成することができる。
上記実施形態では、マイクアレイ20が2つのマイクロホン20i及び20jを含む例について説明したが、マイクアレイ20は2つ以上のマイクロホンを含んでもよい。
雑音源方向は、1方向に限らず、複数方向であってもよい。目的音方向の強調及び雑音源方向の抑圧は、上記実施形態に限定されず、任意の方法で行われうる。
上記実施形態では、雑音源方向として、水平角θn及び垂直角φnをそれぞれ決定する場合について説明したが、水平角θn及び垂直角φnの少なくともいずれか一方のみで、雑音源方向を特定できる場合は、水平角θn及び垂直角φnの少なくともいずれか一方を決定するだけであってもよい。目的音源方向についても同様に、水平角θt及び垂直角φtの少なくともいずれか一方を決定するだけであってもよい。
収音装置1は、カメラ10とマイクアレイ20のいずれか一方又は両方を内蔵していなくてもよい。この場合、収音装置1は、外付けのカメラ10又はマイクアレイ20と電気的に接続される。例えば、収音装置1は、カメラ10を備えたスマートフォンなどの電子機器であって、マイクアレイ20を備えた外部機器と電気的及び機械的に接続されてもよい。入出力インタフェース部50が収音装置1に外付けされたカメラ10から画像データを入力するときは、入出力インタフェース部50が画像データの入力部に相当する。入出力インタフェース部50が収音装置1に外付けされたマイクアレイ20から音響信号を入力するときは、入出力インタフェース部50が音響信号の入力部に相当する。
上記実施形態においては、人の顔を検出する例について説明したが、人の音声を収音する場合、目的物は、人の顔に限らず、人として認識できる部分であればよい。例えば、目的物は、人の身体又は唇であってもよい。
上記実施形態においては、人の音声を目的音として収音したが、目的音は人の音声に限らない。例えば、目的音は、車の音又は動物の鳴き声であってもよい。
(実施形態の概要)
(1)本開示の収音装置は、雑音を抑圧して収音する収音装置であって、カメラによって生成された画像データを入力する第1の入力部と、マイクアレイから出力される音響信号を入力する第2の入力部と、雑音源又は目的音源を示す物体の画像の特徴量を示す第1のデータを記憶する記憶部と、画像データを第1のデータと照合する第1の照合を行うことによって、雑音源の方向を特定し、特定した雑音源の方向から到来する音を抑圧するような信号処理を音響信号に対して行う制御部と、を備える。
(1)本開示の収音装置は、雑音を抑圧して収音する収音装置であって、カメラによって生成された画像データを入力する第1の入力部と、マイクアレイから出力される音響信号を入力する第2の入力部と、雑音源又は目的音源を示す物体の画像の特徴量を示す第1のデータを記憶する記憶部と、画像データを第1のデータと照合する第1の照合を行うことによって、雑音源の方向を特定し、特定した雑音源の方向から到来する音を抑圧するような信号処理を音響信号に対して行う制御部と、を備える。
画像データを、雑音源又は目的音源を示す物体の画像の特徴量を示す第1のデータと照合することによって雑音源の方向を特定しているため、雑音源の方向を精度良く特定することができる。精度良く特定された雑音源の方向から到来する雑音を抑圧するため、目的音の収音の精度が向上する。
(2)(1)の収音装置において、記憶部は、物体から出力される音の特徴量を示す第2のデータを記憶し、制御部は、第1の照合と、音響信号を第2のデータと照合する第2の照合とを行うことによって、雑音源の方向を特定してもよい。
さらに、音響信号を、物体から出力される音の特徴量を示す第2のデータと照合することによって雑音源の方向を特定しているため、雑音源の方向を精度良く特定することができる。精度良く特定された雑音源の方向から到来する雑音を抑圧するため、目的音の収音の精度が向上する。
(3)(1)の収音装置において、第1のデータは、雑音源となる物体の画像の特徴量を示し、制御部は、第1の照合を行い、画像データから物体と類似する物体を検出したときに、検出した物体の方向を雑音源の方向として特定してもよい。
これにより、雑音源が雑音を出力する前に予め死角を形成することができる。よって、例えば、雑音源から発生する突発音を抑圧して目的音を収音することができる。
(4)(1)の収音装置において、第1のデータは、目的音源となる物体の画像の特徴量を示し、制御部は、第1の照合を行い、画像データから物体と類似していない物体を検出したときに、検出した物体の方向を雑音源の方向として特定してもよい。
これにより、雑音源が雑音を出力する前に予め死角を形成することができる。
(5)(3)又は(4)の収音装置において、制御部は、第1の照合において、画像データを複数の判定領域に分割し、各判定領域内の画像を第1のデータと照合して、検出した物体を含む判定領域の画像データ内における位置に基づいて雑音源の方向を特定してもよい。
(6)(2)の収音装置において、第2のデータは、雑音源から出力される雑音の特徴量を示し、制御部は、第2の照合を行い、音響信号から雑音と類似する音を検出したときに、検出した音が到来する方向を雑音源の方向として特定してもよい。
雑音の特徴量と照合することによって、精度良く雑音源の方向を特定することができる。
(7)(2)の収音装置において、第2のデータは、目的音源から出力される目的音の特徴量を示し、制御部は、第2の照合を行い、音響信号から目的音と類似していない音を検出したときに、検出した音が到来する方向を雑音源の方向として特定してもよい。
(8)(6)又は(7)の収音装置において、制御部は、第2の照合において、複数の判定方向の各々に指向性を向けて音響信号を収音し、収音した音響信号を第2のデータと照合して、音を検出した判定方向を雑音源の方向として特定してもよい。
(9)(2)の収音装置において、第1の照合と第2の照合のいずれか一方において雑音源の方向を特定できたときに、雑音源の方向から到来する音を抑圧してもよい。
(10)(2)の収音装置において、第1の照合と第2の照合の両方において雑音源の方向を特定できたときに、雑音源の方向から到来する音を抑圧してもよい。
(11)(2)の収音装置において、第1の照合によって雑音源が存在する第1の確度を算出し、且つ、第2の照合によって雑音源が存在する第2の確度を算出し、第1の確度と第2の確度に基づいて算出される算出値が所定の閾値以上のときに、雑音源の方向から到来する音を抑圧してもよい。
(12)(11)の収音装置において、算出値は、第1の確度と第2の確度の積、和、重み付き積、および、重み付き和のいずれかであるとしてもよい。
(13)(1)から(12)のいずれかの収音装置において、制御部は、画像データと音響信号とに基づいて、目的音源が存在する目的音源方向を決定して、目的音源方向から到来する音を強調するような信号処理を音響信号に対して行ってもよい。
(14)(1)の収音装置は、カメラ及びマイクアレイのうちの少なくとも一方を備えてもよい。
(15)本開示の収音方法は、演算部により雑音を抑圧して収音する収音方法であって、カメラによって生成された画像データを入力するステップと、マイクアレイから出力される音響信号を入力するステップと、雑音源又は目的音源を示す物体の画像の特徴量を示す第1のデータを取得するステップと、画像データを第1のデータと照合する第1の照合を行うことによって、雑音源の方向を特定し、特定した雑音源の方向から到来する音を抑圧するような信号処理を音響信号に対して行うステップと、を含む。
本開示の全請求項に記載の収音装置及び収音方法は、ハードウェア資源、例えば、プロセッサ、メモリ、及びプログラムとの協働などによって、実現される。
本開示の収音装置は、例えば、会話中の人の音声を収音する装置として、有用である。
1 収音装置
10 カメラ
20 マイクアレイ
30 制御部
31 目的音源方向推定部
31a 目的物検出部
31b 音源検出部
31c 目的音源方向決定部
32 雑音源方向推定部
32a 非目的物検出部
32b 雑音検出部
32c 雑音源方向決定部
33 ビームフォーム部
40 記憶部
50 入出力インタフェース部
60 バス
10 カメラ
20 マイクアレイ
30 制御部
31 目的音源方向推定部
31a 目的物検出部
31b 音源検出部
31c 目的音源方向決定部
32 雑音源方向推定部
32a 非目的物検出部
32b 雑音検出部
32c 雑音源方向決定部
33 ビームフォーム部
40 記憶部
50 入出力インタフェース部
60 バス
Claims (16)
- 雑音を抑圧して収音する収音装置であって、
カメラによって生成された画像データを入力する第1の入力部と、
マイクアレイから出力される音響信号を入力する第2の入力部と、
雑音源又は目的音源を示す物体の画像の特徴量を示す第1のデータを記憶する記憶部と、
前記画像データを前記第1のデータと照合する第1の照合を行うことによって、前記雑音源の方向を特定し、特定した前記雑音源の方向から到来する音を抑圧するような信号処理を前記音響信号に対して行う制御部と、
を備える、収音装置。 - 前記記憶部は、前記物体から出力される音の特徴量を示す第2のデータを記憶し、
前記制御部は、前記第1の照合と、前記音響信号を前記第2のデータと照合する第2の照合とを行うことによって、前記雑音源の方向を特定する、
請求項1に記載の収音装置。 - 前記第1のデータは、前記雑音源となる物体の画像の特徴量を示し、
前記制御部は、前記第1の照合を行い、前記画像データから前記物体と類似する物体を検出したときに、検出した前記物体の方向を前記雑音源の方向として特定する、
請求項1に記載の収音装置。 - 前記第1のデータは、前記目的音源となる物体の画像の特徴量を示し、
前記制御部は、前記第1の照合を行い、前記画像データから前記物体と類似していない物体を検出したときに、検出した前記物体の方向を前記雑音源の方向として特定する、
請求項1に記載の収音装置。 - 前記制御部は、前記第1の照合において、前記画像データを複数の判定領域に分割し、各判定領域内の画像を前記第1のデータと照合して、検出した前記物体を含む判定領域の前記画像データ内における位置に基づいて前記雑音源の方向を特定する、
請求項3又は請求項4に記載の収音装置。 - 前記第2のデータは、前記雑音源から出力される雑音の特徴量を示し、
前記制御部は、前記第2の照合を行い、前記音響信号から前記雑音と類似する音を検出したときに、検出した前記音が到来する方向を前記雑音源の方向として特定する、
請求項2に記載の収音装置。 - 前記第2のデータは、前記目的音源から出力される目的音の特徴量を示し、
前記制御部は、前記第2の照合を行い、前記音響信号から前記目的音と類似していない音を検出したときに、検出した前記音が到来する方向を前記雑音源の方向として特定する、
請求項2に記載の収音装置。 - 前記制御部は、前記第2の照合において、複数の判定方向の各々に指向性を向けて前記音響信号を収音し、収音した前記音響信号を前記第2のデータと照合して、前記音を検出した判定方向を前記雑音源の方向として特定する、
請求項6又は請求項7に記載の収音装置。 - 前記第1の照合と前記第2の照合のいずれか一方において前記雑音源の方向を特定できたときに、前記雑音源の方向から到来する音を抑圧する、
請求項2に記載の収音装置。 - 前記第1の照合と前記第2の照合の両方において前記雑音源の方向を特定できたときに、前記雑音源の方向から到来する音を抑圧する、
請求項2に記載の収音装置。 - 前記第1の照合によって前記雑音源が存在する第1の確度を算出し、且つ、前記第2の照合によって前記雑音源が存在する第2の確度を算出し、前記第1の確度と前記第2の確度に基づいて算出される算出値が所定の閾値以上のときに、前記雑音源の方向から到来する音を抑圧する、
請求項2に記載の収音装置。 - 前記算出値は、前記第1の確度と前記第2の確度の積、和、重み付き積、および、重み付き和のいずれかである、
請求項11に記載の収音装置。 - 前記制御部は、前記画像データと前記音響信号とに基づいて、前記目的音源が存在する目的音源方向を決定して、前記目的音源方向から到来する音を強調するような信号処理を前記音響信号に対して行う、
請求項1から請求項12のいずれかに記載の収音装置。 - 前記カメラ及び前記マイクアレイのうちの少なくとも一方を備える、
請求項1に記載の収音装置。 - 演算部により雑音を抑圧して収音する収音方法であって、
カメラによって生成された画像データを入力するステップと、
マイクアレイから出力される音響信号を入力するステップと、
雑音源又は目的音源を示す物体の画像の特徴量を示す第1のデータを取得するステップと、
前記画像データを前記第1のデータと照合する第1の照合を行うことによって、前記雑音源の方向を特定し、特定した前記雑音源の方向から到来する音を抑圧するような信号処理を前記音響信号に対して行うステップと、
を含む、収音方法。 - コンピュータに請求項15に記載の収音方法を実行させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020525268A JP7370014B2 (ja) | 2018-06-12 | 2019-03-19 | 収音装置、収音方法、及びプログラム |
US17/116,192 US11375309B2 (en) | 2018-06-12 | 2020-12-09 | Sound collection device, sound collection method, and program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018112160 | 2018-06-12 | ||
JP2018-112160 | 2018-06-12 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
US17/116,192 Continuation US11375309B2 (en) | 2018-06-12 | 2020-12-09 | Sound collection device, sound collection method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2019239667A1 true WO2019239667A1 (ja) | 2019-12-19 |
Family
ID=68842854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2019/011503 WO2019239667A1 (ja) | 2018-06-12 | 2019-03-19 | 収音装置、収音方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11375309B2 (ja) |
JP (1) | JP7370014B2 (ja) |
WO (1) | WO2019239667A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2021124537A1 (ja) * | 2019-12-20 | 2021-06-24 | ||
WO2021178754A1 (en) * | 2020-03-06 | 2021-09-10 | Cerence Operating Company | System and method for integrated emergency vehicle detection and localization |
WO2023149254A1 (ja) * | 2022-02-02 | 2023-08-10 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 音声信号処理装置、音声信号処理方法及び音声信号処理プログラム |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6935425B2 (ja) * | 2016-12-22 | 2021-09-15 | ヌヴォトンテクノロジージャパン株式会社 | ノイズ抑圧装置、ノイズ抑圧方法、及びこれらを用いた受信装置、受信方法 |
US20230298357A1 (en) * | 2020-05-19 | 2023-09-21 | Sony Group Corporation | Information processing device and information processing method |
JP2022119582A (ja) * | 2021-02-04 | 2022-08-17 | 株式会社日立エルジーデータストレージ | 音声取得装置および音声取得方法 |
CN114255733B (zh) * | 2021-12-21 | 2023-05-23 | 中国空气动力研究与发展中心低速空气动力研究所 | 自噪声掩蔽系统及飞行设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006039267A (ja) * | 2004-07-28 | 2006-02-09 | Nissan Motor Co Ltd | 音声入力装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4561222B2 (ja) | 2004-07-30 | 2010-10-13 | 日産自動車株式会社 | 音声入力装置 |
JP5060631B1 (ja) | 2011-03-31 | 2012-10-31 | 株式会社東芝 | 信号処理装置及び信号処理方法 |
CN103310339A (zh) * | 2012-03-15 | 2013-09-18 | 凹凸电子(武汉)有限公司 | 身份识别装置和方法以及支付系统和方法 |
JP2014153663A (ja) | 2013-02-13 | 2014-08-25 | Sony Corp | 音声認識装置、および音声認識方法、並びにプログラム |
US9904851B2 (en) | 2014-06-11 | 2018-02-27 | At&T Intellectual Property I, L.P. | Exploiting visual information for enhancing audio signals via source separation and beamforming |
US10531187B2 (en) | 2016-12-21 | 2020-01-07 | Nortek Security & Control Llc | Systems and methods for audio detection using audio beams |
-
2019
- 2019-03-19 JP JP2020525268A patent/JP7370014B2/ja active Active
- 2019-03-19 WO PCT/JP2019/011503 patent/WO2019239667A1/ja active Application Filing
-
2020
- 2020-12-09 US US17/116,192 patent/US11375309B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006039267A (ja) * | 2004-07-28 | 2006-02-09 | Nissan Motor Co Ltd | 音声入力装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2021124537A1 (ja) * | 2019-12-20 | 2021-06-24 | ||
WO2021124537A1 (ja) * | 2019-12-20 | 2021-06-24 | 三菱電機株式会社 | 情報処理装置、算出方法、及び算出プログラム |
JP7004875B2 (ja) | 2019-12-20 | 2022-01-21 | 三菱電機株式会社 | 情報処理装置、算出方法、及び算出プログラム |
WO2021178754A1 (en) * | 2020-03-06 | 2021-09-10 | Cerence Operating Company | System and method for integrated emergency vehicle detection and localization |
WO2023149254A1 (ja) * | 2022-02-02 | 2023-08-10 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 音声信号処理装置、音声信号処理方法及び音声信号処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
JPWO2019239667A1 (ja) | 2021-07-08 |
US11375309B2 (en) | 2022-06-28 |
US20210120333A1 (en) | 2021-04-22 |
JP7370014B2 (ja) | 2023-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7370014B2 (ja) | 収音装置、収音方法、及びプログラム | |
JP7233035B2 (ja) | 収音装置、収音方法、及びプログラム | |
CN106653041B (zh) | 音频信号处理设备、方法和电子设备 | |
CN112088315B (zh) | 多模式语音定位 | |
CN112074901B (zh) | 语音识别登入 | |
WO2020108614A1 (zh) | 音频识别方法、定位目标音频的方法、装置和设备 | |
JP6464449B2 (ja) | 音源分離装置、及び音源分離方法 | |
US9460732B2 (en) | Signal source separation | |
US9847082B2 (en) | System for modifying speech recognition and beamforming using a depth image | |
US9712937B2 (en) | Sound source separation apparatus and sound source separation method | |
JP7194897B2 (ja) | 信号処理装置及び信号処理方法 | |
US11790900B2 (en) | System and method for audio-visual multi-speaker speech separation with location-based selection | |
US11114108B1 (en) | Acoustic source classification using hyperset of fused voice biometric and spatial features | |
JP6888627B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
Sanchez-Matilla et al. | Multi-modal localization and enhancement of multiple sound sources from a micro aerial vehicle | |
Nakadai et al. | Footstep detection and classification using distributed microphones | |
Wang et al. | Real-time automated video and audio capture with multiple cameras and microphones | |
US20230296767A1 (en) | Acoustic-environment mismatch and proximity detection with a novel set of acoustic relative features and adaptive filtering | |
Choi et al. | Real-time audio-visual localization of user using microphone array and vision camera | |
WO2021124537A1 (ja) | 情報処理装置、算出方法、及び算出プログラム | |
Kale et al. | Active Multi-Modal Approach for Enhanced User Recognition in Social Robots |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19819955 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2020525268 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 19819955 Country of ref document: EP Kind code of ref document: A1 |